米乐米627年专注于自动化灌装生产线一站式解决方案

食品、日化、医疗及汽车用品行业 欢迎来样试机

13044263005

7*24小时服务电话

助力企业提质增效

——实现企业生产智能化 - 连续化 - 高效化——

产品中心
Product categories
产品分类(点击展开)
酱类灌装机
首页 > 产品中心 > 酱类灌装机

DeepSeek梁文峰:一个理想主义者的深度求索

来源:米乐米6    发布时间:2025-03-11 12:33:04

产品详情

  2024年12月25号,一个名不见经传的中国小公司,向美国的OpenAI、谷歌、Facebook、Anthropic等顶尖AI公司送上了一份圣诞大礼。

  他们发布了一款名为DeepSeek-V3的AI模型平台,比肩的就是上面几家公司的AI大模型。

  来自美国的人工智能模型评测的行家们,将它与上述顶尖公司的大模型一起作了一个专业评测。

  单单与Chat GPT相比较,其在实时信息、多模态支持、定制场景、领域适配、隐私保护以及最关键的计算效率等几个维度全面领先。

  要知道,这是一个2023年才注册的小公司,就像一个丝毫没有征兆从地里冒出来的竹笋一样,突然就冒了尖。

  不仅性能如此优越,更令他们不安的是,这个团队的训练成本低到了他们想不到的地步。

  “DeepSeek-V3的完整训练成本仅为2.788M GPU小时,假设H800 GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元”。

  与之相比较的是,根据海外调查研究机构SemiAnalysis的数据,OpenAI GPT-4训练成本高达6300万美元;

  Meta旗下的开源模型Llama-3.1(模型参数量与训练数据大致相当),则动用了超过16000张英伟达H100GPU,业内估计训练成本高达数亿美元。

  相比于微软、Meta、特斯拉等科技巨头,动辄购入10万张英伟达显卡搭建算力中心来训练AI模型的一掷千金的豪气,DeepSeek-V3训练只使用了2048张英伟达H800 GPU。

  需要特别说明的是,美国大公司用的都是性能最先进的英伟达的H100,而我们的小公司用的是版的H800,其性能大约是H100的一半。

  为什么我们只可以用版呢?地球人都知道的,就是美国下达禁令,不许英伟达卖给我们性能最先进的显卡。

  于是,中国有句古话又显了神威,那就是:光脚的不怕穿鞋的,穿草鞋的不怕穿皮鞋的。

  哪怕我光着脚,哪怕我只能穿双草鞋,我也要跟你比。一时的落后,不代表永远落后。

  这是勇气,也是心气,是一个民族能够永远屹立于世界之林所根植于内心的底气与信念。

  DeepSeek用的是H800,是在H100被禁之后英伟达专门面对中国大陆所做的版。

  这版的意思是,虽然H800的性能大约只能有H100的一半,但价钱嘛,还要比H100更贵。

  还真不能,为了始终保持在第一梯队,不错过第四次工业化的浪潮,就得忍着痛先跟着。

  这就是代价,是我们为了赶上这个时代所必须付出的代价。谁让我们自己没有呢。

  纵观我们改革开放40多年以来的历史,不知当了多少次这样的傻子,才建成了今天世界上最完整的全工业化产业链。

  我们也因此完成了从无到有,从有到精,然后再朝着从精到领先的目标一步步迈进。

  也正是敢于付出这样的代价,才终于能全方位地与世界上的顶尖高手站在同一个赛场,成为他们合格的对手。

  横空出世的DeepSeek-V3,用性能被且数量如此少的芯片,居然能达到并部分超过目前最牛的大模型水平。

  这匹AI模型界的中国黑马,突然就赶上了那些武装到牙齿的重装行者,轻装简从地站在了世界之巅。

  像一名深藏不露的大内高手,轻功卓越;又像一名默默无闻的扫地僧人,内功深厚。

  这个令国人惊喜的公司名为:杭州深度求索人工智能基础技术研究有限公司,英文就是deep seek。

  创始人梁文峰,出生于上个世纪80年代,来自广东省一个所谓的五线城市,父亲是一位小学老师。

  本科与硕士均毕业于浙江大学,对数学与计算机技术非常感兴趣,主修软件工程和AI方向。

  行事十分低调,网络上甚至找不到一张他的照片,更没有他的婚姻家庭等个人信息。

  而他所组建的初创团队,还有一个令人惊讶的事实,那就是:他们全部来自本土,没有一点留学经历。

  梁文峰认为,中国的大厂喜欢去美国挖AI人才,耗费大量的精力与成本不说,效果还不一定有本土团队好。

  让DeepSeek声名大噪的MLA架构,就是由团队中一位非常年轻的本土员工提出的。

  梁文峰组建团队的条件,除了要求扎实的基础功底之外,最重要的条件是筛选出价值观相同的小伙伴。

  他对价值观的要求就是:对技术怀揣无比热爱与好奇的狂热梦想,对金钱利益不那么执着追求的淡薄态度,为全人类做出有益贡献的真挚情怀。

  比如,他们的模型从始至终保持开源,让全球的开发者和技术爱好者都可以免费使用并测试,被技术发烧友称为最强全球开源,被硅谷同行称为“来自东方的神秘力量”。

  他们关于DeepSeek-V3模型的论文只有短短53页,被同行们认为全是黄金干货,没有一句废话。

  他说,开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。公司这么做也会有文化吸引力。

  他在高端芯片禁售算力资源严重受限的情况下,或主动或被动地放弃了美国公司拼命加机器加显卡的烧钱路径。

  梁文峰团队就是在“人工”这两个字上去独辟蹊径补齐短板,用人的思维方法去搭建新的架构。

  如果世界的主导权掌握在德与位配、厚德载物的人手里,世界大同的理想与未来,还是值得期待的。

  拦住了这里,它就会冲向那里,总是会杀出一条路来。因为能量已经积蓄良久,终要突破。

  美国对我国的科技发展各种围追堵截,客观上倒逼了我们的产业升级与自主技术更新,摆脱了对于美国技术的路径依赖。

  1、我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

  2、我们觉得现在最重要的是参与到全世界创新的浪潮里去。随着经济的发展,中国也要逐步成为贡献者,而不是一直搭便车。

  3、在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也没办法阻止被别人赶超。所以我们把价值沉淀在团队上,形成可以创新的组织和文化,就是我们的护城河。

  4、我们不会闭源,我们大家都认为建立生态更重要。就是业界直接用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek的基础上构建toB、toC的业务,形成完整的产业上下游。

  5、中国AI不可能永远处在跟随的位置。我们大家常常说中国AI和美国相差一两年,其实是原创和模仿的差距。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。

  很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。

  6、AGI(通用AI)作为AI的终极目标,有很大的可能是2年、5年或者10年后实现,总之会在我们有生之年实现。虽然没有确定的路线图,但我们押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。

  7、大模型终局的样态应该是,有专门企业来提供基础模型和基础服务,在很长链条之上有专业的分工去满足整个社会多样化的需求。

  8、中国产业体系的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气后,就会更愿意俯身去做真正的创新。

  敢于亮剑,敢于进入技术前沿作纯粹的研究探索,并且致力于普惠全人类,不得不赞叹,这样的理想主义者是多么难得。

  就在12月,还有一则95后天才少女千万年薪入职小米的轰动新闻,她就是就是来自DeepSeek公司的大模型关键开发者之一,罗福莉。

  我觉得,大厂本来就有更多的资源更大的盘子去培养开发符合自己要求的人才,小公司好不容易搞出成果,最好是莫轻易去挖人家墙角。

  相信将有更多更多的梁文峰出现,也因此对我们的未来有这样的年轻人而满怀信心。

  参考资料来源:DeepSeek创始人梁文峰在36氪的采访返回搜狐,查看更加多