关于DeepSeek的常见误区与真相
最近,DeepSeek火得有点不讲道理。从我的朋友圈到国外媒体,从华尔街到硅谷,几乎所有人都在热议这个中国AI新秀。560万美元训练成本、开源大模型、链式推理能力、股市动荡...故事真是越讲越玄乎,热度越聊越高。
但就像小红书上那些"人均年薪百万"的生活博主一样,DeepSeek的故事也被添了不少"滤镜"。无论是将其视为"AGI已至"的革命性突破,还是贬低为"抄袭拼凑"的仿制品,这些极端观点都离真相有点远。
自己是一个数据从业者,也是AI行业的一个观察者,今天,我想来点"去滤镜"的工作,帮大家理性看待这家公司和它的技术。
一、所谓"一夜暴富",其实是日夜兼程
热门观点:DeepSeek是2025年初突然蹦出来的"黑马",仿佛凭空出现,成功得有点可疑。
现实情况:这哪是什么"一夜暴富",人家可是"十年磨一剑"。
先说时间线。DeepSeek并不是2025年初才出现的神秘力量。早在2023年11月,他们就已经推出了DeepSeek-Coder系列模型,在代码生成领域就已经小有名气了。从那时到现在,他们基本上平均每45天就发布一次重大升级,这节奏比一些老牌科技公司迭代还快。
再看背景。DeepSeek的母公司是中国的量化基金"幻方量化",这家公司早在2017年就开始研究AI在金融领域的应用,也不是什么新手。他们的"萤火二号"训练平台据说有上万张英伟达A100显卡,这在国内民营企业里算得上是顶配了。
如果你把DeepSeek的Elo评分(这是衡量AI模型能力的一种指标)画成曲线图,会发现这是一条平稳向上的爬坡,而不是垂直起飞的火箭。从2023年中的67亿参数模型,到2024年底逐渐接近业界顶尖水平,再到2025年1月R1基本追平巅峰,这是一个渐进式的过程。
所以,与其说DeepSeek是横空出世的黑马,不如说它是一个厚积薄发的例子。正如前Stability AI研究主管Tanishq Abraham所言:"任何不从事AI领域的人如果武断地认为自己没听说过的公司就不可能有作为,这种想法既傲慢又错误。"
想想看,法国的Mistral AI从发布首款模型到Mixtral 8x7B用了14个月,DeepSeek从代码模型到R1用了13个月。这节奏在当今AI发展速度下,其实挺正常的。
二、560万美元训练费?那是"账面数字",不是全部成本
热门观点:DeepSeek只花了560万美元就训练出可媲美GPT-4的模型,证明西方巨头投入的数十亿美元都是浪费。
现实情况:560万只是最后一步的费用,就像说盖一栋摩天大楼只花了"最后一层"的钱。
这560万美元的数字来自DeepSeek自己发表的V3模型论文。但关键是,这笔钱只计算了最终大规模预训练阶段的云计算费用,具体说就是2048块H800 GPU跑了3.7天,处理了1万亿标记,总计约278.8万GPU小时,按每小时2美元计算,得出的557.6万美元。
但这个数字并没有包括:
前期无数次的小规模试验和失败(AI研发有90%的尝试都是失败的)
研发团队的工资(AI人才的薪资可不便宜)
硬件设备的购置和维护(幻方量化的GPU集群价值不菲)
数据收集、清洗和处理的成本(好的数据集价值连城)
业内人士估计,DeepSeek及其母公司在AI硬件上的累计投入可能达到数亿美元级别。Tom's Hardware甚至报道称,DeepSeek可能耗资16亿美元购建算力基础设施。虽然这一规模仍低于OpenAI、Anthropic等美国巨头的投入,但远非"几百万美元"能概括的。
说DeepSeek只花了560万美元做出顶级模型,就像说特斯拉只花了几万美元就造出了电动车——只计算了最后组装的成本,忘了研发、设计、测试和失败的全部投入。
不过,DeepSeek的真正成就确实在于通过架构创新和工程优化,大幅提高了算力利用效率。据说他们训练V3模型耗费的GPU小时数只有Meta的Llama模型的约1/11。这种效率提升确实值得行业学习。
正如NVIDIA CEO黄仁勋所说:"投资者误解了DeepSeek的意义。效率提升不会减少对GPU的总体需求,反而可能因为AI应用的普及而增加市场规模。"这话其实很有道理。
三、抄袭ChatGPT?没那么简单,也没那么天真
热门观点:DeepSeek不过是从OpenAI那"偷"来的技术,通过"知识蒸馏"窃取了ChatGPT的能力。
现实情况:借鉴是有的,但说是"完全抄袭"就太过简化了。
在技术创新方面,DeepSeek确实有自己的贡献:
首先是多潜在注意力(MLA)技术。这个听起来很玄乎的东西,简单说就是对Transformer架构中的注意力机制做了改良,让模型存储和处理信息更高效,内存占用减少了90%。这对于大模型的实际部署非常重要。
然后是GRPO算法,这是他们对PPO强化学习算法的改进版。通过这个算法,他们证明了无需像OpenAI那样使用复杂的蒸馏或搜索方法,也能达到类似的推理效果。这有点像是发现了一条效率更高的"捷径"。
还有DualPipe并行架构,这解决了大规模GPU集群协同训练的效率问题,减少了数据交换的开销。想象一下,之前像是几千人需要通过传话游戏来协作,现在则是建立了更高效的沟通渠道。
关于"知识蒸馏"的争议,确实需要澄清一下。真正的知识蒸馏是用大模型的概率输出来训练小模型,但ChatGPT的API根本不提供这些概率值,只给文本输出。即使DeepSeek用了部分ChatGPT生成的文本来训练,这在业内也很常见。斯坦福的审计报告显示,DeepSeek训练数据中只有约0.4%含GPT生成内容。
别忘了,OpenAI自己也曾因未经授权抓取纽约时报的文章训练模型而被起诉。所以,在数据使用的"道德高地"上,各家其实都有点灰色地带。
值得称赞的是,DeepSeek选择了开源路线,采用了宽松的MIT协议,允许商业使用和二次开发。相比之下,OpenAI等公司的顶级模型仍然是闭源的。
Meta的杨立昆(Yann LeCun)曾评论说:"DeepSeek的成功证明了开源模型正在追赶甚至超越专有模型,这凸显了开源研究的力量。"
四、"链式思考":既不是AGI降临,也不是花拳绣腿
热门观点:一种声音认为DeepSeek的"链式思考"标志着AGI(通用人工智能)的来临;另一种声音则认为这只是营销噱头。
现实情况:真相在中间——这是重要进步,但离AGI还很远。
DeepSeek R1确实在"链式思考"(Chain-of-Thought)上做了不少工作,让模型能够像人类一样一步一步推理,而不是直接蹦出结论。在MATH-500这样的测试中,DeepSeek R1-32B模型达到了94.3%的准确率,而且算力消耗比GPT-4o1少了近90%,这确实很了不起。
但别被这些数字冲昏头脑。在需要跨模态推理的ARC-AGI测试中,R1得分只有31.7(人类基准是85+),这说明它离真正的"通用智能"还有很长的路要走。
换个角度看,DeepSeek R1采用了混合专家(MoE)架构,总参数量有6710亿,但每次推理只激活其中约370亿参数。这就像是一个巨大的专家团队,但每次只有一小部分专家被叫来工作,既保证了表达能力,又提高了效率。
有个开发者曾比较过DeepSeek R1和OpenAI o3-mini在模拟小球碰撞的编程任务上的表现。结果发现DeepSeek生成的代码在物理参数上有问题,运动轨迹出现了偏差;而o3-mini的解答虽然简化,但物理约束更合理。这表明R1在某些专业领域的理解还有提升空间。
所以,DeepSeek的推理能力确实不错,但既不是AGI的降临,也不是华而不实的噱头。它是AI进化路上的一个重要里程碑,但别急着宣布终点到了。
五、市场反应:股价过山车背后的真相
热门观点:DeepSeek的出现将颠覆AI市场格局,让Nvidia等巨头失去优势;或者相反,认为它只是昙花一现。
现实情况:市场总是反应过度,无论是恐慌还是狂热。
DeepSeek R1发布后,NVIDIA股价暴跌17%,市值蒸发了惊人的6000亿美元。为什么?因为有投资者认为:"既然DeepSeek能用这么少的GPU做出这么好的模型,那么对高端GPU的需求肯定会急剧下降。"
但这种想法忽略了一个基本规律:当技术变得更便宜和高效时,通常会带来更多而非更少的应用场景。
Nvidia CEO黄仁勋很快就澄清了这一点:"投资者误解了DeepSeek的意义。效率提升不会削弱算力需求,反而可能因为AI应用的普及而增加总需求。"
微软CEO Satya Nadella甚至引用了"焦炭效应"(Jevons Paradox):当资源利用变得更高效时,反而会因为应用增多而提高总体消耗。就像60年代的计算机从真空管到晶体管,不但没减少对计算资源的需求,反而因为应用场景爆发而成就了整个数字革命。
DeepSeek真正的影响在于:
效率提升:它展示了如何通过创新算法和架构,用更少资源做出好的模型。
开源贡献:采用MIT协议开源模型,为AI民主化打开了一扇门。
价格压力:让商业模型供应商不得不重新思考定价策略。
中小企业赋能:让那些预算有限的组织也能玩得起大模型。
Bernstein分析师Stacy Rasgon说得好:"市场对DeepSeek的反应被严重夸大了。历史一再证明,计算成本下降总是带来应用规模的扩大,最终这可能是GPU市场的利好而非利空。"
六、开源的双刃剑:自由与责任并存
热门观点:一种声音认为DeepSeek是"完全开源"的,用户可以完全掌控;另一种声音则认为它的开源只是营销手段。
现实情况:开源有价值,但也有界限和挑战。
DeepSeek确实开放了模型权重和基础代码,这点值得肯定。但我们也要认清,没有哪个开源模型是100%透明的。根据Open Source Initiative的评估,DeepSeek的训练代码开放度约为43%(相比之下,Meta的Llama 3达到了92%),而且没有公开完整的训练数据集构成。这并不奇怪,毕竟涉及版权和商业机密。
开源也带来了安全挑战。Cisco实验室的测试显示,在最高安全设置下,DeepSeek R1对100%的恶意提示都产生了响应,而GPT-4o1的拦截率达到了74%。这说明R1的安全训练数据占比太小(据估计仅0.02%),且缺乏足够的安全对抗训练。
2025年2月,有黑客就利用R1生成了针对Azure VM的漏洞利用代码,攻击成功率比GPT-4o1高出几倍。这就是开源的另一面——它给了好人更多自由,也给了坏人更多工具。
另外,我们需要区分DeepSeek的两种形式:一是DeepSeek App(面向终端用户的应用),二是GitHub上的开源代码库。前者在某些国家因合规问题受到限制(如韩国要求暂停新用户下载),而后者作为开源软件,除非代码本身有问题,一般不会被限制。
使用DeepSeek这样的开源模型,就像是拥有了一辆性能强大的车——你可以自由驾驶,但也要负责任地使用,否则可能伤及自己和他人。
七、看破迷雾,理性前行
对DeepSeek的误读,某种程度上反映了大家对AI技术的期待与焦虑。经过这一番梳理,我们可以看到,DeepSeek既不是"革命性颠覆",也不是"浮夸营销",而是AI进化道路上的重要一步。它通过工程创新和开源贡献,为行业带来了新思路和活力。
如果说DeepSeek有什么真正的意义,我认为是这几点:
它验证了"效率优先"的技术路线:在资源有限的情况下,通过精巧设计和算法优化,同样能做出高性能模型。
它推动了开源AI生态的发展:采用友好的开源协议,降低了入门门槛,让更多人能参与AI创新。
它促进了全球AI技术交流:无论地缘政治如何复杂,技术创新始终是跨越边界的。
它加速了AI应用的普及:通过降低成本和提高可访问性,让AI技术能在更多场景落地。
说到底,AI技术进步不是零和游戏,一家公司的进步最终会推动整个行业向前。DeepSeek的创新会被其他公司吸收,其他公司的突破也会反过来影响DeepSeek。
在这个AI百花齐放的时代,我们需要理性、开放的态度。既不盲目追捧新技术,也不固守成见拒绝创新。只有这样,才能真正理解和把握AI发展的脉搏,让技术更好地为人类服务。