“马斯克评论:“有趣的分析。我所见过的最好的。”
“AI将无处不在。”
DeepSeekr1的真相与细节
真实情况:
它在相关AppStore类别中下载量排名第一。明显领先于ChatGPT,这是Gemini和Claude都未能实现的。
从质量角度来看,它与o1相当,但仍落后于o3。
实现了真正的算法突破,使其在训练和推理方面都大大提高了效率。FP8训练、MLA和多token预测都具有重要意义。
容易验证r1的训练成本仅为600万美元。虽然这在字面上是真实的,但也极具误导性。
即使他们的硬件架构也很新颖,值得注意的是他们使用PCI-Express进行扩展。
重要细节:
根据技术论文,600万美元并不包括“与前期研究和架构、算法和数据消融实验相关的成本”。这意味着,只有在实验室已经在前期研究上投入数亿美元并且能够访问更大规模集群的情况下,才有可能以600万美元的成本训练出r1质量的模型。DeepSeek显然拥有远超2048个H800的算力;他们早期的一篇论文提到拥有10000个A100的集群。一个同样聪明的团队不可能仅凭600万美元就能启动2000个GPU集群并从头开始训练r1。大约20%的Nvidia收入来自新加坡。尽管他们尽了最大努力,但20%的NvidiaGPU可能并不在新加坡。
存在大量的知识蒸馏——也就是说,如果没有对GPT-4o和o1的无障碍访问,他们可能无法完成这个训练。正如@altcap昨天向我指出的,限制前沿GPU的访问权限却不对中国蒸馏美国前沿模型的能力采取任何措施,这很有趣——显然违背了出口限制的目的。为什么要买牛,如果可以免费获得牛奶?
核心发现:
DeepSeekr1确实具有重要意义,但需要注意一些细微差别。最重要的是r1在推理成本上比o1低得多且效率更高,这比600万美元的训练成本更具意义。r1的每次API调用成本比o1低93%,可以在高端工作站上本地运行,而且似乎没有遇到任何速率限制,这很不可思议。简单计算一下,每10亿个活跃参数在FP8下需要1GB的RAM,因此r1需要37GB的RAM。批处理大大降低了成本,更多的计算能力增加了每秒token数,所以云端推理仍然具有优势。还要注意,这里存在真正的地缘政治动态,我认为这在“Stargate”之后发布并非巧合。再见了,5000亿美元——我们几乎都还没认识你。
结论要点:
降低训练成本将提高AI的投资回报率。
在短期内,这对训练资本支出或“能源”主题都不会产生积极影响。
目前“AI基础设施”赢家(跨科技、工业、公用事业和能源领域)面临的最大风险是:r1的精简版本可以在高端工作站(如有人提到的MacStudioPro)上本地运行。这意味着类似的模型将在约2年内可以在高性能手机上运行。如果推理计算转移到边缘设备是因为“够用了”,那么我们将面临一个截然不同的世界,出现不同的赢家——即我们将见证有史以来最大规模的PC和智能手机升级周期。计算能力一直在集中化和去中心化之间摆动。
人工超级智能(ASI)已经非常接近,但没有人真正知道超级智能的经济回报会是什么。如果一个耗资1000亿美元、在10万多个Blackwells(o5、Gemini3、Grok4)上训练的推理模型能够治愈癌症和发明曲速引擎,那么ASI的回报将非常高,训练资本支出和能源消耗将稳步增长;戴森球将重新成为解释费米悖论的最佳理论。我希望ASI的回报是高的——那将太棒了。
这对于使用AI的公司都非常有利:软件、互联网等。
从经济角度来看,这极大地提升了分发渠道和独特数据的价值——YouTube、Facebook、Instagram和X。
美国的实验室可能会停止发布其前沿模型,以防止对r1至关重要的知识蒸馏,尽管在这方面,猫可能已经完全跑出了袋子。即r1可能足以训练r2等。
Grok-3的影响
Grok-3的出现可能会显著影响上述结论。这将是自GPT-4以来首次对预训练扩展定律的重要测试。就像花了几周时间通过强化学习将v3转变为r1一样,运行必要的强化学习来提高Grok-3的推理能力也可能需要几周时间。基础模型越好,推理模型就应该越好,因为三个扩展定律是相乘的——预训练、后训练期间的强化学习,以及推理过程中的测试时计算(这是强化学习的函数)。Grok-3已经表明它可以完成超出o1的任务——参见Tesseract演示——超出多少将变得很重要。用《双塔奇兵》中一个匿名兽人的话来说,“肉可能很快就会重新上菜”。时间会告诉我们答案,“当事实改变时,我就改变主意。”
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://jinnalai.com/jiaodian/726400.html