英伟达还能“猖狂”多久?——不出三年!
实现AGI需要新的架构吗?——不用,Transformer足矣!
“近几年推理成本下降了100倍,未来还有望再降低10倍!”
这些“暴论”,出自Flash Attention的作者——Tri Dao。
在最新播客《Unsupervised Learning》中,Tri Dao分享了对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察,并针对上述“暴论”展开了有理有据的分析:
未来2-3年内,随着针对不同工作负载类别的专用芯片出现——包括低延迟的智能体系统、高吞吐量的批量处理以及互动式聊天机器人——AI硬件格局将从NVIDIA当前约90%的主导地位,转向更加多元化的生态系统。 MoE架构、推理优化、模型量化、模型架构和硬件的协同设计等技术促成了模型推理成本的下降。 未来将会出现三类工作负载模式:传统聊天机器人、极低延迟场景、大规模批处理/高吞吐场景,硬件供应商可以针对不同的工作负载做出相应的优化。……
Tri Dao不仅是Flash Attention的作者,而且还是Mamba的作者之一。
同时,他也是TogetherAI的首席科学家、普林斯顿大学教授。
《Semi Analysis》曾盛赞他在英伟达生态中的贡献,是其护城河的重要组成部分。
可以说,他对硬件市场以及AI硬件未来发展的判断极具参考价值。
接下来,就和我们一起看看吧!
访谈全文整理如下:
(注:为方便阅读,调整了部分语气词和过渡)
访谈内容 Nvidia 的主导地位及其竞争者Q:在英伟达生态体系,比如芯片层面或者GPU系统整合方面,会看到新的竞争者吗?
Tri Dao:我确实花了不少时间思考芯片,我认为当然会有很多竞争者进入这个领域。
AMD已经在这里很久了。英伟达之所以占据主导,有几个原因:他们设计了非常好的芯片,同时也做出了很好的软件,这形成了一个完整的生态,让大家在此基础上开发更多的软件。但我认为,随着工作负载(work load)逐渐集中在特定架构上,比如Transformer、MoE等,设计适配这种工作负载的芯片会变得更容易。
在推理端,AMD有一些优势,比如更大的内存,现在我们已经开始看到一些团队在尝试。在训练端则更困难一些,网络通信(networking)是主要瓶颈,而英伟达在这方面仍然领先。
但人们已经理解了:打造优秀训练芯片的挑战是什么,打造优秀推理芯片的挑战又是什么。最后比拼的就是执行力。所以我会说,这是一个非常令人兴奋的领域。我和很多在设计新芯片的人交流过,无论是推理还是训练。
我预计未来几年,部分工作负载会进入“多芯片”时代,不会像现在这样90%都在英伟达上运行,而是会跑在不同的芯片上。
Jacob Effron:你认为当前的架构是否已经足够稳定,可以支撑对未来两三年推理和训练工作负载的长期押注,还是说目前仍存在不确定性,各家初创企业和公司各自下注,最终可能只有一两家脱颖而出?
Tri Dao:我认为在架构层面,从宏观来看,好像已经在Transformer上趋于稳定。
但如果你仔细看,会发现其实还在发生很多变化。
最近这两年最显著的就是Mixture of Experts(MoE)。它让模型变得更大,参数更多,但计算是稀疏的。
这带来一些权衡,比如需要更多内存,但计算量可能相对更小。
对一些芯片制造商来说,这会增加难度,因为他们可能原本是针对稠密模型设计的,计算分布很均匀,而现在要面对稀疏计算,设计起来更复杂。
再比如attention已经存在十多年了,但至今仍在不断演变,这其实会让一些事情变得困难。
像DeepSeek就提出了一种multi-head latent attention,它和传统的attention有些不同。比如他们使用了非常大的head dimension。
如果你的系统里矩阵乘法引擎只有某个固定大小,可能就不匹配了。
像这样的一些问题,一旦你深入到细节里就会出现。所以这是架构上的挑战。
在工作负载层面,人们使用这些模型的方式也在发生很大变化。
传统的用法是聊天机器人(虽然“传统”也不过就是过去两三年的事),但现在出现了新的负载,比如编程工作负载——像Cursor、Windsurf这样的工具。
这类更接近agent的工作负载,不仅仅是运行模型,还需要调用工具,比如运行Python解释器、做网页搜索等等。
这会带来芯片设计上的挑战。如果芯片只专注于让模型本身跑得最快,就可能忽略了与主机连接去执行网页搜索这类任务的能力。
所以我会说,虽然从高层来看架构似乎稳定了,但在底层仍然有很多变化。而且工作负载本身也在演变,所以这始终是一场“竞速”,看谁能更快适应新的负载。
芯片设计中的挑战Q:如果说现在90%的工作负载还在英伟达芯片上运行,那么你觉得两三年后会怎样?
Tri Dao:我认为在推理端,会出现多样化,我们已经开始看到像Cerebras、Grok、SambaNova这样的公司带来的挑战。
他们强调可以做到极低延迟的推理,这对某些场景非常棒。
我们和一些客户交流时发现,他们非常在乎尽可能低的延迟,并且愿意为此支付更高成本。同时也有客户特别关注大批量、高吞吐量的推理,比如海量数据处理、合成数据生成、或者强化学习训练中需要快速rollout、生成大量轨迹的场景。
所以我认为市场一定会多样化,因为工作负载本身也会越来越多样:低延迟、高吞吐,甚至可能是视频生成,这都会对算力和内存提出不同的要求。
Jacob Effron:初创公司如何押注不同类型的优化?
Tri Dao:如果是创业公司,你就必须下注。你投资的时候,其实就是要做一个超出常规的押注。
你可能会赌说,聊天机器人最终会消失,人们真正关心的其实是别的东西,比如视频模型、视频生成模型、世界模型,或者机器人之类的。
然后你就掷骰子,说,好吧,那可能会占据50%的工作负载。
那么我们要如何为这种工作负载设计芯片呢?你只能希望自己的押注是对的。我觉得这就是创业公司的角色。
如果你不押注,而只是说我要为通用的工作负载优化,那么大厂会在执行力上完全碾压你。
Jacob Effron:为什么不去尝试除了英伟达以外的其他公司?硬件领域会出现巨额薪资吗?
Tri Dao :我个人其实和很多不同公司的工程师都有合作,包括英伟达、AMD、谷歌、亚马逊等等。
我花很多时间在英伟达的芯片上,纯粹是因为这是我们现阶段能用到的最普及的产品。
他们设计了非常好的芯片,也有非常好的软件支持,这让我能够做很多有意思的事情,而这正是我追求的:能不能做出有意思的东西。
比如我们之前和AMD合作过一个版本的Flash Attention,并且把它集成进了公共仓库。
所以我们确实有跟他们合作。至于最好的合作模式应该是什么,我现在还不太确定。
不过,最近我更多地在思考:我们需要什么样的抽象?不仅是针对英伟达芯片,而是针对GPU和加速器整体。
在最低层级,我还是会花很多精力榨干这些芯片的性能。
但随着我们在Together AI的扩张,我们必须考虑:如何让后来加入的工程师更快上手?其中一部分就是构建能在英伟达芯片上工作的抽象,同时也可能适配其他芯片。
另一个让我很兴奋的问题是:我们能不能设计一些抽象,让AI本身替我们完成部分工作?
我觉得答案还没有完全清晰。但作为人类的技术负责人,我们的任务就是构建合适的抽象,让别人能够快速上手,这样你做的事情才能跨芯片、跨工作负载发挥作用。
Jacob Effron:你觉得现在我们已经有那种能跨不同芯片都能用的抽象了吗?
Tri Dao :我觉得我们有一些,对吧?
但这就是经典的权衡。比如Triton就很好用,它支持英伟达芯片、AMD GPU、Intel GPU等。这需要他们设计一个前端,然后针对不同厂商的芯片,后端由不同公司贡献代码。
我觉得Triton其实非常不错,很多公司都在押注它。比如Meta的PyTorch编译器,就会直接生成Triton代码,然后交给Triton去为英伟达或AMD生成底层代码。
但这仍然是一个权衡:如果你不掌控最底层,可能就会损失一些性能。
关键就在于损失多少。如果你只损失5%的性能,却能换来3倍的生产力,那完全值得。
但如果损失太大,大家可能就会回到更底层、更贴近硬件的做法,尤其是在推理市场竞争激烈的情况下。
所以我会说,人为设计其实非常难。我甚至会说,硬件可移植性有点像是个神话。
就算在英伟达内部,不同代际之间差异也非常大。CPU每年可能性能只提升5%-10%,旧代码还能跑,但GPU完全不是这样。
英伟达几乎每一代芯片都要重写所有底层代码,因为提升FLOPS的方式就是增加更多专用组件,支持更低精度,或者改写芯片内部的同步机制。
所以即便是在英伟达内部,不同代际之间的代码可移植性其实也很有限。
Q:抽象的价值就在于,即便只是面对同一家厂商的不同代际芯片,也能帮上忙,对吧
Tri Dao:我觉得Triton的抽象非常有吸引力。他们甚至还有一些更底层的扩展,比如最近很新的Gluon,能暴露更多硬件细节,但代价是通用性会差一些。还有Modular公司在开发Mojo语言。
Jacob Effron:你觉得他们在做的事情怎么样?
Tri Dao:我觉得很酷。他们确实找到了部分正确的抽象。关键就在于执行力。
因为大家都会问:“你在英伟达芯片上到底有多快?”某种意义上,这个问题不太公平,但这就是现实。
所以他们必须在抽象之外做一些定制化,让代码在英伟达芯片上跑得足够快,然后再做一些AMD的定制化。
问题就在于,你愿意做多少定制?这就是性能与通用性的权衡。
我们会看到越来越多这样的库或领域专用语言出现。比如斯坦福有人在做Kittens来抽象GPU编程,谷歌有MosaicGPU。
我肯定还漏掉了一些。但大家都意识到一个问题:我们目前还没有合适的抽象。这导致训练新人写高性能GPU内核非常痛苦。
解决方案就是构建抽象。我觉得我们现在正处在快速迭代的阶段,这也是为什么会出现这么多领域专用语言。
与此同时,随着AI模型越来越强,我在思考:我们该如何为语言模型设计领域专用语言或抽象?因为它们的运作方式和人类有点不一样,我们现在也不知道答案。所以我认为未来一两年情况会清晰得多。现在就是百花齐放,大家都在尝试不同方向。
Jacob Effron:你觉得这些抽象最有可能从哪里产生?
Tri Dao:我认为主要有两个角度:
一个是从机器学习的角度出发,思考我们有哪些工作负载,以及需要哪些原语来表达这些工作负载。比如推理本质上是内存受限问题,关键在于如何尽快搬运数据;或者如何最快做矩阵乘法。
另一个角度是从硬件出发。芯片上有很多非常酷的专用组件,要思考如何暴露这些能力。英伟达在这方面特别强,比如设计了更多异步机制。
不过,矩阵乘法的速度太快了,反而显得其他部分很慢。所以更重要的是如何重叠矩阵乘法和其他计算。这就需要抽象层来支持异步执行,比如流水线、同步机制等等。
所以我认为抽象会从这两个方向出现,要么从工作负载出发,要么从硬件出发。我觉得再过一两年就会清晰得多。
Jacob Effron:在设计抽象时,你们现在在多大程度上真的使用AI本身?你觉得未来几年会有什么变化?
Tri Dao:是的,我觉得模型在这方面开始变得有用了。这让我最近真的很惊讶。有些人已经在尝试完全自动化的GPU内核编写:你只要描述问题,LLM就能直接生成内核代码。
这有点像我们在其他领域看到的,比如生成简单的Python脚本、做数据分析、写前端网页,对吧?这些现在LLM已经能做。那么问题是:我们能不能也做到为GPU编程生成代码?
Jacob Effron:Vibe kernel?
Tri Dao:如果你想要的是这个的话,我觉得我们还处在非常早期的阶段。
这些模型现在能生成一些简单的内核,比如逐元素的操作:你输入一个数组,然后在每个元素上做运算。或者一些归约操作,比如求和、归一化之类的。
这类代码模型能生成得还算不错。但一旦变复杂一些,这些模型就写不出正确的代码了。
我觉得这主要还是因为训练数据不足。
训练数据在这一块非常难搞。因为如果你在网上抓取内核代码,你拿到的可能就是一些课堂项目,或者是GPU三代以前的文档,而这些文档里很多写的都是现在完全不该再用的做法。所以训练数据确实非常困难。我认为答案可能是要从一些专家级的数据开始,然后基于这些生成合成数据。或者把模型接到编译器、性能分析器这样的工具上,从中获得大量训练数据,构建合适的环境。我觉得一两年之内可能会有突破,但目前确实很难。
Jacob Effron:那这些数据现在掌握在谁手里呢?
Tri Dao:我觉得这种数据不算是私有的。
确实有一些地方能找到专家级代码,但更关键的是流程:怎么从少量专家数据出发,生成海量的合成数据。
比如Discord上的GPU Mode社区,他们就在尝试做这个。
他们用编译器,比如PyTorch编译器,把PyTorch代码转换成Triton代码,这个Triton就是更底层的内核代码。
这样他们就能生成大概1.5万对这样的程序数据——PyTorch和Triton的对应关系。
其实你得有点创造性,因为网上原始数据确实不多,所以你得想办法创造训练数据。所以我觉得这是一个方向:如果你想要完全自动化的内核生成,现在还非常早。另一个方向是:模型能不能和人类协同工作?我对这点的惊喜更大——这些模型现在其实已经相当有用了。
Jacob Effron:有没有什么具体的时刻,让你觉得AI模型真的已经有帮助了?
Tri Dao:我觉得大概有两个重要节点。一个是o3——o3的推理能力进步很大。
有时候我会和o3或GPT-5一起头脑风暴,比如我有个函数,该怎么优化?要注意哪些点?
它们给出的高层思路出乎意料地好。
另一个是Claude Code。它居然在写Triton内核方面表现相当不错,这点非常棒。
因为虽然我喜欢写内核,但我更多的时间其实花在设计上:思考该设计怎样的架构,才能更好利用硬件。
而具体的实现部分,虽然设计很有意思,但实现过程往往非常繁重。这时候Claude Code就帮了很大忙。我觉得它能让我整体生产效率提升大约1.5倍。
我是ClaudeCode的重度用户。如果让模型和人类协同工作,而不是指望它们完全自动生成内核,那它们的作用其实非常大。
Jacob Effron:接下来你最期待的里程碑是什么以及新模型出来时,你会测试什么?
Tri Dao:我觉得ClaudeCode是个典型的质变案例,因为它变得更具备代理性了。
某种程度上,他们在后期训练Claude时,针对这一点做得特别好。
我相信OpenAI、Google很快也会达到类似的水平。这里说的代理性(agentic)就是指它能很好地调用工具,并且知道什么时候该用工具。
比如它知道:啊,我现在可能没有用对API,那我要怎么查API?
或者程序没编译过、程序不够快,那我该怎么从profiler里拿信息?就是这种能力。
所以我觉得新模型里,我会关注它们能不能知道自己不知道,以及什么时候该去主动寻找新信息。这虽然听起来有点模糊,但现在已经有人开始做这种代理性能力的基准测试了,只是还非常早期。
Q:自从ChatGPT发布后,这三年到底是什么推动了成本降低和延迟改善?
Tri Dao:这几年里,推理成本可能下降了大概100倍。
至少从ChatGPT面世以来是这样的,这点从API价格变化上也能反映出来。
一方面是在模型层面,人们在相同参数量级下训练出了更好的模型。
部分原因是使用了更多数据,部分原因是架构改进。我认为MoE确实帮助大家发明了更高效的注意力机制等等。
所以在模型端,模型在相同参数下变得更强大。
另一方面是在推理优化上。
我们见证了一系列技术的大爆发。早期其实大家并不清楚推理的瓶颈在哪里。
后来逐渐发现,关键问题在于数据传输——比如权重在内存之间的搬移,或者KV缓存的搬运。
KV缓存是注意力机制中用于存储历史的部分,以便生成下一个预测。所以大量优化都是围绕如何减少数据搬运展开的。
比如说模型量化。
两三年前,通常一个参数需要16位表示。现在8位已经很常见了,新模型里4位也被大量使用,甚至还有1–2位的尝试,非常激进。
但实验显示,在量化过程中,很多情况下质量几乎没有损失。当然这需要相当复杂的技术,但效果非常好。
比如最近OpenAI发布的GPT-oss,大部分层都被量化到4位。他们的模型总共有1200亿参数,但因为每个参数只需4位,整个模型可以放进大概60GB的空间里,这直接转化成了非常好的推理性能。所以量化是一个方向。
另一个方向是模型架构和硬件的协同设计。
随着理解的深入,算法研究人员和硬件专家的沟通变多,大家能结合各自的知识去发现硬件上的瓶颈,并针对性地调整算法。
比如Flash Attention就是这样:我们意识到内存访问才是主要瓶颈,于是重新设计了注意力的实现方式,减少内存访问。这类优化在推理领域正在不断发生。
DeepSeek的一个例子叫multi-head latent attention。他们发现推理时很多开销来自于KV缓存的压缩和传输,于是提出通过潜在投影把KV缓存投射到更小的空间,从而大幅减小缓存规模。这在实践中效果很好,能够更高效地部署模型。
还有MixtureofExperts(MoE)。在MoE里,每个token的计算不需要用到模型的所有参数,而是只激活部分专家单元,这就是稀疏化。
在过去两年里,趋势就是让模型越来越稀疏。比如早期Mistral的开源MoE模型是8个专家里激活2个,也就是25%。
而DeepSeek和OpenAI的最新模型里,比如GPT-oss,是在128个专家里只激活4个,也就是1/32。这种稀疏化非常适合大规模服务用户。
总的来说,大家对推理负载的理解更深,模型架构和推理堆栈是协同设计的,这就是最近性能提升的主要来源。
推理优化技术Q:未来的推理优化技术还会有哪些改进?
Tri Dao:我认为还会有大约10倍的提升空间。
尽管我们已经摘了许多果实,但仍有很多可做的事。
首先是硬件端:过去难以预测两年后的工作负载,所以难以做高度专用化。
但随着架构相对稳定,芯片设计者可以为推理做专门优化,比如加强对低精度的原生硬件支持、改进网络通信等。
特别是在MoE场景下,模型参数增大但每次只激活一部分,模型可能分布在多块GPU/芯片上,这时网络就非常关键。我估计硬件方面一年内就能带来2–3倍的提升。
在模型层面,会有推进架构的空间。
举例我做的Mamba,思路是让模型把历史压缩成更小的状态向量,而不是保存完整的KV cache——这有代价但在某些大批量推理场景下(例如同时探索多条思路的推理或搜索)效果很好。
Google的Gemini Deep Think就是同时探索多路径的思路,这类场景会让KV cache成为更大的瓶颈,因此压缩历史的方向非常重要。我认为模型层面也能带来2–3倍的提升。
在内核实现层面,越来越多人专注于高性能kernel,很多人才正加入这块,内核优化也可能再带来2倍的提升。把这些合起来,短期内一年左右再实现约10倍的整体改进是有可能的。
专门化的AI推理Q:你觉得生态会由单一能覆盖所有场景的供应商主导,还是会出现专门化?
Tri Dao:我认为可能会出现三类工作负载模式,所有推理提供方都会理解并尝试优化这些模式,但规模化也有显著优势。
大体上有:
传统聊天机器人:需要一定交互性但不要求极低延迟) 极低延迟场景:比如代码辅助,响应快2–3倍能显著提升用户效率——我愿意为此付更多钱 以及大规模批处理/高吞吐场景:需要同时对大量序列做推理。不同供应商可能在这些细分场景上做出不同权衡,有些提供广泛覆盖,有些则专注于某类场景做到极致。我的意思是,人们通过同时运行多个模型来解决这个问题。
比如同时跑四个Claude Code。但我个人更喜欢深度工作,当我和模型合作时,我通常只用一个——我的合作者会骂我,她说:“你应该同时开四个ClaudeCode。”
对这种工作负载,人们可能愿意为低延迟付更多钱,这就是低延迟类型的工作负载。
另一类是非常大批量的工作,我不太在意延迟,只关心尽可能高的吞吐量。这对生成合成数据等场景很重要。
正如我提到的,很多人训练模型的方式是:先有少量专家级数据或人工标注数据。
举个例子,你是一家航空公司,想训练AI助理来处理客户投诉,你手里只有少量高质量数据,然后可以从中生成大量合成数据。模型在模拟人类行为上非常出色。
你可以让模型模拟一个来自纽约、因为航班延误而恼火的顾客,模型竟然能表现得很像人类。
事实上,互联网上就有大量类似数据供模型学习。
模型内部有一套世界模型,它可以基于这些生成大量数据,虽然不如人工数据精准,但量很大。
在这种推理使用场景中,你真正关心的只是吞吐量。
另一类是强化学习训练场景。训练一个智能体执行任务并改变策略时,你需要评估策略的好坏。
这就需要从模型中抽样大量完成结果,也叫rollout,评估其表现。这里就需要大批量、高吞吐的推理能力。我认为这是第三种使用场景——非常大批量。
对于这三类场景,人们已经开始识别这些模式,而作为推理提供方,我们会针对不同场景做不同优化。
Jacob Effron:你们是如何在这三类场景间分配资源的?
Tri Dao:我觉得这就是大规模运行的好处——我们称之为“舰队级优化”。
在数千GPU上推理时,你可以动态调整集群分配。
举个简单例子:运行批量推理(batch API)。
OpenAI提供这个选项,我们也有类似选项。如果看到集群在处理交互式查询时不忙,就可以调入批量查询以充分利用算力。
结果是,我们对batchAPI通常提供约50%折扣,我想OpenAI也是这样,DeepSeek大概也是。
AI工作负载演进与开源工具Q:你觉得推理市场未来的发展如何?优化空间是否无限?
Tri Dao:过去确实有很多果实,如果你能写出合理内核、搭建合适推理引擎,会比市场上已有方案好很多。
但现在开源工具已经非常成熟了,比如VLM、SGLang等项目,都已经达到生产级别质量。
我们也会和这些项目合作、贡献代码。所以基线水平已经提高很多。
同时,工作负载也在不断演化。客户会提出新的需求:前缀缓存、低延迟,或者不是文本而是视频,这些都有不同的性能权衡,我们也在应对这些客户需求。
即便开源工具越来越好,工作负载变化也很快,总有新事情可做。模型本身越来越强,可以从中提取价值的方式也越来越多,这也是为什么有很多初创公司基于这些模型构建业务。工作负载将持续演化。Jacob Effron:快速变化的节奏下,这三大类工作负载会逐渐分化吗?
Tri Dao:我觉得还是会有聚合。代理型(agentic)工作负载可能是杀手级用例。
就像ChatGPT是应用层面的一个跃变,它让用户第一次能与语言模型互动、调试代码、查找和分析信息。
下一波应用将是代理型:AI能自主采取行动、收集信息。这需要不同的优化策略,不只是让模型在GPU上运行得快,还要考虑如何与人类使用的工具衔接,比如Web搜索。
如果是工程师,可能希望模型能访问设计软件;金融分析师,则希望模型能访问特定数据库。这类工作负载预计会成为未来一年左右的主流。
在消费端,我的一个预测是实时视频生成会成为趋势。
我们已经看到一些初步迹象,这会像TikTok改变内容消费方式一样,彻底改变消费者体验。我们合作的一些公司,比如Pika Labs和Hetra,正专注于实时视频生成,这是我们的押注。
实时视频生成也带来全新挑战,非常耗算力,这可能会进一步推动芯片发展和推理优化。
架构创新和专家级别的AIQ:假如可以快进三年,得到AI基础设施领域一个关键问题的答案,这个问题会是什么?哪一个问题的答案最能影响你们今天的战略?
Tri Dao:接下来几年,我想回答的问题是:我们如何让AI达到专家水平?
目前,我认为模型在某些任务上,比如前端编程,处于人类中等水平。
他们已经很厉害了。实际上,这些模型在前端编程上比我强得多;或者在数据分析这类任务上,只要互联网上有大量数据,模型就能轻松胜任。
它们在这些任务上大概达到了中等水平,甚至略高于平均水平。
但经济上最有价值的任务仍然存在。我们为人类专家支付高额报酬,比如飞机设计、硬件设计、医生、律师等。
这些人成为专家,是因为他们花了大量时间使用专业工具,而这些工具的数据并不等同于互联网海量信息。
这正是他们成为专家的原因。所以我们要让模型达到这个水平,能够与人类专家协同工作,我认为这才是大量经济价值的来源。
Q:你合作者Albert说过,Transformer本身不会是最终方案,你觉得我们需要架构创新才能达到那个水平吗?
Tri Dao:我认为,要达到AGI或ASI,目前的架构可能已经足够了。
但成本如何?如果有更好的架构,也许我们能提前一两年达到目标,或者用10倍更低的成本实现,这可能很值得。
每年我们在AI基础设施上大约花5000亿美元——大概在这个量级。
问题是,我们是否需要花10倍的预算?还是通过更好的架构,用现有甚至更少的支出就能达到目标?
这就是架构研究的价值所在:能否通过更好架构达到AGI。我认为当前架构具备所有关键成分,如果不断扩展,也可以实现目标,但成本可能是天文数字。Jacob Effron:你还在关注哪些架构?
Tri Dao:我对MoE特别感兴趣,尤其是越来越稀疏。我们在探索极限:能稀疏到什么程度?
这一直是一个很有吸引力的方向。DeepSeek做了很重要的工作,证明可以让模型非常稀疏,DeepMind早期也有相关探索。这是一种用同样算力获得更多智能的方法。
最终,我们想优化每分钱的推理效率。
这意味着可以量化为每浮点操作推理量(inference per flop)和每分钱的FLOPs。
前者更多依赖架构设计、数据、算法;后者更多依赖硬件和内核优化。在架构层面,我们尝试从相同计算中提取尽可能多的智能。MoE是一个例子。
我和Albert做的一些状态空间模型工作也很有趣。
我们与Nvidia的一些团队合作训练模型,他们发布了几款模型,显示这种架构——Transformer与Mamba的混合——可以在更低成本或更高推理性能下得到高质量模型。
所以架构对于推理非常重要。我现在非常强调“推理优先”的架构设计,因为大部分FLOPs都用于推理,我们希望架构能最大化推理效率。
Jacob Effron:你现在在研究哪些方向?未来可能有哪些重要论文?
Tri Dao:我仍然在这些领域工作,非常感兴趣。同时,我也在探索一些新方向,其中之一是寻找下一波真正有影响力的应用。 我认为机器人是其中一个方向。
比如离真正优秀的家庭人形机器人还有多远?
也许五年,也许十年,我不确定。这通常会带来很多有趣且重要的研究问题,这是科研方向上的一个方向。
Jacob Effron:在机器人研究领域,你觉得最有趣的点是什么?
Tri Dao:关于机器人,我们可以用已有的基础模型来初始化控制机器人。你可以用语言模型来做规划。
比如,你让机器人去拿咖啡杯,语言模型可以说:“去那张桌子拿咖啡杯”,等等。
但目前缺失的是在现实世界中进行交互和行动的数据,因为我们没有这类数据。我们有语言数据,但缺少与实际世界交互的数据。对,你显然也看到有人在尝试扩大仿真数据的规模,他们实际上在做遥操作,但实际波动的数据问题依然存在。
另一点是,机器人必须以多分辨率、多时间尺度的方式处理信息。有些操作,比如控制关节,需要非常快速的响应;但规划机器人的路径,则可以慢一些。
这里需要显式考虑时间尺度。我想做非常轻量的计算吗?只是控制关节,还是做更重的推理来规划最优路径?
所以我认为最终会是一个复合系统,由语言模型、视觉模型、音频模型、世界模型初始化,但如何把它们组合在一起,是一个大问题。
学术界与工业界的平衡Q:你是如何考虑在学术和工业之间的选择的?
Tri Dao:这是个很好的问题,也很个人化。对我来说,我喜欢同时做创业和做教授。
这两种模式提供了不同的思维和执行方式。创业方面很有趣,因为节奏快。我们想做的事情,几天、几周、最多几个月就能完成。团队执行力强,可以快速实现目标,我对团队在Together做的工作非常自豪。
学术方面,时间尺度更长,考虑的问题更具前瞻性。我们不会追求一个月内的解决方案,而是思考未来两三年方向上的有趣问题和挑战。和学生一起工作也非常有趣,因为我们可以深入思考这些问题。
当然有一些权衡,比如学术计算资源少。评价方式也不同,更关注思想是否有趣,而不是是否运行得快。
学术给你更多自由去深入思考长周期问题。我正好喜欢两种模式,所以仍然在普林斯顿做教授,同时参与创业。
我认为这是一种探索与开发结合的模式:学术更偏向探索,资金通常来自政府,用于探索大量想法,也许只有5-10%的想法会成功。投资者也类似,探索大量想法,其中少数可能非常重要。
一个例子是Attention,它通过Google的论文出名,但最初来自Mila的学术研究,是Dmitry Bahdanau、Yoshua Bengio等人的工作。
当前架构的其他组成部分,如Adam优化器(JimmieBa等)和LayerNorm,也来自学术界。
很多现在的基础都是学术探索的结果。大公司和创业公司会把这些想法商业化,快速执行,同时理解市场需求,有更多资金推动大想法落地。
比如,SSI明确说不做任何产品,但人们愿意投钱,因为他是Ilya。当AI的某些风投开始获得回报,投资者就更愿意投入资金。
Jacob Effron:过去一年你在AI上改变的一个观点是什么?
Tri Dao:这些模型出乎意料地有用,即便在我日常的高级和专家级工作中,它们在数学和编码上也非常出色。比我预期的高很多,确实很厉害。
Jacob Effron:你觉得一年后开源模型和闭源模型的质量会更接近还是更远?我认为会更接近。现在的扩展更多依赖RL,而这实际上更依赖工具链,而不仅仅是原始算力。所以开源在这方面会做得很好。
Jacob Effron:目前AI领域还有哪些发展被忽视了?
Tri D:数据。数据总是有点被低估。合成数据,用模型重新生成或改写数据,会产生巨大影响,但关注的人少。Jacob Effron:你最喜欢看到的应用是什么?
Tri Dao:我们与一些视频生成公司合作,比如Pika Labs和Hetra,他们用我们训练的模型生成虚拟的TikTok视频,效果非常棒。
本文来自微信公众号“量子位”,作者:henry,36氪经授权发布。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://jinnalai.com/jiaodian/779218.html