Flash Attention作者最新播客：英伟达GPU统治三年内将终结

英伟达还能“猖狂”多久？——不出三年！

实现AGI需要新的架构吗？——不用，Transformer足矣！

“近几年推理成本下降了100倍，未来还有望再降低10倍！”

这些“暴论”，出自Flash Attention的作者——Tri Dao。

在最新播客《Unsupervised Learning》中，Tri Dao分享了对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察，并针对上述“暴论”展开了有理有据的分析：

未来2-3年内，随着针对不同工作负载类别的专用芯片出现——包括低延迟的智能体系统、高吞吐量的批量处理以及互动式聊天机器人——AI硬件格局将从NVIDIA当前约90%的主导地位，转向更加多元化的生态系统。 MoE架构、推理优化、模型量化、模型架构和硬件的协同设计等技术促成了模型推理成本的下降。未来将会出现三类工作负载模式：传统聊天机器人、极低延迟场景、大规模批处理/高吞吐场景，硬件供应商可以针对不同的工作负载做出相应的优化。

……

Tri Dao不仅是Flash Attention的作者，而且还是Mamba的作者之一。

同时，他也是TogetherAI的首席科学家、普林斯顿大学教授。

《Semi Analysis》曾盛赞他在英伟达生态中的贡献，是其护城河的重要组成部分。

可以说，他对硬件市场以及AI硬件未来发展的判断极具参考价值。

接下来，就和我们一起看看吧！

访谈全文整理如下：

（注：为方便阅读，调整了部分语气词和过渡）

访谈内容 Nvidia 的主导地位及其竞争者

Q：在英伟达生态体系，比如芯片层面或者GPU系统整合方面，会看到新的竞争者吗？

Tri Dao：我确实花了不少时间思考芯片，我认为当然会有很多竞争者进入这个领域。

AMD已经在这里很久了。英伟达之所以占据主导，有几个原因：他们设计了非常好的芯片，同时也做出了很好的软件，这形成了一个完整的生态，让大家在此基础上开发更多的软件。但我认为，随着工作负载（work load）逐渐集中在特定架构上，比如Transformer、MoE等，设计适配这种工作负载的芯片会变得更容易。

在推理端，AMD有一些优势，比如更大的内存，现在我们已经开始看到一些团队在尝试。在训练端则更困难一些，网络通信（networking）是主要瓶颈，而英伟达在这方面仍然领先。

但人们已经理解了：打造优秀训练芯片的挑战是什么，打造优秀推理芯片的挑战又是什么。最后比拼的就是执行力。所以我会说，这是一个非常令人兴奋的领域。我和很多在设计新芯片的人交流过，无论是推理还是训练。

我预计未来几年，部分工作负载会进入“多芯片”时代，不会像现在这样90%都在英伟达上运行，而是会跑在不同的芯片上。

Jacob Effron：你认为当前的架构是否已经足够稳定，可以支撑对未来两三年推理和训练工作负载的长期押注，还是说目前仍存在不确定性，各家初创企业和公司各自下注，最终可能只有一两家脱颖而出？

Tri Dao：我认为在架构层面，从宏观来看，好像已经在Transformer上趋于稳定。

但如果你仔细看，会发现其实还在发生很多变化。

最近这两年最显著的就是Mixture of Experts（MoE）。它让模型变得更大，参数更多，但计算是稀疏的。

这带来一些权衡，比如需要更多内存，但计算量可能相对更小。

对一些芯片制造商来说，这会增加难度，因为他们可能原本是针对稠密模型设计的，计算分布很均匀，而现在要面对稀疏计算，设计起来更复杂。

再比如attention已经存在十多年了，但至今仍在不断演变，这其实会让一些事情变得困难。

像DeepSeek就提出了一种multi-head latent attention，它和传统的attention有些不同。比如他们使用了非常大的head dimension。

如果你的系统里矩阵乘法引擎只有某个固定大小，可能就不匹配了。

像这样的一些问题，一旦你深入到细节里就会出现。所以这是架构上的挑战。

在工作负载层面，人们使用这些模型的方式也在发生很大变化。

传统的用法是聊天机器人（虽然“传统”也不过就是过去两三年的事），但现在出现了新的负载，比如编程工作负载——像Cursor、Windsurf这样的工具。

这类更接近agent的工作负载，不仅仅是运行模型，还需要调用工具，比如运行Python解释器、做网页搜索等等。

这会带来芯片设计上的挑战。如果芯片只专注于让模型本身跑得最快，就可能忽略了与主机连接去执行网页搜索这类任务的能力。

所以我会说，虽然从高层来看架构似乎稳定了，但在底层仍然有很多变化。而且工作负载本身也在演变，所以这始终是一场“竞速”，看谁能更快适应新的负载。

芯片设计中的挑战

Q：如果说现在90%的工作负载还在英伟达芯片上运行，那么你觉得两三年后会怎样？

Tri Dao：我认为在推理端，会出现多样化，我们已经开始看到像Cerebras、Grok、SambaNova这样的公司带来的挑战。

他们强调可以做到极低延迟的推理，这对某些场景非常棒。

我们和一些客户交流时发现，他们非常在乎尽可能低的延迟，并且愿意为此支付更高成本。同时也有客户特别关注大批量、高吞吐量的推理，比如海量数据处理、合成数据生成、或者强化学习训练中需要快速rollout、生成大量轨迹的场景。

所以我认为市场一定会多样化，因为工作负载本身也会越来越多样：低延迟、高吞吐，甚至可能是视频生成，这都会对算力和内存提出不同的要求。

Jacob Effron：初创公司如何押注不同类型的优化？

Tri Dao：如果是创业公司，你就必须下注。你投资的时候，其实就是要做一个超出常规的押注。

你可能会赌说，聊天机器人最终会消失，人们真正关心的其实是别的东西，比如视频模型、视频生成模型、世界模型，或者机器人之类的。

然后你就掷骰子，说，好吧，那可能会占据50%的工作负载。

那么我们要如何为这种工作负载设计芯片呢？你只能希望自己的押注是对的。我觉得这就是创业公司的角色。

如果你不押注，而只是说我要为通用的工作负载优化，那么大厂会在执行力上完全碾压你。

Jacob Effron：为什么不去尝试除了英伟达以外的其他公司？硬件领域会出现巨额薪资吗？

Tri Dao ：我个人其实和很多不同公司的工程师都有合作，包括英伟达、AMD、谷歌、亚马逊等等。

我花很多时间在英伟达的芯片上，纯粹是因为这是我们现阶段能用到的最普及的产品。

他们设计了非常好的芯片，也有非常好的软件支持，这让我能够做很多有意思的事情，而这正是我追求的：能不能做出有意思的东西。

比如我们之前和AMD合作过一个版本的Flash Attention，并且把它集成进了公共仓库。

所以我们确实有跟他们合作。至于最好的合作模式应该是什么，我现在还不太确定。

不过，最近我更多地在思考：我们需要什么样的抽象？不仅是针对英伟达芯片，而是针对GPU和加速器整体。

在最低层级，我还是会花很多精力榨干这些芯片的性能。

但随着我们在Together AI的扩张，我们必须考虑：如何让后来加入的工程师更快上手？其中一部分就是构建能在英伟达芯片上工作的抽象，同时也可能适配其他芯片。

另一个让我很兴奋的问题是：我们能不能设计一些抽象，让AI本身替我们完成部分工作？

我觉得答案还没有完全清晰。但作为人类的技术负责人，我们的任务就是构建合适的抽象，让别人能够快速上手，这样你做的事情才能跨芯片、跨工作负载发挥作用。

Jacob Effron：你觉得现在我们已经有那种能跨不同芯片都能用的抽象了吗？

Tri Dao ：我觉得我们有一些，对吧？

但这就是经典的权衡。比如Triton就很好用，它支持英伟达芯片、AMD GPU、Intel GPU等。这需要他们设计一个前端，然后针对不同厂商的芯片，后端由不同公司贡献代码。

我觉得Triton其实非常不错，很多公司都在押注它。比如Meta的PyTorch编译器，就会直接生成Triton代码，然后交给Triton去为英伟达或AMD生成底层代码。

但这仍然是一个权衡：如果你不掌控最底层，可能就会损失一些性能。

关键就在于损失多少。如果你只损失5%的性能，却能换来3倍的生产力，那完全值得。

但如果损失太大，大家可能就会回到更底层、更贴近硬件的做法，尤其是在推理市场竞争激烈的情况下。

所以我会说，人为设计其实非常难。我甚至会说，硬件可移植性有点像是个神话。

就算在英伟达内部，不同代际之间差异也非常大。CPU每年可能性能只提升5%-10%，旧代码还能跑，但GPU完全不是这样。

英伟达几乎每一代芯片都要重写所有底层代码，因为提升FLOPS的方式就是增加更多专用组件，支持更低精度，或者改写芯片内部的同步机制。

所以即便是在英伟达内部，不同代际之间的代码可移植性其实也很有限。

Q：抽象的价值就在于，即便只是面对同一家厂商的不同代际芯片，也能帮上忙，对吧

Tri Dao：我觉得Triton的抽象非常有吸引力。他们甚至还有一些更底层的扩展，比如最近很新的Gluon，能暴露更多硬件细节，但代价是通用性会差一些。还有Modular公司在开发Mojo语言。

Jacob Effron：你觉得他们在做的事情怎么样？

Tri Dao：我觉得很酷。他们确实找到了部分正确的抽象。关键就在于执行力。

因为大家都会问：“你在英伟达芯片上到底有多快？”某种意义上，这个问题不太公平，但这就是现实。

所以他们必须在抽象之外做一些定制化，让代码在英伟达芯片上跑得足够快，然后再做一些AMD的定制化。

问题就在于，你愿意做多少定制？这就是性能与通用性的权衡。

我们会看到越来越多这样的库或领域专用语言出现。比如斯坦福有人在做Kittens来抽象GPU编程，谷歌有MosaicGPU。

我肯定还漏掉了一些。但大家都意识到一个问题：我们目前还没有合适的抽象。这导致训练新人写高性能GPU内核非常痛苦。

解决方案就是构建抽象。我觉得我们现在正处在快速迭代的阶段，这也是为什么会出现这么多领域专用语言。

与此同时，随着AI模型越来越强，我在思考：我们该如何为语言模型设计领域专用语言或抽象？因为它们的运作方式和人类有点不一样，我们现在也不知道答案。所以我认为未来一两年情况会清晰得多。现在就是百花齐放，大家都在尝试不同方向。

Jacob Effron：你觉得这些抽象最有可能从哪里产生？

Tri Dao：我认为主要有两个角度：

一个是从机器学习的角度出发，思考我们有哪些工作负载，以及需要哪些原语来表达这些工作负载。

比如推理本质上是内存受限问题，关键在于如何尽快搬运数据；或者如何最快做矩阵乘法。

另一个角度是从硬件出发。芯片上有很多非常酷的专用组件，要思考如何暴露这些能力。

英伟达在这方面特别强，比如设计了更多异步机制。

不过，矩阵乘法的速度太快了，反而显得其他部分很慢。所以更重要的是如何重叠矩阵乘法和其他计算。这就需要抽象层来支持异步执行，比如流水线、同步机制等等。

所以我认为抽象会从这两个方向出现，要么从工作负载出发，要么从硬件出发。我觉得再过一两年就会清晰得多。

Jacob Effron：在设计抽象时，你们现在在多大程度上真的使用AI本身？你觉得未来几年会有什么变化？

Tri Dao：是的，我觉得模型在这方面开始变得有用了。这让我最近真的很惊讶。有些人已经在尝试完全自动化的GPU内核编写：你只要描述问题，LLM就能直接生成内核代码。

这有点像我们在其他领域看到的，比如生成简单的Python脚本、做数据分析、写前端网页，对吧？这些现在LLM已经能做。那么问题是：我们能不能也做到为GPU编程生成代码？

Jacob Effron：Vibe kernel？

Tri Dao：如果你想要的是这个的话，我觉得我们还处在非常早期的阶段。

这些模型现在能生成一些简单的内核，比如逐元素的操作：你输入一个数组，然后在每个元素上做运算。或者一些归约操作，比如求和、归一化之类的。

这类代码模型能生成得还算不错。但一旦变复杂一些，这些模型就写不出正确的代码了。

我觉得这主要还是因为训练数据不足。

训练数据在这一块非常难搞。因为如果你在网上抓取内核代码，你拿到的可能就是一些课堂项目，或者是GPU三代以前的文档，而这些文档里很多写的都是现在完全不该再用的做法。所以训练数据确实非常困难。我认为答案可能是要从一些专家级的数据开始，然后基于这些生成合成数据。或者把模型接到编译器、性能分析器这样的工具上，从中获得大量训练数据，构建合适的环境。我觉得一两年之内可能会有突破，但目前确实很难。

Jacob Effron：那这些数据现在掌握在谁手里呢？

Tri Dao：我觉得这种数据不算是私有的。

确实有一些地方能找到专家级代码，但更关键的是流程：怎么从少量专家数据出发，生成海量的合成数据。

比如Discord上的GPU Mode社区，他们就在尝试做这个。

他们用编译器，比如PyTorch编译器，把PyTorch代码转换成Triton代码，这个Triton就是更底层的内核代码。

这样他们就能生成大概1.5万对这样的程序数据——PyTorch和Triton的对应关系。

其实你得有点创造性，因为网上原始数据确实不多，所以你得想办法创造训练数据。所以我觉得这是一个方向：如果你想要完全自动化的内核生成，现在还非常早。另一个方向是：模型能不能和人类协同工作？我对这点的惊喜更大——这些模型现在其实已经相当有用了。

Jacob Effron：有没有什么具体的时刻，让你觉得AI模型真的已经有帮助了?

Tri Dao:我觉得大概有两个重要节点。一个是o3——o3的推理能力进步很大。

有时候我会和o3或GPT-5一起头脑风暴，比如我有个函数，该怎么优化？要注意哪些点？

它们给出的高层思路出乎意料地好。

另一个是Claude Code。它居然在写Triton内核方面表现相当不错，这点非常棒。

因为虽然我喜欢写内核，但我更多的时间其实花在设计上：思考该设计怎样的架构，才能更好利用硬件。

而具体的实现部分，虽然设计很有意思，但实现过程往往非常繁重。这时候Claude Code就帮了很大忙。我觉得它能让我整体生产效率提升大约1.5倍。

我是ClaudeCode的重度用户。如果让模型和人类协同工作，而不是指望它们完全自动生成内核，那它们的作用其实非常大。

Jacob Effron：接下来你最期待的里程碑是什么以及新模型出来时，你会测试什么？

Tri Dao：我觉得ClaudeCode是个典型的质变案例，因为它变得更具备代理性了。

某种程度上，他们在后期训练Claude时，针对这一点做得特别好。

我相信OpenAI、Google很快也会达到类似的水平。这里说的代理性(agentic)就是指它能很好地调用工具，并且知道什么时候该用工具。

比如它知道：啊，我现在可能没有用对API，那我要怎么查API？

或者程序没编译过、程序不够快，那我该怎么从profiler里拿信息？就是这种能力。

所以我觉得新模型里，我会关注它们能不能知道自己不知道，以及什么时候该去主动寻找新信息。这虽然听起来有点模糊，但现在已经有人开始做这种代理性能力的基准测试了，只是还非常早期。

Q：自从ChatGPT发布后，这三年到底是什么推动了成本降低和延迟改善？

Tri Dao：这几年里，推理成本可能下降了大概100倍。

至少从ChatGPT面世以来是这样的，这点从API价格变化上也能反映出来。

一方面是在模型层面，人们在相同参数量级下训练出了更好的模型。

部分原因是使用了更多数据，部分原因是架构改进。我认为MoE确实帮助大家发明了更高效的注意力机制等等。

所以在模型端，模型在相同参数下变得更强大。

另一方面是在推理优化上。

我们见证了一系列技术的大爆发。早期其实大家并不清楚推理的瓶颈在哪里。

后来逐渐发现，关键问题在于数据传输——比如权重在内存之间的搬移，或者KV缓存的搬运。

KV缓存是注意力机制中用于存储历史的部分，以便生成下一个预测。所以大量优化都是围绕如何减少数据搬运展开的。

比如说模型量化。

两三年前，通常一个参数需要16位表示。现在8位已经很常见了，新模型里4位也被大量使用，甚至还有1–2位的尝试，非常激进。

但实验显示，在量化过程中，很多情况下质量几乎没有损失。当然这需要相当复杂的技术，但效果非常好。

比如最近OpenAI发布的GPT-oss，大部分层都被量化到4位。他们的模型总共有1200亿参数，但因为每个参数只需4位，整个模型可以放进大概60GB的空间里，这直接转化成了非常好的推理性能。所以量化是一个方向。

另一个方向是模型架构和硬件的协同设计。

随着理解的深入，算法研究人员和硬件专家的沟通变多，大家能结合各自的知识去发现硬件上的瓶颈，并针对性地调整算法。

比如Flash Attention就是这样：我们意识到内存访问才是主要瓶颈，于是重新设计了注意力的实现方式，减少内存访问。这类优化在推理领域正在不断发生。

DeepSeek的一个例子叫multi-head latent attention。他们发现推理时很多开销来自于KV缓存的压缩和传输，于是提出通过潜在投影把KV缓存投射到更小的空间，从而大幅减小缓存规模。这在实践中效果很好，能够更高效地部署模型。

还有MixtureofExperts（MoE）。在MoE里，每个token的计算不需要用到模型的所有参数，而是只激活部分专家单元，这就是稀疏化。

在过去两年里，趋势就是让模型越来越稀疏。比如早期Mistral的开源MoE模型是8个专家里激活2个，也就是25%。

而DeepSeek和OpenAI的最新模型里，比如GPT-oss，是在128个专家里只激活4个，也就是1/32。这种稀疏化非常适合大规模服务用户。

总的来说，大家对推理负载的理解更深，模型架构和推理堆栈是协同设计的，这就是最近性能提升的主要来源。

推理优化技术

Q：未来的推理优化技术还会有哪些改进？

Tri Dao：我认为还会有大约10倍的提升空间。

尽管我们已经摘了许多果实，但仍有很多可做的事。

首先是硬件端：过去难以预测两年后的工作负载，所以难以做高度专用化。

但随着架构相对稳定，芯片设计者可以为推理做专门优化，比如加强对低精度的原生硬件支持、改进网络通信等。

特别是在MoE场景下，模型参数增大但每次只激活一部分，模型可能分布在多块GPU/芯片上，这时网络就非常关键。我估计硬件方面一年内就能带来2–3倍的提升。

在模型层面，会有推进架构的空间。

举例我做的Mamba，思路是让模型把历史压缩成更小的状态向量，而不是保存完整的KV cache——这有代价但在某些大批量推理场景下（例如同时探索多条思路的推理或搜索）效果很好。

Google的Gemini Deep Think就是同时探索多路径的思路，这类场景会让KV cache成为更大的瓶颈，因此压缩历史的方向非常重要。我认为模型层面也能带来2–3倍的提升。

在内核实现层面，越来越多人专注于高性能kernel，很多人才正加入这块，内核优化也可能再带来2倍的提升。把这些合起来，短期内一年左右再实现约10倍的整体改进是有可能的。

专门化的AI推理

Q：你觉得生态会由单一能覆盖所有场景的供应商主导，还是会出现专门化？

Tri Dao：我认为可能会出现三类工作负载模式，所有推理提供方都会理解并尝试优化这些模式，但规模化也有显著优势。

大体上有：

传统聊天机器人：需要一定交互性但不要求极低延迟）极低延迟场景：比如代码辅助，响应快2–3倍能显著提升用户效率——我愿意为此付更多钱以及大规模批处理/高吞吐场景：需要同时对大量序列做推理。

不同供应商可能在这些细分场景上做出不同权衡，有些提供广泛覆盖，有些则专注于某类场景做到极致。我的意思是，人们通过同时运行多个模型来解决这个问题。

比如同时跑四个Claude Code。但我个人更喜欢深度工作，当我和模型合作时，我通常只用一个——我的合作者会骂我，她说：“你应该同时开四个ClaudeCode。”

对这种工作负载，人们可能愿意为低延迟付更多钱，这就是低延迟类型的工作负载。

另一类是非常大批量的工作，我不太在意延迟，只关心尽可能高的吞吐量。这对生成合成数据等场景很重要。

正如我提到的，很多人训练模型的方式是：先有少量专家级数据或人工标注数据。

举个例子，你是一家航空公司，想训练AI助理来处理客户投诉，你手里只有少量高质量数据，然后可以从中生成大量合成数据。模型在模拟人类行为上非常出色。

你可以让模型模拟一个来自纽约、因为航班延误而恼火的顾客，模型竟然能表现得很像人类。

事实上，互联网上就有大量类似数据供模型学习。

模型内部有一套世界模型，它可以基于这些生成大量数据，虽然不如人工数据精准，但量很大。

在这种推理使用场景中，你真正关心的只是吞吐量。

另一类是强化学习训练场景。训练一个智能体执行任务并改变策略时，你需要评估策略的好坏。

这就需要从模型中抽样大量完成结果，也叫rollout，评估其表现。这里就需要大批量、高吞吐的推理能力。我认为这是第三种使用场景——非常大批量。

对于这三类场景，人们已经开始识别这些模式，而作为推理提供方，我们会针对不同场景做不同优化。

Jacob Effron：你们是如何在这三类场景间分配资源的？

Tri Dao：我觉得这就是大规模运行的好处——我们称之为“舰队级优化”。

在数千GPU上推理时，你可以动态调整集群分配。

举个简单例子：运行批量推理（batch API）。

OpenAI提供这个选项，我们也有类似选项。如果看到集群在处理交互式查询时不忙，就可以调入批量查询以充分利用算力。

结果是，我们对batchAPI通常提供约50%折扣，我想OpenAI也是这样，DeepSeek大概也是。

AI工作负载演进与开源工具

Q：你觉得推理市场未来的发展如何？优化空间是否无限？

Tri Dao：过去确实有很多果实，如果你能写出合理内核、搭建合适推理引擎，会比市场上已有方案好很多。

但现在开源工具已经非常成熟了，比如VLM、SGLang等项目，都已经达到生产级别质量。

我们也会和这些项目合作、贡献代码。所以基线水平已经提高很多。

同时，工作负载也在不断演化。客户会提出新的需求：前缀缓存、低延迟，或者不是文本而是视频，这些都有不同的性能权衡，我们也在应对这些客户需求。

即便开源工具越来越好，工作负载变化也很快，总有新事情可做。模型本身越来越强，可以从中提取价值的方式也越来越多，这也是为什么有很多初创公司基于这些模型构建业务。工作负载将持续演化。Jacob Effron：快速变化的节奏下，这三大类工作负载会逐渐分化吗？

Tri Dao：我觉得还是会有聚合。代理型（agentic）工作负载可能是杀手级用例。

就像ChatGPT是应用层面的一个跃变，它让用户第一次能与语言模型互动、调试代码、查找和分析信息。

下一波应用将是代理型：AI能自主采取行动、收集信息。这需要不同的优化策略，不只是让模型在GPU上运行得快，还要考虑如何与人类使用的工具衔接，比如Web搜索。

如果是工程师，可能希望模型能访问设计软件；金融分析师，则希望模型能访问特定数据库。这类工作负载预计会成为未来一年左右的主流。

在消费端，我的一个预测是实时视频生成会成为趋势。

我们已经看到一些初步迹象，这会像TikTok改变内容消费方式一样，彻底改变消费者体验。我们合作的一些公司，比如Pika Labs和Hetra，正专注于实时视频生成，这是我们的押注。

实时视频生成也带来全新挑战，非常耗算力，这可能会进一步推动芯片发展和推理优化。

架构创新和专家级别的AI

Q：假如可以快进三年，得到AI基础设施领域一个关键问题的答案，这个问题会是什么？哪一个问题的答案最能影响你们今天的战略？

Tri Dao：接下来几年，我想回答的问题是：我们如何让AI达到专家水平？

目前，我认为模型在某些任务上，比如前端编程，处于人类中等水平。

他们已经很厉害了。实际上，这些模型在前端编程上比我强得多；或者在数据分析这类任务上，只要互联网上有大量数据，模型就能轻松胜任。

它们在这些任务上大概达到了中等水平，甚至略高于平均水平。

但经济上最有价值的任务仍然存在。我们为人类专家支付高额报酬，比如飞机设计、硬件设计、医生、律师等。

这些人成为专家，是因为他们花了大量时间使用专业工具，而这些工具的数据并不等同于互联网海量信息。

这正是他们成为专家的原因。所以我们要让模型达到这个水平，能够与人类专家协同工作，我认为这才是大量经济价值的来源。

Q：你合作者Albert说过，Transformer本身不会是最终方案，你觉得我们需要架构创新才能达到那个水平吗？

Tri Dao：我认为，要达到AGI或ASI，目前的架构可能已经足够了。

但成本如何？如果有更好的架构，也许我们能提前一两年达到目标，或者用10倍更低的成本实现，这可能很值得。

每年我们在AI基础设施上大约花5000亿美元——大概在这个量级。

问题是，我们是否需要花10倍的预算？还是通过更好的架构，用现有甚至更少的支出就能达到目标？

这就是架构研究的价值所在：能否通过更好架构达到AGI。我认为当前架构具备所有关键成分，如果不断扩展，也可以实现目标，但成本可能是天文数字。Jacob Effron：你还在关注哪些架构？

Tri Dao：我对MoE特别感兴趣，尤其是越来越稀疏。我们在探索极限：能稀疏到什么程度？

这一直是一个很有吸引力的方向。DeepSeek做了很重要的工作，证明可以让模型非常稀疏，DeepMind早期也有相关探索。这是一种用同样算力获得更多智能的方法。

最终，我们想优化每分钱的推理效率。

这意味着可以量化为每浮点操作推理量（inference per flop）和每分钱的FLOPs。

前者更多依赖架构设计、数据、算法；后者更多依赖硬件和内核优化。在架构层面，我们尝试从相同计算中提取尽可能多的智能。MoE是一个例子。

我和Albert做的一些状态空间模型工作也很有趣。

我们与Nvidia的一些团队合作训练模型，他们发布了几款模型，显示这种架构——Transformer与Mamba的混合——可以在更低成本或更高推理性能下得到高质量模型。

所以架构对于推理非常重要。我现在非常强调“推理优先”的架构设计，因为大部分FLOPs都用于推理，我们希望架构能最大化推理效率。

Jacob Effron：你现在在研究哪些方向？未来可能有哪些重要论文？

Tri Dao：我仍然在这些领域工作，非常感兴趣。同时，我也在探索一些新方向，其中之一是寻找下一波真正有影响力的应用。我认为机器人是其中一个方向。

比如离真正优秀的家庭人形机器人还有多远？

也许五年，也许十年，我不确定。这通常会带来很多有趣且重要的研究问题，这是科研方向上的一个方向。

Jacob Effron：在机器人研究领域，你觉得最有趣的点是什么？

Tri Dao：关于机器人，我们可以用已有的基础模型来初始化控制机器人。你可以用语言模型来做规划。

比如，你让机器人去拿咖啡杯，语言模型可以说：“去那张桌子拿咖啡杯”，等等。

但目前缺失的是在现实世界中进行交互和行动的数据，因为我们没有这类数据。我们有语言数据，但缺少与实际世界交互的数据。对，你显然也看到有人在尝试扩大仿真数据的规模，他们实际上在做遥操作，但实际波动的数据问题依然存在。

另一点是，机器人必须以多分辨率、多时间尺度的方式处理信息。有些操作，比如控制关节，需要非常快速的响应；但规划机器人的路径，则可以慢一些。

这里需要显式考虑时间尺度。我想做非常轻量的计算吗？只是控制关节，还是做更重的推理来规划最优路径？

所以我认为最终会是一个复合系统，由语言模型、视觉模型、音频模型、世界模型初始化，但如何把它们组合在一起，是一个大问题。

学术界与工业界的平衡

Q：你是如何考虑在学术和工业之间的选择的？

Tri Dao：这是个很好的问题，也很个人化。对我来说，我喜欢同时做创业和做教授。

这两种模式提供了不同的思维和执行方式。创业方面很有趣，因为节奏快。我们想做的事情，几天、几周、最多几个月就能完成。团队执行力强，可以快速实现目标，我对团队在Together做的工作非常自豪。

学术方面，时间尺度更长，考虑的问题更具前瞻性。我们不会追求一个月内的解决方案，而是思考未来两三年方向上的有趣问题和挑战。和学生一起工作也非常有趣，因为我们可以深入思考这些问题。

当然有一些权衡，比如学术计算资源少。评价方式也不同，更关注思想是否有趣，而不是是否运行得快。

学术给你更多自由去深入思考长周期问题。我正好喜欢两种模式，所以仍然在普林斯顿做教授，同时参与创业。

我认为这是一种探索与开发结合的模式：学术更偏向探索，资金通常来自政府，用于探索大量想法，也许只有5-10%的想法会成功。投资者也类似，探索大量想法，其中少数可能非常重要。

一个例子是Attention，它通过Google的论文出名，但最初来自Mila的学术研究，是Dmitry Bahdanau、Yoshua Bengio等人的工作。

当前架构的其他组成部分，如Adam优化器（JimmieBa等）和LayerNorm，也来自学术界。

很多现在的基础都是学术探索的结果。大公司和创业公司会把这些想法商业化，快速执行，同时理解市场需求，有更多资金推动大想法落地。

比如，SSI明确说不做任何产品，但人们愿意投钱，因为他是Ilya。当AI的某些风投开始获得回报，投资者就更愿意投入资金。

Jacob Effron：过去一年你在AI上改变的一个观点是什么？

Tri Dao：这些模型出乎意料地有用，即便在我日常的高级和专家级工作中，它们在数学和编码上也非常出色。比我预期的高很多，确实很厉害。

Jacob Effron：你觉得一年后开源模型和闭源模型的质量会更接近还是更远？我认为会更接近。现在的扩展更多依赖RL，而这实际上更依赖工具链，而不仅仅是原始算力。所以开源在这方面会做得很好。

Jacob Effron：目前AI领域还有哪些发展被忽视了？

Tri D：数据。数据总是有点被低估。合成数据，用模型重新生成或改写数据，会产生巨大影响，但关注的人少。Jacob Effron：你最喜欢看到的应用是什么？

Tri Dao：我们与一些视频生成公司合作，比如Pika Labs和Hetra，他们用我们训练的模型生成虚拟的TikTok视频，效果非常棒。

本文来自微信公众号“量子位”，作者：henry，36氪经授权发布。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 203304862@qq.com

本文链接：https://jinnalai.com/jiaodian/779218.html

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

相关推荐

联系我们