DeepSeek-V3再发论文，梁文锋署名，低成本训练大模型的秘密揭开了

机器之心报道

机器之心编辑部

关于DeepSeek-V3，你需要了解的一切。

虽然此前DeepSeek已经发布了V3模型的技术报告，但刚刚，他们又悄然发布了另一篇围绕DeepSeek-V3的技术论文！

这篇14页的论文瞄向了「Scaling挑战以及对AI架构所用硬件的思考」。从中你不仅能读到DeepSeek在开发和训练V3过程中发现的问题和积累的心得，还能收获他们为未来的硬件设计给出的思考和建议。这一次，DeepSeekCEO梁文锋同样也是署名作者之一。

众所周知，如今大语言模型（LLM）的快速扩展暴露了当前硬件架构的一些关键局限性，包括内存容量、计算效率和互连带宽。以DeepSeek-V3为例，它是在2048块NVIDIAH800GPU集群上进行训练，展示了硬件感知模型协同设计如何高效地应对这些限制，并最终实现了经济高效的大规模训练与推理。

因此，这项新研究并非重复DeepSeek-V3的详细架构和算法细节，而是从硬件架构和模型设计的双重视角，探讨它们之间在实现经济高效的大规模训练和推理过程中复杂的相互作用。通过探究这种协同作用，研究者旨在提供切实可行的见解，以洞悉如何在不牺牲性能或可访问性的情况下高效扩展LLM。

具体而言，本文的重点包括如下：

硬件驱动的模型设计：分析硬件特性（如FP8低精度计算和scale-up/scale-out扩展网络属性）如何影响DeepSeek-V3中的架构选择。硬件与模型之间的相互依赖关系：研究硬件能力如何影响模型创新，以及LLM不断变化的需求如何推动对下一代硬件的需求。硬件开发的未来方向：从DeepSeek-V3中获取可行性见解，以指导未来硬件和模型架构的共同设计，为可扩展、经济高效的人工智能系统铺平道路。

DeepSeek模型的设计原则

如图1所示，DeepSeek-V3采用了DeepSeekMoE架构和多头潜在注意力（MLA）架构。其中，DeepSeekMoE充分释放了混合专家（MoE）架构的潜力，而MLA则通过压缩键值（KV）缓存显著降低了内存消耗。

此外，DeepSeek-V3引入了FP8混合精度训练技术，在保证模型质量的同时大幅降低了计算成本，使大规模训练更加可行。

为了提高推理速度，DeepSeek-V3在其多Token预测模块(Multi-TokenPredictionModule)的基础上集成了推测解码，从而显著提高了生成速度。

除了模型架构之外，DeepSeek还探索了经济高效的AI基础架构，通过部署多平面双层胖树网络（Multi-Planetwo-layerFat-Tree）来取代传统的三层胖树拓扑结构，从而降低了集群网络成本。

这一系列创新旨在解决扩展LLM时的三个核心挑战——内存效率、成本效益和推理速度。

内存效率

LLM通常需要大量的内存资源，其内存需求每年增长超过1000%。相比之下，高速内存（例如HBM）容量的增长速度要慢得多，通常每年不到50%。虽然多节点并行是解决内存限制的可行方案，但在源头优化内存使用仍然是一个关键且有效的策略。

为了解决这一瓶颈，DeepSeek采用了多头潜在注意力(MLA)，它使用投影矩阵将所有注意力头的键值表示压缩为一个较小的潜在向量，并与模型联合训练。在推理过程中，只需缓存潜在向量，与存储所有注意力头的键值缓存相比，显著降低了内存消耗。

除了MLA之外，DeepSeek还提出了其他几种方法来减少KV缓存的大小。这些方法非常有价值，为内存高效注意力机制的进步提供了重要的启发：

共享KV（GQA；MQA）：多个注意力头共享一组键值对，而不是为每个注意力头维护单独的键值对，从而显著压缩了键值对的存储量。代表性方法包括GQA和MQA。

此外，还包括窗口KV、量化压缩等。

表1比较了DeepSeek-V3、Qwen-2.572B和LLaMA-3.1405B中每个token的KV缓存内存占用情况。通过采用MLA，DeepSeek-V3显著减少了KV缓存大小，每个token仅需70KB，远低于LLaMA-3.1405B的516KB和Qwen-2.572B的327KB。

MoE模型的成本效益

对于稀疏计算，DeepSeek开发了DeepSeekMoE，这是一种先进的混合专家(MoE)架构，如图1右下角所示。MoE模型的优势在于两方面。

在训练时，降低计算需求。MoE架构的主要优势在于它能够显著降低训练成本。通过选择性地激活专家参数的子集，MoE模型允许总参数数量大幅增加，同时保持适度的计算需求。例如，DeepSeek-V2拥有236B参数，但每个token仅激活21B参数。同样，DeepSeek-V3扩展到671B参数——几乎是V2的三倍——同时每个token的激活量仅为37B。相比之下，Qwen2.5-72B和LLaMa3.1-405B等密集模型则要求在训练期间所有参数都处于激活状态。

如表2所示，DeepSeekV3的总计算成本约为每token250GFLOPS，而72B密集模型需要394GFLOPS，405B密集模型则需要2448GFLOPS。这表明，MoE模型在计算资源消耗量少一个数量级的情况下，实现了与密集模型相当甚至更优的性能。

个人使用和本地部署的优势。未来个性化LLM智能体将无处不在，而MoE模型在单请求场景中将展现出独特的优势。由于每个请求仅激活一小部分参数，内存和计算需求将大幅降低。例如，DeepSeek-V2（236B参数）在推理过程中仅激活21B参数。这使得搭载AISoC芯片的个人电脑能够达到近每秒20个Token(TPS)，甚至两倍于此的速度，这对于个人使用来说已经绰绰有余。相比之下，类似能力（例如70B参数）的密集模型在类似硬件上通常只能达到个位数的TPS。

提高推理速度

计算与通信重叠：最大化吞吐量。推理速度既包括系统级最大吞吐量，也包括单请求延迟。为了最大化吞吐量，模型从一开始就采用双微批次重叠架构，有意将通信延迟与计算重叠。

此外，DeepSeek将MLA和MoE的计算解耦为两个不同的阶段。当一个微批次执行部分MLA或MoE计算时，另一个微批次同时执行相应的调度通信。相反，在第二个微批次的计算阶段，第一个微批次则进行组合通信步骤。这种流水线方法实现了全对全（all-to-all）通信与持续计算的无缝重叠，确保GPU始终保持完全利用率。此外，在生产环境中，DeepSeek采用预填充和解码分离架构，将大批量预填充和延迟敏感的解码请求分配给不同规模的专家并行组。这一策略最终在实际服务条件下实现了系统吞吐量的最大化。

推理速度和测试时间扩展。以OpenAI的o1/o3系列为例，LLM中的测试时间扩展通过在推理过程中动态调整计算资源，推动了数学推理、编程和通用推理的重大进步。后续模型——包括DeepSeek-R1、Claude-3.7Sonnet、Gemini2.5Pro、Seed1.5-Thinking和Qwen3——也采用了类似的策略，并在这些任务中取得了显著的改进。

对于这些推理模型来说，较高的token输出速度至关重要。在强化学习(RL)工作流程中——例如PPO、DPO和GRPO——快速生成大量样本的需求使得推理吞吐量成为关键的瓶颈。同样，冗长的推理序列会增加用户等待时间，从而降低此类模型的实际可用性。因此，通过软硬件协同创新来优化推理速度对于提高推理模型的效率至关重要。

低精度驱动设计

FP8混合精度训练

GPTQ和AWQ等量化技术显著降低了内存需求。然而，这些技术主要应用于推理阶段以节省内存，而非训练阶段。NVIDIA的TransformerEngine已经支持FP8混合精度训练，但在DeepSeek-V3之前，尚无开源大型模型利用FP8进行训练。

通过基础设施团队和算法团队的深入合作，以及大量的实验和创新，DeepSeek开发了一个兼容FP8的MoE模型训练框架。图1展示了在训练过程中使用FP8精度前向和后向处理的计算组件。

LogFMT

在当前的DeepSeek-V3架构中，DeepSeek采用低精度压缩进行网络通信。在EP并行过程中，Token使用细粒度的FP8量化进行调度，与BF16相比，通信量减少了50%。这显著缩短了通信时间。

除了这些传统的浮点格式外，DeepSeek还尝试了一种新的数据类型，称为LogFMT-nBit（LogarithmicFloating-PointFormats）。

互连驱动的设计

当前的硬件架构

DeepSeek目前使用的NVIDIAH800GPUSXM架构（如图2所示）基于Hopper架构构建，与H100GPU类似。然而，为了符合法规要求，它的FP64计算性能和NVLink带宽有所降低。具体而言，H800SXM节点中的NVLink带宽从900GB/s降至了400GB/s。节点内扩展带宽的显著降低对高性能工作负载构成了挑战。为了弥补这一缺陷，每个节点都配备了八个400GInfiniband(IB)CX7网卡，以增强扩展能力，从而弥补带宽不足。

为了解决这些硬件限制，DeepSeek-V3模型融入了多项与硬件优势和局限性相符的设计考量。

硬件感知型并行化设计

为了适应H800架构的限制，DeepSeek-V3考虑了这些并行策略：避免张量并行(TP)、增强Pipeline并行(PP)、加速专家并行(EP)。对这些策略的具体说明请访问原论文。

模型协同设计：节点受限式路由

在H800架构中，纵向扩展（scale-up，节点内）和横向扩展（scale-out，节点间）通信之间的带宽差异约为4:1。具体而言，NVLink可提供200GB/s的带宽（其中实际可实现约160GB/s），而每个400GbpsIB网卡仅提供50GB/s的带宽（考虑到较小的消息大小和延迟影响，有效带宽为40GB/s）。为了平衡并充分利用更高的节点内带宽，模型架构与硬件进行了协同设计，尤其是在TopK专家选择策略方面。

假设一个包含8个节点（共64台GPU）和256个路由专家（每台GPU4个专家）的设置。对于DeepSeek-V3，每个token会被路由到1个共享专家和8个路由专家。如果8个目标专家分布在所有8个节点上，则通过IB的通信时间将为8，其中表示通过IB发送一个token的时间。但是，通过利用更高的NVLink带宽，路由到同一节点的token可以通过IB发送一次，然后通过NVLink转发到其他节点内GPU。NVLink转发功能可以对IB流量进行去重。当给定token的目标专家分布在个节点上时，去重后的IB通信成本将降低至（

由于IB流量仅依赖于，DeepSeek-V3为TopK专家选择策略引入了节点受限路由。具体来说，DeepSeek将256位路由专家分成8组，每组32位专家，并将每组部署在单个节点上。在此部署基础上，DeepSeek通过算法确保每个token最多路由到4个节点。这种方法缓解了IB通信瓶颈，并提高了训练期间的有效通信带宽。

纵向扩展和横向扩展收敛

当前实现的局限性。虽然节点受限的路由策略降低了通信带宽需求，但由于节点内(NVLink)和节点间(IB)互连之间的带宽差异，它使通信流水线内核的实现变得复杂。

在实际应用中，GPUStreamingMultiprocessors(SM)线程既用于网络消息处理（例如，填充QP和WQE），也用于通过NVLink进行数据转发，这会消耗大量的计算资源。例如，在训练期间，H800GPU上多达20个SM会被分配用于通信相关操作，导致实际计算资源减少。为了最大限度地提高在线推理的吞吐量，DeepSeek完全通过NICRDMA进行EP的all-to-all通信，从而避免了SM资源争用并提高了计算效率。这凸显了RDMA异步通信模型在计算和通信重叠方面的优势。

SM在EP通信过程中执行的关键任务包括转发数据、数据传输、Reduce操作、管理内存布局、数据类型转换，尤其是在组合阶段的Reduce操作和数据类型转换方面。如果将这些任务卸载到专用通信硬件，可以释放SM以用于计算内核，从而显著提高整体效率。

针对此，DeepSeek给出了一些建议，其中最核心的是「将节点内（纵向扩展）和节点间（横向扩展）通信集成到一个统一的框架中」。

通过集成专用协处理器进行网络流量管理以及NVLink和IB域之间的无缝转发，此类设计可以降低软件复杂性并最大限度地提高带宽利用率。例如，DeepSeek-V3中采用的节点受限路由策略可以通过硬件支持动态流量去重进一步优化。

DeepSeek还探究了新兴的互连协议，例如UltraEthernetConsortium(UEC)、UltraAcceleratorLink(UALink)。近期，UnifiedBus(UB)引入了一种全新的纵向扩展和横向扩展融合方法。

DeepSeek在这里主要关注了在编程框架层面实现纵向扩展和横向扩展的融合的方法，具体包括统一网络适配器、专用通信协处理器、灵活的转发和广播及Reduce机制、硬件同步原语。详见原论文。

带宽争用和延迟

当前硬件还存在另一大局限：缺乏在NVLink和PCIe上不同类型流量之间动态分配带宽的灵活性。

例如，在推理过程中，将键值缓存数据从CPU内存传输到GPU会消耗数十GB/s的带宽，从而导致PCIe带宽饱和。如果GPU同时使用IB进行EP通信，KV缓存传输和EP通信之间的争用可能会降低整体性能并导致延迟峰值。

针对这些问题，DeepSeek同样给出了一些建议，包括动态NVLink/PCIe流量优先级、I/O芯片芯片集成、纵向扩展域内的CPU-GPU互连。

大规模网络驱动的设计

网络协同设计：多平面胖树

在DeepSeek-V3的训练过程中，DeepSeek部署了一个多平面胖树(MPFT)横向扩展（scale-out）网络，如图3所示。

其中，每个节点配备8台GPU和8个IB网卡，每个GPU-网卡对分配到不同的网络平面。此外，每个节点还配备一个400Gbps以太网RoCE网卡，连接到单独的存储网络平面，用于访问3FS分布式文件系统。在横向扩展网络中，他们使用了64端口400GIB交换机，使该拓扑理论上最多可支持16,384台GPU，同时保留了双层网络的成本和延迟优势。然而，由于政策和监管限制，最终部署的GPU数量仅为两千余台。

此外，由于IBConnectX-7目前的局限性，DeepSeek部署的MPFT网络未能完全实现预期的架构。理想情况下，如图4所示，每个网卡(NIC)应具有多个物理端口，每个端口连接到单独的网络平面，但通过端口绑定，共同作为单个逻辑接口向用户公开。

从用户的角度来看，单个队列对(QP)可以在所有可用端口之间无缝地发送和接收消息，类似于数据包喷射。因此，来自同一QP的数据包可能会穿越不同的网络路径，并以无序方式到达接收方，因此需要在网卡内原生支持无序布局，以保证消息一致性并保留正确的排序语义。例如，InfiniBandConnectX-8原生支持四平面。未来的网卡能够完全支持高级多平面功能，从而使双层胖树网络能够有效地扩展到更大的AI集群，这将大有裨益。总体而言，多平面架构在故障隔离、稳健性、负载均衡和大规模系统可扩展性方面具有显著优势。

DeepSeek还介绍了多平面胖树的几大优势，包括MPFT由多轨胖树(MRFT)的子集构成（因此可以无缝整合英伟达和NCCL为MRFT网络开发的现有优化技术）、成本效益、流量隔离、延迟降低、稳健性等，详见原论文。

DeepSeek还对MPFT和MRFT进行了对比性的性能分析，结果见图5和6以及表4。

基于此，他们得到了一些关键发现，包括多平面网络的all-to-all性能与单平面多轨网络非常相似；在2048块GPU上训练V3模型时，MPFT的性能与MRFT的性能几乎相同。

低延迟网络

在DeepSeek的模型推理中，大规模EP严重依赖于all-to-all通信，而这种通信对带宽和延迟都非常敏感。举一个典型场景的例子，在50GB/s的网络带宽下，理想情况下数据传输大约需要120s。因此，微秒级的固有网络延迟会对系统性能产生严重影响，其影响不容忽视。

那么，DeepSeek是怎么做的呢？

首先分析一下IB或RoCE。如表5所示，IB始终能保持较低的延迟，这使得使其成为了分布式训练和推理等延迟敏感型工作负载的首选。尽管IB的延迟性能优于基于融合以太网的RDMA(RoCE)，但它也存在一些局限性，包括成本和扩展性方面的问题。

虽然RoCE有可能成为IB的经济高效的替代方案，但其目前在延迟和可扩展性方面的限制使其无法完全满足大规模AI系统的需求。DeepSeek也给出了一些改进RoCE的具体建议，包括使用专用低延迟RoCE交换机、优化路由策略、改进流量隔离或拥塞控制机制。

为降低网络通信延迟，DeepSeek使用了InfiniBandGPUDirectAsync(IBGDA)。

传统上，网络通信涉及创建CPU代理（proxy）线程：GPU准备好数据后，必须通知CPU代理，然后CPU代理填充工作请求(WR)的控制信息，并通过门铃机制向NIC)发出信号，以启动数据传输。此过程会带来额外的通信开销。

IBGDA是如何解决此问题的？实际上，它的做法是允许GPU直接填充WR内容并写入RDMA门铃MMIO地址。

通过在GPU内部管理整个控制平面，IBGDA消除了与GPU-CPU通信相关的显著延迟开销。此外，在发送大量小数据包时，控制平面处理器很容易成为瓶颈。由于GPU具有多个并行线程，发送方可以利用这些线程来分配工作负载，从而避免此类瓶颈。包括DeepSeek的DeepEP在内的一系列工作都利用了IBGDA，并报告使用它取得了显著的性能提升。因此，DeepSeek提倡在各种加速器设备上广泛支持此类功能。

未来硬件架构设计的讨论与见解

前面在具体的应用场景（applicationcontexts）中指出了硬件局限性，并提供了相应的建议。在此基础上，接下来将讨论扩展到更广泛的考量，并为未来的硬件架构设计提出前瞻性方向：

鲁棒性挑战：如何通过更先进的错误检测与纠正机制，应对硬件故障和静默数据损坏，构建永不停歇的AI基础设施。CPU瓶颈与互联限制：如何优化CPU与加速器之间的协同，特别是突破PCIe等传统接口的限制，实现高速、无瓶颈的节点内部通信。面向AI的智能网络：如何打造具备低延迟和智能感知能力的网络，通过光互联、无损机制、自适应路由等技术，应对复杂的通信需求。内存语义通信与排序：如何解决当前内存语义通信中的数据一致性与排序挑战，探索硬件层面的内建保证，提升通信效率。网络中计算与压缩：如何将计算和压缩能力下沉到网络中，特别是针对EP等特定负载，释放网络带宽潜力。以内存为中心的架构创新：如何应对模型规模指数级增长带来的内存带宽危机，探索DRAM堆叠、晶圆级集成等前沿技术。

鲁棒性挑战（RobustnessChallenges）

现有限制

互连故障（InterconnectFailures）：高性能互联（如IB和NVLink）易在实际部署中出现间歇性连接中断，影响节点间通信。尤其在通信密集型负载（例如EP）中，即使短暂中断亦可导致显著性能下降，甚至任务失败。单点硬件故障（SingleHardwareFailures）：节点宕机、GPU故障或ECC（错误更正码）内存出错等单点硬件故障，可能影响长时间运行的训练任务，常需高昂重启。大规模部署中，这类单点故障概率随系统规模扩大显著上升。静默数据损坏（SilentDataCorruption）：例如多位内存翻转或计算精度误差等绕过ECC检测机制的错误，可能导致模型质量受损。这类错误尤为隐蔽，易在长时间运行任务中累积传播并污染下游计算（downstreamcomputations）。目前多数应用层启发式缓解策略（mitigationstrategies）难以实现系统级全面鲁棒保障。

面向高级错误检测与纠正的建议

为缓解静默损坏风险，硬件应集成超越传统ECC的高级错误检测机制，如基于校验和验证、硬件加速冗余校验，以提升大规模部署可靠性。

此外，厂商应提供全面诊断工具包，使用户能精确验证系统完整性，主动预警潜在静默损坏。将工具包作为标准硬件配置部署，可促进全生命周期持续验证和透明度，增强系统整体可信度。

CPU瓶颈与互联网络限制

尽管加速器（accelerator）设计常为系统优化核心，但CPU在协调计算任务、管理I/O和维持整体系统吞吐方面仍扮演关键角色。然而，当前硬件架构存在若干关键瓶颈：

首先，如前所述，CPU与GPU间的PCIe接口在大规模参数、梯度或KV缓存（KVcache）传输中常成带宽瓶颈。为缓解此问题，未来系统应引入CPU–GPU直连互联方案（例如NVLink或InfinityFabric），或将CPU与GPU集成于scale-updomain，消除节点内部数据传输瓶颈。

除PCIe限制外，维持如此高数据传输速率需极高内存带宽。例如，要充分利用160通道PCIe5.0接口，每节点需超过640GB/s数据传输能力，这意味约1TB/s每节点内存带宽，对传统DRAM架构是一大挑战。

最后，对延迟敏感任务（诸如kernellaunch、网络处理）需高单核CPU性能，通常基础主频需达4GHz以上。此外，现代AI工作负载要求每GPU配备足够CPU核心，避免控制侧瓶颈。对于基于芯粒（chiplet）的架构，还需额外CPU核心支持实现面向缓存的负载划分与隔离策略（cache-awareworkloadpartitioningandisolation）。

面向AI的智能网络架构

为了应对延迟敏感型工作负载的需求，未来的互联网络需同时具备「低延迟」与「智能感知」的能力，具体可从以下几个方向探索：

封装内光互联（Co-PackagedOptics）：通过集成硅光子（siliconphotonics）技术，能够实现可扩展的高带宽互联，并显著提升能效，这对于构建大规模分布式AI系统至关重要。

无损网络（LosslessNetwork）：基于信用的流控机制（Credit-BasedFlowControl,CBFC）可实现无损数据传输，但若采用基础策略触发流控，可能引发严重的队首阻塞（head-of-lineblocking）。因此，必须部署更先进的端侧驱动拥塞控制算法（congestioncontrol,CC），以主动调节注入速率，避免网络拥塞恶化为系统性瓶颈。

自适应路由（AdaptiveRouting）：如前所述，未来网络应标准化采用动态路由机制，如数据包喷洒（packetspraying）与拥塞感知路径选择策略（congestion-awarepathselection）。这些策略可持续感知当前网络状态并智能调度通信流，有效缓解网络热点，特别是在all-to-all与reduce-scatter等集合通信操作中，对缓解通信瓶颈效果显著。

高效的容错协议（EfficientFault-TolerantProtocols）：通过自愈协议、自适应端口冗余和快速故障转移机制，可显著提升系统在故障情境下的鲁棒性。例如，链路级重试机制（link-layerretry）和选择性重传协议（selectiveretransmissionprotocols）是提升大规模网络可靠性、减少停机时间的关键组件，能够在面对间歇性故障时确保系统无缝运行。

动态资源管理（DynamicResourceManagement）：为更高效地处理混合型工作负载，未来硬件需支持动态带宽调度与流量优先级控制。例如，统一的多任务集群中应将推理任务与训练通信隔离调度，以确保延迟敏感型应用的响应能力。

内存语义通信与内存排序问题的探讨

基于加载/存储语义（load/storememorysemantics）进行节点间通信，具有高效且对程序员友好的优势。

但当前实现方案普遍受限于内存排序一致性问题。例如，发送端通常需要在写入数据后，执行显式的内存屏障操作（memoryfence），再更新标志位以通知接收端，从而确保数据一致性。

这种强排序要求引入了额外的往返延迟（round-triptime,RTT），可能阻塞发出线程，影响写操作重叠能力，最终降低吞吐率。

类似的乱序同步问题，在基于消息语义的远程直接内存访问（RemoteDirectMemoryAccess,RDMA）中同样存在。例如，在InfiniBand或NVIDIABlueField-3上，若在常规RDMA写操作之后再执行采用数据包喷洒（packetspraying）的RDMA原子加（atomicadd）操作，也会引入额外的RTT开销。

为应对上述挑战，DeepSeek团队主张从硬件层面引入内建排序保证，以强化内存语义通信中的数据一致性。这种一致性应同时在编程接口层（如acquire/release语义）和接收端硬件层实施，从而实现无需额外开销的有序数据交付。

可行路径包括：在接收端缓存原子消息，并通过数据包序号实现顺序处理；但相比之下，基于acquire/release的机制更加优雅且具效率优势。

DeepSeek团队提出一种简单的概念机制——区域获取/释放机制（RegionAcquire/ReleaseMechanism,RAR）：在该方案中，接收端硬件维护一个用于跟踪内存区域状态的位图，获取与释放操作基于RAR地址范围生效。

该机制延伸了最小位图开销下的高效排序保障，由硬件强制执行排序逻辑，完全摆脱发送端对显式屏障指令的依赖，理想情况下实现于网络接口卡（NIC）或I/O芯片上。

值得强调的是，RAR机制不仅适用于基于内存语义的通信场景，也可覆盖基于消息语义的RDMA操作，具有广泛的实际适用性。

网络中计算与压缩机制

EP（ExpertParallelism）任务涉及两个关键的全对全通信阶段：分发（dispatch）与合并（combine），它们构成网络级优化的重要着力点。

分发阶段类似于小规模的多播（multicast）操作，需要将一条消息转发至多个目标设备。若在硬件协议层支持自动包复制与多目标转发，将大幅减少通信开销，提升总体效率。

合并阶段则近似于小规模规约（reduction）操作，可通过网络中的聚合机制实现场内计算（in-networkaggregation）。然而，由于EP合并操作通常规约范围有限、负载不均，实现灵活、高效的网络内规约尚具挑战性。

此外，如前所指出，LogFMT可在基本不影响模型性能的前提下实现低精度token传输。若将LogFMT原生集成进网络硬件，可通过提升信息熵密度（entropydensity）降低带宽消耗，进一步优化通信性能。依托硬件加速的压缩/解压模块，LogFMT可无缝融入分布式系统，从而显著提升整体吞吐能力。

以内存为中心的架构创新

内存带宽的限制

近年来模型规模呈指数级增长，远超高带宽存储器（High-BandwidthMemory,HBM）技术的发展速度。这种增长差距使得「内存瓶颈」问题愈发突出，尤其在像Transformer这类注意力机制密集的模型结构中尤为严重。

架构性建议

DRAM堆叠加速器（DRAM-StackedAccelerators）：通过3D封装技术，可将DRAM芯片垂直集成于逻辑底片之上，从而获得极高的内存带宽、超低访问延迟以及现实可用的内存容量（受堆叠层数限制）。该架构模型在追求极速推理的专家混合模型（Mixture-of-Experts,MoE）中尤显优势，因其对内存吞吐极度敏感。如SeDRAM等架构即展示了此方法在内存受限工作负载中的颠覆式性能潜力。

晶圆级集成系统（System-on-Wafer,SoW）：晶圆级集成（wafer-scaleintegration）可最大化计算密度与内存带宽，是应对超大规模模型所需带宽密度的可行途径。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 203304862@qq.com

本文链接：https://jinnalai.com/jiaodian/749172.html