1. 主页 > 社会焦点

中国工程院院士点评DeepSeek

1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT。同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。

DeepSeek究竟厉害在哪里?今日,中国工程院院士、清华大学计算机系教授郑纬民及多位AI圈人士在与新浪科技沟通中,指出了DeepSeek其成功出圈的关键所在。

在郑纬民看来,DeepSeek通过自研的MLA架构和DeepSeekMOE架构,为其自身的模型训练成本下降,起到了关键作用。他指出,“MLA主要通过改造注意力算子压缩了KVCache大小,实现了在同样容量下可以存储更多的KVCache,该架构和DeepSeek-V3模型中FFN层的改造相配合,打造了目前公开最大的稀疏MoE层,这成为DeepSeek训练成本低最关键的原因。”

对此,你怎么看?(新浪科技)

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://jinnalai.com/jiaodian/726278.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息