2025年2月18日,全球AI圈上演了一场戏剧性对决。
马斯克高调发布号称“地球最聪明AI”的Grok-3,却在短短1小时内被中国团队DeepSeek用一篇技术论文“贴脸开大”——后者发布的原生稀疏注意力(NSA)架构,直击大模型行业痛点,彻底改写长文本处理规则!
Grok-3:高调登场,发布就翻车
马斯克在直播中宣称,Grok-3的推理能力比前代提升“一个数量级”,甚至能“理解宇宙本质”。然而,这场耗资巨大的发布会却因技术细节模糊引发质疑。现场演示用Pygame开发俄罗斯方块与宝石迷阵融合游戏时,Grok-3多次思考未果,最终界面卡在"Thinking"状态,需人工多次重试才勉强完成。甚至
有博主用嘲讽语气提问:你很牛么?它回答:谢谢!我是Grok 2!令人哭笑不得!
DeepSeek NSA:中国技术甩出王炸!
就在Grok-3发布会结束的同一小时,DeepSeek团队突然甩出论文,宣布NSA技术实现三大突破:速度碾压、成本革命、精准平衡。
传统大模型的注意力机制存在“算力黑洞”——随着文本长度增加,计算复杂度呈平方级暴增。NSA通过智能筛选关键信息,让模型像人类一样“选择性聚焦”,仅对5%-10%的Token进行深度计算,彻底打破算力枷锁。
马斯克的Grok-3虽赚足眼球,但DeepSeek的NSA论文已让行业看到更清晰的未来——与其追逐参数竞赛,不如用底层架构创新解决真实痛点。
这场“中美AI对决”的背后,或许正预示着中国引领AI时代的到来。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://jinnalai.com/jiaodian/731131.html