1. 主页 > 社会焦点

成本不到50!美国华裔女院士成功复刻Deepseek,性能媲美顶级模型

| 来科点谱

编辑| 来科点谱

——【·前言·】——

在今年 1 月 27 号的时候,中国自主研发的 AI 应用 DeepSeek 太牛了,在美国手机应用商店里直接冲到榜首,安装量比当时的 AI 界大佬 ChatGPT 还高。

这一事件不仅让DeepSeek的创始人梁文锋声名鹊起,更象征着中国AI力量在国际舞台上的强势崛起,一时之间,“来自东方的神秘力量”的称号不胫而走,全球为之瞩目。

就在 DeepSeek 备受全球瞩目的时候,斯坦福大学神不知鬼不觉地拿出了 S1 这个 AI 模型,成本才 50 美元,可性能却和行业顶尖模型不相上下。

这不禁让人好奇,S1 到底只是短暂地出出风头,还是会开启 AI 发展的全新方向?它会怎么影响 DeepSeek,又会给整个人工智能行业带来啥样的变化呢?

DeepSeek:中国AI黑马

DeepSeek 能火不是天上掉馅饼,而是中国人工智能厚积薄发的产物,2023 年 7 月,来自广东湛江的梁文锋创建了这款应用。

当时美国 AI 发展势头正盛,到处都在说这个事儿,可谁能想到,DeepSeek 毫无征兆地冒出来,在海外市场瞬间爆火,好多国家的人都对它爱不释手。

根据统计,24 年 1 月 25 日时,DeepSeek 在老美安装量超 160 万次,稳坐榜首,用户数量的增长速度快得让人咋舌,真可谓一骑绝尘 。

DeepSeek 能火起来,既得益于它精准把握市场机遇,也离不开技术上的创新,比如 DeepSeek-V3 版本,采用很多巧妙的优化手段,大幅降低了训练成本。

比如说,它很会 “精打细算”,只让模型里真正有用的部分工作,在保证结果不受影响的前提下,把计算精度降低,在控制成本上堪称一绝。

为了让训练效果更好,DeepSeek 下了不少功夫,它筛选数据去掉多余的,留下精华,再结合知识蒸馏技术,成功提升了训练效率,既增强了性能,又提高了效率,一举两得。

DeepSeek 发展势头这么猛,行业里的大公司都坐不住了,Meta 直接把它当成新对手,开始仔细研究它的技术和运营方法,想看看它到底有啥过人之处。

这就表明 DeepSeek 的影响力已经不只是一个普通应用那么简单了,它开始对整个 AI 产业的格局产生影响。

S1登场

DeepSeek 在全球把人工智能应用的热度炒翻天的时候,美国学术圈突然蹦出个极具竞争力的对手。

几家顶尖机构联合发力,推出名为 S1 的 AI 推理模型,值得关注的是,它在训练时借助云计算,成本控制在 50 美元以内,这在 AI 领域中十分罕见,有望改变行业格局。

此次研究由斯坦福大学计算机科学系的李飞飞教授挂帅,在 AI 行业,李飞飞教授堪称传奇人物,地位举足轻重,是大家公认的大拿,有她引领,研究成果十分值得期待。

S1 的性能堪称惊艳,在多个测试数据集中,它的表现与 DeepSeek 的 R1 模型、谷歌 Gemini 2.0 Thinking API 等行业头部模型几乎无异,展现出了强大的实力,潜力无限。

以前训练 AI 模型,用的是大规模强化学习方法,这得耗费超多的算力,数据量需求也大,成本相当高,但 S1 不走寻常路,它采用了 “蒸馏” 技术。

这个技术能从超大型的 AI 模型里,把最关键、最精华的部分提取出来,再压缩成一个小巧但能力超强的模型型,训练成本和时间都大大减少。

为了让 S1 更实用,他们特意弄出个 “预算强制” 功能,它能限定模型测试时想问题的时间,逼着模型在规定时间内把任务完成,就像考试必须在规定时间交卷一样。

这功能可不只是单纯设定个时间,它要么强制模型早点结束思考,要么下达 “等待” 指令,用这种灵活的方式控制模型推理时间,从而让效率和性能达到平衡。

S1 的成功可不只是因为它性能好、成本低,更重要的是它展示出了一种全新的 AI 模型开发方式,以前开发 AI 模型就是一场 “烧钱” 比赛,谁的计算资源多、数据多,谁就更有可能成功。

但是S1的出现打破了这种老观念,证明了就算资源有限,只要方法对,还是能训练出高性能的 AI模型,这种用很少的资源办大事的策略,不仅能省钱,还能激发更多的创新,给AI领域注入新的活力。

当然S1 现在还处于早期阶段,在处理更复杂认知任务的时候表现怎么样,还得再看看,“蒸馏” 技术在提升全新 AI 模型性能方面,长期效果到底如何,也需要持续观察。

S1 的出现可不是为了把 DeepSeek 这些模型比下去,它是一种全新的尝试,就像在美食界,别人做的是经典菜肴,S1 却开始研究新的烹饪方式,给 AI 领域带来了新的灵感和方向。

AI领军人物李飞飞

斯坦福 S1 的创造者李飞飞,可不是一般的大学教授,她在 AI 领域那可是超级重要的领军人物,李飞飞 1976 年出生在北京,她的求学经历就像一部励志传奇。

16 岁的时候,她跟着父母移民到美国,要知道到一个新国家,得克服语言和文化上的大难题,但她特别努力,最后成功考上了普林斯顿大学,后来又在加州理工学院拿到了博士学位。

李飞飞打造的 ImageNet 数据库,对 AI 产业,尤其是计算机的发展来说,那作用大得没话说,它就像给 AI 产业发展铺了块稳稳当当的大石头。

她还培养出好多 AI 领域的顶尖人才,像英伟达人工智能负责人范吉姆,还有 GPT - 4 项目里特别重要的安德鲁?卡帕西,这些都能看出她在 AI 领域有多厉害。

对于 S1 取得的成功,李飞飞有着更深层次的理解,她觉得 S1 可不是为了和 DeepSeek 这些商业 AI 应用直接对着干。

团队的目标是摸索出一种新的 AI 开发模式,让 AI 技术不再高不可攀,更多人都能参与到 AI 的研发和应用中,S1 成本低、性能又出色,完美证明了这个理念。

其实 S1 的诞生有迹可循,它借鉴了众多开源模型,还在 Qwen 的基础上做了优化,这正体现出 AI 领域大家相互合作、共同进步的理念。

S1 通过精心挑选一千条高质量的素材来训练,在资源有限的情况下,最大程度地发挥出了性能,这给 AI 模型的开发提供了新的思考方向。

这场竞争不仅仅是技术上的较量,更是人才、资金和战略的全面比拼,而AI的快速发展也带来了前所未有的挑战,其中伦理和社会问题尤为突出。

AI 技术是把双刃剑,在飞速发展的同时,也带来了安全性、公平性和可控性的挑战,更让人担忧的是,它可能引发失业潮,加剧社会不平等,这些棘手的问题,是人类必须直面和攻克的难关。

参考资料

成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了---2025-02-06 ---华尔街见闻

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://jinnalai.com/jiaodian/729248.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息