1. 主页 > 社会焦点

Gemini Omni 炸场:谷歌端出视频版 Nano Banana


如果说过去两年的 AI 竞赛是「你追我赶」,那么 2026 年的谷歌 I/O 更像是一次「清仓式」的火力倾泻。Sundar Pichai 和 Demis Hassabis 同台站定,把 DeepMind 攒了半年的弹药一口气全部打了出来 —— 没有铺垫,没有循序渐进,直接上重锤。

而这一晚真正的主角只有一个名字:Gemini Omni。一个真正「全能」的大模型,可以接收任意形式的输入,生成任意内容,并且首发就支持视频输出。用谷歌人自己的话说,它就是「视频版的 Nano Banana」。

下面我把 Omni 这条主线讲透,再顺带把同晚发布的 3.5 Flash、Antigravity 2.0、Spark 串起来 —— 你会发现它们其实是同一盘棋。


一、Gemini Omni:从「像」到「懂」的那一步,跨得太大了

往年的生成式模型,强项在于「拟真」—— 画面看起来逼真就算赢。Gemini Omni 想解决的是另一个量级的问题:让模型真正理解它在生成什么

Hassabis 亲自登台宣布:「我们正迈出下一个重要的一步 ——Gemini Omni,这是一个可从任何输入创建内容的全新模型。」谷歌 AI Studio 负责人 Logan Kilpatrick 的那句注解,可能是今晚传播最广的一句话:

Introducing Gemini Omni …… Omni is our new model that can create anything from any input — starting with video (think Nano Banana but for video).

拆开看,Omni 把三件事同时拉满了:

  • 世界理解:不再是把像素拼得好看,而是把「重力」「动能」这些物理概念真正算对。以往系统模拟物理时经常翻车,Omni 实现了一次「阶跃式」的跃迁。
  • 任意模态输入:图片、文字、音频、视频可以任意组合喂进去,输出一段连贯的高质量视频。它是首个把「视频输出」做成首发能力的大模型。
  • 对话式编辑:生成不是一锤子买卖,你可以接着聊 ——「把小提琴手传送到雪山草地」「镜头切到肩膀后方」,主体一致、物理逻辑成立、场景记忆连贯。

它不是在拼贴素材,是真的在「理解」

最「细思极恐」的演示是字母配物:C 是水豚(Capybara)、D 是迪斯科球、L 是熔岩灯。这件事的难点不在画图,而在语义联结 —— 模型得真的把语言、图像和概念绑在一起,而不是检索素材库做拼贴。

再比如一句 prompt「用粘土动画解释蛋白质折叠」,生成的视频里氨基酸链折叠成 α 螺旋和 β 折叠的每一步都科学准确,视觉上还是精致的定格动画。这已经不是渲染引擎的活儿了,是理解。

一句话重写画面,一句话改变世界

在台上,Hassabis 掏出一段自拍视频开始现场魔改:手掌上随手画的圈变成了黑洞,傍晚散步的街道变成了赛博朋克场景。任何东西都可以成为创造全新现实的画布。

更关键的是输入的灵活性与输出的连贯性。从一段原始演奏画面开始,第二轮「把小提琴手传送到这张雪山草地的参考图里」,场景瞬间切换、光影全部适配;第三轮「镜头切到肩膀后方」,视角旋转但演奏动作和音乐完全连续。不论场景如何变幻,画面主体都不会崩坏。

你甚至可以创建自己的 Avatar,让 AI 版的你出现在任何场景中,说你的声音、做你没做过的事。

一个值得开发者警惕的点:当模型可以从零生成「AI 版的你」,内容真实性的验证成本会陡增。目前 Omni Flash 已正式上线,API 版未来几周开放,更强的 Omni Pro 也在路上;并且首发就接入了 Gemini App、Google Flow 和 YouTube Shorts(Shorts 用户甚至免费用)。这意味着合成视频的产能即将指数级释放 —— 水印与溯源机制,会比模型本身更值得关注。


二、Gemini 3.5 Flash:用「Flash」干翻三个月前的「Pro」

如果说 Omni 是面向 C 端创作者的炸弹,那么 Gemini 3.5 Flash 才是砸向开发者的那一颗。

谷歌给它的定义直白得有点狂:迄今最强的编码与智能体模型。最扎心的一句来自 Pichai 本人 ——「3.5 Flash 在几乎所有基准测试中全面胜出 Gemini 3.1 Pro」。要知道 3.1 Pro 是谷歌三个月前才推出的旗舰,现在一个 Flash 级别(更便宜、更快的那一档)的模型就把它碾过去了。

基准测试

能力维度

3.5 Flash 成绩

Terminal-Bench 2.1

编码

76.2%

GDPval-AA

真实世界 Agent 任务

1656 Elo

MCP Atlas

大规模工具使用

83.6%

CharXiv Reasoning

多模态理解

84.2%

更离谱的是速度:289 tokens / 秒,独占一个性能象限,比其他前沿模型快 4 倍还多。在部分基准上,它甚至追平乃至压过了 GPT-5.5 和 Claude Opus 4.7。

现场那个「一瞬间消化天书般学术论文,并写出带完整交互的可视化网站」的演示,本质上就是在秀长上下文理解 + 一次成型的代码生成。对做 AI 编程工具的人来说,速度从来不只是体验问题 —— 当单位时间能跑的 token 翻 4 倍,Agent 的多步循环、自我反思、回滚重试这些「烧 token」的策略,才真正变得经济可行。

我的判断:3.5 Flash 的意义不在于某个榜单第一,而在于它把「旗舰级智能」拉到了「Flash 级成本与速度」。下个月还要发布更强的 3.5 Pro,节奏快得有些不讲道理。


三、Antigravity 2.0:93 个 Agent,12 小时,从零造出一个操作系统

3.5 Flash 的能力,几乎全靠全新的 Antigravity 2.0 才得以释放。这次它从一个 IDE 进化成了独立桌面应用,彻底转向 Agent-first 设计 —— 主角不再是「人写代码」,而是「编排一群 Agent」。

最让全场屏息的 Demo:让 Antigravity 搭载 3.5 Flash,从零构建一个操作系统

  • 93 个子 Agent 并行工作
  • 发起超过 15000 次模型请求,处理 26 亿个 token
  • 12 小时后,空白项目变成功能完整的 OS 内核:调度程序、内存管理、文件系统一应俱全
  • 每一行代码都是 Agent 写、Agent 测、Agent 审计,API 费用不到 1000 美元

收尾还有个名场面:在这个 AI 写出来的操作系统上跑 DOOM,第一次因为缺视频和键盘驱动失败了,工程师当场敲一句修复指令,Agent 自动补齐驱动代码,DOOM 画面随即点亮,全场沸腾。

Antigravity 2.0 的核心升级,本质都是为「让 Agent 群体长时间自治」服务的:

  • 动态子 Agent:主 Agent 把任务拆解后分发,子 Agent 互不干扰地并行跑;
  • 异步任务管理:长耗时操作不再阻塞主线程;
  • Scheduled Tasks(定时任务):让 Agent 自动执行周期性工作,比如每天检查一次 PR、每小时跑一次健康检查;
  • 新的斜杠命令:/goal 让 Agent 一口气跑到底,/grill-me 反过来逼 Agent 先把需求问清楚再动手,/browser 显式控制浏览器使用。

一个侧面数据很能说明趋势:谷歌内部用 Antigravity 处理 token 的速度,3 月份还是每天 5000 亿,现在已经狂飙到每天 3 万亿 —— 半年 6 倍。

给团队的提醒:/grill-me 这种「让 Agent 先澄清需求」的命令,恰恰暴露了当前 Agent 落地最大的瓶颈 —— 不是模型不够聪明,而是人类把需求说清楚的成本太高。盲目把模糊需求丢给 Agent 群,烧的钱可能远不止 1000 美元。


四、Gemini Spark:合上笔记本,它还在替你干活

第三件大杀器是 Gemini Spark,定位非常直接:你的个人 AI Agent,即使合上笔记本电脑也不停歇。它跑在云端专用虚拟机上,7×24 小时在线,由 Gemini 3.5 + Antigravity 框架驱动,深度整合谷歌办公全家桶。

两个演示场景把「个人管家」讲透了:

工作场景:一句「帮我起草一封给团队的邮件,汇总过去一周关于 Gemini Live 发布的所有信息」,Spark 自动跨 Gmail、Docs、聊天记录抓取信息,还调用了演示者自己写的一个 ghostwriter 技能,让邮件自动匹配他的个人语气。整个过程在后台完成,人类只负责审核和发送。

生活场景:规划一场街区派对。Spark 自动建了一张 Google Sheets 的 RSVP 追踪表,直连 Gmail,谁回复了自动更新;给没报名的邻居自动起草催促邮件;最后还做了一份 Google Slides 宣传 deck,连「街区里要放充气城堡」都写了进去 —— 全程没打开任何一个 App。

值得单独点出的是自定义技能(skills)和语音多任务:Spark 支持你给它装技能,让它学会你的口吻、偏好和工作方式;语音输入时,它能把一段连续的语音自动拆成多个独立任务线程并行执行。

定价上,AI Ultra 订阅每月 100 美元即可用 Spark Beta;最高档 Ultra 计划从 250 美元下调到 200 美元。Spark 下周率先对美国 AI Ultra 用户开放 Beta。

注意一个范式变化:Gemini App 这次改版(代号 Neural Expressive)改为按算力计费。当 AI 替你 7×24 小时干活,你买的不再是「调用次数」,而是「算力时长」—— 这对所有做 AI 应用的人都是定价模型上的信号。


五、把这些拼在一起看:谷歌撕开了 ASI 的入口

单看每个产品,都只是「又一次升级」。但把它们叠在同一晚,后背会有点发凉:

  • Omni 把一句话变成一个会动的世界,不需要人类提供任何素材;
  • 93 个 Agent 从零造出操作系统,不需要人类写一行代码;
  • Spark 7×24 小时替你工作,不需要人类打开一个 App。

三件事的共同点是:人类正在被移出回路。当 AI 不再需要人类「喂料」,而是自己理解、自己决策、自己执行、自己迭代,这条路的终点有个名字 ——ASI(超级智能)。半年前我们还在争论 AGI 是不是泡沫,半年后谷歌已经在用 Agent 写操作系统了。这个行业的加速度,已经超出了人类直觉能感知的范围。


想看完整现场演示?

本文的动图只是截取片段,几个关键能力的完整演示与官方说明可以从这里看起:

  • 谷歌 I/O 2026 主题演讲回放:https://youtu.be/wYSncx9zLIU
  • Gemini 3.5 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/
  • Gemini Omni 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/
  • Antigravity 2.0 介绍:https://antigravity.google/blog/introducing-google-antigravity-2-0

这场发布会,开发者该带走什么?

  1. 生成的边界被重画。Omni 让「一句话直出可编辑视频」成为现实,多模态不再是「看图说话」,而是「理解世界并重建世界」。内容生产链路即将被重塑,溯源与水印成为刚需。
  2. 成本结构在重写。Flash 级速度 + 旗舰级智能,意味着「让多个 Agent 并行试错」从奢侈品变成日常工具。重新审视你那些「因为太烧 token 而不敢做」的方案。
  3. 自治不等于放养。93 个 Agent 造 OS 的前提是任务清晰、可测、可审计。上 Agent 群之前,先想清楚「怎么验证它做对了」,否则烧的不只是 token,还有信任。

谷歌这一晚确实把节奏推到了新高度。但热闹之外,真正能把这些能力落到生产环境、变成稳定交付的团队,才是这波浪潮里活下来的人。


本文为 JeecgBoot AI 专题研究系列文章。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://jinnalai.com/jiaodian/830524.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息