Sora已死,谷歌当立

2026-05-17 10:25:16 · chineseheadlinenews.com · 来源: 新智元

无论最终叫Veo 4还是Gemini Omni,这次泄露已足够震撼:AI视频不再是短视频工具,而是拥有导演思维的叙事生产力。谷歌I/O当天,答案即将揭晓,而整个行业,都将重新洗牌。

谷歌I/O大会开幕在即,Veo4 提前曝光!

此前,教授黑板推公式,逼真视频刷屏全网——

现在,网友猜测Veo 4/Omni可以生成完整的多角度场景,在保持连贯性的同时流畅切换透视。

它还升级了原生音频同步功能,支持对话、环境音和音乐。

视频片段最长可达9秒,分辨率为720p。

部分泄露示例中仍存在连贯性问题,但完全同步的多机位场景看起来确实令人印象深刻。

这次关于Veo 4(或Gemini Omni) 的泄露,绝不仅仅是参数的微调.

它更像是一场必于“叙事权”的底层革命。

当AI开始学会从多个角度审视同一个瞬间,它实际上已经从“画匠”进化成了拥有空间逻辑的“导演”。

曝料人Pankaj Kumar甚至推测,谷歌应该轻松直出15秒视频,但缺算力。所以,谷歌要聚焦于效率问题。

但要注意,目前只有Kumar一个人的转述,是Veo4还是Gemini Omni,静待谷歌I/O揭晓。

AI视频学会了“切镜头”

为什么“多机位”这件事会让人炸毛?

回到一年前。

Sora横空出世那会儿,所有人惊叹的是“AI能拍60秒电影了”。

但你仔细看就会发现一个问题:那60秒里,镜头是不动的,或者说,是连续的。

机位在场景里平滑滑动、推拉摇移,但没有“切”。

Runway Gen-4等所有同行产品都一样,生成出来的视频本质上是“一个长镜头”,哪怕镜头在动,也是同一台摄影机的连续位移。

为什么不能切?

因为对AI来说,“切镜头”意味着同一场景、同一组人物、在同一时刻、从完全不同的视角再生成一次,而且要保证服装颜色、桌上的杯子位置、人物表情连贯。

这是物理一致性、空间一致性、时间一致性三重压力叠加,业界一年来都在硬碰硬地啃,没人真做出来。

传统影视行业的从业者会告诉你,这件事在剧组里叫“机位调度”,是导演的工作,而非单纯摄影。

摄影师管“这个画面好不好看”,导演管“这场戏怎么切才看得懂、看得爽”。

多机位的本质,是把场景拆成“叙事”。

Pankaj Kumar的爆料如果属实,那Veo 4把这件事从“导演”压进了“模型权重”。

换句话说,你不再是“让AI拍一个镜头”,而是“让AI拍一场戏”。

这是个量级跃迁。

过去, AI视频是“短视频素材生产工具”,可以做点开头转场、做点背景画面。

这次,AI终于升级成“叙事生产工具”。

当然,前提是泄露属实、I/O当天演示真的能跑通。

同步音频补齐了最后一块拼图

爆料里第二个被反复提到的点,是音频。

具体说法是:Veo 4 原生生成同步对话、环境音,甚至会根据画面情境自动配背景音乐。

Veo 3已能做原生音频了,这不是Veo 4的新发明。

去年,5月Veo 3发布时,谷歌宣传的最大亮点之一就是“native audio”:视频里的脚步声、对话声、环境噪音都跟画面一起在模型里生成出来,不用后期对齐。

这一招把Veo 3从同行里拔了出来。

但有两个东西Veo 3没做好。

一是音质本身。

5月11日那波早期用户实测时,Reddit期待拉满了,反馈积极,但具体到什么程度不知道,但应该比Veo 3那种“AI配音感”再前进了一步。

二是背景音乐。

Veo 3主要做环境音和对话,情境化的配乐基本不在它的活儿范围。

Kumar这条爆料明确点出“contextual background music generated natively”,如果真的成了,意味着AI视频从此自带BGM。

把多机位和原生BGM放一起看,你就能感觉到谷歌这盘棋的轮廓:它不在拼“谁的画面更细腻”、不在拼“谁的物理更逼真”。

它在拼“谁能直接出一条成片”。

镜头会切,声音对得上,BGM自带。剩下的,差一个剧本。

Sora已死,谷歌选这个时间点摊牌

Veo 4泄露的时间点,精准卡在 Sora 倒下的废墟之上。

4月26日,OpenAI的Sora App正式停服。

回过头看 Sora 的死因,是一部完整的商业悲剧。

烧钱。Sora推理成本据称每天100万到1500万美元,比文本和图像生成贵了不止一个量级,整个生命周期没把单位成本压下来。

留不住人。峰值100万MAU,停服前跌破50万,30天留存不到8%。

不赚钱。整个生命周期App内收入约210万美元,连一天的算力费都覆盖不了。

3月24日,Sora官方账号发出告别——“We're saying goodbye to the Sora app”。

API将在9月24日彻底关闭。

商业上的差距已经摆在数据里。技术上的代差,这次泄露算是把帐挑明了。

OpenAI倒下的位置上,谷歌选了一个非常贴脸的时间点踩上去。

I/O当天,谷歌还会亮哪些牌

Omni只是这场泄露的一角。

同一波泄露中,谷歌即将推出的多款 Gemini 模型被意外推送到了生产环境 API——Gemini 3Flash、3.1全系列(Pro、Flash Image、Lite、TTS),以及专注于高保真音频生成的Lyria 3 Pro。

最重磅的一句话藏在内部文档里——“Omni模型将针对所有核心模型推出专门的Agent版本。”

意思很直白。

谷歌要把视频生成、音频生成、Agent框架一起摆上I/O的台面。

一年前,Pichai说要把Gemini“装进每一个谷歌产品里”.

这一次,他大概会让大家亲眼看见这句话兑现的样子。


    24小时新闻排行榜更多>>
  1. 华为正式发表半导体领域新定律
  2. 广西男子持刀连捅数警 知情者曝至少3人死亡
  3. 中共清退30余万执法者 分析:转移财政压力
  4. 白宫发言人爆气!怒呛蓬佩奥“一无所知、闭嘴”
  5. 有客户三天定下过亿豪宅,内地买家挤爆香港楼市
  6. 卖一辆亏几万,豪车经销商转卖新势力,却惹怒了车企
  7. 抚顺文旅靠强制撑场 分析:提升不了消费力
  8. 炒过美股的人,还回得去A股吗?
  9. 摩根大通:大消费将成AI和机器人的“提款机”
  10. 川普宣称协议“基本谈成”,日经255大涨
  11. 不用一滴水 美企开发出“声波灭火”新技术
  12. 中共海警船逼近东沙群岛 与台湾海巡对峙
  13. 袁立发布病榻上的5分钟语音
  14. 台外长:乐见川赖通话 我方已做好准备
  15. 汽车卖不动、家电滞销 大陆人为何捂紧钱包?
  16. 从亿万富豪再到烂片女王,她到底图啥?
  17. 山西矿难家属:政府什么都不说 得自己去打听
  18. 三次改名一生漂泊,忆秦娥从未做自己
  19. 若想控制血压,这3种汤要少喝
  20. “暗面”之下:山西沁源矿难调查
  21. 煤矿一炸 恐重击中国用电 山西矿难冲击浮现
  22. 强省会之争:吸血还是辐射?
  23. 与吴越分手,陈建斌娶蒋勤勤生2子
  24. 波兰士兵冒死进纳粹集中营 将暴行公诸于世
  25. 6.4万人研究证实:运动是延缓衰老“良药”
  26. 护士求职吃香,一周就拿到面试
  27. 银河系多数岩质行星构造或和地球完全不同
  28. 美移民新政下 这六类人或能留在境内拿绿卡
  29. 高盛:宏观空头头寸处于10年高位
  30. 兵工大佬落马 中科院院士被跨省带走 前博士爆剽窃乱象
  31. 男性有没有衰老,“下半身”会说实话
  32. 真人真事告诉你 誓言立下不可背
  33. 美银示警:“厄运之门”快打开了 全球市场恐迎巨震
  34. 中美经济新局范式下,股比债好
  35. 媒体:习近平在川习会批高市早苗,遭川普反驳
  36. 巴基斯坦火车遭自杀式攻击 至少24死70伤
  37. 山西矿难死亡人数从90变82 体制黑幕引关注
  38. 纽约时报:川普向中国示好引发印度担忧
  39. 女星否认有半亿身家,和老公还在还房贷
  40. 绿卡新规“须先离境返国办理” 科技界担忧人才流失
  41. 伦敦附近飙摄氏33.5度
  42. AI金融的“静默革命”
  43. 全球“吃货”表演大赏:从表情包看中韩日食文化?
  44. 伊朗最危险的时刻,可能真的来了
  45. 穿一次性拖鞋滑倒受伤,男子向酒店索赔20万
  46. 德国迷奸案,终归是上热搜了
  47. 伊朗领袖绝密神隐,高官也不知他在哪
  48. 你吃的“咸味”食物,可能比可乐还甜
  49. 两大误判 让中共看错了“修昔底德陷阱”
  50. 对手都在关店,沃尔玛为什么还能打?
  51. 礼来RETA成史上最强“减肥神药”
  52. 中共保密局罕见曝光航天系统泄密案
  53. 前有麦加朝圣 后有世界杯 川普的战争只能权宜结束
  54. 王健林,又背上超30亿债务
  55. 古巴深陷经济危机 中国援助万吨大米 美国加大施压
  56. 二三线城市人口流入减少 中共推新政的背后
  57. SpaceX等三巨头扎堆IPO,市场能接住这"冲击波"?
  58. 习近平为武契奇举行颁授仪式
  59. 存在不到10年,却影响中国1000年
  60. 世界杯期间 纽约市数百家餐饮推26元特价套餐