2025年10月16号这天,AI视频圈跟炸了锅似的。
谷歌突然甩出Veo3.1,距离OpenAI发布Sora2才半个月,摆明了要正面刚。
更有意思的是,当天中午OpenAI也没闲着,立马更新Sora2普通用户能生成15秒视频,专业用户直接拉到25秒。
这俩巨头跟约好打擂台似的,火药味都快飘出屏幕了。
谷歌说Veo3.1是“重大升级”,但实测下来,更像个小修小补。
最拿得出手的是音频,以前生成科幻短片,人物说话跟机器人念稿似的,现在能模拟紧张的配乐,对话也带点情绪了;还有个首尾帧功能,给两张图就能生成中间过渡视频,比如从沙漠接到雪地,AI能自己圆上逻辑。
它还联动了自家的Flow工具,这个工具到现在已经生成了2.75亿个视频,这次也加了视频延展功能,能把8秒的视频拉长到1分钟以上,对做长内容的人来说算有用。
另外上传几张参考图,AI能生成带指定角色和场景的视频,还能删掉画面里不想有的东西。
本来想这波更新能让人眼前一亮,后来发现这些功能国内早就有了。
可灵、海螺AI去年年底就有首尾帧和素材生视频功能,而且海螺AI能拉到5分钟以上,比Veo3.1还能撑。
性能提升也一般,提示词遵循、视听质量也就比Veo3好两三成,复杂画面还是会出岔子有用户生成体操视频,里面的人居然多了两根手指,物理模拟这块还是差点意思。
谷歌这波更像是“应付竞争”,没拿出真能打穿市场的新东西,惊喜感确实不够。
比到核心实力,Sora2目前还是更受待见,网友投票里,选Sora2的人明显更多,关键就赢在细节和叙事上。
它的微观写实特别顶,树叶纹理、水滴反光都看得清,光影和物理细节也更真实,比如抛个球,轨迹跟真的一样;配音也自然,不像Veo3.1偶尔还飘。
最关键的是Sora2有自动分镜,给个提示词“从远景推近到人物脸”,AI能自己切镜头,做剧情视频的时候特别省事。
Veo3.1的镜头就保守多了,只能平移或者缩放,还得手动调参数,叙事能力差了一截。
视频长度也没法比,Sora2普通用户就能搞15秒,Veo3.1最多8秒,差了快一倍。
不过Veo3.1也不是没优势,生成速度比Sora2快太多了。
Sora2要等好几分钟才能出结果,Veo3.1生成1080P的8秒视频,20秒左右就能好,赶时间出短视频的话,这个速度确实香。
另外谷歌的多模态生态更成熟,用它家的NanoBanana生成图片,直接就能导进Flow做视频,不用换工具,效率能高不少。
但价格上Veo3.1没优势,标准版0.4美元一秒,快速版0.15美元,Sora2才0.1美元一秒,Pro版也才0.3美元。
长期用下来,Sora2能省不少钱,尤其对高频用户来说,性价比差得有点多。
别光看国外巨头打架,国内的可灵、海螺AI、即梦也没掉队。
可灵今年8月出的视频3.0,能做20秒视频,物理模拟误差比Veo3.1还小,价格才0.08美元一秒,比Sora2还便宜;海螺AI专门盯电商,能做商品360度展示视频,还能自动配音,国内电商用户用它的不少;即梦则聚焦垂直领域,小而美反而更精准。
现在国内这些模型在市场上已经占了45%的份额,靠的就是性价比和适配中文场景比如支持方言配音,理解中式家庭、街头这些场景更准。
它们没跟国外巨头拼通用能力,反而在细分领域扎得深,成了赛道里不可忽视的变量。
如此看来,AI视频现在还没到“一家独大”的时候,谷歌和OpenAI还在拉锯,国内玩家也在抢地盘。
要真到GPT-3.5那种全民普及的时刻,还得等谁先解决更长视频、更少物理误差、更智能的叙事这些难题。