文 |无言
2025年一篇入选ICCV的论文在AI圈炸了锅,阿里P10林俊旸都特意转发。
这篇来自谷歌DeepMind的《Videomodelsarezero-shotlearnersandreasoners》,直接抛出重磅信号:视觉领域的“GPT时刻”要来了。
主角Veo3视频模型,没专门训练过的62种视觉任务,靠文字提示就能搞定,这操作放在以前真不敢想。
以前做视觉相关的活儿别提多麻烦了。
要检测物体得用YOLO模型,分割图像得找SAM,想给图片超分又得换另一套工具。
这些模型各立门户,架构差异大得很,开发起来又费钱又费力,泛化能力还弱。
搞视觉的朋友怕是最有体会,明明都是处理图像视频,却得在不同模型间来回切换,效率低得让人头疼。
Veo3的出现直接打破了这种僵局。
它借鉴了LLM的成功路子,用大规模视频和文本数据做生成式训练,把视觉感知和语言理解的墙给打通了。
更厉害的是它的零样本效能,面对物体分割、边缘检测、图像编辑这些没专门练过的任务,不用额外调参,也不用补充数据微调,就用文字把需求说清楚,模型直接输出结果。
本来想,这种“全能选手”会不会在某些任务上表现拉胯?但实际情况是,不管是理解物体物理属性、识别使用场景,还是模拟工具操作,它都能应对。
如此看来,视觉模型从“专才”变“通才”,还真不是空喊口号。
Veo3最让人眼前一亮的,还不是它能搞定多少任务,而是它的推理方式。
以前的视觉模型,输入数据后直接出结果,中间的思考过程跟黑箱似的,根本不知道它是怎么得出答案的。
现在不一样了,Veo3引入了Chain-of-Frames(CoF)机制,有点像语言模型的思维链,但它是用连续的视频帧把推理过程“演”出来。
比如解迷宫的时候,模型不会一次性给出路径,而是通过逐帧调整画面,一步步逼近正确答案。
这些连续的视觉变化,替代了抽象的符号推理,推理逻辑就藏在视频序列里。
这种“逐帧生成即推理”的方式太妙了。
模型不用再围着单个任务算结果,而是在统一的生成过程中,不断更新对场景的理解。
不同任务的差异,变成了生成时该关注什么、怎么继续生成的区别。
这样一来,分割、检测、路径规划这些原本不相干的任务,都能被统一到同一套生成机制里,自然不用再为每个任务单独设计模型。
Veo3的突破,让不少行业大佬都坐不住了。
阿里P10林俊旸说,视频不再只是输出形式,更开始体现推理过程。
a16z投资合伙人JustineMoore也提到,这事儿有点当年LLM颠覆NLP的味道。
毫无疑问,现在的视觉领域,正走着LLM曾经走过的路。
NLP以前也是翻译、写作、问答各有专属模型,LLM出现后,靠大规模数据训练实现了零样本通用能力,彻底改变了行业格局。
如今Veo3在视觉领域做到了类似的事情,这意味着通用视觉基础模型的时代越来越近了。
最近这段时间,Meta、OpenAI等机构也在视觉通用模型上动作频频,显然大家都嗅到了行业变革的气息。
未来,机器人视觉导航、自动驾驶场景决策、创意设计自动化这些领域,都可能因为这类模型迎来新变化。
但话说回来,挑战也真实存在。
大规模视频数据训练对计算资源的消耗不小,复杂场景下的任务精度还有提升空间,跨模态提示的精准度也得进一步优化。
并非明智之举的是,现在就过分夸大它的能力,毕竟技术落地还需要时间打磨。
Veo3的零样本效能和CoF推理机制,确实给视觉AI带来了突破性进展。
它不仅破解了多任务统一的长期难题,还让模型推理从黑箱变得可见。
视觉领域的“GPT时刻”已经有了实质性的爆发迹象,接下来就看技术如何落地,如何更好地融入生产生活。
相信随着不断优化,通用视觉AI会解锁更多创新应用,给我们的生活带来实实在在的改变。
支持作者,写作不易!如果您喜欢我的文章,可以点个“关注”,成为铁粉后能第一时间收到文章推送。