> 自媒体 > (AI)人工智能 > Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
Qwen负责人转发2025宝藏论文,年底重读「视觉领域GPT时刻」
来源:量子位
2026-04-30 21:08:21
56
管理

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

2025最后几天,是时候来看点年度宝藏论文了。

比如,阿里最年轻P10、Qwen大模型技术负责人林俊旸最新转发了一篇名为《Video models are zero-shot learners and reasoners》的研究。

没错,就是谷歌DeepMind提出视频模型“思维链”CoF的那篇入选ICCV 2025的论文。

当时,这篇研究还给出了一个关键信号:视觉领域的“GPT时刻”要来了。

该研究用1.8万组实验数据证明,视频模型正在跳出任务专属的局限,走上LLM的老路——

用一个模型,通过提示,完成几乎所有的视觉任务。

并且,推理过程还能被CoF“演”出来。

从NLP到CV

自然语言处理领域的GPT时刻,核心是实现了一个模型通吃所有。

在此之前,翻译、写作、问答等任务都各自有专属的模型,而LLM的出现,靠大规模数据训练和生成式架构,让零样本学习成为可能,模型通过文字提示就能完成各种各样的任务。

但计算机视觉领域却还一直深陷于这种碎片化的困境。

比如,要做目标检测得用YOLO,做语义分割依赖SAM,图像超分要找专门模型,3D重建还得换另一套工具。

这些针对不同任务的模型架构差异很大,不仅开发成本高,还严重限制了视觉AI的泛化能力,导致视觉AI的进步一直是单点突破。

比如这个模型在分割任务上刷新SOTA,另一个模型在检测任务上实现提速,却始终没能解决“多任务统一”的问题。

而这篇论文详解了谷歌DeepMind借鉴LLM的成功路径,让Veo 3成为了一个“视觉通才”。

通过大规模视频与文本数据的生成式训练,打通了视觉感知与语言理解的壁垒,让模型具备了跨任务的通用能力。

而且Veo 3完美复刻了LLM的零样本优势,面对没专门训练过的任务,只要用文字说清需求,模型就能直接输出结果,无需额外调参或数据微调。

这也正是说视觉GPT时刻到来的核心标志。

从生成视频到用视频思考

就像林俊旸提到的那样,这篇论文指出视频模型一个非常关键的变化在于——视频不再只是输出的形式,也开始体现推理的过程。

模型在生成视频的过程中,会逐步展开中间状态,这就让推理不再是完全不可见的黑箱。

论文中将这种现象称为Chain-of-Frames,也就是CoF,类似于语言模型中的CoT,只不过视频模型是通过连续生成的视频帧,把整个推理过程“演”出来。

模型在时间和空间中不断调整画面,用可见的变化替代抽象的符号推理。

因此,无论是解迷宫、做路径规划,还是进行规则外推,模型都不是一次性输出结果,而是在连续的视觉变化中逐步逼近正确解。

推理过程则被隐含地编码在视频序列之中,视频模型开始在过程中思考。

也正是这种“逐帧生成即推理”的方式,为通用性提供了基础。因为模型不再围绕某一个具体任务去算结果,转而在统一的生成过程中,不断更新对场景状态的理解。

不同任务之间的差异,不再体现在模型结构或输出形式上,而是被压缩成了“生成过程中关注什么、如何继续生成”的差别。

这种框架下,分割、检测、编辑、路径规划等原本割裂的视觉任务,可以被统一到同一套生成机制中。模型始终做的只有一件事:生成下一帧视频。

在逐帧生成过程中,它自然完成了感知、推理与决策的协同,这就不再需要为每类任务单独设计模型或系统。

论文进一步观察到,在无需针对具体任务进行专门训练、也不引入额外监督的前提下,视频模型已经能够通过不同形式的提示,在多类视觉任务中展现出一定的零样本泛化能力。

也正因为如此,Veo 3用感知、建模、操控、推理4大核心能力能搞定62种没学过的视觉任务。

现在经过a16z投资合伙人Justine Moore和林俊旸一提醒,回看这篇论文发现,视频模型在视觉领域的的突破,还真有点当年LLM颠覆NLP的味儿了……

论文地址:https://arxiv.org/abs/2509.20328参考链接:https://x.com/venturetwins/status/2005330176977293743

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Kimi团队发布K1.5:让AI像人类一样\u0026#34;边思考边学习\u0026#34;的突破..
这项由Kimi团队开展的研究发表于2025年6月3日,详细介绍了他们最新的多模..
DeepSeek对比Kimi:两个国产AI谁更适合办公?实测告诉你答案..
说实话,最近AI工具多得让人眼花缭乱。DeepSeek和Kimi,两个名字我都听过..
涉嫌违规收集个人信息 Kimi等多款AI应用被通报
5月20日,国家网络与信息安全信息通报中心发布通报,经公安部计算机信息..
阿里Qwen开源模型为什么能火?
阿里Qwen开源模型能火,是因为它用过硬的技术、开放的态度和实惠的价格,..
谁是开源大模型之王?Llama、DeepSeek还是Qwen?
“友商,你们拿什么和我比?”“友商,你们拿什么和我比?”这不是哪家公..
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA..
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI卷疯了,通义千问真的卷疯了。Qw..
成本骤降97% 实测Qwen3.5小模型 国产大模型破局?
阿里推出Qwen3.5系列三款中型开源大模型,性能媲美国际顶尖竞品,开发者..
曝京东拦截员工使用外部AI,美团内部开始限制阿里Qwen模型..
IT之家 4 月 8 日消息,据“大厂日爆”公众号消息,京东在 3 月底正式限..
奖励是假的,能让Qwen提升25%性能却是真的
即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显..
关于作者
有点醉(普通会员)
文章
1922
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106085

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索