Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」-工信会

> 自媒体 > （AI）人工智能 > Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

Qwen负责人转发2025宝藏论文，年底重读「视觉领域GPT时刻」

来源：量子位

2026-04-30 21:08:21

56

管理

闻乐发自凹非寺

量子位 | 公众号 QbitAI

2025最后几天，是时候来看点年度宝藏论文了。

比如，阿里最年轻P10、Qwen大模型技术负责人林俊旸最新转发了一篇名为《Video models are zero-shot learners and reasoners》的研究。

没错，就是谷歌DeepMind提出视频模型“思维链”CoF的那篇入选ICCV 2025的论文。

当时，这篇研究还给出了一个关键信号：视觉领域的“GPT时刻”要来了。

该研究用1.8万组实验数据证明，视频模型正在跳出任务专属的局限，走上LLM的老路——

用一个模型，通过提示，完成几乎所有的视觉任务。

并且，推理过程还能被CoF“演”出来。

从NLP到CV

自然语言处理领域的GPT时刻，核心是实现了一个模型通吃所有。

在此之前，翻译、写作、问答等任务都各自有专属的模型，而LLM的出现，靠大规模数据训练和生成式架构，让零样本学习成为可能，模型通过文字提示就能完成各种各样的任务。

但计算机视觉领域却还一直深陷于这种碎片化的困境。

比如，要做目标检测得用YOLO，做语义分割依赖SAM，图像超分要找专门模型，3D重建还得换另一套工具。

这些针对不同任务的模型架构差异很大，不仅开发成本高，还严重限制了视觉AI的泛化能力，导致视觉AI的进步一直是单点突破。

比如这个模型在分割任务上刷新SOTA，另一个模型在检测任务上实现提速，却始终没能解决“多任务统一”的问题。

而这篇论文详解了谷歌DeepMind借鉴LLM的成功路径，让Veo 3成为了一个“视觉通才”。

通过大规模视频与文本数据的生成式训练，打通了视觉感知与语言理解的壁垒，让模型具备了跨任务的通用能力。

而且Veo 3完美复刻了LLM的零样本优势，面对没专门训练过的任务，只要用文字说清需求，模型就能直接输出结果，无需额外调参或数据微调。

这也正是说视觉GPT时刻到来的核心标志。

从生成视频到用视频思考

就像林俊旸提到的那样，这篇论文指出视频模型一个非常关键的变化在于——视频不再只是输出的形式，也开始体现推理的过程。

模型在生成视频的过程中，会逐步展开中间状态，这就让推理不再是完全不可见的黑箱。

论文中将这种现象称为Chain-of-Frames，也就是CoF，类似于语言模型中的CoT，只不过视频模型是通过连续生成的视频帧，把整个推理过程“演”出来。

模型在时间和空间中不断调整画面，用可见的变化替代抽象的符号推理。

因此，无论是解迷宫、做路径规划，还是进行规则外推，模型都不是一次性输出结果，而是在连续的视觉变化中逐步逼近正确解。

推理过程则被隐含地编码在视频序列之中，视频模型开始在过程中思考。

也正是这种“逐帧生成即推理”的方式，为通用性提供了基础。因为模型不再围绕某一个具体任务去算结果，转而在统一的生成过程中，不断更新对场景状态的理解。

不同任务之间的差异，不再体现在模型结构或输出形式上，而是被压缩成了“生成过程中关注什么、如何继续生成”的差别。

这种框架下，分割、检测、编辑、路径规划等原本割裂的视觉任务，可以被统一到同一套生成机制中。模型始终做的只有一件事：生成下一帧视频。

在逐帧生成过程中，它自然完成了感知、推理与决策的协同，这就不再需要为每类任务单独设计模型或系统。

论文进一步观察到，在无需针对具体任务进行专门训练、也不引入额外监督的前提下，视频模型已经能够通过不同形式的提示，在多类视觉任务中展现出一定的零样本泛化能力。

也正因为如此，Veo 3用感知、建模、操控、推理4大核心能力能搞定62种没学过的视觉任务。

现在经过a16z投资合伙人Justine Moore和林俊旸一提醒，回看这篇论文发现，视频模型在视觉领域的的突破，还真有点当年LLM颠覆NLP的味儿了……

论文地址：https://arxiv.org/abs/2509.20328参考链接：https://x.com/venturetwins/status/2005330176977293743

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA

成本骤降97% 实测Qwen3.5小模型国产大模型破局？

相关文章

Kimi团队发布K1.5：让AI像人类一样\u0026#34;边思考边学习\u0026#34;的突破..

这项由Kimi团队开展的研究发表于2025年6月3日，详细介绍了他们最新的多模..

DeepSeek对比Kimi：两个国产AI谁更适合办公？实测告诉你答案..

说实话，最近AI工具多得让人眼花缭乱。DeepSeek和Kimi，两个名字我都听过..

涉嫌违规收集个人信息 Kimi等多款AI应用被通报

5月20日，国家网络与信息安全信息通报中心发布通报，经公安部计算机信息..

阿里Qwen开源模型为什么能火？

阿里Qwen开源模型能火，是因为它用过硬的技术、开放的态度和实惠的价格，..

谁是开源大模型之王？Llama、DeepSeek还是Qwen？

“友商，你们拿什么和我比？”“友商，你们拿什么和我比？”这不是哪家公..

开源Qwen一周连刷三冠，暴击闭源模型！基础模型推理编程均SOTA..

鱼羊发自凹非寺量子位 | 公众号 QbitAI卷疯了，通义千问真的卷疯了。Qw..

成本骤降97% 实测Qwen3.5小模型国产大模型破局？

阿里推出Qwen3.5系列三款中型开源大模型，性能媲美国际顶尖竞品，开发者..

曝京东拦截员工使用外部AI，美团内部开始限制阿里Qwen模型..

IT之家 4 月 8 日消息，据“大厂日爆”公众号消息，京东在 3 月底正式限..

奖励是假的，能让Qwen提升25%性能却是真的

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显..

关于作者

有点醉(普通会员)

文章

1922

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

DeepSeek 究竟是个啥？一文带你看明白

2025/02/08

02

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

03

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

04

这怕是全网最强的 DeepSeek 图片教程吧，赶紧收藏了！

2025/02/09

05

AI 界黑马DeepSeek 超详细介绍

2025/02/09

标签云

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106085

@2022 All Rights Reserved

浙ICP备19035174号-6 技术支持：千寻网络

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索