给一张密集的人群照片,问 GPT-5.4 “图里有多少人”,它很可能数错。给 Claude Sonnet 4.6 一张复杂迷宫图,问“从起点到终点有没有路”,它的回答正确率接近 50%——和随机猜硬币差不多。

这不是模型“看不清”的问题。它们能识别出图片里的每个元素,但一旦开始用语言“思考”,逻辑就崩了。你说“左边那个红色的”,在拥挤的场景里,这个“红色的”到底指哪一个?模型的注意力在推理过程中像没拴住的船,慢慢漂移,最后得出错误结论。
DeepSeek 把这个问题命名为 “指代鸿沟”(Reference Gap),并在 V4 的多模态模型中,给出了一套像外科手术般精准的解决方案。
问题出在“指”,不在“看”业界之前的思路,是让模型“看得更清”:提高图片分辨率、动态切割分块。这解决的是“感知鸿沟”(Perception Gap)——确保模型能看见细节。
但 DeepSeek 的论文指出,看见和能说清楚在说哪个,是两件完全不同的事。这就像你向一个看不见你屏幕的朋友描述复杂的棋盘布局,你说“左边那个棋子要吃掉中间偏右那个”,对方根本无从下手。
自然语言天生模糊,而视觉空间要求精确。当模型只能用“左边那个大的”、“靠近中央的红色物体”来构建思维链时,在密集场景中必然导致指代混淆和逻辑崩塌。此前的主流模型,都困在这个死胡同里。
把“图钉”变成思维的基本单位DeepSeek V4 的解法,简单说就是:让模型“边想边指”。
它不再只用文字思考,而是把点坐标和边界框这些视觉基元,变成了思维链的基本单位,像文字一样穿插在推理过程中。例如,它的思考过程会这样呈现:
找到一只熊[452,23,804,411],正在爬树,排除,再往左下看,找到另一只[50,447,647,771],站在岩石边缘,符合条件。
这里的坐标,不再是事后标注的答案,而是推理过程中消除歧义的空间锚点。每提到一个对象,就用一个“图钉”(坐标或框)把它钉死在图像的物理位置上,彻底杜绝了注意力漂移的可能。
边界框用于需要精确定位和尺寸的对象(比如计数、比较大小)。点坐标用于追踪路径、迷宫导航这类需要连续空间描述的任务。这套机制的训练逻辑也很“外科”:团队先分别训练边界框和点坐标两个“专科医生”(专家模型),再用强化学习优化,最后通过在线策略蒸馏合并成一个“全科医生”,确保模型原生掌握精确指代的能力。
效率秘诀:只保留“破案”的关键线索让模型每一步思考都带坐标,听起来计算量会爆炸。但 DeepSeek 通过一项名为压缩稀疏注意力(CSA) 的机制,实现了极致的效率。
你可以把它理解为一个侦探办案的流程:
压缩:面对海量监控录像(视觉信息),先快速把每4个连续时间段的画面合并成1个摘要片段(压缩KV条目)。筛选:通过一个“闪电索引器”,瞬间挑出与当前线索最相关的几个摘要片段。聚焦计算:侦探(模型)只仔细观看这几个精选片段,而不是从头到尾看完所有录像。通过这套流程,一张756×756的图片,最终在模型记忆中仅保留81个视觉KV条目。相比之下,处理同样一张图:
Claude Sonnet 4.6 需要约 870个 tokenGemini-3-Flash 需要约 1100个 token这意味着 DeepSeek V4 实现了 7056倍的视觉压缩比。模型思考的每一步都前所未有地“轻量”,无需在记忆的汪洋里反复打捞被稀释的视觉信息。
实际效果:从“掷硬币”到“真会走”在需要精确指代的任务上,这种“双轨思维”模式带来了质变。
最典型的例子是迷宫导航。任务很简单:给一张迷宫图,判断从起点到终点是否有路,有则画出路径。
其他主流模型(GPT-5.4、Claude、Gemini等)的准确率在 48.9% 到 50.6% 之间——几乎就是在随机猜(50%)。DeepSeek V4 的准确率达到 66.9%。它不是靠猜,而是像人一样,用点坐标记录探索路径,遇到死胡同就回溯,一步步走出来的。在复杂场景计数(Pixmo-Count)任务中,其精确匹配得分为 89.2%,超过了 Gemini-3-Flash(88.2%),更大幅领先 GPT-5.4(76.6%)。
总结:一次范式的精准转向所以,DeepSeek V4 破解多模态指代鸿沟,靠的不是在“看得更清”的老路上堆料,而是完成了一次精准的范式转向:
诊断核心:指出问题的根源是“指代”而非“感知”。手术方案:将视觉基元(点、框)作为思维的基本单位植入推理链,实现“边想边指”,用空间坐标锚定逻辑。支撑系统:通过压缩稀疏注意力(CSA)实现高达7056倍的视觉信息压缩,让这种精细操作在成本上变得可行。其结果,是让AI在多模态推理时,终于能像人一样,一边用语言分析,一边用手指着图说:“看,我说的是这里。” 这不仅是技术的进步,更是对智能如何理解世界的一次深刻重构。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106250