DeepSeek V4迷宫导航准确率66.9%：如何破解多模态指代鸿沟-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4迷宫导航准确率66.9%：如何破解多模态指代鸿沟

DeepSeek V4迷宫导航准确率66.9%：如何破解多模态指代鸿沟

来源：科技棱镜

2026-05-02 09:17:24

管理

给一张密集的人群照片，问 GPT-5.4 “图里有多少人”，它很可能数错。给 Claude Sonnet 4.6 一张复杂迷宫图，问“从起点到终点有没有路”，它的回答正确率接近 50%——和随机猜硬币差不多。

这不是模型“看不清”的问题。它们能识别出图片里的每个元素，但一旦开始用语言“思考”，逻辑就崩了。你说“左边那个红色的”，在拥挤的场景里，这个“红色的”到底指哪一个？模型的注意力在推理过程中像没拴住的船，慢慢漂移，最后得出错误结论。

DeepSeek 把这个问题命名为 “指代鸿沟”（Reference Gap），并在 V4 的多模态模型中，给出了一套像外科手术般精准的解决方案。

问题出在“指”，不在“看”

业界之前的思路，是让模型“看得更清”：提高图片分辨率、动态切割分块。这解决的是“感知鸿沟”（Perception Gap）——确保模型能看见细节。

但 DeepSeek 的论文指出，看见和能说清楚在说哪个，是两件完全不同的事。这就像你向一个看不见你屏幕的朋友描述复杂的棋盘布局，你说“左边那个棋子要吃掉中间偏右那个”，对方根本无从下手。

自然语言天生模糊，而视觉空间要求精确。当模型只能用“左边那个大的”、“靠近中央的红色物体”来构建思维链时，在密集场景中必然导致指代混淆和逻辑崩塌。此前的主流模型，都困在这个死胡同里。

把“图钉”变成思维的基本单位

DeepSeek V4 的解法，简单说就是：让模型“边想边指”。

它不再只用文字思考，而是把点坐标和边界框这些视觉基元，变成了思维链的基本单位，像文字一样穿插在推理过程中。例如，它的思考过程会这样呈现：

找到一只熊[452,23,804,411]，正在爬树，排除，再往左下看，找到另一只[50,447,647,771]，站在岩石边缘，符合条件。

这里的坐标，不再是事后标注的答案，而是推理过程中消除歧义的空间锚点。每提到一个对象，就用一个“图钉”（坐标或框）把它钉死在图像的物理位置上，彻底杜绝了注意力漂移的可能。

边界框用于需要精确定位和尺寸的对象（比如计数、比较大小）。点坐标用于追踪路径、迷宫导航这类需要连续空间描述的任务。

这套机制的训练逻辑也很“外科”：团队先分别训练边界框和点坐标两个“专科医生”（专家模型），再用强化学习优化，最后通过在线策略蒸馏合并成一个“全科医生”，确保模型原生掌握精确指代的能力。

效率秘诀：只保留“破案”的关键线索

让模型每一步思考都带坐标，听起来计算量会爆炸。但 DeepSeek 通过一项名为压缩稀疏注意力（CSA）的机制，实现了极致的效率。

你可以把它理解为一个侦探办案的流程：

压缩：面对海量监控录像（视觉信息），先快速把每4个连续时间段的画面合并成1个摘要片段（压缩KV条目）。筛选：通过一个“闪电索引器”，瞬间挑出与当前线索最相关的几个摘要片段。聚焦计算：侦探（模型）只仔细观看这几个精选片段，而不是从头到尾看完所有录像。

通过这套流程，一张756×756的图片，最终在模型记忆中仅保留81个视觉KV条目。相比之下，处理同样一张图：

Claude Sonnet 4.6 需要约 870个 tokenGemini-3-Flash 需要约 1100个 token

这意味着 DeepSeek V4 实现了 7056倍的视觉压缩比。模型思考的每一步都前所未有地“轻量”，无需在记忆的汪洋里反复打捞被稀释的视觉信息。

实际效果：从“掷硬币”到“真会走”

在需要精确指代的任务上，这种“双轨思维”模式带来了质变。

最典型的例子是迷宫导航。任务很简单：给一张迷宫图，判断从起点到终点是否有路，有则画出路径。

其他主流模型（GPT-5.4、Claude、Gemini等）的准确率在 48.9% 到 50.6% 之间——几乎就是在随机猜（50%）。DeepSeek V4 的准确率达到 66.9%。它不是靠猜，而是像人一样，用点坐标记录探索路径，遇到死胡同就回溯，一步步走出来的。

在复杂场景计数（Pixmo-Count）任务中，其精确匹配得分为 89.2%，超过了 Gemini-3-Flash（88.2%），更大幅领先 GPT-5.4（76.6%）。

总结：一次范式的精准转向

所以，DeepSeek V4 破解多模态指代鸿沟，靠的不是在“看得更清”的老路上堆料，而是完成了一次精准的范式转向：

诊断核心：指出问题的根源是“指代”而非“感知”。手术方案：将视觉基元（点、框）作为思维的基本单位植入推理链，实现“边想边指”，用空间坐标锚定逻辑。支撑系统：通过压缩稀疏注意力（CSA）实现高达7056倍的视觉信息压缩，让这种精细操作在成本上变得可行。

其结果，是让AI在多模态推理时，终于能像人一样，一边用语言分析，一边用手指着图说：“看，我说的是这里。” 这不仅是技术的进步，更是对智能如何理解世界的一次深刻重构。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4发布即适配8款国产芯片，为什么这次这么快？

1小时前

DeepSeek V4悄悄上了，用过之后我把GPT降级了

1小时前