多模态AI实测：GPT-4o看图竟垫底-工信会

> 自媒体 > （AI）人工智能 > 多模态AI实测：GPT-4o看图竟垫底

多模态AI实测：GPT-4o看图竟垫底

来源：微研AI信息差

2026-05-28 16:33:50

240

管理

上个月，我在一个项目里需要批量提取500张截图的文字。第一反应：用GPT-4o，毕竟「最强多模态模型」对吧？结果准确率只有72%。同批图片扔给Gemini 2.5 Pro，准确率91%。差距19个百分点，不是调temperature能解决的。

先说结论：GPT-4o 在多模态理解上被高估了。它在复杂推理配合图片时仍然最强，但纯视觉任务——OCR、图表提取、手写识别、UI截图理解——Gemini 2.5 Pro 全面领先。Claude 3.5 Sonnet 在特定场景（复杂表格、推理视觉）有独到之处。

六项测试，三项出人意料

我设计了6个真实场景的视觉测试：中文OCR、英文OCR、复杂表格数据提取、手写笔记识别、UI截图理解、图表推理问答。每个场景准备5个测试样本，共30个任务。不用官方benchmark——那些数据集模型早就「见过」了。用的是我真实工作里遇到的图片、截图、扫描件。

中文OCR是最让我意外的。一张有印章、水印、手写批注的中文合同扫描件，GPT-4o漏掉了40%的水印区文字，Gemini 2.5正确识别了95%以上。Claude则处于中间，准确率约83%。差距的根源不是「看不看得清」，而是训练数据——Gemini的训练数据里显然有更多中文文档场景。

GPT-4o不弱，但定位被误解了

仔细看数据会发现一个有趣的模式：GPT-4o在「图表推理」这项拿了90%最高分，但在纯OCR和UI截图理解上垫底。这说明GPT-4o的视觉能力是「服务推理」的——它能看懂图，但重点是看懂后做什么。而Gemini 2.5和Claude 3.5的视觉能力更偏「服务感知」——精确提取、忠实复现。

举个例子：一张财务报表的截图。Gemini 2.5能精确提取每个单元格的数字，格式保持完美。GPT-4o会把数字大致提取出来，但偶尔漏掉边角数据——不过如果你接着问「这张表反映的经营趋势是什么」，GPT-4o的分析深度反而更胜一筹。

第二个出人意料的发现是速度。Gemini 2.5处理一张图片的平均响应时间只有1.2秒，GPT-4o需要2.8秒，Claude 3.5约2.1秒。如果你在做批量处理，这个差距会被放大。500张截图，Gemini跑完只要10分钟，GPT-4o要23分钟。不是不能等，但选Gemini意味着你一天能多跑一轮迭代。

用什么，看你要什么

如果你的场景是文档数字化、OCR提取、UI自动化——用Gemini 2.5 Pro。如果你的场景是数据分析报告、带图表的复杂推理——GPT-4o仍然是最优。Claude 3.5 Sonnet在表格和英文OCR上接近Gemini水平，且推理能力不错，是综合性价比最高的选择。

最重要的是：别再默认GPT-4o看什么图都最强。多模态领域不是一家独大，每个模型有自己的视觉性格。选错了，不是贵不贵的问题——是你辛苦喂进去的500张截图，最后得返工200张。

#多模态##多模态AI#

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

办公党狂喜！国产AI集体开挂，千问通义直接对标GPT-4

1个月前

获上亿顶级美元融资，GPT-4核心贡献者姜旭，归国押注具身智能预训练新路径

1个月前