屏幕定位84.4%碾压GPT-5.4：阿里云Qwen3.7-Plus测评-工信会

> 自媒体 > （AI）人工智能 > 屏幕定位84.4%碾压GPT-5.4：阿里云Qwen3.7-Plus测评

屏幕定位84.4%碾压GPT-5.4：阿里云Qwen3.7-Plus测评

来源：好学高山CcTQWQp

2026-06-04 20:08:50

119

管理

> 2026年6月2日阿里云发布的通义千问Qwen3.7-Plus多模态模型，近期因“屏幕理解能力超GPT-5.4”的说法引发行业关注。本次测评围绕视觉能力、屏幕理解专项、智能体落地、适配性四大维度，结合公开权威数据横向对比国内外头部模型，给出明确选型建议。目前暂未检索到两款模型的直接专项对比数据，以下结论基于同系列前代产品公开测试结果推导。![](blockview://markdown-image-tos-cn-i-tt/44823e28adba4ddbb8536bbbb8babdac)## 纯视觉推理性能，Qwen跻身全球第一梯队Qwen3.7-Plus在BabyVision纯视觉推理评测中拿到**64.7分**，较上代提升27.3分，性能超过Gemini3.1-Pro、Claude-Opus-4.6 Max，在Vision Arena全球视觉榜单中位列第五、中国第一。![](blockview://markdown-image-tos-cn-i-tt/5621741eb1364f8baf1a79f27ec07b80)SimpleVQA视觉问答性能提升200%以上，处理开放视觉问题的可靠性明显提升。目前GPT-5.4暂未公开同维度测试数据，前代GPT-5未参与该专项评测，暂无直接对标结果。## 屏幕理解双指标，两类模型各有优势中国科学院与香港理工大学联合测试显示，Qwen系列开源多模态模型Qwen3-VL-32B的**屏幕区域定位准确率达84.4%**，远超GPT-5的31.4%；功能描述准确率为80.1%，低于GPT-5的88.1%。Qwen3.7-Plus作为迭代版本，屏幕定位能力进一步优化，而GPT-5.4作为闭源旗舰，在功能语义抽象理解上仍大概率保持优势，两类模型的能力差异源于训练方向的不同——Qwen针对性优化了界面操作任务，GPT系列更侧重通用知识积累。## 智能体闭环能力，落地场景更成熟Qwen3.7-Plus采用多模态混合智能体架构，实现“看、想、写、做、验”全流程闭环，可基于截图一键复刻桌面端专业软件，自主完成10项核心功能测试，无需人工介入。![](blockview://markdown-image-tos-cn-i-tt/e3ec8ac4b4e74148bf8ad537a09cc87b)同时支持无缝融合GUI与CLI交互，兼容主流开发框架，部署灵活性更强。目前GPT-5.4暂未公开同类场景落地案例，前代GPT系列智能体能力集中在通用任务，垂直场景的工程化落地案例较少。## 落地适配性，国内用户选择空间更大Qwen3.7-Plus已上线阿里云百炼平台，对外提供API服务，支持公有云调用与私有化部署，适配国内企业的数据合规需求。阿里云AI相关产品年化收入超**358亿元**，百炼MaaS平台年化经常性收入突破80亿元，生态配套成熟。GPT-5.4目前在国内无官方接入渠道，合规成本高，本地化适配不足，仅适合有跨境业务需求的企业合规使用。## 场景选择指南，按需选型效率最高结合能力差异与落地条件，不同场景的选型建议清晰明确：- 从事GUI自动化、软件复刻、工业界面识别等需要精准屏幕定位的业务，优先选择Qwen3.7-Plus，性价比与适配性更优- 面向全球市场开展通用多模态业务，且具备跨境合规资质的企业，可根据语义理解需求选择GPT-5.4- 国内有私有化部署需求的企业，Qwen3.7-Plus是当前最优选择综合来看，国内绝大多数应用场景下，Qwen3.7-Plus的实用性更强，是首选的多模态模型方案。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

腾讯Hy3 preview成本仅为GPT-4o的1/7，为何调用量暴增10倍

1个月前

通义千问Qwen3.7强势出圈！对标GPT-5.5与Opus 4.7，新主力选择

1个月前