屏幕定位84.4%碾压GPT-5.4:阿里云Qwen3.7-Plus测评
> 2026年6月2日阿里云发布的通义千问Qwen3.7-Plus多模态模型,近期因“屏幕理解能力超GPT-5.4”的说法引发行业关注。本次测评围绕视觉能力、屏幕理解专项、智能体落地、适配性四大维度,结合公开权威数据横向对比国内外头部模型,给出明确选型建议。目前暂未检索到两款模型的直接专项对比数据,以下结论基于同系列前代产品公开测试结果推导。## 纯视觉推理性能,Qwen跻身全球第一梯队Qwen3.7-Plus在BabyVision纯视觉推理评测中拿到**64.7分**,较上代提升27.3分,性能超过Gemini3.1-Pro、Claude-Opus-4.6 Max,在Vision Arena全球视觉榜单中位列第五、中国第一。SimpleVQA视觉问答性能提升200%以上,处理开放视觉问题的可靠性明显提升。目前GPT-5.4暂未公开同维度测试数据,前代GPT-5未参与该专项评测,暂无直接对标结果。## 屏幕理解双指标,两类模型各有优势中国科学院与香港理工大学联合测试显示,Qwen系列开源多模态模型Qwen3-VL-32B的**屏幕区域定位准确率达84.4%**,远超GPT-5的31.4%;功能描述准确率为80.1%,低于GPT-5的88.1%。Qwen3.7-Plus作为迭代版本,屏幕定位能力进一步优化,而GPT-5.4作为闭源旗舰,在功能语义抽象理解上仍大概率保持优势,两类模型的能力差异源于训练方向的不同——Qwen针对性优化了界面操作任务,GPT系列更侧重通用知识积累。## 智能体闭环能力,落地场景更成熟Qwen3.7-Plus采用多模态混合智能体架构,实现“看、想、写、做、验”全流程闭环,可基于截图一键复刻桌面端专业软件,自主完成10项核心功能测试,无需人工介入。同时支持无缝融合GUI与CLI交互,兼容主流开发框架,部署灵活性更强。目前GPT-5.4暂未公开同类场景落地案例,前代GPT系列智能体能力集中在通用任务,垂直场景的工程化落地案例较少。## 落地适配性,国内用户选择空间更大Qwen3.7-Plus已上线阿里云百炼平台,对外提供API服务,支持公有云调用与私有化部署,适配国内企业的数据合规需求。阿里云AI相关产品年化收入超**358亿元**,百炼MaaS平台年化经常性收入突破80亿元,生态配套成熟。GPT-5.4目前在国内无官方接入渠道,合规成本高,本地化适配不足,仅适合有跨境业务需求的企业合规使用。## 场景选择指南,按需选型效率最高结合能力差异与落地条件,不同场景的选型建议清晰明确:- 从事GUI自动化、软件复刻、工业界面识别等需要精准屏幕定位的业务,优先选择Qwen3.7-Plus,性价比与适配性更优- 面向全球市场开展通用多模态业务,且具备跨境合规资质的企业,可根据语义理解需求选择GPT-5.4- 国内有私有化部署需求的企业,Qwen3.7-Plus是当前最优选择综合来看,国内绝大多数应用场景下,Qwen3.7-Plus的实用性更强,是首选的多模态模型方案。