
商汤日日新SenseNova-MARS模型、代码、数据集全开源。

GitHub地址:
https://github.com/OpenSenseNova/SenseNova-MARS
一、自动放大图片看细节,调用外部工具进行文字、图片搜索尽管视觉语言模型(VLM)能够通过智能推理解决复杂任务,但其主要局限于面向文本的思维链或孤立的工具调用。尤其是在需要协调外部工具(例如搜索和图像裁剪)的知识密集型和视觉复杂场景中,它们无法展现出人类所需的熟练程度,无法将动态工具操作与连续推理无缝衔接。
基于此,商汤研究团队推出了SenseNova-MARS。SenseNova-MARS能在生活和工作的场景,解决需要“多步骤推理 多工具协作”的问题,如可以通过裁剪放大图片的细节、进行图像搜索、进行文本搜索。
下方模型需要完成识别赛车服微小Logo、查询公司成立年份、匹配车手出生年月、计算差值的复杂任务,SenseNova-MARS可自主调用图像裁剪、文本/图像搜索工具,无需人工干预完成解答。

SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,快速补充重要细节。

面向视觉理解,在V Bench和HR-Bench等高分辨率感知基准测试中,SenseNova-MARS-32B性能优于Qwen3-VL-235B-A22B等模型。
三、系统框架 强化学习,采用双阶段流水线并行训练策略SenseNova-MARS基于Qwen2.5-VL-7B-Instruct,采用两阶段流水线进行训练,先进行系统框架训练(SFT),再进行强化学习(RL)训练。
第一阶段,其针对跨模态搜索推理训练数据稀缺的痛点,的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点与多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。
其筛选的高难度案例中,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的解题逻辑,确保AI一开始就接触真实复杂场景。
第二阶段训练采用强化学习,AI每做对一次决策,比如选对工具、步骤合理就会获得奖励,做错了就调整策略。
此外,为了避免AI“学偏”,研究团队还引入了BN-GSPO算法,让模型在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。

这种基于双阶段归一化的机制可以平滑动态工具调用返回分布多样性带来的优化波动并确保学习信号分布的一致性,从而解决跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练,AI不仅学会了用工具,还能知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
结语:多模态AI能自主解题,或加速产业端AI应用商汤提出了新型的多模态智能推理与搜索模型,该模型能够在多轮推理过程中主动运用图像搜索、文本搜索和图像裁剪工具,提升了AI从被动响应指令到主动规划步骤、调用工具解决复杂问题的能力。
聚焦到真实的业务场景,在工业质检、金融风控、传媒内容分析、赛事数据挖掘、科研辅助等领域,模型此前受限于看不清细节、不会查背景、无法处理复杂多步骤任务的落地痛点。SenseNova-MARS无需人工干预的闭环解题能力,或大幅提升产业端的AI应用效率。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112596