SenseNova-MARS – 商汤科技开源的多模态自主推理模型

智能 PRO 稿源：AI工具集 2026-02-03 11:05

SenseNova-MARS是什么

SenseNova-MARS是商汤科技开源的多模态自主推理模型，提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM，模型能像智能体一样自主规划任务步骤，灵活调用图像裁剪、文本搜索、图像搜索三大工具，无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中，SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro（69.06分）和GPT-5.2（67.64分），在开源模型中达到SOTA水平，标志着AI从”能回答”向”能执行”的重要跨越。

SenseNova-MARS的主要功能

多模态搜索推理：模型融合图像与文本进行跨模态信息检索，支持动态调用工具完成复杂知识推理。
细粒度视觉分析：支持处理4K/8K超高清图像，能精准裁剪、识别占比不足5%的微小视觉细节。
自主Agent执行：模型能自主规划任务步骤，无缝协作多工具形成闭环，无需人工干预解决复杂问题。

SenseNova-MARS的技术原理

双阶段训练架构：第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调，使模型掌握基础工具使用模式；第二阶段用BN-GSPO强化学习算法，通过组内与批次双重归一化稳定训练过程，优化多工具协同调用与推理决策能力。
BN-GSPO强化学习算法：针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题，算法先对同组样本进行组归一化消除内部偏差，再对整个批次进行归一化平衡不同任务的学习信号，实现稳定高效的多工具策略优化。
动作空间与工具设计：模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择，图像裁剪通过归一化边界框坐标实现精准局部放大，所有工具调用均遵循严格的JSON格式规范确保交互一致性。
奖励模型机制：模型采用GPT-4o作为评判器，从答案准确性与格式合规性两个维度提供稀疏奖励，准确性奖励衡量最终答案与 ground truth 的语义匹配度，格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。
自动化数据合成：基于多模智能体构建数据引擎，通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节，自动挖掘跨网页实体逻辑并构建高复杂度推理链路，同时过滤幻觉数据保证训练数据质量。