选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    SenseNova-MARS – 商汤科技开源的多模态自主推理模型

    智能 PRO 稿源:AI工具集 2026-02-03 11:05

    SenseNova-MARS是什么

    SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源模型中达到SOTA水平,标志着AI从”能回答”向”能执行”的重要跨越。

    SenseNova-MARS的主要功能

    • 多模态搜索推理:模型融合图像与文本进行跨模态信息检索,支持动态调用工具完成复杂知识推理。
    • 细粒度视觉分析:支持处理4K/8K超高清图像,能精准裁剪、识别占比不足5%的微小视觉细节。
    • 自主Agent执行:模型能自主规划任务步骤,无缝协作多工具形成闭环,无需人工干预解决复杂问题。

    SenseNova-MARS的技术原理

    • 双阶段训练架构:第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调,使模型掌握基础工具使用模式;第二阶段用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练过程,优化多工具协同调用与推理决策能力。

    • BN-GSPO强化学习算法:针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题,算法先对同组样本进行组归一化消除内部偏差,再对整个批次进行归一化平衡不同任务的学习信号,实现稳定高效的多工具策略优化。

    • 动作空间与工具设计:模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择,图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循严格的JSON格式规范确保交互一致性。

    • 奖励模型机制:模型采用GPT-4o作为评判器,从答案准确性与格式合规性两个维度提供稀疏奖励,准确性奖励衡量最终答案与 ground truth 的语义匹配度,格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。

    • 自动化数据合成:基于多模智能体构建数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时过滤幻觉数据保证训练数据质量。

    SenseNova-MARS的项目地址

    • GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS

    • HuggingFace模型库

      • https://huggingface.co/sensenova/SenseNova-MARS-32B

      • https://huggingface.co/sensenova/SenseNova-MARS-8B

    • arXiv技术论文:https://arxiv.org/pdf/2512.24330

    SenseNova-MARS的应用场景

    • 体育竞技分析:模型能识别赛车服微小logo并查询相关企业及车手背景信息,自动计算时间差值辅助赛事数据核实。
    • 商业情报挖掘:从峰会照片中识别企业标志,快速搜集产品参数与融资信息,辅助分析行业竞争格局。
    • 新闻事实核查:针对高分辨率新闻图片追溯事件背景与人物身份,验证社交媒体流传信息的真实性。
    • 学术研究与教育:自动分析论文图表数据并检索相关研究背景,加速文献综述与知识整合过程。
    • 地理旅行探索:识别地标路牌等细节并实时检索历史文化信息,提供沉浸式智能导览体验。

    超好看的资讯你懂得 >>> 点击进入

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接
    热门AI排行
    排名 热点 热门指数