1月30日报道,1月29日,商汤正式开源多模态自主推理模型SenseNova-MARS-8B和SenseNova-MARS-32B。该系列模型在多模态搜索与推理的核心基准测试中性能超越Gemini 3 Pro、GPT-5.2。
商汤指出,SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的Agentic VLM模型。
该框架能够在多轮推理过程中主动运用图像搜索、文本搜索和图像裁剪工具,如通过放大、裁剪图片寻找细节,然后调用文本、图片搜索工具查询背景信息,且这一过程无需人工干预。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的SOTA成绩。

商汤日日新SenseNova-MARS模型、代码、数据集全开源。
