2025-12-06 南理工、SUTD等提出Artemis：结构化视觉推理，MLLM感知策略学习新突破

原文链接：https://zhuanlan.zhihu.com/p/1980329406397428133

论文标题：Artemis: Structured Visual Reasoning for Perception Policy Learning
论文作者：Wei Tang, Yanpeng Sun, Shan Zhang, Xiaofan Li, Piotr Koniusz, Wei Li, Na Zhao, Zechao Li
作者机构：南京理工大学、新加坡科技设计大学（SUTD）、阿德莱德大学、百度、Data61-CSIRO、商汤
论文链接：Artemis: Structured Visual Reasoning for Perception Policy Learning
项目主页：https://vi-ocean.github.io/projects/artemis/
代码仓库：https://github.com/WayneTomas/Artemis

关于名字：Artemis（阿尔忒弥斯） 是古希腊神话中的狩猎女神，以其敏锐的视觉和百发百中的箭术著称。

拒绝“纸上谈兵”：视觉感知需要“空间化”思维

近年来，大语言模型（LLM）的推理能力突飞猛进，尤其是通过强化学习（RL）激发的“思维链”（Chain of Thought）能力，让模型学会了像人类一样通过多步推理解决复杂问题。受此启发，研究人员开始尝试将这种基于语言的推理引入到多模态大模型（MLLM）的视觉感知任务中。然而，现实却有些“骨感”：实证观察发现，这种纯语言的中间推理往往会降低感知任务的性能。

为什么会这样？南京理工大学、SUTD等机构的研究者在最新论文 Artemis 中给出了答案：核心问题不在于“推理”本身，而在于“推理的形式”。现有的方法让模型在非结构化的语言空间中进行语义推理，而视觉感知本质上需要在 空间和以对象为中心（Object-Centric） 的空间中进行推理。

简单来说，当模型面对“找出最矮的运动员”这样的指令时，如果只是在语言层面“碎碎念”（如下图(b)所示），往往会产生大量与图像内容无关的幻觉，导致定位错误。而人类的感知过程是 结构化视觉推理（Structured Visual Reasoning）：先扫描场景，定位相关区域，再逐步聚焦目标（如下图(c)所示）。

Artemis的动机。对比当前的感知策略模型与人类感知。(a) 查询：找出最矮的运动员。(b) 感知策略模型依赖于未接地的语言推理，导致定位错误。(c) 人类执行结构化视觉推理，逐步细化注意力以识别正确的运动员。

为了解决这一痛点，作者提出了 Artemis，这是一个基于强化学习的感知策略学习框架。Artemis 不再让模型“空谈”，而是要求它提供结构化的视觉推理证据。每一个中间推理步骤都必须由一个 (标签, 边界框) 对来表示，直接捕捉可验证的视觉状态。

这种设计使得中间状态可以被显式追踪，推理质量可以直接被监督，从而避免了语言推理带来的歧义。Artemis 基于 Qwen2.5-VL-3B 构建，不仅在视觉定位（Grounding）和检测任务上表现强劲，更展现出了惊人的泛化能力——在零样本的情况下，就能搞定计数和几何感知任务！

Artemis框架：让模型学会“结构化思考”

Artemis 的核心在于利用 群组相对策略优化（Group Relative Policy Optimization, GRPO

）算法，在后训练（Post-training）阶段引入结构化视觉推理。

用于RL感知策略学习的Artemis框架概览。MLLM生成的Rollouts被鼓励在决策前感知结构化的视觉证据，由结构化视觉推理奖励引导，而结果奖励监督格式和答案生成。GRPO被用于优化统一的感知策略学习框架。

重新思考奖励设计

在以往的感知策略强化学习中，奖励通常只针对最终结果（Outcome-only）。这种反馈既稀疏又滞后，无法告诉模型它收集的视觉证据是否正确。结果就是，模型倾向于编造看似合理的语言理由，而不是真正去“看”图。

Artemis 设计了一套统一的奖励框架，不仅评估最终预测，还评估中间的 以对象为中心 的推理输出：

结构化视觉推理奖励（Structured Visual Reasoning Reward）：这是Artemis的灵魂。它要求模型在 <think> 标签内输出结构化的视觉证据 (label, bbox)。为了鼓励模型生成有信息量的证据，Artemis 引入了 关键对象（Key Object） 的概念，即答案中的目标对象。预测出的框如果匹配关键对象，会获得最高奖励；而匹配其他相关对象（如上下文物体）也会获得正向奖励。这就像是老师不仅看答案，还要检查你的解题步骤中是否圈出了正确的关键信息。
结果奖励（Outcome Rewards）：包含格式奖励和答案奖励。格式奖励确保输出结构规范；答案奖励则直接衡量最终预测的感知准确性（使用GIoU和标签一致性）。

统一的训练数据：Artemis-RFT

为了支持这种训练，作者构建了 Artemis-RFT 数据集。该数据集源自 MS-COCO，包含约 7.7万个后训练实例，涵盖了视觉定位（Visual Grounding）和对象检测（Object Detection）两个任务。

Artemis-RFT数据示例。该数据集包含两种任务类型：视觉定位和对象检测，统一的Artemis感知策略学习框架在两者上联合训练。紫色框表示推理对象，绿色框表示答案。

如上图所示，Artemis 要求模型在给出最终答案（绿色框）之前，先通过推理（紫色框）识别出场景中的相关对象。这种训练方式让模型学会了“先看后答”。

实验结果：全方位性能提升

Artemis 在多个基准测试中展现了卓越的性能，证明了结构化视觉推理的有效性。

视觉定位与检测：SOTA级别的表现

在经典的 RefCOCO/+/g

视觉定位基准上，Artemis 全面超越了基座模型 Qwen2.5-VL 以及其他的 RL-based MLLM（如 Perception-R1, Vision-R1）。

RefCOCO/+/g数据集上的视觉定位准确率。Artemis（高亮行）在所有指标上均取得最佳性能。

特别是在高 IoU 阈值（如 @95）下，Artemis 的优势更加明显，这说明它生成的边界框非常精准。

在 COCO 对象检测任务上，Artemis 同样表现出色，mAP 达到 31.0，显著优于 Qwen2.5-VL 的 15.4。

惊艳的零样本泛化能力

最令人惊喜的是 Artemis 的泛化能力。Artemis 仅接受了视觉定位和检测这一种视觉训练，却展现出了惊人的跨任务迁移能力。虽然训练时完全没有涉及计数或几何题数据，但它学会了通过“列举”来进行计数。

Pixmo-Count上的零样本视觉计数和LISA test上的推理定位。Artemis展现了强大的零样本能力。

在 Pixmo-Count 数据集上，Artemis 的零样本计数准确率达到了 81.4，甚至超过了那些专门训练过的模型！

此外，Artemis 还能很好地迁移到数学几何场景，实现了从自然图像到数学图示的稳健跨域泛化。在 MATHGLANCE 基准测试中，Artemis 在平面几何、立体几何和图表题上都取得了优异成绩。

MATHGLANCE基准上的零样本准确率。Artemis在处理几何图形感知任务时表现出色。

综合多模态能力

在 MMBench、MMVet

等通用多模态基准上，Artemis 也保持了领先优势，说明增强的感知能力反过来促进了整体的多模态理解能力。

消融分析：拆解结构化推理的技能提升点

作者通过消融实验进一步验证了结构化视觉推理（S.V. Rsn.）的优越性。

不同奖励组件的消融研究。Grd.（定位奖励），Det.（检测奖励），S.V. Rsn.（结构化视觉推理奖励）。

实验表明：

无推理（None reasoning）：虽然在域内定位任务上表现尚可，但在域外任务（如数学几何）上泛化能力极差。
语言推理（Linguistic reasoning）：引入纯语言推理反而会干扰感知，导致性能下降，尤其是在视觉计数任务上。
结构化视觉推理（S.V. Rsn.）：不仅保持了强大的域内性能，更带来了显著的域外泛化能力提升。

可视化展示

让我们看看 Artemis 是如何“思考”的：

Artemis与Perception-R1和VLM-R1的定性视觉定位结果对比。紫色框为Artemis的推理框，红色框为答案。

在上图中，Artemis 通过紫色的推理框精准地定位了场景中的关键要素，从而给出了正确的红色答案框。相比之下，其他模型要么定位错误，要么完全偏离目标。

Artemis与Perception-R1和Qwen2.5-VL在Pixmo数据集上的定性视觉计数结果对比。

在计数任务中，Artemis 展现了类似人类的“点数”行为，通过逐个标记目标（紫色框）来得出正确的总数，而基座模型 Qwen2.5-VL 则出现了严重的幻觉，标记了大量重复或错误的框。

写在最后

Artemis 的出现告诉我们，对于视觉感知任务，“怎么想”比“想什么”更重要。将推理过程 空间化、结构化，不仅能减少幻觉，还能让模型具备举一反三的泛化能力。

这项工作首次系统性验证了：依靠单一的结构化视觉训练，即可获得跨任务（计数、几何）、跨领域（自然图像到数学图示）的感知泛化能力。它为 MLLM 感知与空间推理的真正对齐提供了一条新的路线。

2025-12-06 南理工、SUTD等提出Artemis：结构化视觉推理，MLLM感知策略学习新突破

拒绝“纸上谈兵”：视觉感知需要“空间化”思维