发布日期:2026-02-05 11:09 点击次数:117
近期,以 DeepEyes、Thymes 为代表的类 o3 模型通过调用视觉工具,突破了传统纯文本 CoT 的限制,在视觉推理任务中取得了优异表现。
然而,一个问题逐渐显现:视觉工具用得越多,模型真的更聪明吗?
大量实验发现,许多模型正在陷入"盲目用工具"的状态——即便任务并不需要,也会条件反射式地调用裁剪、抽帧、区域放大等工具。
结果却是:推理路径更长了,算力消耗更高了,准确率却没有同步提升,甚至在部分任务中出现下降。
这并不是工具不够强,而是模型从来没有学会一件事:什么时候真的值得用工具。
来自港中文 MMLab 等的研究团队,针对这一核心问题提出了AdaTooler-V——一个具备自适应工具使用能力的多模态推理模型,让模型学会判断"该不该用工具",而不只是"怎么用工具"。

在 12 个主流图像和视频推理基准上,AdaTooler-V 展现出了显著优势。例如,在高分辨率视觉推理任务 V 上,AdaTooler-V-7B 的准确率达到 *89.8%
工具使用的有效性探究

研究团队引入了一个关键指标——Tool Benefit Score(工具有益分数),用于量化视觉工具调用在所带来的真实性能增益。
具体而言,该指标通过比较同一问题在"使用工具"和"未使用工具"两种条件下的表现差异,判断工具调用是否产生了实质性的正向贡献。
如图所示,在相当一部分样本中,工具的引入不仅未能提升模型性能,反而导致结果出现明显下降。
AT-GRPO: 让模型学会判断"该不该用工具"

为此,团队提出了全新的强化学习算法AT-GRPO算法用于训练模型的自适应视觉工具调用能力。
思路很简单:只有当工具确实带来性能提升时,模型才会因为工具使用获得正向奖励;当工具无效甚至有害时,工具调用本身会被惩罚。
实验结果表明,AT-GRPO 使模型能够自主学习一种既有利又具备良好泛化能力的推理策略,在优化模型性能的同时有效降低推理成本。
多模态工具调用数据构建

为了支撑训练,研究团队构建了两套大规模数据集:
AdaTooler-V-300k:用于强化学习阶段,覆盖单图、多图与视频三种模态,涵盖数学、计数、空间理解、逻辑推理等多类任务。
AdaTooler-V-CoT-100k:用于 SFT 冷启动,包含大量多轮工具交互的高质量推理轨迹。
在两阶段训练框架下,模型先通过 SFT 建立基本的多模态工具推理能力,再通过 AT-GRPO 学会自适应工具使用。
基准评测
研究团队在 12 个主流的图片和视频基准上进行测评。
从下表可以看出,AdaTooler-V 在图像问答任务中表现出色,在 MMBench 上取得87.8%的准确率,在 MathVista 上达到74.5%。

在视频理解任务中,AdaTooler-V 同样展现出显著优势,例如在 VSI-Bench 和 VideoHolmes 上分别取得49.5% 和 58.3%的性能表现,明显领先于其他方法。

同时,从训练曲线可以观察到,随着模型准确率的持续提升,其平均推理长度逐渐下降,这表明模型正在学会在推理过程中合理选择是否进行工具调用,而非盲目地频繁使用工具。

一些 AdaTooler-V 的推理例子如下所示:


更多细节,请阅读原文。
论文地址:https://arxiv.org/pdf/2512.16918
代码地址:https://github.com/CYWang735/AdaTooler-V
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �
感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �
科技前沿进展每日见