Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning（AAAI 2026）

张

张建站

2026/4/17 3:58:13

10分钟阅读

Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning（AAAI 2026）

研究方向Image Captioning1.论文介绍视觉定位是将文本查询与图像内特定区域联系起来。现有方法通常依赖于大量的特定任务注释和微调限制了泛化能力。本文引入了定位代理GroundingAgent一种无需特定任务微调的代理性视觉定位框架。采用一种结构化的迭代推理机制整合了预训练的开词汇对象检测器、多模态大型语言模型MLLMs和大型语言模型LLMs通过联合语义和空间分析逐步精炼候选区域。还提供了强大的可解释性透明地展示了每一个推理步骤对其决策过程提供了清晰的见解。用GPT-4o预测边界框与本文的方法预测边界框的对比图2.方法介绍2.1 问题定义给定一个输入图像I和一个自然语言查询Q视觉定位旨在通过预测其边界框bpred来定位由Q描述的目标物体。B(I)表示I中所有可能的边界框。b为LLM生成的视觉内容fvis(I,b)和 flang(Q)分别表示视觉和语言表示。2.2 groundingAgent一个无需训练的零样本视觉定位框架预训练的开词汇检测器首先提出候选边界框。然后MLLM为每个区域提供丰富的语义描述。最后LLM逐步对这些描述、空间线索和场景上下文进行推理以选择最匹配文本查询的边界框。整个流程无需任务特定微调并提供清晰、可解释的推理轨迹。1候选生成在生成候选目标区域的过程中首先利用MLLM生成一段图像描述全局描述记作 C(I)。将自然语言查询 Q 与生成的图像描述 C(I) 进行拼接得到体现用户意图以及图像本身语义内容的语境。基于这一语境LLM进而推断出一组在语义上高度相关的候选目标概念实体然后使用开放词汇的对象检测器在输入图像I上识别。对于每个概念c检测器生成一组候选边界框bc,j表示与概念c相关联的j号边界框所有实体的候选框并集成整体候选集用MLLM结合全图和候选框对每个候选框生成详细区域描述为优先考虑显著对象将候选边界框按其面积降序排列。area(bi)表示边界框 bi的面积非极大值抑制NMS排序注非极大值抑制NMS同一个目标模型往往会预测出多个重叠的边界框bounding boxes每个框都有一个置信度score保留置信度最高的框删除和它重叠太多的框在此精炼和排序阶段之后每个候选项被表示为一个元组 (bi,di)2候选项选择通过加入思维链推理过程从,,D_ref D(I,Q,c(I))中选择最合适的候选项整个流程的算法如下

用Lisp写回测（K线篇）—— 从“玩具”到工程

在前一篇文章《用Lisp写回测（数据篇）—— 如何“获得”股票数据》里，用Chez Scheme解析了通达信的数据文件，理论上是可以获得K线数据了，但如果不想写成硬代码的“玩具”，那么多少还是要做一些设计的。比…...

2026/4/17 3:54:44 阅读更多 →

STM32F103C8T6最小系统板+ESP-01S模块联网实战：从CubeMX配置到MQTT数据上报

STM32F103C8T6与ESP-01S物联网开发实战：从硬件搭建到MQTT云端通信在创客和嵌入式开发领域，STM32F103C8T6凭借其出色的性价比和丰富的资源成为入门首选，而ESP-01S WiFi模块则以极低的成本实现了物联网设备的无线连接能力。本文将带你完成一个…...

2026/4/17 3:53:51 阅读更多 →

Excel也能玩转熵权法？手把手教你不用编程做指标权重分析

Excel也能玩转熵权法？手把手教你不用编程做指标权重分析在业务分析中，我们常常需要评估多个指标的相对重要性。比如产品经理需要确定用户满意度调查中各维度的权重，运营人员要量化活动效果评估中不同KPI的贡献度。传统的主观赋权方法容易受个…...

2026/4/17 3:52:14 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/17 10:30:59 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/17 10:31:01 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/17 10:31:03 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/17 10:31:04 阅读更多 →