2025_NIPS_Towards Self-Refinement of Vision-Language Models with Triangular Consistency
文章主要内容总结该研究聚焦视觉语言模型(VLMs)的自优化能力,提出基于“三角一致性”(Triangular Consistency)原则的自优化框架,无需外部监督(如人工标注、更强模型辅助)即可让VLMs自主生成高质量训练数据并实现性能提升。核心流程包括三步:通过多任务微调增强模型的指令生成能力、利用三角一致性过滤合成数据、用筛选后的高质量数据迭代优化模型。研究从因果角度提供了理论支撑,并以LLaVA-1.5为基线,在8个视觉语言基准测试中验证了框架的有效性,同时证明其可迁移至不同参数规模和架构的VLMs。核心创新点三角一致性原则:提出衡量合成数据可靠性的核心标准,通过验证“图像-问题-答案”三元组中任意掩码元素的重建一致性,筛选高质量指令数据。无外部监督自优化框架:无需依赖人工标注或先进VLMs,仅通过模型自身生成和筛选数据完成迭代优化,降低数据依赖成本。因果视角理论分析:揭示语言、图像与语义概念间的因果关系,为VLMs自优化能力的合理性提供理论依据。泛化性验证:在不同参数规模(7B、13B等)和架构(LLaVA、MobileVLM、QWen2.5-VL)的模型上验证了框架有效性,支持多轮迭代优化。翻译部分(Markdown格式)Abstract(摘要)