LLaVA—cot
LLaVA-CoT:让视觉语言模型逐步推理的创新探索
一、研究动机
大语言模型(LLMs)在推理能力上取得显著进展,然而当前视觉语言模型(VLMs)在复杂视觉问答任务中,难以进行系统和结构化的推理,经常出现错误或幻觉输出。这主要是因为现有VLMs推理过程缺乏系统性和结构化,它们在未充分梳理问题和信息时就开始作答,且推理过程容易偏离逻辑,导致结论不准确。为解决这些问题,研究团队提出LLaVA-CoT,旨在实现VLMs的自主多阶段推理,提升其在复杂任务中的表现。
二、方法介绍
(一)结构化推理阶段
LLaVA-CoT将答案生成过程分解为四个结构化推理阶段,每个阶段都有独特的功能和目标。
- 总结阶段:模型对问题进行高屋建瓴的概括,梳理出解决问题的核心思路和关键步骤,为后续推理指明方向。面对“计算图中两种水果数量之差”的问题,模型在总结阶段会确定先识别并统计两种水果的数量,再进行减法运算的解题思路。
- 图像描述阶段:当存在图像时,模型聚焦于与问题相关的视觉元素,详细描述图像内容,帮助理解多模态输入。针对上述水果问题,会描述图像中水果的种类、颜色、大致位置等信息。
- 推理阶段:基于总结和图像描述,模型进行严谨的逻辑推理,逐步推导得出初步答案。在水果数量差问题中,依据统计的水果数量进行计算,展示推理过程。
- 结论阶段:综合前面的推理,模型给出最终答案。答案形式会根据用户需求调整,简洁或详细解释均可。
(二)数据准备与模型训练
由于现有VQA数据集无法满足LLaVA-CoT的训练需求,研究团队整合多个常用VQA数据集,构建了包含99k图像QA对的LLaVA-CoT-100k数据集。利用GPT-4o生成详细的推理过程,包括四个推理阶段的内容,并将其编译到数据集中。以Llama-3.2-11B-Vision-Instruct为基础模型,使用该数据集进行全参数微调,在单节点8H100 GPUs上完成训练。
(三)阶段级束搜索方法
为提升模型推理能力,LLaVA-CoT采用阶段级束搜索方法。在每个推理阶段,随机采样N个响应(如先随机选2个),让模型依据特定标准评估这些响应。在总结阶段,好的总结应突出解题思路;图像描述阶段,描述要精准全面;推理阶段,需深入分析每个答案的差异,选择推理更合理的;结论阶段,结论要与推理一致且不能拒绝回答问题。模型选择最优响应进入下一阶段,重复此过程直至完成所有阶段,确保最终输出质量。
一些问题
(一)推理阶段划分依据
推理阶段的划分是基于对复杂问题解决过程的拆解。总结阶段是为了明确问题解决的方向和大致步骤,让模型对任务有整体认知;图像描述阶段针对多模态信息中的图像部分进行关键信息提取,为后续推理提供视觉依据;推理阶段基于前面的准备进行实质性的逻辑推导;结论阶段则是对整个推理过程的总结和输出,提供符合用户需求的答案。这种划分方式模仿人类解决复杂问题时的思维过程,使模型的推理更加系统和结构化。
(二)阶段级束搜索优势
阶段级束搜索在质量控制和计算效率之间实现了良好平衡。与Best-of-N搜索相比,Best-of-N搜索生成N个完整答案后选择最优,评估过程较为粗糙,难以准确判断答案准确性。句子级束搜索在句子层面操作,过于细致,对于开放式问题难以有效评估响应质量。而阶段级束搜索在每个推理阶段进行筛选,能及时纠正推理方向,避免错误累积,在复杂推理任务中显著提高推理准确性,且没有大幅增加计算成本。在MMVet基准测试中,阶段级束搜索(束大小为4)相比无推理时间缩放的模型,性能提升明显。