099、YOLO + LLM/VLM 多模态探索:检测结果用大模型做语义理解和描述
099、YOLO + LLM/VLM 多模态探索:检测结果用大模型做语义理解和描述一、从一次离谱的误检说起上个月做智慧零售项目,摄像头对着货架,YOLOv8检测到一瓶“可乐”——置信度0.92,框得贼准。但客户反馈说:“你们系统把一瓶零度可乐识别成经典可乐,这会导致库存统计出错。”我盯着那个框看了半天,YOLO确实只输出了“cola”这个类别,它根本不知道瓶身上写着“Zero Sugar”。这就是纯检测模型的天然缺陷:它只能告诉你“这里有个物体”,但无法理解这个物体的语义细节。后来我尝试在检测后接一个轻量级OCR模型,但问题更复杂了——有些场景需要理解“这瓶可乐旁边放的是薯片还是饼干?”、“这个行人是不是在打电话?”、“这辆车是正在转弯还是直行?”这些都需要对检测结果进行更高层次的语义推理。于是我开始折腾YOLO + LLM/VLM的多模态方案。二、架构设计:别把大模型当检测器用很多人一上来就想让LLM直接做检测,比如把整张图丢给GPT-4V,让它输出所有目标的位置和类别。这种做法在工业场景下基本不可行——延迟高、成本贵、小目标检测效果差。我的思路是:YOLO负责“看到”,LLM负责“理解”。具体流程分三步走:YOLO做第一级过滤:输出检测框、类别、置信度。这一步保证实时性,30fps以上没问题。对每个检测框做裁剪:把框内的