双ai协同编程，用快马让yolo与大语言模型对话生成智能看图说话应用

张

张建站

2026/4/5 11:20:50

10分钟阅读

最近尝试了一个很有意思的项目用YOLO目标检测和大语言模型比如Kimi协作打造一个智能看图说话应用。整个过程在InsCode(快马)平台上完成体验非常流畅。下面分享下具体实现思路和关键步骤项目核心逻辑设计用户上传图片后系统先用YOLOv8模型进行目标检测识别图中的物体和位置将检测结果物体类别坐标整理成结构化数据把这些信息作为prompt输入给大语言模型让它发挥想象力生成故事最后用网页同时展示原始图片、带检测框的图片和生成的故事文本YOLO模型集成要点使用预训练的YOLOv8s模型平衡精度和速度特别注意处理模型输出格式需要提取每个检测到的物体类别、置信度和边界框坐标对检测结果进行过滤只保留置信度高于0.5的物体避免干扰后续故事生成与大语言模型交互技巧设计了一个聪明的prompt模板请根据以下物体列表创作一个有趣的小故事[物体列表]。要求故事包含所有物体字数在200字以内风格活泼生动。发现把YOLO检测到的物体按置信度排序后输入能让生成的故事更聚焦主要元素对Kimi的回复做了后处理自动添加段落换行和适当排版前端展示实现细节使用Flask搭建简易web服务处理文件上传和结果展示网页布局分为三栏左原图、中检测图、右故事文本用OpenCV绘制检测框时不同类别的物体使用不同颜色标注视觉效果更清晰调试过程中的发现当图片中有大量物体时直接全部输入会给LLM带来负担。后来改为只输入前10个高置信度物体遇到过一个有趣的现象YOLO把窗帘识别成tie导致Kimi编出了领带在风中飘扬的奇怪情节。后来增加了类别过滤规则响应速度优化先快速返回检测结果再异步生成故事用户体验更流畅效果展示示例上传一张公园照片YOLO检测到[狗长椅儿童树]Kimi生成了一段关于小狗和小朋友在公园偶遇的温馨故事办公室场景照片识别出[电脑咖啡杯键盘]后得到了一个程序员与咖啡的幽默小短文对同一张图片多次生成每次都会得到不同版本的故事展现了AI的创造力这个项目最让我惊喜的是在InsCode(快马)平台上可以一站式完成从开发到部署的全流程。不需要操心环境配置内置的AI助手能快速解答技术问题最关键的是写完代码直接点部署就能生成可访问的网页应用。我测试时发给朋友体验他们上传自家宠物照片后看到AI编的故事都笑得前仰后合。这种双AI协作的模式其实可以拓展很多方向比如加入语音合成让系统把生成的故事读出来增加多轮对话功能让用户可以和AI讨论图片细节结合场景理解模型让故事更符合图片的整体氛围如果你也想尝试AI协同开发强烈推荐试试这个平台。整个过程就像有个技术搭档在帮忙把复杂的模型调用和接口对接都简化成了直观的操作。特别是部署环节传统方式可能要折腾半天服务器配置这里点个按钮就搞定了对快速验证想法特别友好。

IDM激活脚本深度解析：开源解决方案的技术实现与应用指南

IDM激活脚本深度解析：开源解决方案的技术实现与应用指南【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 项目价值：解决IDM试用限制的开源…...

2026/4/5 11:20:48 阅读更多 →

MaaYuan：免费开源的智能游戏助手，轻松解放你的双手！

MaaYuan：免费开源的智能游戏助手，轻松解放你的双手！ 【免费下载链接】MaaYuan 代号鸢 / 如鸢一键长草小助手项目地址: https://gitcode.com/gh_mirrors/ma/MaaYuan 你是否厌倦了每天重复登录游戏、机械点击完成任务？现代…...

2026/4/5 11:18:56 阅读更多 →

OpenClaw自动化测试：用SecGPT-14B批量验证Web应用漏洞

OpenClaw自动化测试：用SecGPT-14B批量验证Web应用漏洞 1. 为什么需要AI驱动的自动化渗透测试？ 去年参与某金融系统的安全评估时，我发现传统扫描工具对业务逻辑漏洞的覆盖率不足30%。人工编写测试用例需要反复揣摩"如果用户在这里输入特…...

2026/4/5 11:18:53 阅读更多 →

基于MATLAB的轮轨接触几何计算GUI程序设计与实现

1-148 matlab的带有gui的轮轨接触几何计算程序基于matlab的带有gui的轮轨接触几何计算程序,根据不同的踏面和轨头，计算不同横移量下面的接触点位置。程序已调通，可直接运行有没有人蹲过现成的、换文件就能换轮轨、不用啃半天赫兹接触前的几何方程、结果还…...

2026/4/5 0:00:53 阅读更多 →

【CPP 深度学习】PyTorch On CPP 系列课程第一章 01 ：入门与环境搭建【Ai Infra 3.0】[PyTorch CPP LibTorch 硕士研一课程]

章节 1: PyTorch ON Cpp入门与环境搭建本章将为PyTorch的使用做好准备。我们首先会配置必要的软件和环境。接着，主要内容将转向PyTorch的核心数据结构：张量。您将学习如何： 使用常用包管理器安装PyTorch。配置适合PyTorch项目的开发环境…...

2026/4/5 0:05:12 阅读更多 →

4DGL-uLCD-SE：轻量级嵌入式GUI驱动框架

1. 项目概述4DGL-uLCD-SE 是一个面向嵌入式系统设计的轻量级、可移植的图形用户界面（GUI）驱动框架，专为 4D Systems 公司推出的 uLCD 系列智能显示模块（如 uLCD-320GL, uLCD-70DT, uLCD-43PT 等）而构建。该库并非直接操…...

2026/4/5 0:34:09 阅读更多 →

电源逆变结构设计与选型指南

1. 电源逆变结构概述作为一名硬件工程师，我在过去十年里设计过各种电源转换电路。电源逆变结构是电力电子领域的核心内容，它决定了电能转换的效率、可靠性和成本。简单来说，电源逆变就是将直流电(DC)转换为交流电(AC)的过程，这在太…...

2026/4/5 0:34:18 阅读更多 →

更多精彩文章