【GitHub项目推荐--video-use:用自然语言剪辑视频,Claude Code 的“AI 剪辑师”】⭐⭐⭐
GitHub 地址https://github.com/browser-use/video-use简介video-use 是 browser-use 团队开源的一款“对话式视频编辑”技能。它的理念极其简单把原始素材扔进文件夹用自然语言告诉 Claude Code或 Codex、Hermes 等 Agent你想要什么直接拿回final.mp4。它彻底颠覆了传统的剪辑流程。你不再需要打开 Premiere 或 Final Cut Pro也无需面对复杂的时间线和菜单。无论是口播、教程、访谈还是 Vlog只需一句指令AI 就能自动完成从素材盘点、粗剪、去口癖、调色、加字幕到最终渲染的全流程。它并非让 LLM 暴力“看”视频帧而是通过巧妙的“文本按需视觉”架构实现了极低 Token 消耗下的专业级剪辑。主要功能1. 全自动剪辑流水线智能粗剪自动识别多段素材根据语义而非单纯的时间码进行拼接。精准去“filler”自动剪掉“嗯”、“啊”、口误、重复句以及镜头间的尴尬空白保留自然语流。音频美化在每个剪切点自动添加 30ms 的音频淡入淡出消除爆音和突兀感。视觉统一支持对每段素材进行独立的色彩调级如电影感暖色、中性冲击感统一画面风格。2. “读”视频而非“看”视频的架构这是 video-use 最核心的技术创新。它通过两层结构将海量的视频数据压缩为 LLM 可高效处理的“轻量化视图”Layer 1音频转录主视图利用 ElevenLabs Scribe 将视频转为带词级时间戳和说话人分离的文本。所有素材被打包成一个约 12KB 的takes_packed.md文件作为 LLM 推理的主要依据。Layer 2视觉合成按需仅在决策模糊时如判断停顿是否该剪、对比重拍镜头调用timeline_view生成一张包含胶片条、波形图和单词标签的 PNG 进行辅助判断。这种设计使得处理成本从“数千万 Token 的帧噪声”降到了“12KB 文本 几张图”实现了真正的实用化。3. 质量自闭环自评估机制渲染完成后Agent 会在每个剪切点自动检查画面跳变、音频爆音和字幕遮挡。只有通过检查的视频才会呈现给用户否则会自动修复并重渲染最多 3 轮。会话记忆通过project.md文件持久化剪辑上下文支持下次打开 Claude Code 时从上次的进度继续编辑非常适合长课程或播客的连载剪辑。安装与配置前置要求Claude Code / OpenClaw 等 Agent 环境需支持 Shell 访问和技能加载。FFmpeg必须安装用于视频处理。ElevenLabs API Key用于高精度语音转录获取地址https://elevenlabs.io/app/settings/api-keys。安装步骤Agent 自动模式推荐方式直接在 Claude Code 中粘贴以下指令Agent 会自动完成克隆、依赖安装和技能注册“请安装 video-use 技能。这是我的 ElevenLabs API Key:sk_xxxx。素材目录是~/Videos/my_project。”安装步骤手动模式如果你倾向于手动控制或在其他 Agent 中使用克隆仓库git clone https://github.com/browser-use/video-use cd video-use安装依赖pip install -e . brew install ffmpeg yt-dlp # yt-dlp 用于下载在线素材可选配置 API Keycp .env.example .env # 在 .env 文件中填入ELEVENLABS_API_KEYsk_your_key_here注册技能以 Claude Code 为例# 创建软链接将当前目录链接到 Claude 技能目录 ln -s $(pwd) ~/.claude/skills/video-use如何使用基础工作流准备素材将所有拍摄的原始视频文件MP4/MOV放入一个文件夹如raw_footage。启动 Agent在终端进入素材目录启动 Claude Code。下达指令输入自然语言指令例如“把这些素材剪辑成一个 3 分钟的产品发布视频去掉所有‘呃’和停顿加上白色字幕风格要偏科技感。”确认与交付Agent 会先扫描素材生成一份剪辑策略包括时长预估、片段顺序并征求你的同意。确认后Agent 开始全自动转录、剪辑和渲染。成品视频保存在edit/final.mp4中间文件如字幕文件、EDL 剪辑清单也均在edit/目录下技能目录本身保持干净。进阶指令示例风格控制“给这段访谈加一个电影感的暖色滤镜片头加 5 秒的标题动画。”精细修剪“保留所有带‘笑’的片段但剪掉超过 2 秒的沉默。”批量处理“遍历videos/下的每个子文件夹分别把每个文件夹里的素材剪成独立的成品。”应用场景实例无代码场景一知识博主的内容量产痛点知识博主每周需录制多节课程。手动剪辑去口癖、加字幕耗时极长且重复劳动令人疲惫。video-use 方案录制完成后将视频文件拖入以“课程名”命名的文件夹。在 Claude Code 中输入指令“按讲课顺序剪辑去掉所有口头禅保留知识点连贯性生成 1080P 带字幕视频。”价值将数小时的剪辑工作压缩为“一句话等待渲染”的被动过程博主可同时处理多个课程文件夹实现内容量产。场景二企业产品更新视频的 CI/CD痛点每次 App 迭代产品团队需要手动录制屏幕、配音、剪辑 Changelog 视频流程繁琐。video-use 方案将 Release NotesMarkdown、新版 App 截图和配音脚本放入指定目录。在 CI 流水线中集成 video-use自动触发指令“用素材生成 45 秒的竖版更新介绍视频风格与官网一致。”价值实现了“提交代码即生成宣传视频”的全自动化流程确保每次发布视频的风格统一且及时。场景三播客节目的“精剪”服务痛点播客节目通常长达 1-2 小时包含大量闲聊和停顿后期剪辑需要人工反复听校成本极高。video-use 方案将录制的多轨音频或视频文件放入文件夹。指令“识别两位主播剪掉所有非对话的空白和口水词保留节目核心内容输出 60 分钟的精剪版。”价值利用其强大的说话人分离和语义理解能力将剪辑师从枯燥的“听全片”工作中解放出来只需做最后的艺术性审核即可。总结video-use 不仅仅是一个工具它代表了一种“Intent-based Editing”基于意图的剪辑新范式。它通过将视频抽象为“文本时间线”让 LLM 能够像处理代码一样处理视频逻辑。对于内容创作者、开发者和企业来说它是降低视频制作门槛、实现规模化生产的终极利器。GitHub 地址https://github.com/browser-use/video-use核心依赖ElevenLabs Scribe API用于高精度转录