视频链接处理 + 提取字幕
视频链接处理 提取字幕背景有一些需要处理的视频想把他们的字幕提取出来得到完整的内容进行参考。技术数据处理说明Excel视频链接 - 下载先提取字幕不行则下载音频 - 转写使用Whisper-音频转文字模型得到内容核心组件yt-dlp—— 万能视频下载器是 youtube-dl 的活跃 fork支持 1700 站点B站、抖音、小红书、油管…命令行原理访问页面 → 解析平台特定的 JSON 接口 → 拿到真实媒体 URL → 下载关键参数–write-subs / --write-auto-subs抓平台已有的字幕最省事-x --audio-format mp3只要音频不要视频更小更快–cookies-from-browser chrome带浏览器登录态绕过登录墙–sleep-requests / --sleep-interval降低请求频率反风控FFmpeg —— 多媒体瑞士军刀yt-dlp 底层依赖它做转码、抽音轨视频→音频抽取、格式转换都是它干的Whisper / faster-whisper —— OpenAI 开源的 ASR 模型ASR Automatic Speech Recognition自动语音识别原理简化版Encoder-Decoder Transformer音频 → 切成 30 秒片段 → 转 mel-spectrogram(频谱图) → Encoder 编码Decoder 像写作文一样逐词预测下一个 token输出文字 时间戳faster-whisper 用 CTranslate2 做推理优化比官方版快 4 倍、显存少模型尺寸tiny / base / small / medium / large-v3越大越准但越慢中文场景一般用 base够用或 medium更准SRT 字幕格式就是这种东西00:00:01,200 -- 00:00:03,500 你好世界序号 时间戳 文字。要变纯文本只需正则去掉前两行再合并即可。注意点仅供学习交流使用。优先官方字幕优先质量高不出错注意串行处理或者有多个账号来回切换防止被封控有些视频网站需要登陆如某站、某书–cookies-from-browser 直接复用浏览器 里的 Cookie使用Whisper处理时由于是跑模型GPU/CPU密集型串行即可。