Buzz可以将 语音 转成 文字。默认使用的是 OpenAI推出的语音识别AI模型whisper。配置与环境OSWindows 10需要 1809以上CPUi5-8250UGPUHD4600无独显内存条8GWin10版本22H2Buzz版本1.4.4升级win10到22H2https://www.microsoft.com/zh-cn/software-download/windows10下载链接https://github.com/chidiwilliams/buzz/releasesWindows版需要exe、1.bin、2.bin都下载了。将它们放到同一个目录下执行exe文件就能 完成安装了。界面介绍安装好后界面中 会有“文件”和“帮助” 两个选项。“文件” 选项就是选定 输入源的。“帮助”选项“帮助”选项里有一项 “偏好设置”由于本人的电脑是集显所以这里选择了 禁用。这一项在使用 whisper.cpp的模型时容易报错。但就算勾上了从运行结果来看也没能运行成功。选择“模型”选项则会有 三个选择Whisper原生python。Whisper.cppC效率更高内存占用更低。在我的机子上更多报错Faster WhisperGPU上 比原版快。在更下面的那个框是 whisper的模型占用空间大小 随着变化精度 也会随之变化。在这里只下载了 TinyTiny-en。追求 准确性的话越往后越准确。在“组”这个设置中选择不同的选项都时要重新下载 这些“Tiny”之类的模型的。Whisper 下载下来的是 .pt后缀文件Whisper.cpp 下载下来的是 .bin后缀文件这些文件在不同系统中OS、Win、Linux中应该是 通用的。未经测试点击“查看文件位置”能看到 下载下来的模型 所在路径。我的路径在C:\Users\用户名\AppData\Local\Buzz\Buzz\Cache\models\whisper想要迁移的话可以用管理员权限打开cmd使用 mklink命令move C:\Users\用户名\AppData\Local\Buzz\Buzz D:\BuzzCacheIncludeModels mklink C:\Users\用户名\AppData\Local\Buzz\Buzz D:\BuzzCacheIncludeModels使用这种 创建“快捷方式”的方法不用修改 系统别的设置。下载好模型后就可以在“文件”选项中选择要内容进行识别了。“文件”选项如果选择的是“导入文件”则会显示如下画面TXT、SRT和VTT是输出的文件格式如果只勾了一项完成识别以后还有“导出”选项可以 转为别的文件格式。逐词识别本来是一句一句识别的勾选该选项准确性会提高但速度会下降。提取语音如果是 音频文件不用勾如果是 视频文件则要勾上。内存问题在我的实操中20多M的音频文件是可以识别成功的。但20多M的视频文件勾上“提取声音”选项就会失败了。大概率是内存问题。如果遇到同样情况可以先把文件 转成 音频文件再进行识别。200M的音频文件会因内存原因失败。别的 文件大小就不知道了。