1. BATONVOICE框架概述操作主义在语音合成中的创新应用文本到语音TTS技术近年来取得了显著进展但现有系统在控制语音表达风格方面仍面临重大挑战。传统方法需要大量人工标注数据来训练可控TTS模型这不仅成本高昂而且标注一致性难以保证。BATONVOICE框架通过引入操作主义哲学理念提出了一种全新的解决方案。操作主义的核心思想是将抽象概念转化为可量化、可解释的操作指标。在语音合成领域这意味着将悲伤、愤怒等情感描述或加快语速、提高音调等语音控制指令转化为具体的声学特征参数。这种量化过程类似于用传感器测量超声波的频率和振幅——虽然我们无法直接感知超声波但可以通过量化指标精确描述其特征。BATONVOICE的创新之处在于将语音合成过程解耦为两个独立阶段指令理解阶段使用大语言模型(LLM)作为指挥家(Conductor)将自然语言指令解析为结构化声学特征语音生成阶段由专用TTS模型乐团(Orchestra)根据这些特征生成最终语音这种架构设计带来了三个关键优势降低数据需求无需人工标注大量语音数据利用LLM的指令理解能力自动生成控制信号提升控制精度声学特征提供了明确的、可量化的控制维度增强可解释性整个控制过程变得透明用户可以理解系统如何解释并执行其指令2. 核心架构与技术实现2.1 系统整体工作流程BATONVOICE的推理过程分为清晰的三个阶段第一阶段指令解析与特征生成当用户提供输入文本X和对应指令I时系统调用外部LLM如Gemini 2.5 Pro解析指令生成精细化的声学特征集Fv。这些特征构成量化的声音计划包括音高特征平均基频及其变化趋势斜率能量特征信号平均振幅及其动态变化音色特征频谱质心反映语音的明亮度这些特征以结构化文本格式如JSON表示使得纯文本模型能够处理和生成这些控制信号。第二阶段特征-文本联合编码将原始文本X和生成的特征列表Fv共同输入BATONTTS模型。模型首先对两者进行联合编码建立文本内容与声学特征之间的对应关系。第三阶段条件语音生成基于编码后的表示模型生成离散语音单元序列最后通过预训练的语音解码器转换为波形信号。整个过程中语音生成严格遵循前阶段制定的声音计划。2.2 BATONTTS模型架构BATONTTS作为框架的核心组件其架构设计充分考虑了效率与性能的平衡LLM主干网络采用开源模型Qwen系列作为基础实验证明该方法在不同规模的模型上均有效从0.5B到1.7B参数。LLM负责自回归生成包含三部分的序列待合成的输入文本对应的声学特征声音计划实现该计划的离散语音单元语音解码器复用公开的CosyVoice2模型组件包含语音单元编码器条件流匹配模型生成梅尔频谱图HiFi-GAN声码器将频谱转换为波形这种设计允许我们专注于训练LLM的语音控制能力而语音解码器保持冻结状态显著降低了训练复杂度。2.3 三阶段训练策略BATONVOICE采用渐进式训练方法逐步构建模型的语音控制能力阶段1预训练 - 建立基础TTS能力目标使LLM掌握从文本到语音单元的基本转换能力技术细节使用VoxBox数据集约103K小时英语语音序列打包为4096token的块减少填充开销80块GPU训练3个epoch约1天优化器AdamW(lr1e-4)500步warmup关键点 此阶段仅学习文本到语音的映射不涉及任何控制能力阶段2监督微调(SFT) - 引入特征控制目标教会模型根据声学特征生成对应语音数据处理流程从多种表达性语音库中提取样本通过语音解码器重建语音确保特征可合成使用Parselmouth库提取声学特征将特征转换为结构化文本描述过滤低质量样本WER0.1或语速1.5词/秒训练要点输入序列格式[文本; 特征描述; 语音单元]训练目标自回归预测下一token最终数据集377,619条样本约500小时阶段3偏好优化(PO) - 精调生成质量目标解决SFT模型的常见问题高WER、语速慢、表现力不足数据集构建基础生成用预训练模型生成候选语音拒绝采样剔除高WER或慢速样本优选样本用SFT模型生成新候选保留高质量输出构建偏好对(优选序列拒绝序列)优化方法 采用锚定偏好优化(APO-down)参考策略SFT模型双重目标保持对优选样本的生成能力扩大优选与拒绝样本间的质量差距实验证明PO阶段使情感准确率提升5.4个百分点1.7B模型3. 关键创新与性能分析3.1 操作主义范式的优势BATONVOICE的核心创新在于将语音控制问题重新定义为指令→特征→语音的两阶段过程。这种方法带来了几个突破性优势数据效率的革命传统方法如CosyVoice需要556-1,500小时人工标注数据而BATONVOICE在零人工标注情况下达到更高性能。这得益于自动特征提取管道LLM的指令理解能力基于重建的自我监督学习精确可控的表达系统支持对以下维度的精细控制韵律特征音高轮廓、节奏变化音质特征声音明亮度、共振峰结构情感特征通过复合参数实现多维情感表达跨语言零样本学习尽管仅在英语数据上训练模型在中文情感合成任务中达到56.2%准确率超越专门优化的中文模型。这表明声学特征具有语言无关性验证了操作主义方法的泛化能力。3.2 性能基准测试英语语音合成在Seed-TTS基准测试中WER为2.5与顶级开源模型相当情感准确率57.6%超越最佳闭源模型9个百分点中文零样本测试对比专门的中文TTS系统WER为2.1处于可接受范围情感准确率56.2%优于Minimax-2.5-Turbo(50.6%)人工评估在复杂指令跟随任务中优于开源模型CosyVoice胜率56%略逊于商业系统Minimax-2.5-HD胜率30%3.3 组件影响分析训练阶段的影响1.7B模型的渐进式性能提升基础模型23.2%SFT52.2%29.0PO57.6%5.4LLM规模的影响使用不同LLM生成声学特征时Qwen3-1.7B29.8%Qwen3-80B39.8%Gemini-2.5-Pro57.6%这表明BATONVOICE的性能可随LLM的进步持续提升无需重新训练TTS模型。4. 应用前景与扩展方向4.1 实际应用场景智能语音助手实现更自然的情感表达支持实时语音风格调整适应不同场景需求正式/休闲有声内容创作精确控制旁白风格多角色语音生成动态调整语调和节奏辅助技术为语言障碍者提供个性化语音可调节的语音清晰度适应不同听力需求4.2 技术扩展方向更丰富的特征集当前系统主要控制基础声学参数未来可扩展更精细的韵律特征重音、停顿非语言特征笑声、叹息发音细节气声、嘶哑度多模态集成将操作主义范式扩展到歌声合成视听同步生成跨模态情感传递自适应学习用户个性化特征提取交互式语音调整基于反馈的持续优化在实际部署中我们发现几个实用技巧对于情感强烈的语音适当提高能量斜率参数能增强表现力而需要清晰度的场景则应保持较高的频谱质心值。另一个关键发现是将长文本分割为意义完整的短语单元而非固定长度片段能显著改善韵律连贯性。