使用 Bert-VITS2 构建中文（普通话）语音合成系统

摘要

本研究介绍了使用 Bert-VITS2 框架开发快速且自然的普通话语音合成（TTS）系统的工作。该系统专为会议场景设计，旨在生成清晰、富有表现力且符合语境的语音。

核心成果：

在对比模型中取得最低 WER 0.27
语音自然度 MOS 2.90
成功合成最长 22 秒的语音
基于 AISHELL-3 数据集训练（85小时，218名说话人）

1. 引言

什么是语音合成

语音合成（TTS）技术将书面文字转换为自然流畅的语音。现代 TTS 系统借助深度学习生成越来越自然、富有表现力的语音，应用领域包括：

语音合成概述

智能助手
无障碍阅读方案
导航系统
自动化客户服务

为什么选择中文

普通话是全球使用人数最多的语言，拥有超过十亿使用者。然而，由于其声调特性和复杂的语言结构，普通话为 TTS 带来了独特的挑战。

什么是 Bert-VITS2

Bert-VITS2 将预训练语言模型与先进的语音合成技术相结合：

BERT 集成：深度理解语义和上下文细微差异
GAN 风格训练：通过对抗学习生成高度逼真的语音
基于 VITS2：最先进的语音合成架构

2. 方法

2.1 数据集选择

本研究选用了 AISHELL-3 数据集：

85 小时音频数据
218 名说话人
每位说话人平均约 30 分钟
高质量转录文本

注意： 最初使用 Alimeeting（118.75 小时）进行实验，但由于转录质量不佳和每位说话人音频时长不足，生成了空白音频。

数据预处理 WebUI 界面

2.2 模型架构

Bert-VITS2 框架由四个主要组件构成：

组件	功能
TextEncoder	使用预训练 BERT 处理输入文本以理解语义
DurationPredictor	带有随机变化的音素时长估计
Flow	使用归一化流对音高和能量建模
Decoder	合成最终语音波形

2.3 训练过程

损失函数

重建损失：使生成语音匹配真实语音
时长损失：最小化音素时长预测误差
对抗损失：促进生成逼真语音
特征匹配损失：对齐中间层特征

模式崩溃缓解

用于稳定判别器的 Gradient Penalty
生成器和判别器的 Spectral Normalization
逐步增加复杂度的渐进式训练

超参数

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
{
  "train": {
    "batch_size": 20,
    "learning_rate": 0.00001,
    "epochs": 100,
    "bf16_run": true
  },
  "data": {
    "sampling_rate": 44100,
    "n_speakers": 174
  }
}

提示： 训练在单张 RTX 4090 GPU 上使用 bfloat16 精度进行。

3. 结果与讨论

训练过程

初始训练出现了模式崩溃（生成空白语音）。调整后：

判别器损失趋于稳定
生成器损失呈现明显下降趋势
训练过程中 WER 从约 0.5 降至约 0.2

训练损失曲线

训练过程中 WER 的改善

与其他模型的对比

模型	WER	MOS
本模型（Bert-VITS2）	0.27	2.90
myshell-ai/MeloTTS-Chinese	5.62	3.04
fish-speech (GPT) w/o ref	0.49	3.57

注意： 本模型取得了最低 WER，表明语音生成准确度高。但在 MOS（自然度）方面，与参数量远超本模型的 fish-speech 相比仍有提升空间。

生成示例

成功合成了以下类型的语音：

短语（2-10 秒）
长语音（22 秒）——超出训练数据范围

局限性

语码转换：模型无法处理混合语言的文本（如中文中夹杂英文术语 “Speech processing”）。

4. 结论与展望

成果

成功对 Bert-VITS2 进行普通话 TTS 微调
在对比模型中取得最低 WER
掌握了缓解 GAN 训练挑战的方法
在各种时长条件下生成清晰可识别的语音

未来方向

增加训练步数以提升 MOS 分数
解决语码转换的局限性
扩展到更多说话人和应用领域

5. 参考文献

Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
Kong, J., et al. (2023). “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech.” INTERSPEECH.
Shi, Y., et al. (2020). “AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines.” ArXiv.
Saeki, T., et al. (2022). “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022.” INTERSPEECH.

资源

Bert-VITS2 代码仓库：github.com/fishaudio/Bert-VITS2
AISHELL-3 数据集：openslr.org/93