Bert-VITS2を用いた中国語（標準語）音声合成システムの構築

概要

本研究では、Bert-VITS2フレームワークを用いた高速かつ自然な中国語（標準語）音声合成（TTS）システムの開発について報告します。会議シナリオに特化し、明瞭で表現力豊かな、文脈に適した音声生成を目指しています。

主要な成果:

比較モデル中で最低のWER 0.27を達成
音声の自然さに関するMOS 2.90を達成
最大22秒の音声合成に成功
AISHELL-3データセット（85時間、218話者）で学習

1. はじめに

音声合成（TTS）とは

音声合成（TTS）技術は、書かれたテキストを自然な音声に変換する技術です。最新のTTSシステムはディープラーニングを活用して、ますます自然で表現力のある音声を生成しています。主な応用分野は以下の通りです。

音声合成の概要

音声アシスタント
アクセシブルな読み上げソリューション
ナビゲーションシステム
自動カスタマーサービス

なぜ中国語か

中国語（標準語）は10億人以上の話者を持つ世界最大の言語です。しかし、声調言語としての特性と複雑な言語構造により、TTSにとって独特の課題を呈しています。

Bert-VITS2とは

Bert-VITS2は、事前学習済み言語モデルと先進的な音声合成技術を組み合わせたシステムです。

BERT統合: 意味的・文脈的なニュアンスの深い理解
GANスタイルの学習: 敵対的学習により高度にリアルな音声を生成
VITS2ベース: 最先端の音声合成アーキテクチャ

2. 方法論

2.1 データセットの選定

本研究ではAISHELL-3を選定しました。

85時間の音声データ
218人の話者
話者あたり平均約30分
高品質なトランスクリプション

注: 当初Alimeeting（118.75時間）で実験を行いましたが、トランスクリプション品質の低さと話者あたりの音声時間の短さにより、無音の音声が生成されました。

データ前処理のWebUIインターフェース

2.2 モデルアーキテクチャ

Bert-VITS2フレームワークは4つの主要コンポーネントで構成されています。

コンポーネント	機能
TextEncoder	事前学習済みBERTを用いて入力テキストを処理し意味を理解
DurationPredictor	確率的な変動を持つ音素継続時間を推定
Flow	正規化フローを用いてピッチとエネルギーをモデリング
Decoder	最終的な音声波形を合成

2.3 学習プロセス

損失関数

Reconstruction Loss: 生成音声を正解音声に一致させる
Duration Loss: 音素継続時間の予測誤差を最小化
Adversarial Loss: リアルな音声生成を促進
Feature Matching Loss: 中間特徴量を整合

モード崩壊の緩和策

判別器の安定化のためのGradient Penalty
生成器と判別器のSpectral Normalization
複雑さを段階的に上げるProgressive Training

ハイパーパラメータ

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
{
  "train": {
    "batch_size": 20,
    "learning_rate": 0.00001,
    "epochs": 100,
    "bf16_run": true
  },
  "data": {
    "sampling_rate": 44100,
    "n_speakers": 174
  }
}

ヒント: 学習はRTX 4090 GPU 1台でbfloat16精度を使用して行いました。

3. 結果と考察

学習の推移

初期学習ではモード崩壊（無音音声の生成）が発生しました。調整後:

判別器の損失が安定
生成器の損失が明確な下降傾向を示す
学習中にWERが約0.5から約0.2に低下

学習損失曲線

学習中のWER改善

他モデルとの比較

モデル	WER	MOS
本モデル（Bert-VITS2）	0.27	2.90
myshell-ai/MeloTTS-Chinese	5.62	3.04
fish-speech (GPT) w/o ref	0.49	3.57

注: 本モデルは最低WERを達成し、正確な音声生成を示しています。ただし、MOS（自然さ）については、大幅に多いパラメータを持つfish-speechと比較すると改善の余地があります。

生成例

以下のような音声合成に成功しました。

短いフレーズ（2〜10秒）
長時間音声（22秒）- 学習データの範囲外

制限事項

コードスイッチング: 複数言語が混在するテキスト（例: 中国語に英語の専門用語「Speech processing」が含まれる場合）には対応できません。

4. まとめと今後の展望

達成事項

中国語TTSのためのBert-VITS2のファインチューニングに成功
比較モデル中で最低WERを達成
GAN学習の課題を緩和する手法を習得
さまざまな長さの明瞭で認識可能な音声を生成

今後の方向性

MOSスコア向上のための追加学習ステップ
コードスイッチングの制限への対応
追加の話者やドメインへの拡張

5. 参考文献

Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
Kong, J., et al. (2023). “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech.” INTERSPEECH.
Shi, Y., et al. (2020). “AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines.” ArXiv.
Saeki, T., et al. (2022). “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022.” INTERSPEECH.

リソース

Bert-VITS2リポジトリ: github.com/fishaudio/Bert-VITS2
AISHELL-3データセット: openslr.org/93