Bert-VITS2를 활용한 중국어(표준어) 음성 합성 시스템 구축

개요

본 연구에서는 Bert-VITS2 프레임워크를 활용하여 빠르고 자연스러운 중국어(표준어) 음성 합성(TTS) 시스템을 개발한 결과를 보고합니다. 회의 시나리오에 특화되어, 명확하고 표현력 있으며 문맥에 적합한 음성 생성을 목표로 합니다.

주요 성과:

비교 모델 중 최저 WER 0.27 달성
음성 자연스러움 MOS 2.90 달성
최대 22초 음성 합성 성공
AISHELL-3 데이터셋(85시간, 218명 화자)으로 학습

1. 서론

음성 합성(TTS)이란

음성 합성(TTS) 기술은 작성된 텍스트를 자연스러운 음성으로 변환합니다. 최신 TTS 시스템은 딥러닝을 활용하여 점점 더 자연스럽고 풍부한 표현의 음성을 생성하고 있으며, 주요 응용 분야는 다음과 같습니다.

음성 합성 개요

지능형 어시스턴트
접근성 높은 읽기 솔루션
내비게이션 시스템
자동화된 고객 서비스

왜 중국어인가

중국어(표준어)는 10억 명 이상의 화자를 가진 세계 최대 언어입니다. 그러나 성조 언어라는 특성과 복잡한 언어 구조로 인해 TTS에서 독특한 도전 과제를 제시합니다.

Bert-VITS2란

Bert-VITS2는 사전 학습된 언어 모델과 최신 음성 합성 기술을 결합한 시스템입니다.

BERT 통합: 의미적, 문맥적 뉘앙스에 대한 깊은 이해
GAN 방식 학습: 적대적 학습을 통해 매우 사실적인 음성 생성
VITS2 기반: 최첨단 음성 합성 아키텍처

2. 방법론

2.1 데이터셋 선정

본 연구에서는 AISHELL-3를 선정했습니다.

85시간의 오디오 데이터
218명의 화자
화자당 평균 약 30분
높은 전사 품질

참고: 초기에는 Alimeeting(118.75시간)으로 실험했으나, 전사 품질 부족과 화자당 오디오 시간 부족으로 빈 오디오가 생성되었습니다.

데이터 전처리 WebUI 인터페이스

2.2 모델 아키텍처

Bert-VITS2 프레임워크는 네 가지 주요 구성 요소로 이루어져 있습니다.

구성 요소	기능
TextEncoder	사전 학습된 BERT로 입력 텍스트를 처리하여 의미를 파악
DurationPredictor	확률적 변동을 포함한 음소 지속 시간 추정
Flow	정규화 플로우를 사용한 피치 및 에너지 모델링
Decoder	최종 음성 파형 합성

2.3 학습 과정

손실 함수

Reconstruction Loss: 생성된 음성을 정답 음성과 일치시킴
Duration Loss: 음소 지속 시간 예측 오차 최소화
Adversarial Loss: 사실적인 음성 생성 유도
Feature Matching Loss: 중간 특징 정렬

모드 붕괴 완화

판별기 안정화를 위한 Gradient Penalty
생성기와 판별기의 Spectral Normalization
복잡도를 점진적으로 높이는 Progressive Training

하이퍼파라미터

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
{
  "train": {
    "batch_size": 20,
    "learning_rate": 0.00001,
    "epochs": 100,
    "bf16_run": true
  },
  "data": {
    "sampling_rate": 44100,
    "n_speakers": 174
  }
}

팁: RTX 4090 GPU 1대에서 bfloat16 정밀도로 학습을 수행했습니다.

3. 결과 및 논의

학습 과정

초기 학습에서 모드 붕괴(빈 음성 생성)가 발생했습니다. 조정 후:

판별기 손실 안정화
생성기 손실의 뚜렷한 하향 추세
학습 중 WER이 약 0.5에서 약 0.2로 감소

학습 손실 곡선

학습 중 WER 개선

다른 모델과의 비교

모델	WER	MOS
본 모델 (Bert-VITS2)	0.27	2.90
myshell-ai/MeloTTS-Chinese	5.62	3.04
fish-speech (GPT) w/o ref	0.49	3.57

참고: 본 모델은 최저 WER을 달성하여 정확한 음성 생성 능력을 보여주었습니다. 다만, MOS(자연스러움) 측면에서는 파라미터가 훨씬 많은 fish-speech에 비해 개선 여지가 있습니다.

생성 예시

다음과 같은 음성 합성에 성공했습니다.

짧은 구문 (2~10초)
장시간 음성 (22초) - 학습 데이터 범위 밖

한계점

코드 스위칭: 여러 언어가 혼합된 텍스트(예: 중국어에 영어 용어 “Speech processing"이 포함된 경우)는 처리할 수 없습니다.

4. 결론 및 향후 과제

달성 사항

중국어 TTS를 위한 Bert-VITS2 파인튜닝 성공
비교 모델 중 최저 WER 달성
GAN 학습의 과제를 완화하는 방법론 습득
다양한 길이에서 명확하고 인식 가능한 음성 생성

향후 방향

MOS 점수 향상을 위한 추가 학습
코드 스위칭 한계 해결
추가 화자 및 도메인으로의 확장

5. 참고 문헌

Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
Kong, J., et al. (2023). “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech.” INTERSPEECH.
Shi, Y., et al. (2020). “AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines.” ArXiv.
Saeki, T., et al. (2022). “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022.” INTERSPEECH.

리소스

Bert-VITS2 저장소: github.com/fishaudio/Bert-VITS2
AISHELL-3 데이터셋: openslr.org/93