TTS Text-to-Speech Bert-VITS2 Mandarin Chinese Deep Learning

Bert-VITS2를 활용한 중국어(표준어) 음성 합성 시스템 구축

Boxuan Lyu - Tokyo Institute of Technology 3 분 읽기
Bert-VITS2를 활용한 중국어(표준어) 음성 합성 시스템 구축

AISHELL-3 데이터셋과 Bert-VITS2 프레임워크를 활용한 중국어 음성 합성(TTS) 시스템 개발 연구입니다.

개요

본 연구에서는 Bert-VITS2 프레임워크를 활용하여 빠르고 자연스러운 중국어(표준어) 음성 합성(TTS) 시스템을 개발한 결과를 보고합니다. 회의 시나리오에 특화되어, 명확하고 표현력 있으며 문맥에 적합한 음성 생성을 목표로 합니다.

주요 성과:

  • 비교 모델 중 최저 WER 0.27 달성
  • 음성 자연스러움 MOS 2.90 달성
  • 최대 22초 음성 합성 성공
  • AISHELL-3 데이터셋(85시간, 218명 화자)으로 학습

1. 서론

음성 합성(TTS)이란

음성 합성(TTS) 기술은 작성된 텍스트를 자연스러운 음성으로 변환합니다. 최신 TTS 시스템은 딥러닝을 활용하여 점점 더 자연스럽고 풍부한 표현의 음성을 생성하고 있으며, 주요 응용 분야는 다음과 같습니다.

음성 합성 개요

  • 지능형 어시스턴트
  • 접근성 높은 읽기 솔루션
  • 내비게이션 시스템
  • 자동화된 고객 서비스

왜 중국어인가

중국어(표준어)는 10억 명 이상의 화자를 가진 세계 최대 언어입니다. 그러나 성조 언어라는 특성과 복잡한 언어 구조로 인해 TTS에서 독특한 도전 과제를 제시합니다.

Bert-VITS2란

Bert-VITS2는 사전 학습된 언어 모델과 최신 음성 합성 기술을 결합한 시스템입니다.

  • BERT 통합: 의미적, 문맥적 뉘앙스에 대한 깊은 이해
  • GAN 방식 학습: 적대적 학습을 통해 매우 사실적인 음성 생성
  • VITS2 기반: 최첨단 음성 합성 아키텍처

2. 방법론

2.1 데이터셋 선정

본 연구에서는 AISHELL-3를 선정했습니다.

  • 85시간의 오디오 데이터
  • 218명의 화자
  • 화자당 평균 약 30분
  • 높은 전사 품질

참고: 초기에는 Alimeeting(118.75시간)으로 실험했으나, 전사 품질 부족과 화자당 오디오 시간 부족으로 빈 오디오가 생성되었습니다.

데이터 전처리 WebUI 인터페이스

2.2 모델 아키텍처

Bert-VITS2 프레임워크는 네 가지 주요 구성 요소로 이루어져 있습니다.

구성 요소기능
TextEncoder사전 학습된 BERT로 입력 텍스트를 처리하여 의미를 파악
DurationPredictor확률적 변동을 포함한 음소 지속 시간 추정
Flow정규화 플로우를 사용한 피치 및 에너지 모델링
Decoder최종 음성 파형 합성

2.3 학습 과정

손실 함수

  • Reconstruction Loss: 생성된 음성을 정답 음성과 일치시킴
  • Duration Loss: 음소 지속 시간 예측 오차 최소화
  • Adversarial Loss: 사실적인 음성 생성 유도
  • Feature Matching Loss: 중간 특징 정렬

모드 붕괴 완화

  • 판별기 안정화를 위한 Gradient Penalty
  • 생성기와 판별기의 Spectral Normalization
  • 복잡도를 점진적으로 높이는 Progressive Training

하이퍼파라미터

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
{
  "train": {
    "batch_size": 20,
    "learning_rate": 0.00001,
    "epochs": 100,
    "bf16_run": true
  },
  "data": {
    "sampling_rate": 44100,
    "n_speakers": 174
  }
}

팁: RTX 4090 GPU 1대에서 bfloat16 정밀도로 학습을 수행했습니다.

3. 결과 및 논의

학습 과정

초기 학습에서 모드 붕괴(빈 음성 생성)가 발생했습니다. 조정 후:

  • 판별기 손실 안정화
  • 생성기 손실의 뚜렷한 하향 추세
  • 학습 중 WER이 약 0.5에서 약 0.2로 감소

학습 손실 곡선

학습 중 WER 개선

다른 모델과의 비교

모델WERMOS
본 모델 (Bert-VITS2)0.272.90
myshell-ai/MeloTTS-Chinese5.623.04
fish-speech (GPT) w/o ref0.493.57

참고: 본 모델은 최저 WER을 달성하여 정확한 음성 생성 능력을 보여주었습니다. 다만, MOS(자연스러움) 측면에서는 파라미터가 훨씬 많은 fish-speech에 비해 개선 여지가 있습니다.

생성 예시

다음과 같은 음성 합성에 성공했습니다.

  • 짧은 구문 (2~10초)
  • 장시간 음성 (22초) - 학습 데이터 범위 밖

한계점

코드 스위칭: 여러 언어가 혼합된 텍스트(예: 중국어에 영어 용어 “Speech processing"이 포함된 경우)는 처리할 수 없습니다.

4. 결론 및 향후 과제

달성 사항

  1. 중국어 TTS를 위한 Bert-VITS2 파인튜닝 성공
  2. 비교 모델 중 최저 WER 달성
  3. GAN 학습의 과제를 완화하는 방법론 습득
  4. 다양한 길이에서 명확하고 인식 가능한 음성 생성

향후 방향

  1. MOS 점수 향상을 위한 추가 학습
  2. 코드 스위칭 한계 해결
  3. 추가 화자 및 도메인으로의 확장

5. 참고 문헌

  1. Ren, Y., et al. (2019). “Fastspeech: Fast, robust and controllable text to speech.” NeurIPS.
  2. Wang, Y., et al. (2017). “Tacotron: Towards end-to-end speech synthesis.” Interspeech.
  3. Kim, J., et al. (2021). “Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.” ICML.
  4. Kong, J., et al. (2023). “VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech.” INTERSPEECH.
  5. Shi, Y., et al. (2020). “AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines.” ArXiv.
  6. Saeki, T., et al. (2022). “UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022.” INTERSPEECH.

리소스

이 기사 공유

VoicePing 무료로 시작하기

AI 번역으로 언어 장벽을 넘어보세요. 지금 무료로 시작하세요.

무료로 시작