일본어 및 중국어 감성 TTS 벤치마크 | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

감성 TTS 벤치마크: 일본어와 중국어에서의 Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, VoxCPM

VoicePing Research 6 분 읽기
감성 TTS 벤치마크: 일본어와 중국어에서의 Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, VoxCPM

일본어와 중국어 감성 TTS 모델 5종을 여섯 가지 감정, SenseVoice, emotion2vec 앵커, CER, 자연스러움, 실행 속도, 청취 예시로 비교했습니다.

모델과 참고 자료:

요약

이 글은 일본어와 중국어 감성 TTS 시스템 5종을 neutral, happy, sad, angry, fear, disgust 여섯 감정으로 평가한 결과입니다. 문장 자체는 중립적으로 유지하여 감정이 텍스트 내용이 아니라 음성 스타일에서 나와야 하도록 했습니다.

균형이 가장 좋은 후보는 Qwen3-TTS CustomVoice 1.7B였습니다. 낮은 CER, 가장 좋은 앵커 hit rate, 안정적인 자연스러움, 그리고 일본어/중국어를 함께 볼 때 가장 실용적인 감정 인식 성능을 보였습니다.

CosyVoice 300M Instruct는 자연스러움이 가장 좋았지만 감정 제어는 약했습니다. IndexTTS-2는 pooled SenseVoice 점수가 높아 보이지만 일본어 CER이 너무 높아 일본어 TTS 결과로 신뢰하기 어렵습니다. 전반적으로 중국어가 일본어보다 쉬웠고, feardisgust는 아직 해결되지 않았습니다.

배경

감성 TTS는 자연스러운 음성을 만드는 문제만이 아닙니다. 모델은 문장을 정확히 말하면서도 듣기 좋고, 요청한 감정까지 표현해야 합니다. 그래서 이 벤치마크는 감정 인식, 감정 앵커, 전사 오류, 자연스러움, 속도, 실제 샘플을 함께 봅니다.

  • 의도한 일본어 또는 중국어 문장이 정확히 유지되어야 합니다.
  • 실제 청취에 충분할 만큼 자연스러운 음성이어야 합니다.
  • 생성된 음성이 중립 음성이나 비슷한 감정으로 무너지지 않고 요청한 감정을 표현해야 합니다.

평가 방법

평가는 언어, 감정, 문장 수를 균형 있게 배치한 생성 그리드를 사용했습니다. 같은 문장을 여섯 감정 모두에 재사용하여 모델이 감정적인 단어에 의존하지 않고 운율과 발화 스타일로 감정을 표현해야 했습니다.

Experiment design

프롬프트 세트

일본어 프롬프트 예시:

ID문장
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

중국어 프롬프트 예시:

ID문장
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

감정 제어

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

평가 지표

  • SenseVoice 감정 정확도: 주요 자동 평가 지표입니다.
  • emotion2vec 앵커 적중률 및 margin: 감정 음성 앵커 중심점과의 거리로 보는 보조 진단 지표입니다.
  • CER: 원본 prompt 문장 대비 전사 오류율입니다.
  • NISQA-TTS 및 UTMOS: 합성 음성의 자연스러움과 품질을 보는 진단 지표입니다.
  • RTF: 합성 속도를 나타내는 real-time factor입니다.

결과

리소스 사용량

리소스 지표는 600개의 성공 생성 행에서 계산했습니다. GPU, VRAM, wall time, RTF는 모든 행에서 기록되었고, CPU는 서버형 어댑터에서는 일부 수집되지 않았습니다.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice는 가장 빠르고 VRAM도 가장 적게 사용했습니다. Qwen3-TTS는 CosyVoice보다 VRAM을 더 쓰지만 IndexTTS-2와 VoxCPM2보다 훨씬 빠르며 감정 인식과 텍스트 충실도 사이의 균형이 가장 좋았습니다.

JA/ZH 지표 개요

아래 표는 SenseVoice 감정 정확도, CER 텍스트 충실도, emotion2vec 앵커 정렬을 일본어와 중국어로 나누어 본 핵심 요약입니다.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

중국어는 자동 감정 지표에서 대체로 더 쉬웠습니다. 그러나 CER과 감정 정확도는 항상 같이 움직이지 않았습니다. Qwen3-TTS는 두 언어 모두에서 CER을 낮게 유지했고, IndexTTS-2는 일본어 SenseVoice 점수가 가장 높지만 일본어 CER도 가장 나빴습니다.

텍스트 충실도(CER)

CER by language

텍스트 충실도에서는 Qwen3-TTS가 가장 안정적이었습니다. 일본어 CER은 8.6%, 중국어 CER은 9.7%였습니다. IndexTTS-2는 pooled 감정 점수가 좋아 보이지만 일본어 CER이 91.0%라서 이 설정의 일본어 경로는 신뢰하기 어렵습니다.

감정 정확도

SenseVoice

SenseVoice accuracy by language

중국어는 이 자동 평가에서 일본어보다 명확히 쉬웠습니다. Qwen3-TTS의 중국어 SenseVoice 정확도는 53.3%이고 일본어는 15.0%였습니다. CER은 두 언어 모두 낮았으므로, 문제는 단순한 명료도가 아니라 일본어 감정 단서가 약하거나 SenseVoice와 덜 맞는다는 점입니다.

Per-emotion SenseVoice recall by model and language

feardisgust는 가장 어려운 레이블입니다. 모든 모델/언어 조합에서 SenseVoice recall이 0.0%였고, 주로 sad, neutral, angry, unknown으로 무너졌습니다.

행은 목표 감정, 열은 SenseVoice 예측입니다. 초록색 박스는 이상적인 대각선입니다.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

사례관찰된 현상의미
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.일본어 텍스트 품질이 불안정해도 감정 라벨만 보면 그럴듯해 보일 수 있습니다.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen은 균형이 가장 좋은 후보지만 어려운 감정은 여전히 무너집니다.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.자연스러움이 높아도 감정 제어가 인식 가능하다는 뜻은 아닙니다.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.inline 감정 마커가 생성 음성의 prosody를 안정적으로 바꾸지 못했습니다.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.prompt 기반 제어가 자주 중립 음성으로 무너졌습니다.

emotion2vec 앵커

emotion2vec anchor hit and margin by language

앵커 지표도 SenseVoice와 비슷한 이야기를 보여줍니다. 중국어 앵커가 일본어 앵커보다 유리했고, 양수 margin은 생성 음성이 다른 감정보다 목표 감정 중심에 더 가깝다는 뜻입니다. Qwen3-TTS는 중국어에서 양수 margin을 보였지만 모든 일본어 margin은 음수였습니다.

자연스러움

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

자연스러움과 감정 정확도는 다른 질문입니다. CosyVoice는 자연스러움에서 가장 강했지만 감정 제어의 승자는 아니었습니다. Qwen3-TTS는 NISQA-TTS에서 약간 뒤지지만 감정, 문장 정확도, 속도의 균형이 더 좋았습니다.

청취 예시

happyangry의 일본어/중국어 샘플을 같은 prompt index로 골랐습니다. 이 클립은 인간 청취 테스트가 아니라 자동 지표를 해석하기 위한 정성적 기준점입니다.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

한계

  • 자동 감정 라벨은 인간 판단이 아닙니다. SenseVoice는 일본어와 중국어를 지원하고 벤치마크 라벨로 매핑하기 쉬워 유용하지만, 분류기 편향과 언어별 불균형이 있을 수 있습니다.
  • 앵커 지표는 앵커 데이터셋에 의존합니다. 일본어 앵커는 JVNV, 중국어 앵커는 CSEMOTIONS에서 왔으며, 이번 실행에서는 ja/neutralzh/disgust 앵커가 없었습니다.
  • IndexTTS-2 일본어 결과는 진단용입니다. pooled 감정 점수는 좋아 보이지만 이 설정에서는 일본어 CER이 너무 높습니다.

추가 연구

  • Qwen3-TTS와 CosyVoice에 대해 원어민 MOS/CMOS 테스트를 수행하고 자연스러움, 감정 정확도, 텍스트 명료도를 따로 평가합니다.
  • IndexTTS-2는 우선 중국어 중심으로 다루거나 일본어 tokenizer/text path를 수정한 뒤 다시 실행합니다.
  • 누락된 ja/neutralzh/disgust 감정 앵커를 추가하거나 큐레이션합니다.
  • sad, angry, fear, disgust에 대한 중국어 인간 평가를 별도로 진행합니다.
  • SenseVoice는 자동 스크리닝으로 유지하되, 제품 판단은 인간 청취 테스트로 확정합니다.

결론

일본어와 중국어 감성 TTS에서 Qwen3-TTS CustomVoice 1.7B가 이번 벤치마크의 가장 균형 잡힌 모델입니다. 모든 감정을 해결하지는 못했지만 감정 인식, 낮은 CER, 앵커 hit rate, 자연스러움, 실행 속도의 조합이 가장 실용적이었습니다.

이 기사 공유

VoicePing 무료로 시작하기

AI 번역으로 언어 장벽을 넘어보세요. 지금 무료로 시작하세요.

무료로 시작