일본어 및 중국어 감성 TTS 벤치마크

모델과 참고 자료:

요약

이 글은 일본어와 중국어 감성 TTS 시스템 5종을 neutral, happy, sad, angry, fear, disgust 여섯 감정으로 평가한 결과입니다. 문장 자체는 중립적으로 유지하여 감정이 텍스트 내용이 아니라 음성 스타일에서 나와야 하도록 했습니다.

균형이 가장 좋은 후보는 Qwen3-TTS CustomVoice 1.7B였습니다. 낮은 CER, 가장 좋은 앵커 hit rate, 안정적인 자연스러움, 그리고 일본어/중국어를 함께 볼 때 가장 실용적인 감정 인식 성능을 보였습니다.

CosyVoice 300M Instruct는 자연스러움이 가장 좋았지만 감정 제어는 약했습니다. IndexTTS-2는 pooled SenseVoice 점수가 높아 보이지만 일본어 CER이 너무 높아 일본어 TTS 결과로 신뢰하기 어렵습니다. 전반적으로 중국어가 일본어보다 쉬웠고, fear와 disgust는 아직 해결되지 않았습니다.

배경

감성 TTS는 자연스러운 음성을 만드는 문제만이 아닙니다. 모델은 문장을 정확히 말하면서도 듣기 좋고, 요청한 감정까지 표현해야 합니다. 그래서 이 벤치마크는 감정 인식, 감정 앵커, 전사 오류, 자연스러움, 속도, 실제 샘플을 함께 봅니다.

의도한 일본어 또는 중국어 문장이 정확히 유지되어야 합니다.
실제 청취에 충분할 만큼 자연스러운 음성이어야 합니다.
생성된 음성이 중립 음성이나 비슷한 감정으로 무너지지 않고 요청한 감정을 표현해야 합니다.

평가 방법

평가는 언어, 감정, 문장 수를 균형 있게 배치한 생성 그리드를 사용했습니다. 같은 문장을 여섯 감정 모두에 재사용하여 모델이 감정적인 단어에 의존하지 않고 운율과 발화 스타일로 감정을 표현해야 했습니다.

Experiment design

프롬프트 세트

일본어 프롬프트 예시:

ID	문장
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

중국어 프롬프트 예시:

ID	문장
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

감정 제어

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

평가 지표

SenseVoice 감정 정확도: 주요 자동 평가 지표입니다.
emotion2vec 앵커 적중률 및 margin: 감정 음성 앵커 중심점과의 거리로 보는 보조 진단 지표입니다.
CER: 원본 prompt 문장 대비 전사 오류율입니다.
NISQA-TTS 및 UTMOS: 합성 음성의 자연스러움과 품질을 보는 진단 지표입니다.
RTF: 합성 속도를 나타내는 real-time factor입니다.

결과

리소스 사용량

리소스 지표는 600개의 성공 생성 행에서 계산했습니다. GPU, VRAM, wall time, RTF는 모든 행에서 기록되었고, CPU는 서버형 어댑터에서는 일부 수집되지 않았습니다.

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice는 가장 빠르고 VRAM도 가장 적게 사용했습니다. Qwen3-TTS는 CosyVoice보다 VRAM을 더 쓰지만 IndexTTS-2와 VoxCPM2보다 훨씬 빠르며 감정 인식과 텍스트 충실도 사이의 균형이 가장 좋았습니다.

JA/ZH 지표 개요

아래 표는 SenseVoice 감정 정확도, CER 텍스트 충실도, emotion2vec 앵커 정렬을 일본어와 중국어로 나누어 본 핵심 요약입니다.

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

중국어는 자동 감정 지표에서 대체로 더 쉬웠습니다. 그러나 CER과 감정 정확도는 항상 같이 움직이지 않았습니다. Qwen3-TTS는 두 언어 모두에서 CER을 낮게 유지했고, IndexTTS-2는 일본어 SenseVoice 점수가 가장 높지만 일본어 CER도 가장 나빴습니다.

텍스트 충실도(CER)

CER by language

텍스트 충실도에서는 Qwen3-TTS가 가장 안정적이었습니다. 일본어 CER은 8.6%, 중국어 CER은 9.7%였습니다. IndexTTS-2는 pooled 감정 점수가 좋아 보이지만 일본어 CER이 91.0%라서 이 설정의 일본어 경로는 신뢰하기 어렵습니다.

감정 정확도

SenseVoice

SenseVoice accuracy by language

중국어는 이 자동 평가에서 일본어보다 명확히 쉬웠습니다. Qwen3-TTS의 중국어 SenseVoice 정확도는 53.3%이고 일본어는 15.0%였습니다. CER은 두 언어 모두 낮았으므로, 문제는 단순한 명료도가 아니라 일본어 감정 단서가 약하거나 SenseVoice와 덜 맞는다는 점입니다.

Per-emotion SenseVoice recall by model and language

fear와 disgust는 가장 어려운 레이블입니다. 모든 모델/언어 조합에서 SenseVoice recall이 0.0%였고, 주로 sad, neutral, angry, unknown으로 무너졌습니다.

행은 목표 감정, 열은 SenseVoice 예측입니다. 초록색 박스는 이상적인 대각선입니다.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

사례	관찰된 현상	의미
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	일본어 텍스트 품질이 불안정해도 감정 라벨만 보면 그럴듯해 보일 수 있습니다.
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen은 균형이 가장 좋은 후보지만 어려운 감정은 여전히 무너집니다.
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	자연스러움이 높아도 감정 제어가 인식 가능하다는 뜻은 아닙니다.
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	inline 감정 마커가 생성 음성의 prosody를 안정적으로 바꾸지 못했습니다.
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	prompt 기반 제어가 자주 중립 음성으로 무너졌습니다.

emotion2vec 앵커

emotion2vec anchor hit and margin by language

앵커 지표도 SenseVoice와 비슷한 이야기를 보여줍니다. 중국어 앵커가 일본어 앵커보다 유리했고, 양수 margin은 생성 음성이 다른 감정보다 목표 감정 중심에 더 가깝다는 뜻입니다. Qwen3-TTS는 중국어에서 양수 margin을 보였지만 모든 일본어 margin은 음수였습니다.

자연스러움

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

자연스러움과 감정 정확도는 다른 질문입니다. CosyVoice는 자연스러움에서 가장 강했지만 감정 제어의 승자는 아니었습니다. Qwen3-TTS는 NISQA-TTS에서 약간 뒤지지만 감정, 문장 정확도, 속도의 균형이 더 좋았습니다.

청취 예시

happy와 angry의 일본어/중국어 샘플을 같은 prompt index로 골랐습니다. 이 클립은 인간 청취 테스트가 아니라 자동 지표를 해석하기 위한 정성적 기준점입니다.

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

한계

자동 감정 라벨은 인간 판단이 아닙니다. SenseVoice는 일본어와 중국어를 지원하고 벤치마크 라벨로 매핑하기 쉬워 유용하지만, 분류기 편향과 언어별 불균형이 있을 수 있습니다.
앵커 지표는 앵커 데이터셋에 의존합니다. 일본어 앵커는 JVNV, 중국어 앵커는 CSEMOTIONS에서 왔으며, 이번 실행에서는 ja/neutral과 zh/disgust 앵커가 없었습니다.
IndexTTS-2 일본어 결과는 진단용입니다. pooled 감정 점수는 좋아 보이지만 이 설정에서는 일본어 CER이 너무 높습니다.

추가 연구

Qwen3-TTS와 CosyVoice에 대해 원어민 MOS/CMOS 테스트를 수행하고 자연스러움, 감정 정확도, 텍스트 명료도를 따로 평가합니다.
IndexTTS-2는 우선 중국어 중심으로 다루거나 일본어 tokenizer/text path를 수정한 뒤 다시 실행합니다.
누락된 ja/neutral 및 zh/disgust 감정 앵커를 추가하거나 큐레이션합니다.
sad, angry, fear, disgust에 대한 중국어 인간 평가를 별도로 진행합니다.
SenseVoice는 자동 스크리닝으로 유지하되, 제품 판단은 인간 청취 테스트로 확정합니다.

결론

일본어와 중국어 감성 TTS에서 Qwen3-TTS CustomVoice 1.7B가 이번 벤치마크의 가장 균형 잡힌 모델입니다. 모든 감정을 해결하지는 못했지만 감정 인식, 낮은 CER, 앵커 hit rate, 자연스러움, 실행 속도의 조합이 가장 실용적이었습니다.

감성 TTS 벤치마크: 일본어와 중국어에서의 Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, VoxCPM

요약

배경

평가 방법

프롬프트 세트

감정 제어

평가 지표

결과

리소스 사용량

JA/ZH 지표 개요

텍스트 충실도(CER)

감정 정확도

SenseVoice

emotion2vec 앵커

자연스러움

청취 예시

한계

추가 연구

결론

이어서 보기: Voice translation

VoicePing 무료로 시작하기

관련 기사

음성 번역: EN-JA 양방향 번역에서 Qwen3-ASR vs Whisper

오프라인 TTS 벤치마크: Android/iOS에서 18개 모델 비교

오프라인 음성 전사 벤치마크: Android/iOS/macOS/Windows에서 16개 모델 비교