Emotionaler TTS-Benchmark für Japanisch und Chinesisch

Modelle und Referenzen:

Kurzfassung

Wir haben fünf emotionale TTS-Systeme für Japanisch und Chinesisch mit sechs Ziel-Emotionen benchmarked: neutral, happy, sad, angry, fear und disgust. Die Sätze sind neutral, damit die Emotion aus dem Sprachstil kommen muss.

Der ausgewogenste Kandidat ist Qwen3-TTS CustomVoice 1.7B: niedrige CER, beste anchor hit rate, starke Natürlichkeit und der praktischste Kompromiss über Japanisch und Chinesisch.

CosyVoice 300M Instruct führt bei Natürlichkeit, ist aber bei Emotionssteuerung schwach. IndexTTS-2 wirkt im pooled SenseVoice score stark, doch die japanische CER ist zu hoch. Chinesisch ist leichter als Japanisch, und fear sowie disgust bleiben ungelöst.

Motivation

Emotionales TTS ist nicht nur Natürlichkeit. Ein Modell muss den richtigen Satz sprechen, gut klingen und die angeforderte Emotion ausdrücken. Deshalb kombiniert diese Evaluation Emotionserkennung, emotion anchors, CER, Natürlichkeit, Runtime und Hörbeispiele.

Der beabsichtigte japanische oder chinesische Satz muss korrekt bleiben.
Die Sprache muss natürlich genug für echtes Zuhören klingen.
Die erzeugte Stimme soll die gewünschte Emotion ausdrücken, statt in neutrale Sprache oder eine nahegelegene Emotion zurückzufallen.

Evaluationsmethode

Der Benchmark nutzt ein balanciertes Generierungsraster nach Sprache, Emotion und Prompt. Derselbe Satz wird für alle sechs Emotionen verwendet, sodass das Modell Prosodie und Stimmstil nutzen muss.

Experiment design

Prompt-Set

Beispiel-Prompts für Japanisch:

ID	Satz
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

Beispiel-Prompts für Chinesisch:

ID	Satz
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

Emotionssteuerung

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

Metriken

SenseVoice-Emotionsgenauigkeit: wichtigste automatische Screening-Metrik.
emotion2vec anchor hit und margin: sekundäre Diagnosemetrik auf Basis von Zentroiden emotionaler Sprach-Anchor.
CER: Zeichenfehlerrate der Transkription gegenüber dem ursprünglichen Prompt-Text.
NISQA-TTS und UTMOS: Diagnosemetriken für Natürlichkeit und Qualität der synthetisierten Sprache.
RTF: real-time factor zur Messung der Synthesegeschwindigkeit.

Ergebnisse

Ressourcennutzung

Die Ressourcenmetriken stammen aus 600 erfolgreichen Generierungen. GPU, VRAM, wall time und RTF sind für alle abgeschlossenen Zeilen vorhanden; CPU wurde bei server-backed adapters nicht immer erfasst.

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice ist am schnellsten und nutzt am wenigsten VRAM, ist aber nicht der stärkste Kandidat für Emotionssteuerung. Qwen3-TTS nutzt mehr VRAM als CosyVoice, ist aber viel schneller als IndexTTS-2 und VoxCPM2 und bietet die beste Balance.

JA/ZH-Metrikübersicht

Diese Tabelle trennt Japanisch und Chinesisch für drei Kernprüfungen: SenseVoice-Emotionsgenauigkeit, CER und emotion2vec-anchor alignment.

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

Chinesisch ist in automatischen Emotionsmetriken meist leichter, aber CER und Emotionsgenauigkeit bewegen sich nicht immer gemeinsam. Qwen3-TTS hält CER in beiden Sprachen niedrig; IndexTTS-2 hat den höchsten japanischen SenseVoice score und zugleich die schlechteste japanische CER.

Texttreue (CER)

CER by language

Bei Texttreue ist Qwen3-TTS am stabilsten: japanische CER 8,6 % und chinesische CER 9,7 %. IndexTTS-2 ist ein Warnfall mit 91,0 % japanischer CER.

Emotionsgenauigkeit

SenseVoice

SenseVoice accuracy by language

In diesem automatischen Setup ist Chinesisch deutlich leichter als Japanisch. Für Qwen3-TTS liegt die chinesische SenseVoice-Genauigkeit bei 53,3 %, die japanische bei 15,0 %, obwohl CER in beiden Sprachen niedrig ist.

Per-emotion SenseVoice recall by model and language

fear und disgust sind die schwierigsten Labels. SenseVoice recall beträgt für beide 0,0 % über alle Modell/Sprach-Paare und fällt häufig auf sad, neutral, angry oder unknown zurück.

Zeilen sind Ziel-Emotionen und Spalten SenseVoice-Vorhersagen. Grüne Felder markieren die ideale Diagonale.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

Fall	Was passiert ist	Warum das wichtig ist
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	Emotionslabels können plausibel wirken, obwohl die japanische Textqualität unzuverlässig ist.
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen ist der ausgewogenste Kandidat, aber schwierige Emotionen brechen weiterhin zusammen.
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	Natürlichkeit garantiert keine erkennbare Emotionssteuerung.
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	Inline-Emotionsmarker haben die Prosodie nicht zuverlässig verschoben.
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	Prompt-basierte Steuerung fiel oft in neutrale Sprache zurück.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Die anchor-Metrik erzählt eine ähnliche Geschichte: chinesische anchors sind günstiger als japanische. Eine positive margin bedeutet, dass Audio näher am Ziel-Emotionszentrum liegt. Qwen3-TTS ist in Chinesisch positiv, alle japanischen margins sind negativ.

Natürlichkeit

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

Natürlichkeit und emotionale Korrektheit sind verschiedene Fragen. CosyVoice gewinnt bei Natürlichkeit, nicht bei Emotionssteuerung. Qwen3-TTS liegt bei NISQA-TTS leicht dahinter, ist aber bei Emotion, Text und Geschwindigkeit ausgewogener.

Hörbeispiele

Die folgende Tabelle nutzt denselben prompt index für happy und angry in Japanisch und Chinesisch. Die Clips sind kein menschlicher Hörtest, sondern qualitative Anker für die automatischen Metriken.

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

Einschränkungen

Automatische Emotionslabels sind kein menschliches Urteil. SenseVoice ist nützlich, kann aber Klassifikatorbias und Sprachungleichgewicht enthalten.
Anchor-Metriken hängen von den Anchor-Datasets ab. Japanische anchors stammen aus JVNV, chinesische aus CSEMOTIONS; ja/neutral und zh/disgust fehlten in diesem Lauf.
IndexTTS-2 Japanisch ist diagnostisch. Der pooled score wirkt stark, aber die japanische CER ist in diesem Setup zu hoch.

Weitere Forschung

Einen kleinen MOS/CMOS-Test mit Muttersprachlern für Qwen3-TTS und CosyVoice durchführen.
IndexTTS-2 vorerst als chinesischen Kandidaten behandeln oder nach Fix des japanischen tokenizer/text path neu ausführen.
Fehlende ja/neutral und zh/disgust anchors ergänzen oder kuratieren.
Einen fokussierten chinesischen Human Check für sad, angry, fear und disgust durchführen.
SenseVoice als automatisches Screening behalten, Produktionsentscheidungen aber mit Hörtests treffen.

Fazit

Für japanisches und chinesisches emotionales TTS ist Qwen3-TTS CustomVoice 1.7B das ausgewogenste Modell in diesem Benchmark. Es löst nicht alle Emotionen, bietet aber die praktischste Mischung aus Emotionserkennung, niedriger CER, anchor hit rate, Natürlichkeit und Runtime.

Emotionaler TTS-Benchmark: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio und VoxCPM für Japanisch und Chinesisch