
Vergleich von fünf emotionalen TTS-Modellen für Japanisch und Chinesisch über sechs Emotionen, SenseVoice, emotion2vec anchors, CER, Natürlichkeit, Laufzeit und Hörbeispiele.
Modelle und Referenzen:
Kurzfassung
Wir haben fünf emotionale TTS-Systeme für Japanisch und Chinesisch mit sechs Ziel-Emotionen benchmarked: neutral, happy, sad, angry, fear und disgust. Die Sätze sind neutral, damit die Emotion aus dem Sprachstil kommen muss.
Der ausgewogenste Kandidat ist Qwen3-TTS CustomVoice 1.7B: niedrige CER, beste anchor hit rate, starke Natürlichkeit und der praktischste Kompromiss über Japanisch und Chinesisch.
CosyVoice 300M Instruct führt bei Natürlichkeit, ist aber bei Emotionssteuerung schwach. IndexTTS-2 wirkt im pooled SenseVoice score stark, doch die japanische CER ist zu hoch. Chinesisch ist leichter als Japanisch, und fear sowie disgust bleiben ungelöst.
Motivation
Emotionales TTS ist nicht nur Natürlichkeit. Ein Modell muss den richtigen Satz sprechen, gut klingen und die angeforderte Emotion ausdrücken. Deshalb kombiniert diese Evaluation Emotionserkennung, emotion anchors, CER, Natürlichkeit, Runtime und Hörbeispiele.
- Der beabsichtigte japanische oder chinesische Satz muss korrekt bleiben.
- Die Sprache muss natürlich genug für echtes Zuhören klingen.
- Die erzeugte Stimme soll die gewünschte Emotion ausdrücken, statt in neutrale Sprache oder eine nahegelegene Emotion zurückzufallen.
Evaluationsmethode
Der Benchmark nutzt ein balanciertes Generierungsraster nach Sprache, Emotion und Prompt. Derselbe Satz wird für alle sechs Emotionen verwendet, sodass das Modell Prosodie und Stimmstil nutzen muss.
Prompt-Set
Beispiel-Prompts für Japanisch:
| ID | Satz |
|---|---|
ja_001 | 会議は午前十時に始まります。 |
ja_002 | 資料は机の上に置いてあります。 |
ja_003 | 明日の予定を確認してください。 |
ja_004 | 電車は三番線から出発します。 |
ja_005 | 受付で名前を伝えてください。 |
Beispiel-Prompts für Chinesisch:
| ID | Satz |
|---|---|
zh_001 | 会议将在上午十点开始。 |
zh_002 | 资料已经放在桌子上。 |
zh_003 | 请确认明天的日程安排。 |
zh_004 | 列车将从三号站台出发。 |
zh_005 | 请在前台告知您的姓名。 |
Emotionssteuerung
| Target emotion | Control text |
|---|---|
neutral | Speak in a clear, neutral, natural voice. |
happy | Speak in a happy, warm, bright voice. |
sad | Speak in a sad, soft, slow, gentle voice. |
angry | Speak in an angry, tense, forceful voice. |
fear | Speak in a fearful, tense, trembling voice. |
disgust | Speak in a disgusted, displeased, rejecting voice. |
Metriken
- SenseVoice-Emotionsgenauigkeit: wichtigste automatische Screening-Metrik.
- emotion2vec anchor hit und margin: sekundäre Diagnosemetrik auf Basis von Zentroiden emotionaler Sprach-Anchor.
- CER: Zeichenfehlerrate der Transkription gegenüber dem ursprünglichen Prompt-Text.
- NISQA-TTS und UTMOS: Diagnosemetriken für Natürlichkeit und Qualität der synthetisierten Sprache.
- RTF: real-time factor zur Messung der Synthesegeschwindigkeit.
Ergebnisse
Ressourcennutzung
Die Ressourcenmetriken stammen aus 600 erfolgreichen Generierungen. GPU, VRAM, wall time und RTF sind für alle abgeschlossenen Zeilen vorhanden; CPU wurde bei server-backed adapters nicht immer erfasst.
| Model | Median wall time | Median RTF | Median peak VRAM | GPU util | GPU power | CPU | Median peak RSS |
|---|---|---|---|---|---|---|---|
cosyvoice_300m_instruct | 2.26s | 0.85 | 3.96 GB | 30.3% avg / 39.0% peak | 145.0W avg / 155.6W peak | 127.8% peak; 100% coverage | 5.54 GB |
qwen3_tts_customvoice_1_7b | 4.20s | 1.58 | 8.13 GB | 22.9% avg / 25.0% peak | 126.3W avg / 127.1W peak | 138.1% peak; 100% coverage | 6.22 GB |
fish_audio_s1_mini | 7.06s | 3.47 | 13.05 GB | 25.3% avg / 69.0% peak | 150.4W avg / 183.7W peak | not captured; 0% coverage | 0.80 GB |
indextts-2 | 26.39s | 6.97 | 7.29 GB | 18.2% avg / 100.0% peak | 131.3W avg / 199.6W peak | not captured; 0% coverage | 7.69 GB |
voxcpm2 | 28.44s | 9.84 | 12.79 GB | 12.3% avg / 100.0% peak | 106.7W avg / 191.5W peak | not captured; 0% coverage | 10.65 GB |
CosyVoice ist am schnellsten und nutzt am wenigsten VRAM, ist aber nicht der stärkste Kandidat für Emotionssteuerung. Qwen3-TTS nutzt mehr VRAM als CosyVoice, ist aber viel schneller als IndexTTS-2 und VoxCPM2 und bietet die beste Balance.
JA/ZH-Metrikübersicht
Diese Tabelle trennt Japanisch und Chinesisch für drei Kernprüfungen: SenseVoice-Emotionsgenauigkeit, CER und emotion2vec-anchor alignment.
| Model | JA SenseVoice | ZH SenseVoice | JA CER | ZH CER | JA anchor hit | ZH anchor hit | JA anchor margin | ZH anchor margin |
|---|---|---|---|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | 15.0% | 53.3% | 8.6% | 9.7% | 40.0% | 64.0% | -0.06645 | 0.04480 |
indextts-2 | 43.3% | 16.7% | 91.0% | 10.3% | 38.0% | 30.0% | -0.08293 | -0.04063 |
voxcpm2 | 6.7% | 35.0% | 18.6% | 4.4% | 40.0% | 36.0% | -0.04479 | -0.02693 |
cosyvoice_300m_instruct | 1.7% | 36.7% | 43.9% | 11.1% | 24.0% | 72.0% | -0.05481 | 0.03796 |
fish_audio_s1_mini | 6.7% | 16.7% | 12.7% | 16.8% | 20.0% | 24.0% | -0.08972 | -0.09542 |
Chinesisch ist in automatischen Emotionsmetriken meist leichter, aber CER und Emotionsgenauigkeit bewegen sich nicht immer gemeinsam. Qwen3-TTS hält CER in beiden Sprachen niedrig; IndexTTS-2 hat den höchsten japanischen SenseVoice score und zugleich die schlechteste japanische CER.
Texttreue (CER)
Bei Texttreue ist Qwen3-TTS am stabilsten: japanische CER 8,6 % und chinesische CER 9,7 %. IndexTTS-2 ist ein Warnfall mit 91,0 % japanischer CER.
Emotionsgenauigkeit
SenseVoice
In diesem automatischen Setup ist Chinesisch deutlich leichter als Japanisch. Für Qwen3-TTS liegt die chinesische SenseVoice-Genauigkeit bei 53,3 %, die japanische bei 15,0 %, obwohl CER in beiden Sprachen niedrig ist.
fear und disgust sind die schwierigsten Labels. SenseVoice recall beträgt für beide 0,0 % über alle Modell/Sprach-Paare und fällt häufig auf sad, neutral, angry oder unknown zurück.
Zeilen sind Ziel-Emotionen und Spalten SenseVoice-Vorhersagen. Grüne Felder markieren die ideale Diagonale.
| Fall | Was passiert ist | Warum das wichtig ist |
|---|---|---|
indextts-2 / ja | happy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10. | Emotionslabels können plausibel wirken, obwohl die japanische Textqualität unzuverlässig ist. |
qwen3_tts_customvoice_1_7b / zh | happy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10. | Qwen ist der ausgewogenste Kandidat, aber schwierige Emotionen brechen weiterhin zusammen. |
cosyvoice_300m_instruct / ja | happy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10. | Natürlichkeit garantiert keine erkennbare Emotionssteuerung. |
fish_audio_s1_mini / zh | happy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10. | Inline-Emotionsmarker haben die Prosodie nicht zuverlässig verschoben. |
voxcpm2 / zh | happy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10. | Prompt-basierte Steuerung fiel oft in neutrale Sprache zurück. |
emotion2vec anchors
Die anchor-Metrik erzählt eine ähnliche Geschichte: chinesische anchors sind günstiger als japanische. Eine positive margin bedeutet, dass Audio näher am Ziel-Emotionszentrum liegt. Qwen3-TTS ist in Chinesisch positiv, alle japanischen margins sind negativ.
Natürlichkeit
| Model | Mean NISQA-TTS | Low NISQA-TTS <3.0 | Mean UTMOS | Low UTMOS <3.0 |
|---|---|---|---|---|
cosyvoice_300m_instruct | 4.267 | 0.0% | 3.282 | 20.8% |
indextts-2 | 4.063 | 11.7% | 2.078 | 93.3% |
qwen3_tts_customvoice_1_7b | 4.007 | 0.8% | 2.939 | 51.7% |
fish_audio_s1_mini | 3.935 | 3.3% | 2.932 | 55.8% |
voxcpm2 | 3.788 | 8.3% | 2.596 | 76.7% |
Natürlichkeit und emotionale Korrektheit sind verschiedene Fragen. CosyVoice gewinnt bei Natürlichkeit, nicht bei Emotionssteuerung. Qwen3-TTS liegt bei NISQA-TTS leicht dahinter, ist aber bei Emotion, Text und Geschwindigkeit ausgewogener.
Hörbeispiele
Die folgende Tabelle nutzt denselben prompt index für happy und angry in Japanisch und Chinesisch. Die Clips sind kein menschlicher Hörtest, sondern qualitative Anker für die automatischen Metriken.
| Model | Language | Target | SenseVoice prediction | Sample |
|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | JA | happy | unknown | |
qwen3_tts_customvoice_1_7b | JA | angry | angry | |
qwen3_tts_customvoice_1_7b | ZH | happy | neutral | |
qwen3_tts_customvoice_1_7b | ZH | angry | angry | |
cosyvoice_300m_instruct | JA | happy | unknown | |
cosyvoice_300m_instruct | JA | angry | unknown | |
cosyvoice_300m_instruct | ZH | happy | happy | |
cosyvoice_300m_instruct | ZH | angry | neutral | |
indextts-2 | JA | happy | sad | |
indextts-2 | JA | angry | surprised | |
indextts-2 | ZH | happy | neutral | |
indextts-2 | ZH | angry | neutral | |
fish_audio_s1_mini | JA | happy | happy | |
fish_audio_s1_mini | JA | angry | happy | |
fish_audio_s1_mini | ZH | happy | neutral | |
fish_audio_s1_mini | ZH | angry | neutral | |
voxcpm2 | JA | happy | unknown | |
voxcpm2 | JA | angry | angry | |
voxcpm2 | ZH | happy | happy | |
voxcpm2 | ZH | angry | angry |
Einschränkungen
- Automatische Emotionslabels sind kein menschliches Urteil. SenseVoice ist nützlich, kann aber Klassifikatorbias und Sprachungleichgewicht enthalten.
- Anchor-Metriken hängen von den Anchor-Datasets ab. Japanische anchors stammen aus JVNV, chinesische aus CSEMOTIONS;
ja/neutralundzh/disgustfehlten in diesem Lauf. - IndexTTS-2 Japanisch ist diagnostisch. Der pooled score wirkt stark, aber die japanische CER ist in diesem Setup zu hoch.
Weitere Forschung
- Einen kleinen MOS/CMOS-Test mit Muttersprachlern für Qwen3-TTS und CosyVoice durchführen.
- IndexTTS-2 vorerst als chinesischen Kandidaten behandeln oder nach Fix des japanischen tokenizer/text path neu ausführen.
- Fehlende
ja/neutralundzh/disgustanchors ergänzen oder kuratieren. - Einen fokussierten chinesischen Human Check für
sad,angry,fearunddisgustdurchführen. - SenseVoice als automatisches Screening behalten, Produktionsentscheidungen aber mit Hörtests treffen.
Fazit
Für japanisches und chinesisches emotionales TTS ist Qwen3-TTS CustomVoice 1.7B das ausgewogenste Modell in diesem Benchmark. Es löst nicht alle Emotionen, bietet aber die praktischste Mischung aus Emotionserkennung, niedriger CER, anchor hit rate, Natürlichkeit und Runtime.