Emotionaler TTS-Benchmark für Japanisch und Chinesisch | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Emotionaler TTS-Benchmark: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio und VoxCPM für Japanisch und Chinesisch

VoicePing Research 6 Min. Lesezeit
Emotionaler TTS-Benchmark: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio und VoxCPM für Japanisch und Chinesisch

Vergleich von fünf emotionalen TTS-Modellen für Japanisch und Chinesisch über sechs Emotionen, SenseVoice, emotion2vec anchors, CER, Natürlichkeit, Laufzeit und Hörbeispiele.

Modelle und Referenzen:

Kurzfassung

Wir haben fünf emotionale TTS-Systeme für Japanisch und Chinesisch mit sechs Ziel-Emotionen benchmarked: neutral, happy, sad, angry, fear und disgust. Die Sätze sind neutral, damit die Emotion aus dem Sprachstil kommen muss.

Der ausgewogenste Kandidat ist Qwen3-TTS CustomVoice 1.7B: niedrige CER, beste anchor hit rate, starke Natürlichkeit und der praktischste Kompromiss über Japanisch und Chinesisch.

CosyVoice 300M Instruct führt bei Natürlichkeit, ist aber bei Emotionssteuerung schwach. IndexTTS-2 wirkt im pooled SenseVoice score stark, doch die japanische CER ist zu hoch. Chinesisch ist leichter als Japanisch, und fear sowie disgust bleiben ungelöst.

Motivation

Emotionales TTS ist nicht nur Natürlichkeit. Ein Modell muss den richtigen Satz sprechen, gut klingen und die angeforderte Emotion ausdrücken. Deshalb kombiniert diese Evaluation Emotionserkennung, emotion anchors, CER, Natürlichkeit, Runtime und Hörbeispiele.

  • Der beabsichtigte japanische oder chinesische Satz muss korrekt bleiben.
  • Die Sprache muss natürlich genug für echtes Zuhören klingen.
  • Die erzeugte Stimme soll die gewünschte Emotion ausdrücken, statt in neutrale Sprache oder eine nahegelegene Emotion zurückzufallen.

Evaluationsmethode

Der Benchmark nutzt ein balanciertes Generierungsraster nach Sprache, Emotion und Prompt. Derselbe Satz wird für alle sechs Emotionen verwendet, sodass das Modell Prosodie und Stimmstil nutzen muss.

Experiment design

Prompt-Set

Beispiel-Prompts für Japanisch:

IDSatz
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Beispiel-Prompts für Chinesisch:

IDSatz
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Emotionssteuerung

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Metriken

  • SenseVoice-Emotionsgenauigkeit: wichtigste automatische Screening-Metrik.
  • emotion2vec anchor hit und margin: sekundäre Diagnosemetrik auf Basis von Zentroiden emotionaler Sprach-Anchor.
  • CER: Zeichenfehlerrate der Transkription gegenüber dem ursprünglichen Prompt-Text.
  • NISQA-TTS und UTMOS: Diagnosemetriken für Natürlichkeit und Qualität der synthetisierten Sprache.
  • RTF: real-time factor zur Messung der Synthesegeschwindigkeit.

Ergebnisse

Ressourcennutzung

Die Ressourcenmetriken stammen aus 600 erfolgreichen Generierungen. GPU, VRAM, wall time und RTF sind für alle abgeschlossenen Zeilen vorhanden; CPU wurde bei server-backed adapters nicht immer erfasst.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice ist am schnellsten und nutzt am wenigsten VRAM, ist aber nicht der stärkste Kandidat für Emotionssteuerung. Qwen3-TTS nutzt mehr VRAM als CosyVoice, ist aber viel schneller als IndexTTS-2 und VoxCPM2 und bietet die beste Balance.

JA/ZH-Metrikübersicht

Diese Tabelle trennt Japanisch und Chinesisch für drei Kernprüfungen: SenseVoice-Emotionsgenauigkeit, CER und emotion2vec-anchor alignment.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Chinesisch ist in automatischen Emotionsmetriken meist leichter, aber CER und Emotionsgenauigkeit bewegen sich nicht immer gemeinsam. Qwen3-TTS hält CER in beiden Sprachen niedrig; IndexTTS-2 hat den höchsten japanischen SenseVoice score und zugleich die schlechteste japanische CER.

Texttreue (CER)

CER by language

Bei Texttreue ist Qwen3-TTS am stabilsten: japanische CER 8,6 % und chinesische CER 9,7 %. IndexTTS-2 ist ein Warnfall mit 91,0 % japanischer CER.

Emotionsgenauigkeit

SenseVoice

SenseVoice accuracy by language

In diesem automatischen Setup ist Chinesisch deutlich leichter als Japanisch. Für Qwen3-TTS liegt die chinesische SenseVoice-Genauigkeit bei 53,3 %, die japanische bei 15,0 %, obwohl CER in beiden Sprachen niedrig ist.

Per-emotion SenseVoice recall by model and language

fear und disgust sind die schwierigsten Labels. SenseVoice recall beträgt für beide 0,0 % über alle Modell/Sprach-Paare und fällt häufig auf sad, neutral, angry oder unknown zurück.

Zeilen sind Ziel-Emotionen und Spalten SenseVoice-Vorhersagen. Grüne Felder markieren die ideale Diagonale.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

FallWas passiert istWarum das wichtig ist
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Emotionslabels können plausibel wirken, obwohl die japanische Textqualität unzuverlässig ist.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen ist der ausgewogenste Kandidat, aber schwierige Emotionen brechen weiterhin zusammen.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Natürlichkeit garantiert keine erkennbare Emotionssteuerung.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Inline-Emotionsmarker haben die Prosodie nicht zuverlässig verschoben.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Prompt-basierte Steuerung fiel oft in neutrale Sprache zurück.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Die anchor-Metrik erzählt eine ähnliche Geschichte: chinesische anchors sind günstiger als japanische. Eine positive margin bedeutet, dass Audio näher am Ziel-Emotionszentrum liegt. Qwen3-TTS ist in Chinesisch positiv, alle japanischen margins sind negativ.

Natürlichkeit

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Natürlichkeit und emotionale Korrektheit sind verschiedene Fragen. CosyVoice gewinnt bei Natürlichkeit, nicht bei Emotionssteuerung. Qwen3-TTS liegt bei NISQA-TTS leicht dahinter, ist aber bei Emotion, Text und Geschwindigkeit ausgewogener.

Hörbeispiele

Die folgende Tabelle nutzt denselben prompt index für happy und angry in Japanisch und Chinesisch. Die Clips sind kein menschlicher Hörtest, sondern qualitative Anker für die automatischen Metriken.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Einschränkungen

  • Automatische Emotionslabels sind kein menschliches Urteil. SenseVoice ist nützlich, kann aber Klassifikatorbias und Sprachungleichgewicht enthalten.
  • Anchor-Metriken hängen von den Anchor-Datasets ab. Japanische anchors stammen aus JVNV, chinesische aus CSEMOTIONS; ja/neutral und zh/disgust fehlten in diesem Lauf.
  • IndexTTS-2 Japanisch ist diagnostisch. Der pooled score wirkt stark, aber die japanische CER ist in diesem Setup zu hoch.

Weitere Forschung

  • Einen kleinen MOS/CMOS-Test mit Muttersprachlern für Qwen3-TTS und CosyVoice durchführen.
  • IndexTTS-2 vorerst als chinesischen Kandidaten behandeln oder nach Fix des japanischen tokenizer/text path neu ausführen.
  • Fehlende ja/neutral und zh/disgust anchors ergänzen oder kuratieren.
  • Einen fokussierten chinesischen Human Check für sad, angry, fear und disgust durchführen.
  • SenseVoice als automatisches Screening behalten, Produktionsentscheidungen aber mit Hörtests treffen.

Fazit

Für japanisches und chinesisches emotionales TTS ist Qwen3-TTS CustomVoice 1.7B das ausgewogenste Modell in diesem Benchmark. Es löst nicht alle Emotionen, bietet aber die praktischste Mischung aus Emotionserkennung, niedriger CER, anchor hit rate, Natürlichkeit und Runtime.

Share this article

VoicePing kostenlos testen

Überwinden Sie Sprachbarrieren mit KI-Übersetzung. Starten Sie noch heute Ihre kostenlose Testversion.

Kostenlos loslegen