Benchmark de TTS emocional para japonés y chino | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Benchmark de TTS emocional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio y VoxCPM para japonés y chino

VoicePing Research 7 min de lectura
Benchmark de TTS emocional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio y VoxCPM para japonés y chino

Comparación de cinco modelos de TTS emocional para japonés y chino con seis emociones, SenseVoice, emotion2vec anchors, CER, naturalidad, runtime y ejemplos de audio.

Modelos y referencias:

Resumen

Evaluamos cinco sistemas de TTS emocional para japonés y chino con seis emociones objetivo: neutral, happy, sad, angry, fear y disgust. Las frases son neutras para que la emoción tenga que venir del estilo de habla.

El candidato más equilibrado es Qwen3-TTS CustomVoice 1.7B: CER bajo, mejor anchor hit rate, buena naturalidad y el compromiso más práctico para japonés/chino.

CosyVoice 300M Instruct lidera en naturalidad, pero el control emocional es débil. IndexTTS-2 parece fuerte en el pooled SenseVoice score, pero su CER japonés es demasiado alto. El chino es más fácil que el japonés, y fear y disgust siguen sin resolverse.

Motivación

El TTS emocional no consiste solo en sonar natural. El modelo debe decir la frase correcta, ser agradable de escuchar y expresar la emoción solicitada. Por eso esta evaluación combina reconocimiento emocional, anchors, CER, naturalidad, runtime y ejemplos de audio.

  • La frase prevista en japonés o chino debe mantenerse correcta.
  • El habla debe sonar lo bastante natural para una escucha real.
  • La voz generada debe expresar la emoción solicitada, sin caer en habla neutra o en una emoción cercana.

Metodología de evaluación

El benchmark usa una grilla balanceada por idioma, emoción y prompt. La misma frase se reutiliza en seis emociones para obligar al modelo a expresar emoción con prosodia y estilo vocal.

Experiment design

Conjunto de prompts

Ejemplos de prompts en japonés:

IDFrase
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Ejemplos de prompts en chino:

IDFrase
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Control de emoción

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Métricas

  • Precisión emocional SenseVoice: métrica principal de filtrado automático.
  • Anchor hit y margin de emotion2vec: diagnóstico secundario basado en centroides de anchors de habla emocional.
  • CER: tasa de error de caracteres entre la transcripción y el prompt original.
  • NISQA-TTS y UTMOS: métricas de diagnóstico de naturalidad y calidad de la voz sintetizada.
  • RTF: real-time factor para medir la velocidad de síntesis.

Resultados

Uso de recursos

Las métricas de recursos provienen de 600 generaciones exitosas. GPU, VRAM, wall time y RTF están presentes en todas las filas completadas; CPU no siempre se captura en adapters server-backed.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice es el más rápido y usa menos VRAM, pero no es el mejor candidato de control emocional. Qwen3-TTS usa más VRAM que CosyVoice, pero es mucho más rápido que IndexTTS-2 y VoxCPM2 y mantiene mejor equilibrio.

Resumen de métricas JA/ZH

Esta tabla separa japonés y chino en tres controles centrales: precisión SenseVoice, CER y alineación de anchors emotion2vec.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

El chino suele ser más fácil para las métricas emocionales automáticas, pero CER y precisión emocional no siempre se mueven juntos. Qwen3-TTS mantiene CER bajo en ambos idiomas; IndexTTS-2 tiene el mejor SenseVoice japonés y también el peor CER japonés.

Fidelidad textual (CER)

CER by language

En fidelidad textual, Qwen3-TTS es el resultado más estable: CER japonés 8,6% y CER chino 9,7%. IndexTTS-2 es el caso de advertencia, con CER japonés de 91,0%.

Precisión emocional

SenseVoice

SenseVoice accuracy by language

En este setup automático, el chino es claramente más fácil que el japonés. Para Qwen3-TTS, la precisión SenseVoice china es 53,3% y la japonesa 15,0%, aunque CER es bajo en ambos idiomas.

Per-emotion SenseVoice recall by model and language

fear y disgust son las etiquetas más difíciles. Su recall SenseVoice es 0,0% en todos los pares modelo/idioma, y suelen caer en sad, neutral, angry o unknown.

Las filas son emociones objetivo y las columnas son predicciones SenseVoice. Las cajas verdes marcan la diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

CasoQué ocurrióPor qué importa
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Las etiquetas emocionales pueden parecer plausibles incluso cuando la calidad textual japonesa no es fiable.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen es el candidato más equilibrado, pero las emociones difíciles aún colapsan.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.La naturalidad no garantiza un control emocional reconocible.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Los marcadores emocionales inline no cambiaron la prosodia de forma fiable.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.El control mediante prompt a menudo cayó en habla neutra.

emotion2vec anchors

emotion2vec anchor hit and margin by language

La métrica anchor cuenta una historia similar: los anchors chinos son más favorables que los japoneses. Una margen positiva significa que el audio está más cerca del centroide de la emoción objetivo. Qwen3-TTS tiene margen positiva en chino; todas las márgenes japonesas son negativas.

Naturalidad

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalidad y corrección emocional son preguntas diferentes. CosyVoice gana en naturalidad, pero no en control emocional. Qwen3-TTS queda algo detrás en NISQA-TTS, pero equilibra mejor emoción, texto y velocidad.

Ejemplos de audio

La tabla usa el mismo prompt index para muestras happy y angry en japonés y chino. Estos clips no son una prueba humana, sino anchors cualitativos para interpretar las métricas.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Limitaciones

  • Las etiquetas emocionales automáticas no son juicio humano. SenseVoice es útil porque soporta japonés y chino, pero puede tener bias de clasificador y desequilibrio por idioma.
  • Las métricas anchor dependen de los datasets anchor. Los anchors japoneses vienen de JVNV y los chinos de CSEMOTIONS; faltaban ja/neutral y zh/disgust en esta corrida.
  • IndexTTS-2 japonés es diagnóstico. El pooled score parece fuerte, pero el CER japonés es demasiado alto en este setup.

Investigación futura

  • Ejecutar un MOS/CMOS pequeño con hablantes nativos para Qwen3-TTS y CosyVoice.
  • Tratar IndexTTS-2 como candidato chino por ahora, o repetir tras arreglar el tokenizer/text path japonés.
  • Agregar o curar anchors faltantes ja/neutral y zh/disgust.
  • Hacer una revisión humana en chino para sad, angry, fear y disgust.
  • Mantener SenseVoice como filtro automático, pero decidir producción con pruebas humanas de escucha.

Conclusión

Para TTS emocional en japonés y chino, Qwen3-TTS CustomVoice 1.7B es el modelo más equilibrado de este benchmark. No resuelve todas las emociones, pero ofrece la combinación más práctica de reconocimiento emocional, CER bajo, anchor hit rate, naturalidad y runtime.

Share this article

Prueba VoicePing Gratis

Elimina las barreras del idioma con traducción IA. Comienza tu prueba gratuita hoy.

Comenzar Gratis