Benchmark de TTS emocional para japonês e chinês | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Benchmark de TTS emocional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio e VoxCPM para japonês e chinês

VoicePing Research 7 min de leitura
Benchmark de TTS emocional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio e VoxCPM para japonês e chinês

Comparação de cinco modelos de TTS emocional para japonês e chinês com seis emoções, SenseVoice, emotion2vec anchors, CER, naturalidade, runtime e exemplos de áudio.

Modelos e referências:

Resumo

Benchmarkamos cinco sistemas de TTS emocional para japonês e chinês em seis emoções alvo: neutral, happy, sad, angry, fear e disgust. As frases são neutras para que a emoção venha do estilo de fala.

O candidato mais equilibrado é o Qwen3-TTS CustomVoice 1.7B: CER baixo, melhor anchor hit rate, boa naturalidade e o compromisso mais prático em japonês/chinês.

CosyVoice 300M Instruct lidera em naturalidade, mas o controle emocional é fraco. IndexTTS-2 parece forte no pooled SenseVoice score, mas o CER japonês é alto demais. Chinês é mais fácil que japonês, e fear e disgust seguem sem solução.

Motivação

TTS emocional não é apenas produzir uma voz natural. O modelo precisa dizer a frase correta, soar bem e expressar a emoção pedida. Por isso esta avaliação combina reconhecimento de emoção, anchors emocionais, CER, naturalidade, runtime e exemplos de áudio.

  • A frase pretendida em japonês ou chinês deve permanecer correta.
  • A fala deve soar natural o suficiente para escuta real.
  • A voz gerada deve expressar a emoção solicitada, sem cair em fala neutra ou em uma emoção próxima.

Metodologia de avaliação

O benchmark usa uma grade equilibrada por idioma, emoção e texto. A mesma frase é reutilizada nas seis emoções para forçar o modelo a expressar emoção por prosódia e estilo vocal.

Experiment design

Conjunto de prompts

Exemplos de prompts em japonês:

IDFrase
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Exemplos de prompts em chinês:

IDFrase
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Controle de emoção

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Métricas

  • Precisão emocional SenseVoice: métrica principal de triagem automática.
  • Anchor hit e margin do emotion2vec: diagnóstico secundário baseado em centroides de anchors de fala emocional.
  • CER: taxa de erro de caracteres entre a transcrição e o prompt original.
  • NISQA-TTS e UTMOS: métricas de diagnóstico de naturalidade e qualidade da voz sintetizada.
  • RTF: real-time factor para medir a velocidade de síntese.

Resultados

Uso de recursos

As métricas de recursos vêm de 600 gerações bem-sucedidas. GPU, VRAM, wall time e RTF estão preenchidos em todas as linhas concluídas; CPU nem sempre é capturado para adapters server-backed.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice é o mais rápido e usa menos VRAM, mas não é o melhor candidato para controle emocional. Qwen3-TTS usa mais VRAM que CosyVoice, porém é muito mais rápido que IndexTTS-2 e VoxCPM2 e mantém melhor equilíbrio.

Visão geral das métricas JA/ZH

Esta tabela separa japonês e chinês em três verificações principais: precisão SenseVoice, CER e alinhamento de anchors emotion2vec.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Chinês é geralmente mais fácil nas métricas emocionais automáticas, mas CER e precisão emocional nem sempre andam juntos. Qwen3-TTS mantém CER baixo nos dois idiomas; IndexTTS-2 tem o maior SenseVoice japonês e também o pior CER japonês.

Fidelidade textual (CER)

CER by language

Em fidelidade textual, Qwen3-TTS é o resultado mais estável: CER japonês 8,6% e CER chinês 9,7%. IndexTTS-2 é o alerta, com CER japonês de 91,0%.

Precisão emocional

SenseVoice

SenseVoice accuracy by language

Neste setup automático, chinês é claramente mais fácil que japonês. Para Qwen3-TTS, a precisão SenseVoice em chinês é 53,3% e em japonês 15,0%, mesmo com CER baixo nos dois idiomas.

Per-emotion SenseVoice recall by model and language

fear e disgust são os rótulos mais difíceis. O recall SenseVoice é 0,0% para ambos em todos os pares modelo/idioma, frequentemente caindo para sad, neutral, angry ou unknown.

As linhas são emoções alvo e as colunas são previsões SenseVoice. As caixas verdes marcam a diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

CasoO que aconteceuPor que importa
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Rótulos emocionais podem parecer plausíveis mesmo quando a qualidade textual japonesa é pouco confiável.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen é o candidato mais equilibrado, mas emoções difíceis ainda colapsam.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalidade não garante controle emocional reconhecível.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Marcadores emocionais inline não mudaram a prosódia de forma confiável.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Controle por prompt frequentemente caiu em fala neutra.

emotion2vec anchors

emotion2vec anchor hit and margin by language

A métrica de anchors conta história parecida: anchors chineses são mais favoráveis que japoneses. Margem positiva significa que o áudio está mais perto do centroide da emoção alvo. Qwen3-TTS tem margem positiva em chinês, enquanto todas as margens japonesas são negativas.

Naturalidade

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalidade e correção emocional são perguntas diferentes. CosyVoice vence em naturalidade, mas não em controle emocional. Qwen3-TTS fica um pouco atrás em NISQA-TTS, porém equilibra melhor emoção, texto e velocidade.

Exemplos de áudio

A tabela abaixo usa o mesmo prompt index para amostras happy e angry em japonês e chinês. Estes clipes não são teste humano, mas anchors qualitativos para interpretar as métricas.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Limitações

  • Rótulos emocionais automáticos não são julgamento humano. SenseVoice é útil por suportar japonês e chinês, mas pode ter bias de classificador e desequilíbrio por idioma.
  • Métricas anchor dependem dos datasets anchor. Anchors japoneses vêm do JVNV e chineses do CSEMOTIONS; ja/neutral e zh/disgust estavam ausentes neste run.
  • IndexTTS-2 em japonês é diagnóstico. O pooled score parece forte, mas o CER japonês é alto demais neste setup.

Pesquisa futura

  • Rodar um MOS/CMOS pequeno com falantes nativos para Qwen3-TTS e CosyVoice.
  • Tratar IndexTTS-2 como candidato chinês por enquanto, ou rodar novamente após corrigir o tokenizer/text path japonês.
  • Adicionar ou curar anchors ausentes ja/neutral e zh/disgust.
  • Fazer checagem humana em chinês para sad, angry, fear e disgust.
  • Manter SenseVoice como triagem automática, mas tomar decisões de produção com testes humanos de escuta.

Conclusão

Para TTS emocional em japonês e chinês, Qwen3-TTS CustomVoice 1.7B é o modelo mais equilibrado deste benchmark. Ele não resolve todas as emoções, mas oferece o mix mais prático de reconhecimento emocional, CER baixo, anchor hit rate, naturalidade e runtime.

Share this article

Experimente o VoicePing Gratuitamente

Quebre barreiras linguísticas com tradução por IA. Comece seu teste gratuito hoje.

Comece Gratuitamente