Japonca ve Çince Duygusal TTS Karşılaştırması | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Duygusal TTS Karşılaştırması: Japonca ve Çince için Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio ve VoxCPM

VoicePing Research 6 dk okuma
Duygusal TTS Karşılaştırması: Japonca ve Çince için Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio ve VoxCPM

Japonca ve Çince için beş duygusal TTS modelini altı duygu, SenseVoice, emotion2vec anchors, CER, doğallık, çalışma süresi ve ses örnekleriyle karşılaştırıyoruz.

Modeller ve referanslar:

Özet

Japonca ve Çince için beş duygusal TTS sistemini altı hedef duygu üzerinde benchmark ettik: neutral, happy, sad, angry, fear ve disgust. Cümleler nötr tutuldu; böylece duygu metinden değil konuşma stilinden gelmek zorunda kaldı.

En dengeli aday Qwen3-TTS CustomVoice 1.7B oldu. Düşük CER, en iyi anchor hit rate, güçlü doğallık ve Japonca/Çince genelinde en pratik duygu performansını verdi.

CosyVoice 300M Instruct doğallıkta önde, ancak duygu kontrolü zayıf. IndexTTS-2 pooled SenseVoice skorunda iyi görünse de Japonca CER çok yüksek. Çince Japoncadan daha kolay, fear ve disgust ise hâlâ çözülmedi.

Motivasyon

Duygusal TTS yalnızca doğal ses üretmek değildir. Model doğru cümleyi söylemeli, dinlenebilir kalmalı ve istenen duyguyu ifade etmelidir. Bu nedenle değerlendirme duygu tanıma, duygu anchorları, CER, doğallık, runtime ve örnek sesleri birlikte inceler.

  • Hedeflenen Japonca veya Çince cümle doğru kalmalıdır.
  • Konuşma gerçek dinleme için yeterince doğal duyulmalıdır.
  • Üretilen ses, nötr konuşmaya ya da yakın bir duyguya düşmek yerine istenen duyguyu ifade etmelidir.

Değerlendirme yöntemi

Benchmark dil, duygu ve prompt metnine göre dengeli bir üretim ızgarası kullanır. Aynı cümle altı duygu için de kullanıldığı için model duyguyu prosody ve ses stilinden üretmek zorundadır.

Experiment design

Prompt seti

Japonca prompt örnekleri:

IDCümle
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Çince prompt örnekleri:

IDCümle
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Duygu kontrolü

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Metrikler

  • SenseVoice duygu doğruluğu: ana otomatik tarama metriği.
  • emotion2vec anchor hit ve margin: duygusal konuşma anchor merkezlerine dayalı ikincil tanı metriği.
  • CER: transkripsiyonun özgün prompt metniyle karşılaştırılmasından elde edilen karakter hata oranı.
  • NISQA-TTS ve UTMOS: sentezlenen konuşmanın doğallığı ve kalitesi için tanı metrikleri.
  • RTF: sentez hızını ölçen real-time factor.

Sonuçlar

Kaynak kullanımı

Kaynak metrikleri 600 başarılı üretim satırından hesaplandı. GPU, VRAM, wall time ve RTF tüm satırlarda var; CPU server-backed adapterlarda her zaman yakalanmadı.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice en hızlı ve en düşük VRAM kullanan modeldi, ancak en güçlü duygu kontrol adayı değildi. Qwen3-TTS, CosyVoice’tan daha fazla VRAM kullanıyor fakat IndexTTS-2 ve VoxCPM2’den çok daha hızlı ve daha dengeli.

JA/ZH metrik özeti

Bu tablo üç ana otomatik kontrolü Japonca ve Çince olarak ayırır: SenseVoice duygu doğruluğu, CER ve emotion2vec anchor hizalaması.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Çince otomatik duygu metriklerinde genellikle daha kolaydır, fakat CER ve duygu doğruluğu her zaman birlikte hareket etmez. Qwen3-TTS iki dilde de düşük CER tutar; IndexTTS-2 en yüksek Japonca SenseVoice skoruna sahipken Japonca CER de en kötüdür.

Metin doğruluğu (CER)

CER by language

Metin doğruluğunda Qwen3-TTS en stabil sonuçtur: Japonca CER 8.6%, Çince CER 9.7%. IndexTTS-2 uyarı örneğidir; Japonca CER 91.0%‘a çıkar.

Duygu doğruluğu

SenseVoice

SenseVoice accuracy by language

Bu otomatik düzende Çince açıkça Japoncadan daha kolaydır. Qwen3-TTS için Çince SenseVoice doğruluğu 53.3%, Japonca 15.0%‘dır; iki dilde CER düşük olduğu için sorun yalnızca anlaşılabilirlik değildir.

Per-emotion SenseVoice recall by model and language

fear ve disgust en zor etiketlerdir. Tüm model/dil çiftlerinde SenseVoice recall 0.0%‘dır ve sıklıkla sad, neutral, angry veya unknown olarak çöker.

Satırlar hedef duygular, sütunlar SenseVoice tahminleridir. Yeşil kutular ideal diyagonali gösterir.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

VakaNe olduNeden önemli
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Japonca metin kalitesi güvenilir olmasa bile duygu etiketleri makul görünebilir.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen en dengeli adaydır, ancak zor duygular hâlâ çöküyor.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Doğallık, tanınabilir duygu kontrolünü garanti etmez.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Inline duygu işaretleri üretilen prosody’yi güvenilir biçimde değiştirmedi.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Prompt tabanlı kontrol çoğu zaman nötr konuşmaya düştü.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metriği SenseVoice’a benzer bir tablo verir: Çince anchorlar Japonca anchorlardan daha avantajlıdır. Pozitif margin sesin hedef duygu merkezine daha yakın olduğunu gösterir. Qwen3-TTS Çince pozitif margin alırken tüm Japonca marginler negatiftir.

Doğallık

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Doğallık ve duygu doğruluğu farklı sorulardır. CosyVoice doğallıkta kazanır, ama duygu kontrolünde değil. Qwen3-TTS NISQA-TTS’te biraz geride olsa da duygu, metin doğruluğu ve hız dengesinde daha iyidir.

Dinleme örnekleri

Aşağıdaki tablo Japonca ve Çince happy ve angry örnekleri için aynı prompt index’i kullanır. Bu klipler insan dinleme testi değil, otomatik metrikleri yorumlamak için nitel anchorlardır.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Sınırlamalar

  • Otomatik duygu etiketleri insan yargısı değildir. SenseVoice Japonca ve Çince desteklediği için yararlıdır, ancak sınıflandırıcı biası ve dil dengesizliği olabilir.
  • Anchor metrikleri anchor datasetlerine bağlıdır. Japonca anchorlar JVNV’den, Çince anchorlar CSEMOTIONS’dan gelir; bu çalışmada ja/neutral ve zh/disgust eksikti.
  • IndexTTS-2 Japonca sonucu diagnostiktir. Pooled skor güçlü görünür, fakat Japonca CER bu setup’ta çok yüksektir.

Sonraki araştırmalar

  • Qwen3-TTS ve CosyVoice için native listener MOS/CMOS testi çalıştırın.
  • IndexTTS-2’yi şimdilik Çince odaklı ele alın veya Japonca tokenizer/text path düzeltildikten sonra yeniden çalıştırın.
  • Eksik ja/neutral ve zh/disgust anchorlarını ekleyin veya curate edin.
  • Çince sad, angry, fear, disgust için odaklı insan kontrolü yapın.
  • SenseVoice’u otomatik tarama metriği olarak tutun, üretim kararlarını insan dinleme testleriyle verin.

Sonuç

Japonca ve Çince duygusal TTS için Qwen3-TTS CustomVoice 1.7B bu benchmark’ın en dengeli modelidir. Her duyguyu çözmez, ama duygu tanıma, düşük CER, anchor hit rate, doğallık ve runtime açısından en pratik karışımı sağlar.

Share this article

VoicePing'i Ücretsiz Deneyin

Yapay zeka çevirisi ile dil engellerini aşın. Ücretsiz denemenizi bugün başlatın.

Ücretsiz Başlayın