
Japonca ve Çince için beş duygusal TTS modelini altı duygu, SenseVoice, emotion2vec anchors, CER, doğallık, çalışma süresi ve ses örnekleriyle karşılaştırıyoruz.
Modeller ve referanslar:
Özet
Japonca ve Çince için beş duygusal TTS sistemini altı hedef duygu üzerinde benchmark ettik: neutral, happy, sad, angry, fear ve disgust. Cümleler nötr tutuldu; böylece duygu metinden değil konuşma stilinden gelmek zorunda kaldı.
En dengeli aday Qwen3-TTS CustomVoice 1.7B oldu. Düşük CER, en iyi anchor hit rate, güçlü doğallık ve Japonca/Çince genelinde en pratik duygu performansını verdi.
CosyVoice 300M Instruct doğallıkta önde, ancak duygu kontrolü zayıf. IndexTTS-2 pooled SenseVoice skorunda iyi görünse de Japonca CER çok yüksek. Çince Japoncadan daha kolay, fear ve disgust ise hâlâ çözülmedi.
Motivasyon
Duygusal TTS yalnızca doğal ses üretmek değildir. Model doğru cümleyi söylemeli, dinlenebilir kalmalı ve istenen duyguyu ifade etmelidir. Bu nedenle değerlendirme duygu tanıma, duygu anchorları, CER, doğallık, runtime ve örnek sesleri birlikte inceler.
- Hedeflenen Japonca veya Çince cümle doğru kalmalıdır.
- Konuşma gerçek dinleme için yeterince doğal duyulmalıdır.
- Üretilen ses, nötr konuşmaya ya da yakın bir duyguya düşmek yerine istenen duyguyu ifade etmelidir.
Değerlendirme yöntemi
Benchmark dil, duygu ve prompt metnine göre dengeli bir üretim ızgarası kullanır. Aynı cümle altı duygu için de kullanıldığı için model duyguyu prosody ve ses stilinden üretmek zorundadır.
Prompt seti
Japonca prompt örnekleri:
| ID | Cümle |
|---|---|
ja_001 | 会議は午前十時に始まります。 |
ja_002 | 資料は机の上に置いてあります。 |
ja_003 | 明日の予定を確認してください。 |
ja_004 | 電車は三番線から出発します。 |
ja_005 | 受付で名前を伝えてください。 |
Çince prompt örnekleri:
| ID | Cümle |
|---|---|
zh_001 | 会议将在上午十点开始。 |
zh_002 | 资料已经放在桌子上。 |
zh_003 | 请确认明天的日程安排。 |
zh_004 | 列车将从三号站台出发。 |
zh_005 | 请在前台告知您的姓名。 |
Duygu kontrolü
| Target emotion | Control text |
|---|---|
neutral | Speak in a clear, neutral, natural voice. |
happy | Speak in a happy, warm, bright voice. |
sad | Speak in a sad, soft, slow, gentle voice. |
angry | Speak in an angry, tense, forceful voice. |
fear | Speak in a fearful, tense, trembling voice. |
disgust | Speak in a disgusted, displeased, rejecting voice. |
Metrikler
- SenseVoice duygu doğruluğu: ana otomatik tarama metriği.
- emotion2vec anchor hit ve margin: duygusal konuşma anchor merkezlerine dayalı ikincil tanı metriği.
- CER: transkripsiyonun özgün prompt metniyle karşılaştırılmasından elde edilen karakter hata oranı.
- NISQA-TTS ve UTMOS: sentezlenen konuşmanın doğallığı ve kalitesi için tanı metrikleri.
- RTF: sentez hızını ölçen real-time factor.
Sonuçlar
Kaynak kullanımı
Kaynak metrikleri 600 başarılı üretim satırından hesaplandı. GPU, VRAM, wall time ve RTF tüm satırlarda var; CPU server-backed adapterlarda her zaman yakalanmadı.
| Model | Median wall time | Median RTF | Median peak VRAM | GPU util | GPU power | CPU | Median peak RSS |
|---|---|---|---|---|---|---|---|
cosyvoice_300m_instruct | 2.26s | 0.85 | 3.96 GB | 30.3% avg / 39.0% peak | 145.0W avg / 155.6W peak | 127.8% peak; 100% coverage | 5.54 GB |
qwen3_tts_customvoice_1_7b | 4.20s | 1.58 | 8.13 GB | 22.9% avg / 25.0% peak | 126.3W avg / 127.1W peak | 138.1% peak; 100% coverage | 6.22 GB |
fish_audio_s1_mini | 7.06s | 3.47 | 13.05 GB | 25.3% avg / 69.0% peak | 150.4W avg / 183.7W peak | not captured; 0% coverage | 0.80 GB |
indextts-2 | 26.39s | 6.97 | 7.29 GB | 18.2% avg / 100.0% peak | 131.3W avg / 199.6W peak | not captured; 0% coverage | 7.69 GB |
voxcpm2 | 28.44s | 9.84 | 12.79 GB | 12.3% avg / 100.0% peak | 106.7W avg / 191.5W peak | not captured; 0% coverage | 10.65 GB |
CosyVoice en hızlı ve en düşük VRAM kullanan modeldi, ancak en güçlü duygu kontrol adayı değildi. Qwen3-TTS, CosyVoice’tan daha fazla VRAM kullanıyor fakat IndexTTS-2 ve VoxCPM2’den çok daha hızlı ve daha dengeli.
JA/ZH metrik özeti
Bu tablo üç ana otomatik kontrolü Japonca ve Çince olarak ayırır: SenseVoice duygu doğruluğu, CER ve emotion2vec anchor hizalaması.
| Model | JA SenseVoice | ZH SenseVoice | JA CER | ZH CER | JA anchor hit | ZH anchor hit | JA anchor margin | ZH anchor margin |
|---|---|---|---|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | 15.0% | 53.3% | 8.6% | 9.7% | 40.0% | 64.0% | -0.06645 | 0.04480 |
indextts-2 | 43.3% | 16.7% | 91.0% | 10.3% | 38.0% | 30.0% | -0.08293 | -0.04063 |
voxcpm2 | 6.7% | 35.0% | 18.6% | 4.4% | 40.0% | 36.0% | -0.04479 | -0.02693 |
cosyvoice_300m_instruct | 1.7% | 36.7% | 43.9% | 11.1% | 24.0% | 72.0% | -0.05481 | 0.03796 |
fish_audio_s1_mini | 6.7% | 16.7% | 12.7% | 16.8% | 20.0% | 24.0% | -0.08972 | -0.09542 |
Çince otomatik duygu metriklerinde genellikle daha kolaydır, fakat CER ve duygu doğruluğu her zaman birlikte hareket etmez. Qwen3-TTS iki dilde de düşük CER tutar; IndexTTS-2 en yüksek Japonca SenseVoice skoruna sahipken Japonca CER de en kötüdür.
Metin doğruluğu (CER)
Metin doğruluğunda Qwen3-TTS en stabil sonuçtur: Japonca CER 8.6%, Çince CER 9.7%. IndexTTS-2 uyarı örneğidir; Japonca CER 91.0%‘a çıkar.
Duygu doğruluğu
SenseVoice
Bu otomatik düzende Çince açıkça Japoncadan daha kolaydır. Qwen3-TTS için Çince SenseVoice doğruluğu 53.3%, Japonca 15.0%‘dır; iki dilde CER düşük olduğu için sorun yalnızca anlaşılabilirlik değildir.
fear ve disgust en zor etiketlerdir. Tüm model/dil çiftlerinde SenseVoice recall 0.0%‘dır ve sıklıkla sad, neutral, angry veya unknown olarak çöker.
Satırlar hedef duygular, sütunlar SenseVoice tahminleridir. Yeşil kutular ideal diyagonali gösterir.
| Vaka | Ne oldu | Neden önemli |
|---|---|---|
indextts-2 / ja | happy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10. | Japonca metin kalitesi güvenilir olmasa bile duygu etiketleri makul görünebilir. |
qwen3_tts_customvoice_1_7b / zh | happy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10. | Qwen en dengeli adaydır, ancak zor duygular hâlâ çöküyor. |
cosyvoice_300m_instruct / ja | happy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10. | Doğallık, tanınabilir duygu kontrolünü garanti etmez. |
fish_audio_s1_mini / zh | happy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10. | Inline duygu işaretleri üretilen prosody’yi güvenilir biçimde değiştirmedi. |
voxcpm2 / zh | happy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10. | Prompt tabanlı kontrol çoğu zaman nötr konuşmaya düştü. |
emotion2vec anchors
Anchor metriği SenseVoice’a benzer bir tablo verir: Çince anchorlar Japonca anchorlardan daha avantajlıdır. Pozitif margin sesin hedef duygu merkezine daha yakın olduğunu gösterir. Qwen3-TTS Çince pozitif margin alırken tüm Japonca marginler negatiftir.
Doğallık
| Model | Mean NISQA-TTS | Low NISQA-TTS <3.0 | Mean UTMOS | Low UTMOS <3.0 |
|---|---|---|---|---|
cosyvoice_300m_instruct | 4.267 | 0.0% | 3.282 | 20.8% |
indextts-2 | 4.063 | 11.7% | 2.078 | 93.3% |
qwen3_tts_customvoice_1_7b | 4.007 | 0.8% | 2.939 | 51.7% |
fish_audio_s1_mini | 3.935 | 3.3% | 2.932 | 55.8% |
voxcpm2 | 3.788 | 8.3% | 2.596 | 76.7% |
Doğallık ve duygu doğruluğu farklı sorulardır. CosyVoice doğallıkta kazanır, ama duygu kontrolünde değil. Qwen3-TTS NISQA-TTS’te biraz geride olsa da duygu, metin doğruluğu ve hız dengesinde daha iyidir.
Dinleme örnekleri
Aşağıdaki tablo Japonca ve Çince happy ve angry örnekleri için aynı prompt index’i kullanır. Bu klipler insan dinleme testi değil, otomatik metrikleri yorumlamak için nitel anchorlardır.
| Model | Language | Target | SenseVoice prediction | Sample |
|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | JA | happy | unknown | |
qwen3_tts_customvoice_1_7b | JA | angry | angry | |
qwen3_tts_customvoice_1_7b | ZH | happy | neutral | |
qwen3_tts_customvoice_1_7b | ZH | angry | angry | |
cosyvoice_300m_instruct | JA | happy | unknown | |
cosyvoice_300m_instruct | JA | angry | unknown | |
cosyvoice_300m_instruct | ZH | happy | happy | |
cosyvoice_300m_instruct | ZH | angry | neutral | |
indextts-2 | JA | happy | sad | |
indextts-2 | JA | angry | surprised | |
indextts-2 | ZH | happy | neutral | |
indextts-2 | ZH | angry | neutral | |
fish_audio_s1_mini | JA | happy | happy | |
fish_audio_s1_mini | JA | angry | happy | |
fish_audio_s1_mini | ZH | happy | neutral | |
fish_audio_s1_mini | ZH | angry | neutral | |
voxcpm2 | JA | happy | unknown | |
voxcpm2 | JA | angry | angry | |
voxcpm2 | ZH | happy | happy | |
voxcpm2 | ZH | angry | angry |
Sınırlamalar
- Otomatik duygu etiketleri insan yargısı değildir. SenseVoice Japonca ve Çince desteklediği için yararlıdır, ancak sınıflandırıcı biası ve dil dengesizliği olabilir.
- Anchor metrikleri anchor datasetlerine bağlıdır. Japonca anchorlar JVNV’den, Çince anchorlar CSEMOTIONS’dan gelir; bu çalışmada
ja/neutralvezh/disgusteksikti. - IndexTTS-2 Japonca sonucu diagnostiktir. Pooled skor güçlü görünür, fakat Japonca CER bu setup’ta çok yüksektir.
Sonraki araştırmalar
- Qwen3-TTS ve CosyVoice için native listener MOS/CMOS testi çalıştırın.
- IndexTTS-2’yi şimdilik Çince odaklı ele alın veya Japonca tokenizer/text path düzeltildikten sonra yeniden çalıştırın.
- Eksik
ja/neutralvezh/disgustanchorlarını ekleyin veya curate edin. - Çince
sad,angry,fear,disgustiçin odaklı insan kontrolü yapın. - SenseVoice’u otomatik tarama metriği olarak tutun, üretim kararlarını insan dinleme testleriyle verin.
Sonuç
Japonca ve Çince duygusal TTS için Qwen3-TTS CustomVoice 1.7B bu benchmark’ın en dengeli modelidir. Her duyguyu çözmez, ama duygu tanıma, düşük CER, anchor hit rate, doğallık ve runtime açısından en pratik karışımı sağlar.