Japonca ve Çince Duygusal TTS Karşılaştırması

Modeller ve referanslar:

Özet

Japonca ve Çince için beş duygusal TTS sistemini altı hedef duygu üzerinde benchmark ettik: neutral, happy, sad, angry, fear ve disgust. Cümleler nötr tutuldu; böylece duygu metinden değil konuşma stilinden gelmek zorunda kaldı.

En dengeli aday Qwen3-TTS CustomVoice 1.7B oldu. Düşük CER, en iyi anchor hit rate, güçlü doğallık ve Japonca/Çince genelinde en pratik duygu performansını verdi.

CosyVoice 300M Instruct doğallıkta önde, ancak duygu kontrolü zayıf. IndexTTS-2 pooled SenseVoice skorunda iyi görünse de Japonca CER çok yüksek. Çince Japoncadan daha kolay, fear ve disgust ise hâlâ çözülmedi.

Motivasyon

Duygusal TTS yalnızca doğal ses üretmek değildir. Model doğru cümleyi söylemeli, dinlenebilir kalmalı ve istenen duyguyu ifade etmelidir. Bu nedenle değerlendirme duygu tanıma, duygu anchorları, CER, doğallık, runtime ve örnek sesleri birlikte inceler.

Hedeflenen Japonca veya Çince cümle doğru kalmalıdır.
Konuşma gerçek dinleme için yeterince doğal duyulmalıdır.
Üretilen ses, nötr konuşmaya ya da yakın bir duyguya düşmek yerine istenen duyguyu ifade etmelidir.

Değerlendirme yöntemi

Benchmark dil, duygu ve prompt metnine göre dengeli bir üretim ızgarası kullanır. Aynı cümle altı duygu için de kullanıldığı için model duyguyu prosody ve ses stilinden üretmek zorundadır.

Experiment design

Prompt seti

Japonca prompt örnekleri:

ID	Cümle
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

Çince prompt örnekleri:

ID	Cümle
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

Duygu kontrolü

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

Metrikler

SenseVoice duygu doğruluğu: ana otomatik tarama metriği.
emotion2vec anchor hit ve margin: duygusal konuşma anchor merkezlerine dayalı ikincil tanı metriği.
CER: transkripsiyonun özgün prompt metniyle karşılaştırılmasından elde edilen karakter hata oranı.
NISQA-TTS ve UTMOS: sentezlenen konuşmanın doğallığı ve kalitesi için tanı metrikleri.
RTF: sentez hızını ölçen real-time factor.

Sonuçlar

Kaynak kullanımı

Kaynak metrikleri 600 başarılı üretim satırından hesaplandı. GPU, VRAM, wall time ve RTF tüm satırlarda var; CPU server-backed adapterlarda her zaman yakalanmadı.

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice en hızlı ve en düşük VRAM kullanan modeldi, ancak en güçlü duygu kontrol adayı değildi. Qwen3-TTS, CosyVoice’tan daha fazla VRAM kullanıyor fakat IndexTTS-2 ve VoxCPM2’den çok daha hızlı ve daha dengeli.

JA/ZH metrik özeti

Bu tablo üç ana otomatik kontrolü Japonca ve Çince olarak ayırır: SenseVoice duygu doğruluğu, CER ve emotion2vec anchor hizalaması.

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

Çince otomatik duygu metriklerinde genellikle daha kolaydır, fakat CER ve duygu doğruluğu her zaman birlikte hareket etmez. Qwen3-TTS iki dilde de düşük CER tutar; IndexTTS-2 en yüksek Japonca SenseVoice skoruna sahipken Japonca CER de en kötüdür.

Metin doğruluğu (CER)

CER by language

Metin doğruluğunda Qwen3-TTS en stabil sonuçtur: Japonca CER 8.6%, Çince CER 9.7%. IndexTTS-2 uyarı örneğidir; Japonca CER 91.0%‘a çıkar.

Duygu doğruluğu

SenseVoice

SenseVoice accuracy by language

Bu otomatik düzende Çince açıkça Japoncadan daha kolaydır. Qwen3-TTS için Çince SenseVoice doğruluğu 53.3%, Japonca 15.0%‘dır; iki dilde CER düşük olduğu için sorun yalnızca anlaşılabilirlik değildir.

Per-emotion SenseVoice recall by model and language

fear ve disgust en zor etiketlerdir. Tüm model/dil çiftlerinde SenseVoice recall 0.0%‘dır ve sıklıkla sad, neutral, angry veya unknown olarak çöker.

Satırlar hedef duygular, sütunlar SenseVoice tahminleridir. Yeşil kutular ideal diyagonali gösterir.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

Vaka	Ne oldu	Neden önemli
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	Japonca metin kalitesi güvenilir olmasa bile duygu etiketleri makul görünebilir.
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen en dengeli adaydır, ancak zor duygular hâlâ çöküyor.
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	Doğallık, tanınabilir duygu kontrolünü garanti etmez.
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	Inline duygu işaretleri üretilen prosody’yi güvenilir biçimde değiştirmedi.
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	Prompt tabanlı kontrol çoğu zaman nötr konuşmaya düştü.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metriği SenseVoice’a benzer bir tablo verir: Çince anchorlar Japonca anchorlardan daha avantajlıdır. Pozitif margin sesin hedef duygu merkezine daha yakın olduğunu gösterir. Qwen3-TTS Çince pozitif margin alırken tüm Japonca marginler negatiftir.

Doğallık

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

Doğallık ve duygu doğruluğu farklı sorulardır. CosyVoice doğallıkta kazanır, ama duygu kontrolünde değil. Qwen3-TTS NISQA-TTS’te biraz geride olsa da duygu, metin doğruluğu ve hız dengesinde daha iyidir.

Dinleme örnekleri

Aşağıdaki tablo Japonca ve Çince happy ve angry örnekleri için aynı prompt index’i kullanır. Bu klipler insan dinleme testi değil, otomatik metrikleri yorumlamak için nitel anchorlardır.

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

Sınırlamalar

Otomatik duygu etiketleri insan yargısı değildir. SenseVoice Japonca ve Çince desteklediği için yararlıdır, ancak sınıflandırıcı biası ve dil dengesizliği olabilir.
Anchor metrikleri anchor datasetlerine bağlıdır. Japonca anchorlar JVNV’den, Çince anchorlar CSEMOTIONS’dan gelir; bu çalışmada ja/neutral ve zh/disgust eksikti.
IndexTTS-2 Japonca sonucu diagnostiktir. Pooled skor güçlü görünür, fakat Japonca CER bu setup’ta çok yüksektir.

Sonraki araştırmalar

Qwen3-TTS ve CosyVoice için native listener MOS/CMOS testi çalıştırın.
IndexTTS-2’yi şimdilik Çince odaklı ele alın veya Japonca tokenizer/text path düzeltildikten sonra yeniden çalıştırın.
Eksik ja/neutral ve zh/disgust anchorlarını ekleyin veya curate edin.
Çince sad, angry, fear, disgust için odaklı insan kontrolü yapın.
SenseVoice’u otomatik tarama metriği olarak tutun, üretim kararlarını insan dinleme testleriyle verin.

Sonuç

Japonca ve Çince duygusal TTS için Qwen3-TTS CustomVoice 1.7B bu benchmark’ın en dengeli modelidir. Her duyguyu çözmez, ama duygu tanıma, düşük CER, anchor hit rate, doğallık ve runtime açısından en pratik karışımı sağlar.

Duygusal TTS Karşılaştırması: Japonca ve Çince için Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio ve VoxCPM