जापानी और चीनी भावनात्मक TTS बेंचमार्क | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

भावनात्मक TTS बेंचमार्क: जापानी और चीनी के लिए Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio और VoxCPM

VoicePing Research 7 मिनट पढ़ें
भावनात्मक TTS बेंचमार्क: जापानी और चीनी के लिए Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio और VoxCPM

जापानी और चीनी के लिए पाँच भावनात्मक TTS मॉडलों की छह भावनाओं, SenseVoice, emotion2vec anchors, CER, naturalness, runtime और listening examples के साथ तुलना।

मॉडल और संदर्भ:

सारांश

हमने जापानी और चीनी के लिए पाँच भावनात्मक TTS सिस्टम को छह लक्ष्य भावनाओं पर benchmark किया: neutral, happy, sad, angry, fear, और disgust। वाक्य neutral रखे गए ताकि भावना text से नहीं बल्कि speech style से आए।

सबसे संतुलित उम्मीदवार Qwen3-TTS CustomVoice 1.7B है। इसमें कम CER, मजबूत anchor hit rate, अच्छी naturalness और जापानी/चीनी दोनों के लिए सबसे व्यावहारिक emotion-recognition balance दिखा।

CosyVoice 300M Instruct naturalness में आगे है, पर emotion control कमजोर है। IndexTTS-2 का pooled SenseVoice score अच्छा दिखता है, लेकिन जापानी CER बहुत अधिक है, इसलिए इसे भरोसेमंद जापानी TTS evidence नहीं माना जा सकता। कुल मिलाकर चीनी जापानी से आसान है, और fear तथा disgust अभी भी unresolved हैं।

प्रेरणा

भावनात्मक TTS सिर्फ natural voice बनाने का काम नहीं है। मॉडल को सही वाक्य बोलना, सुनने योग्य naturalness रखना, और requested emotion व्यक्त करना होता है। इसलिए यह benchmark emotion recognition, emotion anchors, transcription correctness, naturalness, runtime और listening samples को साथ देखता है।

  • लक्षित जापानी या चीनी वाक्य सही बना रहना चाहिए।
  • आवाज वास्तविक सुनने के लिए पर्याप्त प्राकृतिक लगनी चाहिए।
  • generated voice को requested emotion व्यक्त करना चाहिए, neutral speech या किसी नजदीकी emotion में collapse नहीं होना चाहिए।

मूल्यांकन पद्धति

Benchmark language, emotion और prompt text के balanced generation grid पर आधारित है। एक ही sentence सभी छह emotions में reuse किया गया, ताकि मॉडल emotional wording पर नहीं बल्कि prosody और voice style पर निर्भर करे।

Experiment design

प्रॉम्प्ट सेट

जापानी prompt उदाहरण:

IDवाक्य
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

चीनी prompt उदाहरण:

IDवाक्य
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

भावना नियंत्रण

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

मेट्रिक्स

  • SenseVoice भावना सटीकता: मुख्य automatic screening metric।
  • emotion2vec anchor hit और margin: emotional-speech anchor centroids पर आधारित secondary diagnostic metric।
  • CER: original prompt text के मुकाबले transcription error rate।
  • NISQA-TTS और UTMOS: synthesized speech की naturalness और quality diagnostic metrics।
  • RTF: synthesis speed मापने के लिए real-time factor।

परिणाम

संसाधन उपयोग

Resource metrics 600 सफल generations से लिए गए हैं। GPU, VRAM, wall time और RTF सभी completed rows में उपलब्ध हैं; CPU server-backed adapters के लिए हमेशा capture नहीं हुआ।

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice सबसे तेज और सबसे कम VRAM वाला model था, पर emotion-control candidate सबसे मजबूत नहीं था। Qwen3-TTS CosyVoice से अधिक VRAM उपयोग करता है, लेकिन IndexTTS-2 और VoxCPM2 से बहुत तेज है और emotion recognition/text fidelity का best balance देता है।

JA/ZH मेट्रिक्स अवलोकन

यह split table तीन core automatic checks को जापानी और चीनी में अलग करके दिखाता है: SenseVoice emotion accuracy, CER text fidelity, और emotion2vec anchor alignment।

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Automatic emotion metrics में चीनी सामान्यतः आसान है, लेकिन CER और emotion accuracy हमेशा साथ नहीं चलते। Qwen3-TTS दोनों भाषाओं में CER कम रखता है; IndexTTS-2 का जापानी SenseVoice score सबसे ऊँचा है, लेकिन जापानी CER भी सबसे खराब है।

टेक्स्ट fidelity (CER)

CER by language

Text fidelity में Qwen3-TTS सबसे स्थिर है: जापानी CER 8.6% और चीनी CER 9.7%। IndexTTS-2 warning case है, क्योंकि जापानी CER 91.0% तक पहुँचता है।

भावना सटीकता

SenseVoice

SenseVoice accuracy by language

इस automatic setup में चीनी जापानी से स्पष्ट रूप से आसान है। Qwen3-TTS के लिए चीनी SenseVoice accuracy 53.3% है जबकि जापानी 15.0% है, हालांकि CER दोनों में low है। यानी समस्या केवल intelligibility नहीं, बल्कि जापानी emotion cues की weakness या SenseVoice alignment है।

Per-emotion SenseVoice recall by model and language

fear और disgust सबसे कठिन labels हैं। सभी model/language pairs में इनका SenseVoice recall 0.0% है, और वे अक्सर sad, neutral, angry, या unknown में collapse होते हैं।

Rows target emotions हैं और columns SenseVoice predictions हैं। हरे boxes ideal diagonal को दिखाते हैं।

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

मामलाक्या हुआयह क्यों महत्वपूर्ण है
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Japanese text quality unreliable होने पर भी emotion labels plausible दिख सकते हैं।
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen balanced winner है, लेकिन hard emotions अभी भी collapse होते हैं।
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalness recognizable emotional control की guarantee नहीं देती।
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Inline emotion markers generated prosody को reliably shift नहीं कर पाए।
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Prompt-driven control अक्सर neutral speech में collapse हुआ।

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metric SenseVoice जैसी कहानी बताता है: चीनी anchors जापानी anchors से अधिक favorable हैं। Positive margin का अर्थ है कि generated audio target-emotion centroid के करीब है। Qwen3-TTS का चीनी margin positive है, जबकि सभी जापानी margins negative हैं।

Naturalness

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalness और emotion correctness अलग प्रश्न हैं। CosyVoice naturalness winner है, लेकिन emotion-control winner नहीं। Qwen3-TTS NISQA-TTS में थोड़ा पीछे है, पर emotion, text correctness और speed का better practical trade-off देता है।

सुनने के उदाहरण

नीचे की table जापानी और चीनी में happy और angry के लिए same prompt index इस्तेमाल करती है। ये clips human listening test नहीं हैं; ये automatic metrics समझने के लिए qualitative anchors हैं।

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

सीमाएँ

  • Automatic emotion labels human judgment नहीं हैं। SenseVoice Japanese और Chinese support करता है, पर classifier bias और language imbalance संभव हैं।
  • Anchor metrics anchor datasets पर निर्भर करते हैं। Japanese anchors JVNV से और Chinese anchors CSEMOTIONS से आए; इस run में ja/neutral और zh/disgust anchors missing थे।
  • IndexTTS-2 Japanese diagnostic है, production evidence नहीं। Pooled emotion score strong दिखता है, पर Japanese CER इस setup में बहुत अधिक है।

आगे का शोध

  • Qwen3-TTS और CosyVoice के लिए native-listener MOS/CMOS test चलाएँ, जिसमें naturalness, emotion correctness और intelligibility अलग-अलग rate हों।
  • IndexTTS-2 को फिलहाल Chinese-focused मानें, या Japanese tokenizer/text path fix करने के बाद rerun करें।
  • ja/neutral और zh/disgust emotion anchors add या curate करें।
  • Chinese sad, angry, fear, और disgust के लिए focused human check करें।
  • SenseVoice को automatic screening metric रखें, लेकिन production decisions human listening tests से लें।

निष्कर्ष

Japanese और Chinese emotional TTS के लिए Qwen3-TTS CustomVoice 1.7B इस benchmark में सबसे संतुलित model है। यह हर emotion solve नहीं करता, लेकिन emotion recognition, low CER, anchor hit rate, naturalness और runtime का सबसे practical mix देता है।

Share this article

VoicePing मुफ्त आज़माएं

AI ट्रांसलेशन के साथ भाषा की बाधाएं तोड़ें। आज ही अपना मुफ्त ट्रायल शुरू करें।

मुफ्त में शुरू करें