जापानी र चिनियाँ भावनात्मक TTS बेन्चमार्क | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

भावनात्मक TTS बेन्चमार्क: जापानी र चिनियाँका लागि Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio र VoxCPM

VoicePing Research 6 मिनेट पढ्ने
भावनात्मक TTS बेन्चमार्क: जापानी र चिनियाँका लागि Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio र VoxCPM

जापानी र चिनियाँका लागि पाँच भावनात्मक TTS मोडेललाई छ भावनाहरू, SenseVoice, emotion2vec anchors, CER, naturalness, runtime र audio examples सहित तुलना।

मोडेल र सन्दर्भ:

सारांश

हामीले जापानी र चिनियाँका लागि पाँच भावनात्मक TTS प्रणालीलाई neutral, happy, sad, angry, fear, disgust गरी छ लक्ष्य भावनामा benchmark गर्‍यौं। वाक्य neutral राखिएको छ, त्यसैले भावना speech style बाट आउनुपर्छ।

सबैभन्दा सन्तुलित candidate Qwen3-TTS CustomVoice 1.7B हो। यसमा कम CER, राम्रो anchor hit rate, बलियो naturalness र जापानी/चिनियाँका लागि सबैभन्दा व्यावहारिक balance देखियो।

CosyVoice 300M Instruct naturalness मा अगाडि छ, तर emotion control कमजोर छ। IndexTTS-2 pooled SenseVoice score मा राम्रो देखिए पनि जापानी CER धेरै उच्च छ। चिनियाँ जापानीभन्दा सजिलो छ, र fear तथा disgust अझै समाधान भएका छैनन्।

प्रेरणा

भावनात्मक TTS प्राकृतिक आवाज बनाउने कुरा मात्र होइन। मोडेलले सही वाक्य बोल्नुपर्छ, सुन्न योग्य हुनुपर्छ र मागिएको भावना व्यक्त गर्नुपर्छ। त्यसैले यो benchmark ले emotion recognition, anchors, CER, naturalness, runtime र audio samples सँगै हेर्छ।

  • लक्षित जापानी वा चिनियाँ वाक्य सही रहनुपर्छ।
  • आवाज वास्तविक रूपमा सुन्न पर्याप्त प्राकृतिक हुनुपर्छ।
  • generated voice ले requested emotion व्यक्त गर्नुपर्छ, neutral speech वा नजिकको emotion मा collapse हुनु हुँदैन।

मूल्याङ्कन विधि

Benchmark ले भाषा, भावना र prompt text अनुसार balanced generation grid प्रयोग गर्छ। एउटै sentence छ भावनामा प्रयोग गरिएको छ, ताकि model ले prosody र voice style बाट भावना व्यक्त गर्नुपर्छ।

Experiment design

Prompt set

जापानी prompt उदाहरणहरू:

IDवाक्य
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

चिनियाँ prompt उदाहरणहरू:

IDवाक्य
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

भावना नियन्त्रण

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

मेट्रिक

  • SenseVoice भावना शुद्धता: मुख्य automatic screening metric।
  • emotion2vec anchor hit र margin: emotional-speech anchor centroids मा आधारित secondary diagnostic metric।
  • CER: original prompt text सँग transcription तुलना गर्दा आउने character error rate।
  • NISQA-TTS र UTMOS: synthesized speech को naturalness र quality जाँच्ने diagnostic metrics।
  • RTF: synthesis speed मापन गर्ने real-time factor।

नतिजा

स्रोत प्रयोग

Resource metrics 600 सफल generations बाट लिइएको छ। GPU, VRAM, wall time र RTF सबै completed rows मा छन्; CPU server-backed adapters का लागि सधैं capture हुँदैन।

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice सबैभन्दा छिटो र सबैभन्दा कम VRAM प्रयोग गर्ने model हो, तर emotion control मा सबैभन्दा बलियो होइन। Qwen3-TTS ले CosyVoice भन्दा बढी VRAM प्रयोग गर्छ, तर IndexTTS-2 र VoxCPM2 भन्दा धेरै छिटो छ र राम्रो balance दिन्छ।

JA/ZH मेट्रिक अवलोकन

यो तालिकाले तीन मुख्य automatic checks लाई जापानी र चिनियाँमा छुट्याउँछ: SenseVoice emotion accuracy, CER र emotion2vec anchor alignment।

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Automatic emotion metrics मा चिनियाँ सामान्यतया सजिलो छ, तर CER र emotion accuracy सधैं एउटै दिशामा हिँड्दैनन्। Qwen3-TTS ले दुवै भाषामा CER कम राख्छ; IndexTTS-2 को जापानी SenseVoice score उच्च छ तर जापानी CER पनि सबैभन्दा खराब छ।

पाठ शुद्धता (CER)

CER by language

Text fidelity मा Qwen3-TTS सबैभन्दा स्थिर छ: जापानी CER 8.6% र चिनियाँ CER 9.7%। IndexTTS-2 warning case हो, किनभने जापानी CER 91.0% पुग्छ।

भावना शुद्धता

SenseVoice

SenseVoice accuracy by language

यस automatic setup मा चिनियाँ जापानीभन्दा स्पष्ट रूपमा सजिलो छ। Qwen3-TTS मा चिनियाँ SenseVoice accuracy 53.3% र जापानी 15.0% छ, यद्यपि CER दुवैमा कम छ।

Per-emotion SenseVoice recall by model and language

feardisgust सबैभन्दा कठिन labels हुन्। दुवैको SenseVoice recall सबै model/language pairs मा 0.0% छ र प्रायः sad, neutral, angry, वा unknown मा जान्छ।

Rows target emotions हुन् र columns SenseVoice predictions हुन्। हरियो boxes ideal diagonal हुन्।

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

केसके भयोकिन महत्त्वपूर्ण छ
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.जापानी text quality unreliable हुँदा पनि emotion labels plausible देखिन सक्छन्।
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen सबैभन्दा balanced candidate हो, तर hard emotions अझै collapse हुन्छन्।
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalness ले recognizable emotional control को guarantee गर्दैन।
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Inline emotion markers ले generated prosody लाई reliably shift गर्न सकेन।
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Prompt-driven control अक्सर neutral speech मा collapse भयो।

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metric ले SenseVoice जस्तै story देखाउँछ: चिनियाँ anchors जापानी anchors भन्दा favorable छन्। Positive margin भनेको generated audio target emotion centroid नजिक छ। Qwen3-TTS को चिनियाँ margin positive छ, सबै जापानी margins negative छन्।

Naturalness

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalness र emotion correctness फरक प्रश्न हुन्। CosyVoice naturalness मा जित्छ, तर emotion control मा होइन। Qwen3-TTS NISQA-TTS मा अलि पछाडि छ, तर emotion/text/speed trade-off राम्रो छ।

सुन्ने उदाहरण

तलको तालिकाले जापानी र चिनियाँ happyangry samples का लागि एउटै prompt index प्रयोग गर्छ। यी clips human listening test होइनन्, automatic metrics बुझ्न qualitative anchors हुन्।

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

सीमाहरू

  • Automatic emotion labels human judgment होइनन्। SenseVoice उपयोगी छ, तर classifier bias र language imbalance हुन सक्छ।
  • Anchor metrics anchor datasets मा निर्भर हुन्छन्। जापानी anchors JVNV बाट र चिनियाँ anchors CSEMOTIONS बाट आएका छन्; ja/neutralzh/disgust हराइरहेका थिए।
  • IndexTTS-2 Japanese diagnostic मात्र हो। Pooled score राम्रो देखिन्छ, तर जापानी CER यो setup मा धेरै उच्च छ।

थप अनुसन्धान

  • Qwen3-TTS र CosyVoice का लागि native-listener MOS/CMOS test चलाउने।
  • IndexTTS-2 लाई अहिले Chinese-focused candidate मान्ने, वा Japanese tokenizer/text path fix गरेपछि rerun गर्ने।
  • ja/neutralzh/disgust anchors थप्ने वा curate गर्ने।
  • Chinese sad, angry, fear, disgust को focused human check गर्ने।
  • SenseVoice लाई automatic screening metric राख्ने, तर production decisions human listening tests बाट गर्ने।

निष्कर्ष

जापानी र चिनियाँ भावनात्मक TTS का लागि Qwen3-TTS CustomVoice 1.7B यो benchmark मा सबैभन्दा सन्तुलित model हो। यसले सबै emotion समाधान गर्दैन, तर emotion recognition, low CER, anchor hit rate, naturalness र runtime को सबैभन्दा practical mix दिन्छ।

Share this article

VoicePing निःशुल्क प्रयोग गर्नुहोस्

AI अनुवादसँग भाषा बाधाहरू तोड्नुहोस्। आज आफ्नो निःशुल्क परीक्षण सुरु गर्नुहोस्।

निःशुल्क सुरु गर्नुहोस्