CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场景。Cosyoice2 在发音准确性、音色一致性、韵律和音质上都有显著提升,MOS评测分从5.4提升到5.53,支持流式推理,大幅降低首包合成延迟至150ms,适合实时语音合成场景。
主要功能:
超低延迟的流式语音合成:支持双向流式语音合成,首包合成延迟可达150ms,适合实时应用场景。
高准确度的发音:相比前版本,发音错误率显著下降,尤其在处理绕口令、多音字、生僻字上表现突出。
音色一致性:在零样本和跨语言语音合成中保持音色高度一致性,提升合成自然度。
自然体验:合成音频的韵律、音质、情感匹配得到提升,MOS评测分提高,接近商业化语音合成大模型
多语言支持:在大规模多语言数据集上训练,实现跨语言的语音合成能力。
项目官网:https://funaudiollm.github.io/cosyvoice2/
GitHub地址:https://github.com/FunAudioLLM/CosyVoice