6.9Kstar！CosyVoice 2.0：阿里开源的语音生成大模型！

日期：2024-12-26 作者：66cwa 移动：http://oml01z.riyuangf.com/mobile/quote/52696.html

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构，推出块感知因果流匹配模型支持多样的合成场景。Cosyoice2 在发音准确性、音色一致性、韵律和音质上都有显著提升，MOS评测分从5.4提升到5.53,支持流式推理，大幅降低首包合成延迟至150ms，适合实时语音合成场景。

主要功能：

超低延迟的流式语音合成:支持双向流式语音合成，首包合成延迟可达150ms，适合实时应用场景。

高准确度的发音:相比前版本,发音错误率显著下降,尤其在处理绕口令、多音字、生僻字上表现突出。

音色一致性:在零样本和跨语言语音合成中保持音色高度一致性，提升合成自然度。

自然体验:合成音频的韵律、音质、情感匹配得到提升,MOS评测分提高，接近商业化语音合成大模型

多语言支持:在大规模多语言数据集上训练，实现跨语言的语音合成能力。

项目官网：https://funaudiollm.github.io/cosyvoice2/

GitHub地址：https://github.com/FunAudioLLM/CosyVoice

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行