6.9Kstar!CosyVoice 2.0:阿里开源的语音生成大模型!

   日期:2024-12-26    作者:66cwa 移动:http://oml01z.riyuangf.com/mobile/quote/52696.html

CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场景。Cosyoice2 在发音准确性、音色一致性、韵律和音质上都有显著提升,MOS评测分从5.4提升到5.53,支持流式推理,大幅降低首包合成延迟至150ms,适合实时语音合成场景。

6.9Kstar!CosyVoice 2.0:阿里开源的语音生成大模型!

主要功能:

超低延迟的流式语音合成:支持双向流式语音合成,首包合成延迟可达150ms,适合实时应用场景。

高准确度的发音:相比前版本,发音错误率显著下降,尤其在处理绕口令、多音字、生僻字上表现突出。

音色一致性:在零样本和跨语言语音合成中保持音色高度一致性,提升合成自然度。

自然体验:合成音频的韵律、音质、情感匹配得到提升,MOS评测分提高,接近商业化语音合成大模型

多语言支持:在大规模多语言数据集上训练,实现跨语言的语音合成能力。

项目官网:https://funaudiollm.github.io/cosyvoice2/

GitHub地址:https://github.com/FunAudioLLM/CosyVoice


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号