百度推新款语音识别模型，准确率飙升30%，还有三款AI语音芯片模组

百度推新款语音识别模型，准确率飙升30%，还有三款AI语音芯片模组

2024-12-26 13:43

智东西（公众号：zhidxcom）
文 | Lina

智东西11月28日消息，在百度大脑开放日上，百度语音首席架构师贾磊推出了一款新的语音识别模型——全名叫“基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型”，它与业内几乎所有语音识别方案都不一样，打破了传统远场语音识别技术的流程，能够将语音识别准确率提高30%以上。

在采访中，贾磊告诉智东西，这款语音识别模型是百度前后历时近一年打造的。在三年之内，随着这一技术的不断发展成熟，远场语音识别的准确率将能达到近场语音交互的水平，未来远场语音交互将会是主流。

百度AI技术生态部总经理喻友平则推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板，以及基于智能家居、智能车载、智能IoT设备这三大场景的行业解决方案人，让智能硬件厂家更好、更快地集成AI语音能力。

百度CTO王海峰在还开场致辞中表示，目前，百度语音技术平台每天调用量已经超过了100亿次。

贾磊表示，传统远场语音交互技术，首先要对声音进行数字信号处理（信号增强、波束生成等），接着再对其进行语音识别，涉及数字信号处理和语音识别这两大学科。

而今天百度推出的基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型则是一款几近颠覆式的新模式，它打破了上述传统流程，以一套深度学习模型代替整个流程。

这套模型能够直接输入多路麦克风信号，输出目标语音文字，参数调整只有字准确率这唯一的优化目标，不需要任何声学先验知识。

贾磊说，目前除了谷歌之外，业内所有主要玩家的语音交互都采用都是传统的方式。但是随着识别率到达一定阶段，传统远场语音识别的准确率很难再进一步提高。

百度的这款新模型搭配百度鸿鹄语音芯片，能够将语音识别准确率提高30%以上。

在采访中，贾磊告诉智东西，即便设备没有搭载鸿鹄芯片，而是搭载其他传统ARM芯片，这套新模型也能让远场语音识别、首次唤醒准确率大幅提升。

贾磊说，深度学习的下一步方向就是这种跨领域融合的技术，目前深度学习的端到端、跨学科整合方面正在快速发展，不断对已有学科进行着颠覆。

喻友平则在现场推出了三款基于百度鸿鹄语音芯片的硬件模组及开发板，为智能硬件厂家提供软硬一体的解决方案，让智能产品更好、更快地集成远场语音交互能力。

喻友平说，百度大脑开放平台目前是国内服务规模最大的AI开放平台，当前，其开发者群体超过150万（主要是企业开发者）、有228项开放的技术能力、能够在24小时内快速集成。

而对于智能硬件来说，加入语音交互能力有三大主要难点：

1）唤醒、降噪、识别的语音算法要求高；

2）软硬件适配复杂、周期长；

3）硬件选型难；

而百度今天推出的三款硬件模组和三大行业解决方案正是为了解决这些问题所打造的。

百度CTO王海峰在开场致辞中表示，目前百度大脑已经开放了200多项能力，语音能力是其中的重要方面。

百度从2010年开始进军AI语音技术，2010年初开始全面布局人工智能技术，2011年下半年开始研究深度学习，2012年初正式立项研究开发基于深度学习的语音技术。

王海峰表示，人工智能是用电脑计算机模拟人的能力，人类在自然环境中不断进化，人工智能也在应用场景中不断进化。

当前，算力高速发展、算法持续提升、数据不断积累，从而推动AI技术不断进化。

同时王海峰还表示，目前，百度语音技术平台每天调用量已经超过了100亿。

除此之外，来自创维、瓴岳、子杰宝贝、华智水稻、善行智能的百度合作伙伴也分别介绍了百度AI技术落地在家电、金融、护理、农业、智能眼镜等方面的落地。

创维AIoT研究院产品经理李凯表示，从2017年开始，创维就和百度进行了深度合作。创维集团AIoT研究院成立于2018年，专注于AIoT相关技术的研发与合作落地。

李凯告诉智东西，目前创维的“Swaiot小维智联”AI系统的设备部署量已经突破了千万台。创维电视目前也正在推进与百度鸿鹄语音芯片的合作落地。