如何评测语音技能的智能程度（3）——交互流畅

如何评测语音技能的智能程度（3）——交互流畅

2024-12-26 08:43

《如何评测语音技能的智能程度》是5篇系列文字，来自一位创业者，也是DuerOS开发者的投稿，老曹尽量不做变动和评价，尽量保持系列文章的原貌，这是第3篇。

当用户发起需求后，【意图理解】在前，【服务提供】在后，基本上已经构成了一轮完整闭环。

之所以把【交互流畅】这个点作为一个单独维度拆解出来，是因为其贯穿始终。如果这个模块的内容如果处理不好，将全程伤害体验。

本篇文章为大家带来【交互流畅】维度的评测点拆解。

这个模块，重点考量智能助手各个性能指标及交互体验层面的表现。

“正常运行”、“不出bug”、“鲁棒性好”。

评测点已经讲完了，十分清晰，几乎每一个互联网从业者都能够说出个1234，然后呢？

稳定不好，这类问题可大可小，小点就是网络繁忙，不给你任何反馈，大到极致，机器人可以反动搞事情，“愚蠢的人类啊，阿西莫夫的机器人三定律也救不了你们。”

好了，开个玩笑。实际上，定义“what”容易，解决“how”往往都才是考量业务理解。

所以，在过往我经常会问面试者的问题有一个，你曾经做过的智能助手产品，出过哪些问题，你是如何解决的？

不同的人回答不同，对于这类命题，才更有探索价值。

一般情况下，回答这些是技术的问题，往往都很糟糕，实际上，每个公司的稳定性业务保障是需要一个体系来承担的。

所以能得分的面试回答是，把影响稳定性的故障进行一个分类，并且设计好处理路径。

这里只有大类别，单单一个业务后台，就能做很多范围细分。故障表现情况例如：崩溃、局部故障、弱网环境、状态更新、请求超时、并发表现……严重程度不一致，此处不逐一展开。

出过哪些问题分类回答完毕，你是如何解决的呢？是后续的一个命题。

一般情况下，公司的业务流程是这样运转的。

这里有3个细节。

第一个是反馈的行为折损。根据历史数据表现，1个问题被报上来，背后往往有至少10个以上的用户遇见过，只是用户懒/报问题麻烦，没有报而已。

第二个是反馈的信息折损，客服问：你做了什么操作导致的崩溃？用户答：我也不知道，就崩溃了。这种情况，是不利于排查和定位问题的。

第三个是“解决方案的设计”，这里也分为“临时解决方案”和“全局最优解决方案”两说。

下图是一个信息化的风控结构，做过相关模块的，懂得自然懂，篇幅太长，此处不展开。

所以，在考量服务稳定性上有两个大层面，一个是智能助手本身的稳定性表现，二个是在服务用户的过程中，如何规避，以及遇见问题后的业务响应速度表现。

服务稳定性的考量是以一定周期、频次进行考量才是科学合理的。

服务稳定性保障了之后，接下来就是速度。

语音交互这件事，本身就是因为语音输入的高效性。

当用户发出了需求，希望尽快拿到反馈，

现在的用户极其没有耐心，速度一旦过慢，注定会被弃而不用。

而在智能语音助手交互对话的过程中，又包含哪几个阶段呢？

先明确一点，一味追求快并非是好。

1、人类唤醒后，计算器的响应灵敏度，灵敏度太强（误唤醒）或太弱（没反应）都不好，当然如果升级下维度，还可以添加场景，比如噪音下唤醒，远场唤醒等。灵敏度是可以调试的，以表现合适最好。

2、人类表述了自己需求后，ASR有两种方案，一种是边识别边转换文本，另外一种是表述完毕后一口气转换为文本。

3、业务逻辑处理表现，其实是NLP领域最为核心的部分，也是最为耗时的部分，从效率角度上而言，此处尽管追求越快越好。

4、这里的语音播放，不是越快越好，而是合适就好，语速太快会给人一种轻浮及不稳重的感受，太慢则显得很笨以及可能造成不耐烦。而反馈样式则需要尽快呈现，有些智能助手语音播放完毕了，结果下面的内容还没加载到位。

5、人类总计2次交互，一次唤醒，一次表达意图，这2个行为过后，等待AI反馈。也就是说，当用户说完话后的下一秒，助手要同时处理，识别+理解+接口查询+反馈四个阶段，这个过程中，全部都是用户的等待状态。

人们去饭店点完了菜，等上菜的过程中，中间服务员还会过来帮忙缓解，这个过程较长，一定要考虑好等待体验管理，不至于让用户无聊。

前后端共同协作，添加一些语音播报，模态框提示，渐隐消失提示，动画效果，来管理用户的等待体验。

而有些无屏的音箱则需要使用等待、加载、成功等光效表现来管理用户的等待体验过程。

所以，在响应速度/流畅度这个维度上，不同的情况不同的对待，以合适最好。

每一种交互形式的存在，都有着其依赖的场景。

下图是我尝试穷举人类的输入行为（尽力做到MECE）。

点触、语音、手势、点头摇头、人脸识别、声纹、指纹验证等等均算在内。

这一块真的不需要多讲，除了脑机接口，基本上都玩过，体验过的都会觉得其有意思的地方。

交互形式丰富度，评测点已解释完毕，在未来，一定是多模态交互，来适应各种各样的业务场景。

说一点，产品经理应该修炼的部分。

笔者有一个出门问问的耳机，它是智能助手的操控延伸。在提供创新体验的同时，弄明白了是什么（what），基于此去探究为什么（why）以及怎么办（how）。

所以，笔者认为产品经理应该修炼的部分。

尽量多的去使用智能硬件，把工作体验变成日常，以培养敏感度。
弄清楚这些交互方式、元器件连接方式背后的技术实现原理。
每种技术方案都有多种实现方式，知晓其优劣势及实现成本。

这三层修炼是递进关系。只有这些把这类东西融入到了我们的生活之中，敏感性才培养得起来，继而去加深理解，如此才更有可能做创新。

我们今天所熟知的众多的科学以及专利技术的发明者，其实都是根据前人的经验进行的某种程度上的改进。从结果上来看，主要有两种改进方向。

一种是将一个原本在实验室里面理论上可行，变成大规模批量生产的方案。

另一种则是根据已有的技术发明，发现一些“居然这个技术还可以被这样使用” 的方案。

苹果公司在技术研发上，并没有什么特别优秀的表现，但是在整合以及运用技术的这件事情上，则是优秀中的代表。市面上的绝大多数的手机公司的研发部门，应该都叫技术方案整合商更为贴切。

只有将自己的日常浸润到各种类型的交互体验里，进而去理解实现方案背后的技术原理，才更有可能做出创新啊！

我第一次给父母体验‘小爱同学’的时候，他们是需要我的帮助才能使用。

什么是唤醒；什么是监听；什么时候你说话它会响应/不响应；觉得罗嗦，如何打断对方。

这个教学行为大概要持续一小会，言传身教才能够学出如何进行语音交互。

如果没有我，我的父母将无法上手。这种依赖人，在旁边教的东西，实在是学习成本太高。

而当我们的产品被用户首次体验的时候，如果没有新手教学，用户也许就呆滞在那里，并不知道如何使用。

新手教学体验是非常重要的一个环节。

体验各家智能语音助手，在这一块的表现上各不一致，故而列为评测点。

行业新的新手引导教学其实非常多的种类，滑屏海报，蒙版遮罩，文字tips，互动式引导。

简单一分为二的说，大体可以分为，基本操作教学，以及对应业务的教学。

在考量这个业务表现的维度上，基本操作教学必须得有。而具体业务教学，则是具体问题具体设计。

百度地图的新手引导就做得十分友好。基本上为小度导航的每个业务能力配备了沉浸式引导方案。

这一块是参照游戏行业的解决方案。就我过往对小度的体验，其实有很几次改版了，不断迭代演化至今。

最好的交互设计其实是不需要新手引导的，如同微信一样自然。

在一个普遍使用点触操作习惯的年代，如何让用户体验这种新的交互体验方式？压力就在新手教学上。学的会就用，学不会就丢弃。

尝鲜体验过后，以后也会（改变习惯）使用语音寻求业务，压力则在业务设计上。方便就用，不方便就丢弃。

这是一个递进逻辑。只有基本操作掌握了才有后面的（改变习惯）使用，把用户当成小白的新手教学行为，一定得做好！

全双工（Full Duplex）是通讯传输的一个术语。通信允许数据在两个方向上同时传输。

先用通俗的例子比喻下。

单工：类似听广播。

单向传递信息，一个人只能听另一个人说。

半双工：类似对讲机。

甲：洞幺洞幺，能不能听到我说话，over。

乙：可以听到，over。

全双工：类似打电话。

甲：喂，还记得我的声音么？我是…… 乙：啊，是你小子啊……

双方可以各说各的，可以互相打断。

人机交互追求更加自然流畅，这一点必不可少。

当前的语音助手，只有在进入监听状态才可以做出反馈。

而进入监听的两种情况，一种是使用[唤醒词]，完成唤醒/打断的动作。

另一种是AI判断业务没完，做出引导式的追问，然后进入监听状态。

例如：

用户：我想看最近上映的电影。

助手：为你找到如下电影，你可以对我说看第几部。播放完毕后进入监听状态。

其实助手第一时间在屏幕上展示了电影列表的搜索结果，但是总得把语音念完……。

作为用户而言，我已经看到了助手给我的展示结果，也知道你的后续话术套路，我会迫不及待的使用[唤醒词]，完成打断行为……使用过的都会感受到这种情况的心累。

而在全双工的能力加持下，即为，你播报你的，我说我的，不用等你念完，才进入监听状态，你念一半的时候，我抢话到下一步骤，你根据我的节奏推进业务就好。

还有一种技术方案相信从业者们也不陌生，就是基于当前语义场景下的“判断为无效内容后的拒绝响应”。

例子：我想听……嗯，我想想，哦对了，那个周杰伦的青花瓷

识别出用户当前说的话是不是给它的指令，能过滤掉无效的停顿，语气助词等干扰信息，再做出反应。

这就是全双工所指的“瞬间双向”表现，更接近人与人之间的自然对话，提升了交互体验。

同样的，在【交互流畅】这个单元模块，有更多评测点去列举，但是受限于篇幅以及能力所限，删掉的一些内容。保留以及删除评测点的原则，也是基于评测指标的普适性。

同样用提问的方式，列举一下我删除掉的考核点。

第（6）点，列举一个我玩游戏多多自走棋，体验游戏助手的例子。敏感词，会在很多的地方出现。防止内容攻击，保护安全的，特别是大公司，往往会用上一个敏感词库过滤处理，相信很多的人都遇见过，有些给你反馈，有些则直接给你和谐掉了。显然是影响交互体验流畅度的。造成这种情况的显然是政策问题。

第（7）点，未来的交互体验过程中，多硬件终端，多场景，有屏无屏的交互体验方案，这是一个“现阶段各家都没做，而在未来各家一定会做”的评测点。

如果列举其例子，问题以及探讨解决方案起来，篇幅就过长了，就目前AI跨平台使用表现而言，故现阶段舍弃。

第（8）点，完成任务时候的成本考量。这个里面涉及一些语音识别、语义理解的层面。比如，任务流的多轮对话是分层次的，而当用户一口气给助手提供多个查询槽位，能否给予结果。比如，在一些支付和验证的层面，视觉和声纹让用户付出的代价几何等等。助手取硬件权限（读取GPS，读取短信等）时的表现。

在满足用户需求的时候一定有方案，而不同方案之间的取舍考量就存在比较关系了。

笔者在设计业务的时候，同时也会考量用户的隐私保护安全。

你要安全，就加判断确认，加验证，影响流畅度。

你要流畅，就替用户配置更多的默认选项，影响安全。

“流畅”和“安全”本身就是一个互相冲突的命题。此处没有对错，只有选择。

【交互流畅】是一个非常重要的全局性指标，贯穿【意图理解】和【服务提供】始终。如果这个维度的评测方向如果处理不好，将全程伤害体验。

以上，关于第三大维度【交互流畅】的诸多考量点，就此完结。

【关联阅读】

一篇文章深入理解VUI和GUI的优劣对比

面向NLP的AI产品方法论——寻找语音交互的业务场景

面向NLP的AI产品方法论——如何设计多轮语音技能

面向NLP的AI产品方法论——如何做好“多轮对话管理”

如何从零开始搭建数据分析后台 | 饭大官人

面向NLP的AI产品方法论——如何通过数据分析迭代优化

如何评测语音技能的智能程度（1）——意图理解

如何评测语音技能的智能程度（2）——服务提供

——DuerOS 相关——

https://dueros.baidu.com/dbp
DuerOS的零编程技能实现
揭秘“语音交互”背后的AI硬核黑科技！
《智能语音时代》的读书笔记
再看语音交互设计
语音交互设计的一点认知
百度AI开发者大会之DuerOS 回顾
AI开发者大会中的公开课解读——DuerOS技能开发与CFC编程
AI开发者大会中的公开课解读——如何在DuerOS技能中实现用户支付购买
DPL 来了——百度2019AI开发者大会DuerOS公开课解读之三
故事工厂在DuerOS技能开发中的应用——百度2019AI开发者大会DuerOS公开课解读之四
企业赋能 AI 服务生活
DuerOS 走进初夏的成都
放心用吧！浅谈DuerOS的安全性
智能音箱场景下的性能优化
在校大学生能成为DuerOS 的独立开发者吗？
生动化你的表达——DuerOS中的SSML应用
用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发
从Java SDK看DuerOS的技能开发
面向接口/协议？看DuerOS的技能开发
感知自然语言理解（NLU）