分享好友 最新动态首页 最新动态分类 切换频道
如何评测语音技能的智能程度(3)——交互流畅
2024-12-26 08:43

《如何评测语音技能的智能程度》是5篇系列文字,来自一位创业者,也是DuerOS开发者的投稿,老曹尽量不做变动和评价,尽量保持系列文章的原貌,这是第3篇。

如何评测语音技能的智能程度(3)——交互流畅

当用户发起需求后,【意图理解】在前,【服务提供】在后,基本上已经构成了一轮完整闭环。

之所以把【交互流畅】这个点作为一个单独维度拆解出来,是因为其贯穿始终。如果这个模块的内容如果处理不好,将全程伤害体验。

本篇文章为大家带来【交互流畅】维度的评测点拆解。

这个模块,重点考量智能助手各个性能指标及交互体验层面的表现。

“正常运行”、“不出bug”、“鲁棒性好”。

评测点已经讲完了,十分清晰,几乎每一个互联网从业者都能够说出个1234,然后呢

稳定不好,这类问题可大可小,小点就是网络繁忙,不给你任何反馈,大到极致,机器人可以反动搞事情,“愚蠢的人类啊,阿西莫夫的机器人三定律也救不了你们。”

好了,开个玩笑。实际上,定义“what”容易,解决“how”往往都才是考量业务理解。

所以,在过往我经常会问面试者的问题有一个,你曾经做过的智能助手产品,出过哪些问题,你是如何解决的

不同的人回答不同,对于这类命题,才更有探索价值。

一般情况下,回答这些是技术的问题,往往都很糟糕,实际上,每个公司的稳定性业务保障是需要一个体系来承担的。

所以能得分的面试回答是,把影响稳定性的故障进行一个分类,并且设计好处理路径。

这里只有大类别,单单一个业务后台,就能做很多范围细分。故障表现情况例如:崩溃、局部故障、弱网环境、状态更新、请求超时、并发表现……严重程度不一致,此处不逐一展开。

出过哪些问题分类回答完毕,你是如何解决的呢?是后续的一个命题。

一般情况下,公司的业务流程是这样运转的。

这里有3个细节。

第一个是反馈的行为折损。根据历史数据表现,1个问题被报上来,背后往往有至少10个以上的用户遇见过,只是用户懒/报问题麻烦,没有报而已。

第二个是反馈的信息折损,客服问:你做了什么操作导致的崩溃?用户答:我也不知道,就崩溃了。这种情况,是不利于排查和定位问题的。

第三个是“解决方案的设计”,这里也分为“临时解决方案”和“全局最优解决方案”两说。

下图是一个信息化的风控结构,做过相关模块的,懂得自然懂,篇幅太长,此处不展开。

所以,在考量服务稳定性上有两个大层面,一个是智能助手本身的稳定性表现,二个是在服务用户的过程中,如何规避,以及遇见问题后的业务响应速度表现。

服务稳定性的考量是以一定周期、频次进行考量才是科学合理的。

服务稳定性保障了之后,接下来就是速度。

语音交互这件事,本身就是因为语音输入的高效性。

当用户发出了需求,希望尽快拿到反馈

现在的用户极其没有耐心,速度一旦过慢,注定会被弃而不用。

而在智能语音助手交互对话的过程中,又包含哪几个阶段呢

先明确一点,一味追求快并非是好。

1、人类唤醒后,计算器的响应灵敏度,灵敏度太强(误唤醒)或太弱(没反应)都不好,当然如果升级下维度,还可以添加场景,比如噪音下唤醒,远场唤醒等。灵敏度是可以调试的,以表现合适最好。

2、人类表述了自己需求后,ASR有两种方案,一种是边识别边转换文本,另外一种是表述完毕后一口气转换为文本。

3、业务逻辑处理表现,其实是NLP领域最为核心的部分,也是最为耗时的部分,从效率角度上而言,此处尽管追求越快越好。

4、这里的语音播放,不是越快越好,而是合适就好,语速太快会给人一种轻浮及不稳重的感受,太慢则显得很笨以及可能造成不耐烦。而反馈样式则需要尽快呈现,有些智能助手语音播放完毕了,结果下面的内容还没加载到位。

5、人类总计2次交互,一次唤醒,一次表达意图,这2个行为过后,等待AI反馈。也就是说,当用户说完话后的下一秒,助手要同时处理,识别+理解+接口查询+反馈四个阶段,这个过程中,全部都是用户的等待状态。

人们去饭店点完了菜,等上菜的过程中,中间服务员还会过来帮忙缓解,这个过程较长,一定要考虑好等待体验管理,不至于让用户无聊。

前后端共同协作,添加一些语音播报,模态框提示,渐隐消失提示,动画效果,来管理用户的等待体验。

而有些无屏的音箱则需要使用等待、加载、成功等光效表现来管理用户的等待体验过程。

所以,在响应速度/流畅度这个维度上,不同的情况不同的对待,以合适最好。

每一种交互形式的存在,都有着其依赖的场景。

下图是我尝试穷举人类的输入行为(尽力做到MECE)。

点触、语音、手势、点头摇头、人脸识别、声纹、指纹验证等等均算在内。

这一块真的不需要多讲,除了脑机接口,基本上都玩过,体验过的都会觉得其有意思的地方。

交互形式丰富度,评测点已解释完毕,在未来,一定是多模态交互,来适应各种各样的业务场景。

说一点,产品经理应该修炼的部分。

笔者有一个出门问问的耳机,它是智能助手的操控延伸。在提供创新体验的同时,弄明白了是什么(what,基于此去探究为什么(why)以及怎么办(how)。

所以,笔者认为产品经理应该修炼的部分。

  1. 尽量多的去使用智能硬件,把工作体验变成日常,以培养敏感度。

  2. 弄清楚这些交互方式、元器件连接方式背后的技术实现原理。

  3. 每种技术方案都有多种实现方式,知晓其优劣势及实现成本。

这三层修炼是递进关系。只有这些把这类东西融入到了我们的生活之中,敏感性才培养得起来,继而去加深理解,如此才更有可能做创新。

我们今天所熟知的众多的科学以及专利技术的发明者,其实都是根据前人的经验进行的某种程度上的改进。从结果上来看,主要有两种改进方向。

一种是将一个原本在实验室里面理论上可行,变成大规模批量生产的方案。

另一种则是根据已有的技术发明,发现一些“居然这个技术还可以被这样使用” 的方案。

苹果公司在技术研发上,并没有什么特别优秀的表现,但是在整合以及运用技术的这件事情上,则是优秀中的代表。市面上的绝大多数的手机公司的研发部门,应该都叫技术方案整合商更为贴切。

只有将自己的日常浸润到各种类型的交互体验里,进而去理解实现方案背后的技术原理,才更有可能做出创新啊

我第一次给父母体验‘小爱同学’的时候,他们是需要我的帮助才能使用。

什么是唤醒;什么是监听;什么时候你说话它会响应/不响应;觉得罗嗦,如何打断对方。

这个教学行为大概要持续一小会,言传身教才能够学出如何进行语音交互。

如果没有我,我的父母将无法上手。这种依赖人,在旁边教的东西,实在是学习成本太高。

而当我们的产品被用户首次体验的时候,如果没有新手教学,用户也许就呆滞在那里,并不知道如何使用。

新手教学体验是非常重要的一个环节。

体验各家智能语音助手,在这一块的表现上各不一致,故而列为评测点。

行业新的新手引导教学其实非常多的种类,滑屏海报,蒙版遮罩,文字tips,互动式引导。

简单一分为二的说,大体可以分为,基本操作教学,以及对应业务的教学。

在考量这个业务表现的维度上,基本操作教学必须得有。而具体业务教学,则是具体问题具体设计。

百度地图的新手引导就做得十分友好。基本上为小度导航的每个业务能力配备了沉浸式引导方案。

这一块是参照游戏行业的解决方案。就我过往对小度的体验,其实有很几次改版了,不断迭代演化至今。

最好的交互设计其实是不需要新手引导的,如同微信一样自然。

在一个普遍使用点触操作习惯的年代,如何让用户体验这种新的交互体验方式?压力就在新手教学上。学的会就用,学不会就丢弃。

尝鲜体验过后以后也会(改变习惯)使用语音寻求业务,压力则在业务设计上。方便就用,不方便就丢弃。

这是一个递进逻辑。只有基本操作掌握了才有后面的(改变习惯)使用,把用户当成小白的新手教学行为,一定得做好

全双工(Full Duplex)是通讯传输的一个术语。通信允许数据在两个方向上同时传输。

先用通俗的例子比喻下。

单工:类似听广播。

单向传递信息,一个人只能听另一个人说。

半双工:类似对讲机。

:洞幺洞幺,能不能听到我说话,over。

:可以听到,over。

全双工:类似打电话。

:喂,还记得我的声音么?我是…… 乙:啊,是你小子啊……

双方可以各说各的,可以互相打断。

人机交互追求更加自然流畅,这一点必不可少。

当前的语音助手,只有在进入监听状态才可以做出反馈。

而进入监听的两种情况,一种是使用[唤醒词],完成唤醒/打断的动作。

另一种是AI判断业务没完,做出引导式的追问,然后进入监听状态。

例如

用户:我想看最近上映的电影。

助手:为你找到如下电影,你可以对我说看第几部。播放完毕后进入监听状态。

其实助手第一时间在屏幕上展示了电影列表的搜索结果,但是总得把语音念完……。

作为用户而言,我已经看到了助手给我的展示结果,也知道你的后续话术套路,我会迫不及待的使用[唤醒词],完成打断行为……使用过的都会感受到这种情况的心累。

而在全双工的能力加持下,即为,你播报你的,我说我的,不用等你念完,才进入监听状态,你念一半的时候,我抢话到下一步骤,你根据我的节奏推进业务就好。

还有一种技术方案相信从业者们也不陌生,就是基于当前语义场景下的“判断为无效内容后的拒绝响应”。

例子:我想听……嗯,我想想,哦对了,那个周杰伦的青花瓷

识别出用户当前说的话是不是给它的指令,能过滤掉无效的停顿,语气助词等干扰信息,再做出反应。

这就是全双工所指的“瞬间双向”表现,更接近人与人之间的自然对话,提升了交互体验。

同样的,在【交互流畅】这个单元模块,有更多评测点去列举,但是受限于篇幅以及能力所限,删掉的一些内容。保留以及删除评测点的原则,也是基于评测指标的普适性。

同样用提问的方式,列举一下我删除掉的考核点。

(6)点,列举一个我玩游戏多多自走棋,体验游戏助手的例子。敏感词,会在很多的地方出现。防止内容攻击,保护安全的,特别是大公司,往往会用上一个敏感词库过滤处理,相信很多的人都遇见过,有些给你反馈,有些则直接给你和谐掉了。显然是影响交互体验流畅度的。造成这种情况的显然是政策问题。

(7)点,未来的交互体验过程中,多硬件终端,多场景,有屏无屏的交互体验方案,这是一个“现阶段各家都没做,而在未来各家一定会做”的评测点。

如果列举其例子,问题以及探讨解决方案起来,篇幅就过长了,就目前AI跨平台使用表现而言,故现阶段舍弃。

(8)点,完成任务时候的成本考量。这个里面涉及一些语音识别、语义理解的层面。比如,任务流的多轮对话是分层次的,而当用户一口气给助手提供多个查询槽位,能否给予结果。比如,在一些支付和验证的层面,视觉和声纹让用户付出的代价几何等等。助手取硬件权限(读取GPS,读取短信等)时的表现。

在满足用户需求的时候一定有方案,而不同方案之间的取舍考量就存在比较关系了。

笔者在设计业务的时候,同时也会考量用户的隐私保护安全。

你要安全,就加判断确认,加验证,影响流畅度。

你要流畅,就替用户配置更多的默认选项,影响安全。

“流畅”和“安全”本身就是一个互相冲突的命题。此处没有对错,只有选择。

【交互流畅】是一个非常重要的全局性指标,贯穿【意图理解】和【服务提供】始终。如果这个维度的评测方向如果处理不好,将全程伤害体验。

以上,关于第三大维度【交互流畅】的诸多考量点,就此完结。

【关联阅读】

一篇文章深入理解VUI和GUI的优劣对比

面向NLP的AI产品方法论——寻找语音交互的业务场景

面向NLP的AI产品方法论——如何设计多轮语音技能

面向NLP的AI产品方法论——如何做好“多轮对话管理”

如何从零开始搭建数据分析后台 | 饭大官人

面向NLP的AI产品方法论——如何通过数据分析迭代优化

如何评测语音技能的智能程度(1)——意图理解

如何评测语音技能的智能程度(2)——服务提供

——DuerOS 相关——

  • https://dueros.baidu.com/dbp

  • DuerOS的零编程技能实现

  • 揭秘“语音交互”背后的AI硬核黑科技

  • 《智能语音时代》的读书笔记

  • 再看语音交互设计

  • 语音交互设计的一点认知

  • 百度AI开发者大会之DuerOS 回顾

  • AI开发者大会中的公开课解读——DuerOS技能开发与CFC编程

  • AI开发者大会中的公开课解读——如何在DuerOS技能中实现用户支付购买

  • DPL 来了——百度2019AI开发者大会DuerOS公开课解读之三

  • 故事工厂在DuerOS技能开发中的应用——百度2019AI开发者大会DuerOS公开课解读之四

  • 企业赋能  AI 服务生活

  • DuerOS 走进初夏的成都

  • 放心用吧!浅谈DuerOS的安全性

  • 智能音箱场景下的性能优化

  • 在校大学生能成为DuerOS 的独立开发者吗

  • 生动化你的表达——DuerOS中的SSML应用

  • 用JavaScript打造AI应用-从Nodejs SDK 看DuerOS的技能开发

  • 从Java SDK看DuerOS的技能开发

  • 面向接口/协议?看DuerOS的技能开发

  • 感知自然语言理解(NLU

最新文章
Java Wiki系统学习入门教程
概述本文详细介绍了Java编程语言的基础知识,包括环境搭建、基&#
IPv6知识
(1)、IPV6有128位(128bit),基本组成方式为:网络ID+接口ID,IPV6地址=前缀+接口标识(接口ID具有唯一性,由设备自动生成,MAC唯一,因此接口ID唯一,前缀的表示方法:通过砸IPV6地址后面加一个斜线/,再跟一个十进制的数字来标识一个IPV6地
360最低还款比例是多少呢?
360最低还款比例是多少啊小编导语在现代社会中,信用卡已经成为人们日常消费中不可或缺的一部分。随着信用卡的普及,许多人开始关注与信用卡相关的各种问,其中最低还款比例就是一个常见的关注点。本站将360信用卡的最低还款比例展开讨论,
gitlab迁移(服务器迁移)
先记录迁移中的问题,后续补充具体迁移步骤。 迁移内容包括,对象存储数据迁移,所有节点(gitlab-rails,gitaly,praefect,pg,pgb,redis所有节点迁移)1、gitlab页面查询
docker + webhook 从零实现前端自动化部署
得益于 node 的横空出世以及前端工程化的兴起,无论是开发模式,还是开发框架,前端生态链都产生了翻天覆地的变化,与此同时前端慢慢开始向其他领域探索,项目部署就是其中一个领域 在刀耕火种的时代,
iOS 16.3 正式版发布,附更新内容和升级建议!
Apple ID 安全密钥Apple ID 安全性非常重要,当我们在陌生设备上登陆 Apple ID 时,会有双重认证的流程,需要输入验证码才能登陆,而 iOS 16.3 新增的安全密钥则时另一种形式的双重认证。它可以替代验证码,使用绑定的实体物理设备进行认证
JAVA SE学习day_12:集合的排序、队列、栈结构
一、集合的排序 1.1 集合的排序 集合的工具类java.util.Collections提供了一个静态方法sort,可以对List集合 进行自然排序,即:从小到大除了自然排序之外还有反转、乱序方法1.2 排序自定义元素的集合 sort方法要求集合
GPU云主机
参数说明虚拟私有云云主机网络使用虚拟私有云(VPC)提供的网络,包括子网、安全组等。您可以选择使用已有的虚拟私有云网络,或者单击“前往控制台创建”来创建新的虚拟私有云。安全组安全组用来实现安全组内和安全组间云主机的访问控制,
2024年诊断服务概念龙头上市公司一览(附名单)(12月13日)
  诊断服务概念龙头上市公司有哪些?据南方财富网概念查询工具数据显示,诊断服务概念龙头上市公司有:  迪安诊断(300244):龙头,回顾近7个交易日,迪安诊断有6天上涨。期间整体上涨3.42%,最高价为12.42元,最低价为13.88元,总成
相关文章
推荐文章
发表评论
0评