一文读懂智能助理的前世今生

本文从智能助理的基本逻辑出发，详细分析了国内外主要智能助理亚马逊ALEXA、Google Assistant、苹果Siri、微软Cortana、百度度秘、腾讯叮当、天猫精灵和阿里小蜜的发展历史和主要功能，并给出自己对微软小娜、苹果Siri、百度度秘、腾讯叮当的体验和分析预测。

随着人工智能行业的发展，智能个人助理作为人工智能系统应用相对成熟的领域也慢慢被大众熟知。

智能助理可以理解为利用AI技术通过统一的对话交互界面来一站式给用户提供需要的信息和服务。

目前苹果、谷歌、微软、亚马逊已投入大量资源，积极研发并推出了Siri、Google Assistant、Alexa、Cortana等具有代表性的智能助理。

而国内互联网三大巨头BAT也通过组建实验室、招募AI高端人才等方式紧锣密鼓地发布了百度度秘、阿里小蜜、腾讯叮当等，力图从智能助理的场景切入，完成在未来人工智能市场的布局。

智能助理也可以看作是任务导向的chatbot，实现逻辑与chatbot相似，但是多了业务处理的流程，智能助理会根据对话管理返回的结果进行相关业务的处理。

一个包括语音交互的chatbot的架构如下图所示：

一般chatbot由语音识别(ASR)、语音合成(TTS)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)几个模块组成，其中：

语音识别：完成语音到文本的转换，将用户说话的声音转化为语音。
自然语言理解:完成对文本的语义解析，提取关键信息，进行意图识别与实体识别。
对话管理：负责对话状态维护、数据库查询、上下文管理等。
自然语言生成：生成相应的自然语言文本。
语音合成：将生成的文本转换为语音。

通常智能助理一个完整的交互流程是这样的：

首先：音频被记录在设备上，经过压缩传输到云端。通常会采用降噪算法来记录音频，以便云端“大脑”更容易理解用户的命令。然后使用“语音到文本”平台将音频转换成文本命令。通过指定的频率对模拟信号进行采样，将模拟声波转换为数字数据，分析数字数据以确定音素的出现位置。一旦识别出音素，就使用算法来确定对应的文本。

然后：使用自然语言理解技术来处理文本，首先使用词性标注来确定哪些词是形容词、动词和名词等，然后将这种标记与统计机器学习模型相结合起来，推断句子的含义。

最后：进入对话管理模块，确认用户提供的信息是否完整，否则进行多轮对话直至得到所需全部信息。根据得到的信息进行相应的业务处理，执行命令。同时将结果生成自然语言文本，并由语音合成模块将生成文本转换为语音。在这些模块中，对话管理(DM)模块的首要任务是要负责管理整个对话的流程。

通过对上下文的维护和解析，对话管理模块要决定用户提供的意图是否明确，以及实体槽的信息是否足够进行数据库查询或开始履行相应的任务。

当对话管理模块认为用户提供的信息不全或者模棱两可时，就要维护一个多轮对话的语境，不断引导式地去询问用户以得到更多的信息，或者提供不同的可能选项让用户选择。

对话管理模块要存储和维护当前对话的状态、用户的历史行为、系统的历史行为、知识库中的可能结果等。当认为已经清楚得到了全部需要的信息后，对话管理模块就要将用户的查询变成相应的数据库查询语句去知识库（如知识图谱）中查询相应资料，或者实现和完成相应的任务（如购物下单，或是类似Siri拨打xx的电话，或是智能家居去拉起窗帘等）。

实际实现中，对话管理模块因为肩负着大量杂活的任务，是跟使用需求强绑定的，大部分使用规则系统，实现和维护都比较繁琐。

规则的描述主要基于正则表达式或者类似正则表达式的pattern，用户的问题匹配到这样的pattern上，从而取得答案结果。

使用规则的好处是准确率高，但是缺点也很明显：用户的句式千变万化，规则只能覆盖比较少的部分。

而越写越多的规则也极其难维护，常常有可能会发生互相矛盾的规则，而往往一个业务逻辑的改动就要牵一发而动全身。另一个方法是维护一个庞大的问答数据库，对用户的问题通过计算句子之间的相似度来寻找数据库中已有的最相近的问题来给出相应答案。

目前任务导向chatbot也在逐渐使用基于深度学习的端到端来实现架构。

简要来说就是将用户输入的内容直接映射到系统的回答上，但是这种方式也存在需要大量的训练数据的问题，还不能完全取代传统规则系统。

智能助理发展至今也遇到一些瓶颈问题，人脑毕竟十分复杂，用户问出的问题有时即使是人也需要结合多年生活经验和知识才能理解，所以这些问题对智能助理来说意图理解难度很高，知识复杂度也比较高。所以现在不少公司的思路是做垂直领域的智能助理，场景比较小，语料库、语义相对有限，对话容易收敛。

了解了智能助理的基本实现逻辑之后我们来看下目前比较主流的智能助理产品。

亚马逊于2014年推出智能音箱Echo，主要功能集中在语音购物和对智能家居的控制上。随着Echo成为家庭的交互入口，其搭载的“大脑”Alexa智能语音助手也开始遍地开花。

通过亚马逊Alexa与智能家居设备的连接，用户可以轻松控制智能家居设备，如开关灯、开关窗帘、开关电视等。Alexa还可以通过多个信息源播放流媒体音乐和阅读新闻，提供天气、交通等信息，以及通过语音在Amazon Prime会员服务上购物，甚至还可以预订披萨。

2015年6月，亚马逊宣布将Alexa开放给第三方开发者，发布了 Alexa Skills Kit（ASK）和Alexa Voice Service （AVS）两套工具包，越来越多非亚马逊产品设备也开始支持Alexa了。

强大的开放性加上全面阵线的拉开，Alexa逐渐取得先发入场优势。

目前Alexa已经可以支持亚马逊语音设备（Echo、Echo Dot、Tap）和Fire TV机顶盒，亚马逊正在尝试让Alexa支持其他可连接设备，比如闹钟和宠物喂食器。不过Alexa目前在国内还不可用，必须“科学”上网才可以使用Alexa的服务。

对于智能音箱用户而言，与音箱中语音助手的每一句对话都需要通过重复使用唤醒词才能实现，无法与之进行一场正常的，具备连续性的对话，在感觉上极不自然。

Alexa此前就为所有英文Alexa用户推出Follow Up Mode，当你发出一个指令后，Alexa将会继续收听接下来的指令，你可以进行连续的指令，不需要重复呼叫“Alexa”来唤醒它。用户可以通过 Cancel 、Go To Sleep 这样的指令主动终止对话，或者Alexa在检测到用户停止说话之后自动终止对话。

不过目前Alexa主要在智能家居上发力，因为亚马逊没有自己的智能手机平台，所以目前还没有实现智能家居控制和智能手机的整合。

华为也于今年8月底发布了一款搭载Alexa的智能音箱AI Cube，这款产品仅在海外销售，Alexa在全球智能家居市场的影响力也可见一斑。

2016年5月，谷歌重磅发布了全新语音智能助手Google Assistant。

背靠Google十余年的努力，GoogleAssistant利用了大数据、机器学习、自然语义分析等一系列技术，能够在不断对话之中为用户解决问题，而不像之前那样只能用简单的提问和回答。

在技术强化之外，GoogleAssistant的产品逻辑也在不断进化。通过让视觉、语音、文字等多个人机交互方式的无缝组合，实现更积极地对话，以及更个性化的推荐。

Google Assistant从某种角度可以说是Google Now的进化版，比Google Now增加了双向对话，且对一些功能进行了优化。

作为Google在AI方面的核心之一，目前Google已经几乎把所有资源和能力都倾向Google Assistant，力图用Google Assistant来把整个市场格局铺开。

今年5月份举办的谷歌I/O大会谷歌CEO Sundar Pichai宣布谷歌助手已经登陆5亿台设备，将于今年底支持30种语言，80多个国家可用。

此外，Google Assistant还在积极向外部合作进行拓展，还与70多家智能家居厂商达成了合作，呈现出更加包容的开放性。

Google Assistant今年在人机交互的智能性上做出了非常大的突破。

5月份举办的谷歌I/O大会谷歌 CEO Pichai现场展示了升级后的Google Assistant新能力，包括支持自动分解对话，并进行多重回复。也就是说：当用户一句话里面问了两个问题，谷歌助手会分开回答，同时人声发音更加自然流畅。

另一项重磅功能便是Google Assistant的Google Duplex，可以代打预约电话，帮助用户点外卖、查路线、预订理发店、预订饭店。通过与Google Assistant对话，告诉它你想要预定什么店，什么时间和多少人，Google Assistant便会直接拨打电话给这家店，并用人的口语和发音，和对方聊天，确定好预约信息。整个演示过程中Google Assistant表现得非常接近真人，不知情的商家直到电话结束都没有意识到自己在和 AI 对话。

另外，Google已于今年6月21日正式宣布Continued Conversation时代的到来。

与Alexa的follow up模式类似，连续对话功能使得用户可以与 Google Assistant 进行更加自然的会话，而无需在一场对话中多次重复 Hey Google。开启该功能之后，只需用 Hey Google 或者 OK Google 唤起一次Google Assistant，就可以与之进行连续对话（买东西、设置闹铃、查天气等）。

用户可以通过 Thank You 或者 Stop 主动终止对话，或者 Google Assistant 在检测到用户停止说话之后自动终止对话。

当然，在终止对话之前，Google Assistant 会等待足够的时间来回应用户。目前该功能仅支持在 Google Home、Google Home Max 和 Google Home Mini 三款设备，而搭载 Google Assistant 的智能手机、智能电视等设备暂时得不到支持。另外，谷歌助手的连续对话功能与Alexa的follow up模式同样只支持英语。

此外，Google Assistant从今年9月起就已经可以支持双语无缝切换识别。

当用户混用两种语言向Google Assistant提出问题时，利用深度神经网络开发口语识别（LangID）技术，谷歌助手都能够识别出来，并且做出回应，而这只需用户设置好两种语言即可。

谷歌近年来在 AI 领域积累了大量的领先优势，Google Assistant作为其在AI方面的核心之一，已经取得了相当不俗的成绩。

2011 年，在 iPhone 4s 面世的当天，苹果 Siri 也以智能语音助手的身份初次正式亮相，并成为当时发布会上最大的亮点。

它是苹果在iPhone、iPad等产品中使用的一项智能语音控制系统，目前已经可以支持Apple TV和Apple Watch。

通过Siri，用户可以轻松的实现设置闹钟、推荐本地商户、进行路线规划、播放音乐、读发短信、安排日程、定时提醒、获取资讯、搜索资料、实时翻译等功能，Siri还通过用户的行为习惯，前瞻性地向用户推荐需要执行的行为等。

Siri其实是语音助手领域里起步比较早的应用，是大众认知里熟悉度最高的个人智能助理，也使大众第一次对智能助手的概念有了认知，“调戏”Siri也曾是风靡一时的娱乐项目。

但是在过去的几年时间里，它的智能程度显然没有得到较大提升，现在仍然还是在吃老本的阶段。

Siri目前还未完全开放Sirikit给开发者，跟第三方应用整合的进度也十分缓慢。

Siri曾经作为智能助手的先锋如今地位却有些尴尬，究其原因，与Siri团队的动荡以及苹果对Siri的规划频繁变动分不开关系。

2014年2月，微软公司推出了自己的语音助手小娜（Cortana），并嵌入安装Windows操作系统的计算机和手机中。

它是一款基于语音和文本的虚拟助手，目前已经可以支持Windows、iOS、以及Android系统。借助微软自身深厚的技术功底，Cortana实现了对语音的较高识别率和与系统功能的深度集成，给用户带来了不少便利。

Cortana可以处理事务提醒和日常预约，设置闹钟，同时它还能启动Bing（必应）搜索引擎获取体育，天气和其他信息。

小娜还会对用户的习惯和喜好进行学习，在 Cortana与用户对话时，它并不是简单地基于存储式的问答，而是同时记录下用户的行为和使用习惯，利用云计算、搜索引擎和非结构化数据分析，读取和学习包括手机中的文本文件、电子邮件、图片、视频等数据，来理解用户的语义和语境，从而实现人机智能交互。

Cortana相比于强调任务和效率，更注重它与用户之间的情感连接和亲密关系，随着Cortana越来越了解用户的行为习惯，它可以做出更加个性化的的智能推荐。

2016年12月，微软在旧金山宣布，把Cortana开放给第三方硬件公司，使其可以集成至音响、汽车等多种硬件。

今年8月，微软Cortana和亚马逊Alexa正式结盟，推出了融合后的服务。一个微软Cortana的用户，可以通过相关的语音指令直接在亚马逊网站进行购物。

另外，亚马逊Echo智能音箱的用户，也能够通过微软Cortana的帮助，回复Windows中的电子邮件，或是设置日程提醒等。融合语音助手的服务首先作为公众预览版对美国用户发布。

其中，亚马逊Echo音箱的用户能够通过Alexa获取Cortana的服务，另外Windows10个人电脑用户以及三星电子旗下哈曼国际公司Kardon Invoke智能音箱的用户，也能够在Cortana中获得Alexa服务。

目前在产品实用性和用户体验这个维度上，Cortana还是落后于谷歌助手和亚马逊Alexa。在和第三方硬件产品和互联网服务的整合方面，微软Cortana更是明显落后于谷歌和亚马逊。

度秘是李彦宏在2015年9月8日百度世界大会上推出的对话式人工智能秘书。

度秘基于DuerOS对话式人工智能系统，用户可以使用文字、图片或者语音与百度机器人进行交流沟通，度秘通过语音识别、自然语言处理和图像识别可以在对话中清晰的理解用户的多种需求，进而在广泛索引真实世界的服务和信息的基础上，为用户提供各种优质服务。

依托百度搜索能力、百度地图、百度糯米等O2O类的服务，度秘可以覆盖用户衣、食、住、行、玩各方面的需求和推荐，扩展了用户对于服务的体验宽度和深度，也是每个商家不可错过的新入口和新商机。

此外，目前DuerOS已经可以提供为第三方接入的Bots Platform，能够赋能于手机、智能家居、可穿戴设备以及车载等多个场景，搭载DuerOS落地的主控设备也超过了80余款，不乏联想、美的、海尔、小米等知名企业，设备激活数量已经突破5000万。

百度现在的战略已经是“all in AI ”，同样是做搜索引擎发家，百度与谷歌因为中美两国的互联网环境不同，在AI领域的布局思路也不尽相同。

谷歌依托自己自身的系统，力图在已有生态上嵌入AI服务。

而百度因为缺少系统级入口，更多的采用从服务和场景的角度构建生态的思路，利用AI撬开新生态，更侧重于“连接服务”。

在国内市场，团购、O2O、新零售、共享经济等已经高度发达，用户更需要能够提供无感服务的AI，只需要一个指令，智能助手就可以帮助我们订餐、购物、打车、阅读新闻等。百度便是基于DuerOS给用户提供美食、电影、外卖、酒店、购物、打车、保洁、旅游、充值等多种生活O2O服务，凭借简单的数据交换就可以做到。

在这个意义上，谷歌助手的Google Duplex功能虽然炫酷，但也仅仅适用于多数服务无法直接通过网上预约的美国市场。

2017年4月，腾讯推出智能语音助手“腾讯叮当”，它基于自然语言理解和海量的语料标注数据，整合了信息服务、内容服务、生活服务和各种硬件的连接服务，覆盖新闻、体育赛事、票务、快递、音乐、股票、文学、LBS的附近资源等领域，功能与亚马逊Alexa相似，是一款基于腾讯技术生态和内容生态迅速发力的产品，可以提供智能助手产品形态和平台级的业务支持，连接广泛的智能化需求和海量的服务资源。

腾讯叮当可以说是腾讯在人工智能领域的探路石。

目前叮当已经可以提供API和SDK接入方式给厂商，类似智能穿戴、智能音箱、智能车载、智能电视以及各类形态的机器人，都可以搭载腾讯叮当AI助手。

阿里在智能助理这个领域有两个比较知名的产品，一个是智能音箱天猫精灵，另一个则是主打购物这个细分场景的阿里小蜜。

天猫精灵是阿里巴巴AI labs于2017年7月5日发布的AI智能产品品牌，当天同步发布了天猫精灵首款硬件产品——AI智能语音终端设备天猫精灵X1。

天猫精灵X1内置AliGenie操作系统，AliGenie依赖云端，能够听懂中文普通话语音指令，目前可实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能。

天猫精灵整合了市场中的内容资源、音频资源、技术资源以及自身的平台资源。接入的互联网服务内容多为阿里生态自身内容，但依靠阿里自身的布局，服务数量很客观。家居控制方面，支持阿里小智以及bordlink等品牌商的接入。

AliGenie开发者平台是主要面向四种类型的开发者，包括内容开发者、应用开发者、智能家居开发商和硬件生产商。开发者既可以创建技能，为更多的语音用户提供服务，也可以将自己的设备接入云端服务，获取语音交互能力。

在智能助手这个场景下，由于不同情境下语言的意义可以多种多样，有时意图无法确认，所以不少产品的思路是限定谈话的领域，从宽度发展变为深度发展，也就是做更加细分的垂直领域的智能助理。

具体来说就是在一个细分的场景下，用户产生大量相似的疑问和需求，目标明确或半明确且可能需要引导，而智能助理具有领域专业知识（知识图谱）与丰富问答经验（问答历史数据），可以在几分钟内解决用户问题和需求，智能助理解决不掉的，再扔给人工客服。

很多场景可能最频繁的前十个问题已经能解决大部分用户通用的问题，而智能助理的优势在于可以自动化获取用户画像、快速读取海量相关知识库、通过多轮对话快速给出针对用户需求的个性化答案。阿里小蜜就是这样一款着重打造在购物这个细分场景下的智能助理。

阿里小蜜是阿里在2015年7月发布的一款人工智能购物助理虚拟机器人，使用入口在手机淘宝客户端【我的淘宝】，基于阿里海量消费和商家数据来结合线上、线下的生活场景需求，以智能+人工的模式提供智能导购、服务、助理的拟人交互业务体验。

机器通过智能化技术处理掉绝大部分的简单、重复等可识别处理的问题，对于解决不了的问题则流向人工。

目前阿里小蜜可以在跨终端、多场景领域支持多轮交互、多模式交互(文本、语音和图像)和问题推荐预测，支持多模型识别客户意图，通过结合上下文语义理解来给用户推荐想要购买的产品，以及解决淘宝和支付宝相关的服务问题。

在这种意义下，阿里小蜜还是侧重定义为淘宝或支付宝的辅助功能，而不是独立作为智能助理来产出价值。

对人工智能领域的头部公司而言，AI仍然是未知且需要不断探索的。不同的公司文化，不同的技术体系，不同的业务结构，不同的产业背景等等，决定了在人工智能布局上的差异，除了时间上的先后顺序，还有对AI场景理解的不同。

作为智能助手领域的两大巨头，Alexa和Google assistant都在英语国家取得了不俗的成绩，但因为智能助手产品强依赖于语音识别和语义理解，中文可以说是他们进入中国市场的一个强壁垒，因为中文是全世界最复杂的语言之一，没有对中文长期的研究和数据积累，很难达到用户的预期。

本次主要分析四款面向国内用户，支持智能手机终端，主打个人智能助手场景的产品：微软小娜、苹果Siri、百度度秘、腾讯叮当。主要侧重于分析智能性上，因此不对APP的结构层、框架层和表现层进行分析。

首先直接来看询问常见问题时四款智能助手的表现：

体验环境与版本：iOS11.4.1 v2.6.17

先来看官方帮助所提供的功能导引：

微软小娜支持文字或语音输入，但是只有少部分问答支持语音输入时同样输出语音。在较为安静的环境下语音识别基本没有差错。

小娜提供的服务和内容基本都是基于必应系列产品，强依赖必应搜索引擎，很多时候无法直接呈现用户需要的服务，而只是单纯将在必应里的搜索结果展示给用户。

小娜在用户一次性问两个相关问题时可以拆分回答。

例如询问“今天天气怎么样我需要带伞吗”，小娜会回答“我觉得没有这个必要，今天的天气是晴转多云”。

体验版本：iOS11.4.1

首先来看Siri的官方导引：

Siri主要以语音交互为主，辅助功能里可以开启文本输入。在较为安静的环境下语音识别基本没有差错。语音合成方面中文发音较之英文发音要生硬刻板很多。

Siri团队作为美国本土的团队，在英文上的语义理解也做的要比中文好很多，而且语言设置为英文时可提供的服务也更多。

举个例子，用中文询问“24的平方是多少”，Siri只会给出搜索结果，但是用英文询问“the square of 24”就会直接给出答案。

同样的，用中文询问“π的平方是多少”，会识别为“派的平方是多少”，同时只能提供搜索结果。而用英文询问则会识别“the square of pi”，并直接给出答案。

体验环境与版本：iOS11.4.1 v3.1.2

同样先来看看度秘的官方指引：

虽然李彦宏早前多次为度秘站台，但是在app store里度秘最新上传的版本已经是1年前了，而且很明显这个最新的版本也并没有适配iPhone x，可以推断目前在百度的AI版图里度秘并不是很重要的一款产品。

使用时，在度秘获取了访问通讯录权限的情况下测试“打电话给xx”时（xx为通讯录中的联系人），度秘语音识别准确但反馈没有找到该联系人，只有在直接说打电话给某个号码时才可以拨出电话。

度秘在用户一次性问两个相关问题时不可以拆分回答。例如询问“今天天气怎么样我需要带伞吗”，度秘的回答与“今天天气怎么样”的回答相同。

体验环境与版本：iOS11.4.1 v1.3.2

腾讯叮当的官方帮助指引如下：

腾讯叮当支持文本交互和语音交互，中文状态下语音识别英文的能力较好，它的语音合成效果是四款产品里最自然流畅的，机械感很弱。

腾讯叮当目前基本不支持对一些手机基本操作的控制，仔细研究就会发现它不需要获取通讯录权限，所以打电话发短信更无从谈起，因为这款产品发布时间并不久，可提供的服务不多，兜底回答出现的概率也比其他产品要高一些。

因为所面对的用户群体不同，用户使用习惯也有很大差别，中外AI头部企业在智能助理这一领域发力方向也都不尽相同。

Google Assistant、Alexa等国外具有代表性的智能助理，它们不仅在AI芯片、自然语言处理、语音识别、机器学习、计算机视觉等技术方向上取得进展，而且在开放性和智能设备未来生态的布局上，抢占了先机。

而国内BAT三家巨头研发的智能助理，目前他们的服务既有重合之处，也有各自的侧重与特色。

百度的度秘在资讯搜索和生活消费推荐上略胜一筹，腾讯叮当基于海量数据和社交基因，它在泛娱乐上有着不小的优势，而阿里小蜜则在购物和商业链接上更有施展之地。

未来的智能助理将伴随着智能生态系统的发展变得无处不在，而作为这个生态中的重要角色，智能助理将承担起协调指挥这个生态的重任。这意味着，智能助理将成为新的商业汇聚点，也将引起新一轮的智能生态大洗牌。

本文由 @樊帆fan 原创发布，未经许可，禁止转载