分享好友 最新动态首页 最新动态分类 切换频道
谷歌搜索用上BERT,10%搜索结果将改善
2024-12-29 19:47

选自谷歌博客

谷歌搜索用上BERT,10%搜索结果将改善

作者:Pandu Nayak

机器之心编译

如何让搜索引擎呈现用户想要的结果是困扰谷歌工程师的一大难题。最近,谷歌宣布,他们的搜索引擎用上了强大的 BERT 预训练模型,可以让搜索引擎结合语境理解用户的搜索意图,甚至能理解一些不起眼的介词在搜索语句中的重要含义。有了 BERT 的加持,用户能在谷歌中搜到相关性更强的结果。

为什么谷歌搜索要用 BERT?

「如果要让我说出一条这些年学到的东西,那我会说『人类的好奇心是永无止境的』,」在谷歌搜索部门工作了 15 年的搜索副总裁在谷歌博客中写道。谷歌每天的搜索量多达数十亿,其中有 15% 是从未见过的,所以必须构建一些方法来应对这些无法预料的查询。

用户在搜索的时候往往很难确定一个最好的查询组合:我们不知道用哪些词,也不知道怎么拼。因为有时他们打开搜索引擎就是为了学习的,所以查到结果之前未必具备相应的知识。

搜索的核心是理解语言。搜索引擎的使命是弄清楚用户的搜索意图并从网上找到有用信息,无论查询语句中的单词如何拼写或组合。复杂或会话性的查询通常很难处理。人们会输入他们以为搜索引擎可以理解的问题,但其实他们用的方式并非他们在现实中自然而然使用的方式。

为了解决这些问题,谷歌的研究人员决定在搜索引擎中引入更加强大的自然语言处理模型——BERT。

BERT 对于搜索引擎有何作用?

去年,谷歌开源了用于自然语言处理的预训练模型——BERT。一经推出,BERT 就刷新了 11 项 NLP 任务的 SOTA 记录,登顶 GLUE 基准排行榜。虽然榜首早已易主,但后续的很多 NLP 模型都是基于 BERT 的改进。其影响力可见一斑。

BERT 的突破基于谷歌在Transformer架构上的成功。Transformer 处理一个句子中与所有其他单词相关的单词,而不是按顺序逐个处理。基于此,BERT 模型就可以借助某个单词前后的词来考虑其所处的完整语境,这对于理解查询语句背后的意图非常有用。

但只有软件方面的成功还不够。用 BERT 构建的模型非常复杂,超出了传统硬件的能力范畴。因此,谷歌选择使用最新的 Cloud TPU 结果来提供搜索结果,以达到更好的效果。

用上 BERT 意味着什么?

BERT 在谷歌搜索中的应用体现在排名和精选摘要(featured snippet)两个方面。将 BERT 应用于搜索排名之后,谷歌宣称它可以帮助搜索引擎更好地理解美国(英文)10% 的搜索。谷歌表示,随着时间的推移,他们还会将结果扩展至更多语言和地区。

用上 BERT 之后,对于比较长、会话性比较强的查询,或者在「for」、「to」等介词比较重要的语句中,谷歌搜索引擎将能够理解查询语句中词的上下文。用户可以用更加自然的方式进行搜索。

为了启用这些改进,谷歌进行了大量测试,以确保这些改变更加有用。以下是一些评估示例,可以证明 BERT 在理解意图方面的强大能力。

在以下示例中,用户搜索的语句是「2019 brazil traveler to usa need a visa」。在这个句子中,「to」及其与其他单词的关系对于理解句子含义非常重要。这是一个巴西人要去美国旅游的事件,而不是一个美国人去巴西旅游。在此之前,谷歌的搜索算法无法理解这种连接词的重要性,所以会返回美国公民去巴西旅游的结果。在 BERT 的帮助下,搜索引擎将能够理解搜索语句的核心含义,知道「to」这种简单词在句子中发挥的重要作用,因此能够返回相关性更强的结果。

我们来看另一个搜索语句「do estheticians stand a lot at work」。用上 BERT 之前,谷歌搜索引擎用的是匹配关键词的方法,用搜索结果中的「stand-alone」匹配查询语句中的「stand」。但根据语境,「stand」在搜索语句中的含义并非如此。但 BERT 能够理解此处的「stand」是与工作相关的一种身体素质要求,因此会给出更加有用的答案。

下面还有一些例子,从中可以看出,BERT 能够帮助帮助我们掌握语言的细微含义,这些是计算机理解不了的。

能用上 BERT 的不止英语搜索

谷歌表示,他们会将 BERT 应用到全球各种语言的搜索中。这种模型的一大特点就是能将从一种语言中学到的东西应用到其他语言中。因此,他们可以将从英语中得到的改进模型应用于其他语言。

他们还用 BERT 改进了 20 多个国家的精选摘要,在韩语、印地语、葡萄牙语中取得了显著进展。

搜索问题,永无止境

无论你想要搜索什么东西,无论你使用哪种语言,谷歌希望人们都可以使用最自然的方式进行搜索。但即使是 BERT 加持,谷歌搜索或许仍然无法让人能够获得 100% 完美的结果。未来,谷歌仍会持续改进自己的搜索系统。

参选报名日期:2019 年 10 月 23 日~2019 年 12 月 15 日

评审期:2019 年 12 月 16 日~2019 年 12 月 31 日

奖项公布:2020 年 1 月

最新文章
2023全球百强流量网站排名揭晓,揭秘互联网巨头的流量密码
随着互联网的快速发展,全球范围内的网站数量呈现出爆炸式的增长,在这庞大的网站海洋中,哪些网站能够脱颖而出,成为流量的佼佼者呢?权威机构发布了2023年度全球百强流量网站排名,让我们一起揭开这些互联网巨头的流量密码。本次排名根据
ai英语写作生成器:一键智能创作助手
在当今信息时代英语写作已成为一项至关要紧的技能,无论是学术研究、商务沟通还是日常交流,都离不开优秀的英语写作能力。很多人在英语写作进展中会遇到词汇匮乏、语法错误、结构混乱等疑惑。为了让英语写作变得更加轻松高效一款名为“英语
Facebook Shop全面解读!开店攻略与入驻资格要求解析解读新规改变!
在近日的一个令人振奋的消息中,Facebook首席执行官马克·扎克伯格宣布推出新产品Facebook Shops。这一消息在业界引起了广泛的关注和讨论。作为Facebook的重要合作伙伴,风口星网立即针对卖家们最关心的“Facebook Shops入驻规则”以及“对
ClickHouse留存分析工具十亿数据秒级查询方案
你可能听说过Growingio、神策等数据分析平台,本文主要介绍实现留存分析工具相关的内容。留存分析是一种用来分析用户参与情况/活跃程度的分析模型,可考查进行初始行为后的用户中,有多少人会进行后续行为,这是衡量产品对用户价值高低的重
2024年4款最强AI公文写作工具推荐-附深度测评
产品简介:AI材料星是一款 AI公文在线辅助写作平台。该工具能实现公文的在线写作,可以替代word使用,有4个通用大模型和4个独家的AI公文模型,一次性能写1w多字,功能比较全面且都很有用,更新很快,写材料该有的全都有了,而且功能还在迭
10、35、50mg/m3!生态环境部发布水泥行业超低排放征求意见稿
6月15日,生态环境部发布关于公开征求《关于推进实施水泥行业超低排放的意见(征求意见稿)》(以下简称“征求意见稿”)。水泥行业超低排放实施范围包括水泥熟料生产企业(不含矿山)和独立粉磨站(含生产特种水泥、协同处置固废的水泥企
AI绘画官网,用触站AI创作出你独一无二的艺术品
AI绘画官网是一个崭新的在线艺术平台,利用人工智能(AI)技术为用户提供无穷无尽的艺术创作可能。在这个平台上,用户可以通过触站AI进行绘画创作。让AI帮助你创作出独一无二的艺术品。1. 触站AI和AI绘画官网触站AI是AI绘画官网的最大卖点。
90%测试工程师不知道的测试方法
小A接到一个泛灵犀的测试任务,其中有一个判断网络为移动网络时出现的一个弹窗。但是服务器逻辑在测试服务器上,但是移动网络下又无法指代理。这可难倒了小A,因此一直愁眉苦脸。对于小A遇到的问题,你有好的解决方案吗?欢迎文末留言交流
7种行楷基础笔画教程图解!简单实用,0基础小白直接上手!
之前我们给大家讲解了楷书的入门笔画和进阶笔画的教程楷书7个基本笔画的写法14个楷书进阶笔画教程(没学的小伙伴直接点击
ai大数据获客系统
随着互联网的发展,越来越多的企业开始意识到数据的重要性。而在这个数据时代,AI大数据获客系统成为了企业获取客户的重要工具。AI大数据获客系统是一种基于人工智能和大数据技术的客户获取系统。它通过对海量数据的分析和挖掘,帮助企业找
相关文章
推荐文章
发表评论
0评