分享好友 最新动态首页 最新动态分类 切换频道
阿里 建立唯一索引规范 阿里系搜索引擎
2024-12-28 08:54


阿里 建立唯一索引规范 阿里系搜索引擎

搜索引擎分为数据源聚合(俗称dump)、全量/增量/实时索引构建及在线服务等部分,以Tisplus为入口经由Bahamut(Maat进行工作流调度)->Blink->Hdfs/Swift->BuildService->Ha3->SP->SW等阶段对客户提供高可用/高性能的搜索服务。其中数据源聚合在tisplus平台和Blink平台完成,Build service和Ha3在suez平台完成,SP和SW通过drogo进行部署。具体架构图如下:

1688目前有spu、cspu,company,buyoffer和feed等引擎及offer离线在tisplus运维,该平台主要ha3和sp的搭建和维护,大体架构如下:

在日常维护中偶尔会遇到数据源产出失败的问题,主要是由于数据源表权限过期及zk抖动等原因。性能方面,在集团内搜索中台团队的引入Blink Batch模型后,dump执行时间被缩短,具体指标如下(以buyoffer引擎为例):

在tisplus平台,离线dump的入口如下:

DAG数据源图示例:

下面主要说下离线dump数据源处理流程,包括Bahamut、Maat和数据输出。

Bahamut是离线数据源处理的组件平台,将web端拼接的数据图通过jobManager翻译成可执行的sql语句。目前Bahamut包含的组件有四类,分别是:

  1. 数据输入:datasource(支持tddl和odps)
  2. KV输入:HbaseKV(Hbase数据表)
  3. 数据处理:Rename(数据字段重命名),DimTrans(使用1对多的数据聚合),Functions(简单字段处理),Selector(字段选择),UDTF(数据逻辑处理),Merge(数据源聚合),Join(left join)
  4. 数据输出:Ha3(Hdfs/swift)

对数据源的处理过程,描述如下:

by 敬明

而对于Bahamut->blink过程可以陈述如下:

其中,Bahamut将任务拆解后扔给JobManager进行逻辑节点到物理节点的转换,形成若干节点后再归并组合成一个完整的SQL语句,例如上图Kratos_SQL就是一个增量Join的完整SQL,配合资源文件一起通过BayesSDK提交任务。此外,平台增加了一个弱个性化配置的功能,可以通过个性化配置来实现控制某个具体任务的并发度、节点内存、cpu等等参数。

Maat是基于开源项目Airflow再次开发的分布式流程调度系统,具有可视化编辑及通用的节点类型,Drogo化部署,分集群管理及完善的监控&报警机制等优点。

关于Airflow及其他工作流系统,对比陈列如下:

eed引擎为例,maat调度页面如下:

当任务错误时,可以通过该页面进行“将指定步骤置fail”然后重跑全量任务,也可以通过查看某个步骤的log获悉任务失败原因。

经过上述步骤后,最后将数据以xml的形式(isearch format)输出到HDFS/Pangu路径(全量)和Swift Topic(增量),引擎全量时通过HDFS路径获取全量doc文件进行build,增量时直接从swift topic中获取增量更新消息更新到引擎中。离线平台通过一个服务为Tisplus引擎模块提供表信息的查询等功能,以下是一个HA3表包含的信息:

 经过上述步骤后,数据以xml(isearchformat)的格式产出到Hdfs和swift,然后通过在suez_ops平台的离线表中选择数据类型为zk并配置相应的zk_server和zk_path即可。

然后由Build service完成全量/增量/实时索引的构建,然后分发到Ha3在线集群提供服务。

suez的离线表构建逻辑如下:

suez在线服务逻辑如下:

下面针对离线(buildservice)和在线(ha3)进行简述:

Build Service(简称BS)是一套提供全量、增量、实时索引的构建系统

build_service总共有五类角色:

  • admin :负责控制整体build流程,切换全量增量状态,发起定期任务,相应用户的控制请求;
  • processor :负责数据处理,将用户的原始文档转化为轻量级可build的文档形态;
  • builder :负责构建索引;
  • merger :负责索引整理;
  • rtBuilder :负责在线索引的实时构建。

其中admin、processor、builder、merger是以二进制程序的方式运行在hippo上,rtBuilder是以lib的形式提供给在线部分使用。

一个完整的全量+增量过程会产生一个generationid,该generation会经历  process full-> builder full -> merger full ->process inc -> builder inc ->merger inc的过程,其中处于inc过程后,builder inc和merger inc会交替出现。1688在ha3升级之前经常会出现 build tooslow问题就是因为分配到了坏节点或builderinc/merger inc阶段卡住。

Ha3是一套基于suez框架的全文检索引擎,提供丰富的在线查询子句,过滤子句,排序子句,聚合子句且支持用户自定义开发排序插件。服务架构如下:

1688主搜引擎由一组Qrs、searcher和summary组成:

  • Qrs的作用是:对输入的查询作解析与校验,通过后把查询转发给相应的;searcher,收集合并searcher返回的结果,最后对结果做一些加工并返回给用户。其中也可以通过写meger插件干预合并规则;
  • searcher:可以是文档的召回服务(searcher),也可以是文档的打分与排序服务(ranker)或者是文档的摘要服务(summary);
  • summary:1688主搜将searcher和summary分离,summary集群只提供取商品详情的服务。

qrs/searcher/summary等机器通过挂载到cm2提供服务,比如qrs有对外cm2,可以对SP等调用方提供服务,searcher和summary有对内cm2,可以接收从qrs来的请求并完成召回排序取详情等服务。

一次调用方的query服务,要经由qrs->query解析->seek->filter->rank(粗排)->agg(聚合)->rerank(精排)->extraRank(最终排)->merger->summary(取详情)的过程,具体描述如下:

其中,ReRank和ExtraRank由Hobbit插件及基于Hobbit的战马插件完成,业务方可以根据自身需求开发战马特征并指定各特征权重得到商品的最终分。

drogo是基于二层调度服务Carbon的无数据服务的管控平台,1688的SP服务及QP代理服务均部署在该平台。

1688搜索链路主要服务平台部署情况简述如下:

最新文章
高清美女写真一键生成!揭秘AI绘画工具的魅力与技巧
现在,我来给大家分享一下使用【搜狐简单AI】生成美女写真时的步骤,确保大家都能顺利上手。步骤一:访问工具在你的浏览器中搜索“搜狐简单AI”,进入官网,首先注册一个免费账户。步骤二:上传照片在网站的主界面上,点击“上传照片”按钮
恩施来凤县气囊封堵公司-经验丰富「报价」(2025新+排名一览)
恩施来凤县气囊封堵公司-经验丰富「报价」(2025新+排名一览)恩施来凤县:气囊封堵技术的专业实践者位于湖北省西南部的恩施土家族苗族自治州来凤县,是一个风光秀丽、资源丰富的地方。近年来,基础设施建设的不断推进,来凤县气囊封堵公司在
拼多多直通车违规怎么办?附相关问题解答
拼多多商家在店铺的中期运营过程中,比较常用的工具就是拼多多直通车了,不过在直通车操作过程中,有些商家可能会操之过急的做了一些违规行为了,这就会导致直通车违规了。那么拼多多直通车违规怎么办?拼多多直通车违规怎么办?如果显示违规
高清美女写真:用搜狐简单AI一键生成你的虚拟女友
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数码盛行的时代,大家是否曾经幻想过拥有一个完美的数字化美女朋友?一位虚拟女友,可
珠海屋顶漏水维修电话〈免费上门〉珠海屋顶防水补漏师傅
不砸砖、不砸墙;免砸砖防水补漏技术,2小时快速解决漏水问题,超长保修期。漏水维修服务项目:漏水检测、阳台漏水、房顶漏水、卫生间墙面渗水、彩钢瓦防水、阳台防水补漏、厂房漏水维修、飘窗防水、外墙渗水、厂房天面渗水、窗台防水补漏、防
最新十大热门手机排行榜出炉:一加 Nord 4 登顶
转自:在线7月22日,外媒GSMArena发布了最新的十大热门手机排行榜。一加Nord 4在上周排名第二的基础上成功登顶榜首,而上周排名第一的CMF Phone 1则直接从榜单上消失。紧随其后的是两台三星手机:Galaxy A55和Galaxy S24。Redmi Note 13 Pr
莆田福燃气灶24小时400售后服务电话(人工客服中心) - 焦点 - 百科知识-蓝心网
莆田福燃气灶售后服务电话-400各市区网点电话:400-658-8618莆田福燃气灶售后服务电话-400各市区网点电话尊敬的客户您好!这里是莆田福燃气灶售后服务电话-400各市区网点电话,如果您在使用过程中有什么问题,请拨打全国24小时服务热线电话
淘宝社区团购:新消费模式的购物狂欢?
在电商领域,淘宝社区团购正悄然兴起,它究竟是怎样的购物新模式,能引发一场消费革命?让我们一起探索这个现象背后的奥秘...在互联网+的时代背景下,淘宝社区团购并非简单的线上购物,而是将社交、本地化与电商平台相结合。商家依托社区群
李铁贪腐案引爆足坛: 巨额资金何去何从?简单AI为您解读最新进展
央视近日播出的反腐专题片再次揭开了中国足坛的贪腐黑幕,前国足主帅李铁的案件尤其引人关注。这起震惊全国的案件不仅涉及巨额资金,还牵扯出一系列错综复杂的人物关系和幕后交易。据报道,李铁被带走调查后,其妻子龙菲携款2.7亿元潜逃至
猿推推/达人管理工具程序开发
河南漫云科技有限公司始终致力于推动科技创新和社会发展。在这个充满活力和变革的时代,我们为您推出全新的猿推推/达人管理工具程序开发服务,为您提供全方位的支持和个性化的解决方案。作为一家专业从事元宇宙系统开发、元宇宙源码、NFT数
相关文章
推荐文章
发表评论
0评