分享好友 最新动态首页 最新动态分类 切换频道
用python做一个搜索引擎(Pylucene)
2024-12-25 12:36
  1. 什么是搜索引擎?

搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫);然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库;最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。

 

图1  搜索引擎的一般结构

2.  使用python实现一个简单搜索引擎

2.1  问题分析

从图1看,一个完整的搜索引擎架构从互联网搜集信息开始,可以使用python编写一个爬虫,这是python的强项。

接着,信息处理模块。分词?停用词?倒排表?what?什么乱七八糟的?不用管它,我们有前辈们造好的轮子---Pylucene(lucene的python封装版本,Lucene能够帮助开发者为软件、系统增添检索功能。Lucene是一套用于全文检索和搜寻的开源程序库)。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理,包括索引的建立和搜索。

最后,为了能在网页上使用我们的搜索引擎,我们使用flask这个轻量级 Web 应用框架做一个小网页获取搜索语句并反馈搜索结果。

2.2 爬虫设计

主要搜集以下内容:目标网页的标题、目标网页的主要文字内容、目标网页指向其他页面的URL地址。网络爬虫的工作流程如图2所。爬虫的主要数据结构是队列。首先,起始的种子节点进入队列,然后从队列中取出一个节点访问,抓取该节点页面上的目标信息,再将该节点页面指向其他页面的URL链接放进队列,再从队列中取出新的节点进行访问,直至队列为空。通过队列“先进先出”的特点实现广度优先的遍历算法,逐个访问站点的每一页面。

                                    图2

2.3  pylucene的使用

Pylucene中关于建立索引的类主要有Directory、Analyzer、IndexWriter、Document、Filed。

Directory是Pylucene中关于文件操作的类。它有SimpleFSDirectory和RAMDirectory、CompoundFileDirectory、FileSwitchDirectory等11个子类,列举的四个是与索引目录的保存相关的子类,SimpleFSDirectory是将构建的索引保存至文件系统之中;RAMDirectory是将索引保存至RAM内存之中;CompoundFileDirectory是一种复合的索引保存方式;而FileSwitchDirectory允许临时切换索引的保存方式以发挥各种索引保存方式的优点。

Analyzer,分析器。它是对爬虫获得的将要进行构建索引的文本进行处理的类。包括了文本进行分词操作、去掉停用词、转换大小写等操作。Pylucene自带了若干分析器,构建索引时也可使用第三方分析器或者自写分析器。分析器的好坏关系到构建索引的质量与搜索服务的所能提供的精准度与速度。

IndexWriter,索引写入类。在Directory开辟的储存空间中IndexWriter可以进行索引的写入、修改、增添、删除等操作,但不可进行索引的读取也不能搜索索引。

Document,文档类。在Pylucene中建立索引的基本单位是“文档”(Document),一个Document可能是一个网页、一篇文章、一封邮件。Document是用以构建索引的单位同时也是进行搜索时的结果单位,对它进行合理的设计能够提供个性化的搜索服务。

Filed,域类。一个Document之中可以包含多个域(Field)。Filed是Document的组成部分,就如一篇文章的组成可能是文章标题、文章主体、作者、发表日期等多个Filed。

将一个页面作为一个Document,包含三个Field分别是页面的URL地址(url)、页面的标题(title)、页面的主要文字内容(content)。对于索引的储存方式选择使用SimpleFSDirectory类,将索引保存至文件之中。分析器选择Pylucene自带的CJKAnalyzer,该分析器对中文支持较好,适用于中文内容的文本处理。

使用Pylucene构建索引的具体操作步骤如下:

 

lucene.initVM()

INDEXIDR = self.__index_dir

indexdir = SimpleFSDirectory(File(INDEXIDR))①

analyzer = CJKAnalyzer(Version.LUCENE_30)②

index_writer = IndexWriter(indexdir, analyzer, True, IndexWriter.MaxFieldLength(512))③

document = Document()④

document.add(Field("content", str(page_info["content"]), Field.Store.NOT, Field.Index.ANALYZED))⑤

document.add(Field("url", visiting, Field.Store.YES, Field.Index.NOT_ANALYZED))⑥

document.add(Field("title", str(page_info["title"]), Field.Store.YES, Field.Index.ANALYZED))⑦

index_writer.addDocument(document)⑧

index_writer.optimize()⑨

index_writer.close()⑩

 

索引的构建有10个主要的步骤:

①实例化一个SimpleFSDirectory对象,将索引保存至本地文件之中,保存的路径为自定义的路径“INDEXIDR”。

②实例化一个CJKAnalyzer分析器,实例化时的参数Version.LUCENE_30为Pylucene的版本号。

③实例化一个IndexWriter对象,所携带的四个参数分是前面的实例化的SimpleFSDirectory对象和CJKAnalyzer分析器,布尔型的变量true表示创建一个新的索引,IndexWriter.MaxFieldLength指定了一个索引最大的域(Filed)数量。

④实例化一个Document对象,取名为document。

⑤为document添加名称为“content”的域。该域的内容为爬虫获取的某一网页页面的主要文字内容。该操作的参数是实例化并马上使用的Field对象;Field对象的四个参数分别是:

(1)“content”,域的名称。

(2)page_info["content"],爬虫搜集到的网页页面的主要文字内容。

(3)Field.Store是用于表示该域的值是否可以恢复原始字符的变量,Field.Store.YES表示存储在该域中的内容可以恢复至原始文本内容,Field. Store.NOT表示不可恢复。

(4)Field.Index变量表示该域的内容是否应用分析器处理,Field. Index.ANALYZED表示对该域字符处理使用分析器,Field. Index. NOT_ANALYZED则表示不对该域使用分析器处理字符。

⑥添加名称为“url”的域用以保存该页面地址。

⑦添加名称为“title”的域用以保存该页面的标题。

⑧实例化IndexWriter对像将文档document写入索引文件。

⑨优化索引库文件,合并索引库中的小文件为大文件。

⑩单个周期内构建索引操作完成后关闭IndexWriter对像。

 

Pylucene关于建立索引的搜索的类主要有IndexSearcher、Query、QueryParser[16]。

IndexSearcher,索引搜索类。用于在IndexWriter构建的索引库中进行搜索操作。

Query,描述查询请求的类。它将查询请求递交给IndexSearcher完成搜索操作。Query拥有许多子类以完成不同的查询请求。例如TermQuery是按词条搜索,它是最基本最简单的查询类型,用来在指定域中匹配特定项的文档;RangeQuery,指定范围内搜索,用于在指定域中匹配特定范围内的文档;FuzzyQuery,一种模糊查询,能够简单地识别近义词匹配与查询关键字语义相近的项。

QueryParser,Query解析器。需要实现不同的查询需求时必须使用Query提供的不同子类,导致Query使用起来容易造成混乱。因而Pylucene还提供了Query语法解析器QueryParser。QueryParser能够解析提交的Query语句,根据Query语法挑选合适Query子类完成相应的查询,开发者不必关心底层使用的是什么Query实现类。例如Query语句“关键字1 and 关键字2” QueryParser解析为查询同时匹配关键字1和关键字2的文档;Query语句“id[123 to 456]” QueryParser解析成为查询名称为“id”的域中的值在指定范围“123”到“456”之间的文档;Query语句“关键字 site:www.web.com”QueryParser解析成为查询同时满足名称为“site”的域中值为“www.web.com”  和匹配“关键字”两个查询条件的文档。

索引的搜索是Pylucene所专注的领域之一,为实现索引的搜索编写了一个名为query的类,query实现索引的搜索有以下主要步骤:

 

lucene.initVM()

if query_str.find(":") ==-1 and query_str.find(":") ==-1:

query_str="title:"+query_str+" OR content:"+query_str①

indir= SimpleFSDirectory(File(self.__indexDir))②

lucene_analyzer= CJKAnalyzer(Version.LUCENE_CURRENT)③

lucene_searcher= IndexSearcher(indir)④

my_query = QueryParser(Version.LUCENE_CURRENT,"title",lucene_analyzer).parse(query_str)⑤

total_hits = lucene_searcher.search(my_query, MAX)⑥

for hit in total_hits.scoreDocs:⑦

            print"Hit Score: ", hit.score

            doc = lucene_searcher.doc(hit.doc)

            result_urls.append(doc.get("url").encode("utf-8"))

            result_titles.append(doc.get("title").encode("utf-8"))

            print doc.get("title").encode("utf-8")

 

 result = {"Hits": total_hits.totalHits, "url":tuple(result_urls), "title":tuple(result_titles)}

 return result

 

索引的搜索有7个主要的步骤:

①首先对搜索语句进行判断,若语句不是针对标题或文章内容进行单一域的查询,即不包含关键词“title:”或“content:”时默认搜索title和content两个域。

②实例化一个SimpleFSDirectory对象,指定它的工作路径为先前创建索引的路径。

③实例化一个CJKAnalyzer分析器,搜索时使用的分析器应与索引构建时使用的分析器在类型版本上均一致。

④实例化一个IndexSearcher对象lucene_searcher,它的参数为第○2步的SimpleFSDirectory对象。

⑤实例化一个QueryParser对象my_query,它描述查询请求,解析Query查询语句。参数Version.LUCENE_CURRENT为pylucene的版本号,“title”指默认的搜索域,lucene_analyzer指定了使用的分析器,query_str是Query查询语句。在实例化QueryParser前会对用户搜索请求作简单处理,若用户指定了搜索某个域就搜索该域,若用户未指定则同时搜索“title”和“content”两个域。

⑥lucene_searcher进行搜索操作,返回结果集total_hits。total_hits中包含结果总数totalHits,搜索结果的文档集scoreDocs,scoreDocs中包括搜索出的文档以及每篇文档与搜索语句相关度的得分。

⑦lucene_searcher搜索出的结果集不能直接被Python处理,因而在搜索操作返回结果之前应将结果由Pylucene转为普通的Python数据结构。使用For循环依次处理每个结果,将结果文档按相关度得分高低依次将它们的地址域“url”的值放入Python列表result_urls,将标题域“title”的值放入列表result_titles。最后将包含地址、标题的列表和结果总数组合成一个Python“字典”,将最后处理的结果作为整个搜索操作的返回值。

 

用户在浏览器搜索框输入搜索词并点击搜索,浏览器发起一个GET请求,Flask的路由route设置了由result函数响应该请求。result函数先实例化一个搜索类query的对象infoso,将搜索词传递给该对象,infoso完成搜索将结果返回给函数result。函数result将搜索出来的页面和结果总数等传递给模板result.html,模板result.html用于呈现结果

如下是Python使用flask模块处理搜索请求的代码:

 

app = Flask(__name__)#创建Flask实例

@app.route('/')#设置搜索默认主页

def index():

html="<h1>title这是标题</h1>"

return render_template('index.html')

@app.route("/result",methods=['GET', 'POST'])#注册路由,并指定HTTP方法为GET、POST

def result(): #resul函数

if request.method=="GET":#响应GET请求

key_word=request.args.get('word')#获取搜索语句

   if len(key_word)!=0:

      infoso = query("https://www.cnblogs.com/lucky-pin/p/glxy") #创建查询类query的实例

       re = infoso.search(key_word)#进行搜索,返回结果集

       so_result=[]

       n=0

       for item in re["url"]:

temp_result={"url":item,"title":re["title"][n]}#将结果集传递给模板

        so_result.append(temp_result)

                n=n+1

        return render_template('result.html', key_word=key_word, result_sum=re["Hits"],result=so_result)

    else:

        key_word=""

    return render_template('result.html')

if __name__ == '__main__':

    app.debug = True

    app.run()#运行web服务

 

 

最新文章
如何优化网站排名,提升搜索引擎排名(建立优化战略)
如何让自己的网站排名靠前成为了许多网站拥有者需要解决的问题,在当今信息爆炸的时代。让更多人发现你的网站,优化关键词排名可以帮助你的网站获取更多的流量。但是如何才能实现这一目标呢?调整网站结构、本文将从建立关键词优化战略、提
网站平面设计,打造视觉盛宴,提升用户体验
随着互联网的快速发展,已经成为企业、个人展示形象、传播信息的重要平台。一个优秀的网站不仅需要具备良好的功能性和实用性,更要在视觉上给带来愉悦的体验。本文将围绕网站平面设计展开,探讨其重要性、设计原则以及如何提升用户体验。一
2024年第一季度全球PC市场实现增长,AI PC贡献显著
根据市调机构CounterPoint的最新报告,2024年第一季度全球PC市场结束了连续八个季度的下滑趋势,同比增长约3%。这一增长主要得益于AI PC的兴起和带动,据悉,45%的新笔记本都是AI PC。品牌方面,联想继续稳居第一,季度出货量达到1370万台
51 SEO秘籍,深度解析网站流量与排名提升策略
51 SEO是一种高效SEO策略,通过优化关键词、内容、技术等方面,帮助网站提升搜索引擎排名和流量。通过精准关键词研究、高质量内容创作、用户体验优化等技术手段,51 SEO助力企业快速提高在线可见度,吸引更多潜在客户。随着互联网的快速发
SEO入门到精通的10个技巧大揭秘
seo入门事实上,SEO入门到精通自己只需要10个步骤,大家可以参考分析一下。1、作为SEO新手,需要了解网站建设,哪怕你不会写代码,但是你要了解网站的建站和基础html代码,这是做好SEO的第一步。简单的网站优化只需要利用网站的源码设置和
福田SEO整站优化,助力企业在线腾飞,抢占市场风口
福田SEO整站优化企业,专注于为企业提供全方位在线竞争力提升服务,助力客户抢占市场先机,实现网络营销目标。随着互联网的飞速发展,越来越多的企业开始意识到网络营销的重要性,而SEO(搜索引擎优化)作为网络营销的重要组成部分,已经成
信息流广告优化师福利:节日文案撰写,看这一篇就够了
刚刚把8月份的数据报告整理完毕,好在目标已完成,原以为月初可以松口气。打开日历才发现,还有6天就是教师节,还有9天就是中秋节,领导下达的新目标新任务随之而来。纳尼!这个月的目标任务是上个月的3倍?上个月若不是爆发了洪荒之力,不可
什么是seo专业b2b
什么是seo专业b2b什么是什么是seo专业b2b6、建立网站地图SiteMap据自己的网站结构,可以制作网站地图,让站长们的网站对搜索引擎极其友好化。让搜索引擎能过SiteMap就这个可以ftp访问整个站点上的绝大部分网页和栏目。最好有两套siteMap,一
Windows端 EMBY 调用本地播放器
问:为什么需要本地播放器?答:因为EMBY自带播放功能一般。ASS支持不佳,字幕/视频渲染效果不佳,自定义能力基本为0。Win端太多优秀的本地播放器方案,pot,mpc,mpv.....问:有没有方法可以让EMBY直接调用本地播放器?答:有。例如 embyTo
74LS系列芯片全面技术指南与应用实例
简介:74LS系列芯片是一类广泛应用于数字电子技术领域的低功耗肖特基TTL逻辑系列集成电路。该系列芯片因其低功耗、高速度和良好兼容性,在电子设备中扮演了重要角色,包括逻辑门电路、数据手册、应用示例、接口技术、故
相关文章
推荐文章
发表评论
0评