科技论文----论搜索引擎现状及发展趋势

   日期:2024-12-28     作者:i1tir       评论:0    移动:http://oml01z.riyuangf.com/mobile/news/11882.html
核心提示:【摘要】 随着最近10年中国互联网的快速发展菜互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中。搜索引擎发

【摘要】
随着最近10年中国互联网的快速发展菜互联网已经彻底改变了人们的生活方式,而在互联网的发展过程中。搜索引擎发挥了巨大的推动作用。本文对搜索引擎的发展历史采用的技术,发展现状出现的问题以及未来发展方向进行了综述让读者对搜索引擎有个宏观的了解。

科技论文----论搜索引擎现状及发展趋势

【关键词】  搜索引擎 发展趋势 发展现状
【Abstract】
With the rapid development of China’s Internet in the last 10 years, the Internet has completely changed people’s way of life, and in the development of the Internet. Search engines have played a huge role in promoting. This paper reviews the technology used in the development history of search engines, the problems arising from the development status quo and the future development direction so that readers have a macro understanding of search engines.
【Keyword】  Search Engine Trend of Development Development Status

搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。

  1. 搜集信息:首先通过一个称为网络蜘蛛的机器人程序来追踪互联网上每一个网页的超链接,由于互联网上每一个网页都不是单独存在的(必存在到其它网页的链接,然后这个机器人程序便由原始网页链接到其它网页,一链十,十链百,至此,网络蜘蛛便爬满了绝大多数网页。
  2. 整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
  3. 接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。

1990年以前,没有任何人能搜索互联网。1990年诞生的Archie是一个可以用文件名自动索引互联网匿名FTP网站文件的程序,它实现了搜索,但还不是真正的搜索引擎。现代意义上的搜索引擎出现于1994年7月,当时Michael Mauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycosa。1995年末,Altavista永远改变了搜索引擎的定义,AItavista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎。1998年,Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。
现阶段,出现Ask  Jeeves,Baidu.com,Goto.com,MySimon,Dito 等内容类别不同的搜索引擎。从出现第一个搜索引擎至今,搜索引擎技术已获得了飞速的发展,现在的搜索引擎功能越来越强大,提供的服务也越来越全面,它们的目标不仅仅是提供单纯的查询功能,而是把自己发展成为用户首选的Internet入口站点。

3.1.2.目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词( Keywords )查询,仅靠 分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory Project ( DMOZ ) LookSmart、 About 等。国内的搜狐、新浪、网易搜索也都属于这一类。
3.1.3.元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

除上述三大类引擎外↓还有以下几种形式

 
 

3.2.1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序( spider。Spider 顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝太多数的网页。
3.2.2、处理网页
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最全面四重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计应用软算网页的重要度。
3.2.3、提供检索服务
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

3.3.3.2 基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3.3.3.3 基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。个人了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

4.1搜索引擎的作用
搜索引擎是网站建设中针对用户使用网站的便利性所提供的必要功能,同时也是研究网站用户行为的一个有效工具。新竞争力认为,高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。因此,对于内容丰富的大型信息类网站和产品线丰富的在线销售型网站来说,提供一般性的全文检索是远远不够的,很有必要开发能够实现个性化需求的高级搜索功能,这也是体现网站的网络营销功能的重要方面。
当今社会,没有人不用搜索引擎,只要有手机有电脑,我们一遇到自己没遇到过的问题或不了解的事务首先想到的就是搜索引擎。就连有时候我们想问朋友个问题,有些朋友可能会说自己上白队去查嘛。
搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。如今的一些改进和变化基于在多元化的信息整合,以及产品形态的改进上。 未来会往什么方向发展,或者有什么革命的变化,都不能确定。

搜索引擎在发展过程中,不可避免会出现大大小小的问题, 主要体现在以下4点:
4.2.1对于虚假广告信息审查和监管不力
具体体现在数码、IT、汽车、通讯类较为成熟的产品搜索资讯结果可信度较高。烟草以及屡被央视曝光的医疗服务类搜索资讯可信度位列最后。
4.2.2人工干预搜索结果
例如百度竞价排名政策,遭到过很多企业的质疑。也出现过多起突然之间搜索不到某一网站的任何信息的事情。
4.2.3 屏蔽相关企业的负面新闻
例如2008年传百度屏蔽三鹿集团的负面消息,但是百度很快做出回应否认。这件事仍然反应了这个问题的严重性。
4.2.4 侵犯相关产品的版权
版权问题直是搜索引擎遇到的大问题。搜索引擎搜索出来的内容有没有获得使用权呢?可惜的是大部分搜索结果都没有获得相关版权,例如百度MP3搜索,Google图片搜索和百度图片搜索,都曾经因为涉嫌侵权被多次起诉。

这4个问题是经过调查得出的网民认为搜索引擎目前最大的问题,垄断问题也不容忽视由于掌握搜索引擎技术的公司并不多,因此很容易形成垄断的局面。对于搜索引擎行业现状,虚假广告的审查和监管不力是网民反映最突出的问题,相应对完善审查

而需要的管理措施主要有以下6点:
1、完善审查程序,加大审查力度
2、完善相关法律法规
3、设立专门的政府监管部门
4、加大惩罚力度
5、加强媒体监督
6、依靠互联网行业自律

5.1 智能搜索技术在应用于搜索引擎的智能化
智能搜索引擎可以通过自然语言与用户交互,最大限度地了解用户的需求,它能用户提供了一个真正智能化的,个性化的信息过滤和推送服务。智能检索一是表现在搜索引擎技术的智能化,研究重点放在自然语言处理技术和人工智能技术的研究上;另一表现是体现在搜索引擎面向检索者的智能化,它 致力于通过分析检索者的检索和浏览行为来学习检索者的需求, 利用搜索引擎现有的服务有选择地为检索者提供个性化的服务。通过这两方面的结合来提高搜索引擎的检索效果。在国外,已开始了将自然语言引入信息检索的实践探索,而国内则刚刚引入其理念,正处 于理论探讨的初 期,中文搜索引擎需要在这方向进行尝试。
5.2 对用户的友好性将不断提高
首先对用户检索界面进行改进。未来的检索界面要尽可能实现检索的可视化和图形化。将现在不为用户所看到的数据库内在的语义表述转化成可见的图形和图像;同时在检索结果处理上也需改进,能提供一些先进的方式来显示检索的结果,如提供按站点的排序的显示方式,按分类、主题、关键词自动把结果列成不同的文件夹的方式等等,这些在国外的某些搜索引擎中已有尝试。
5.3 多语种检索和翻译技术将有较大的突破
在多语种检索和翻译反面,Google已经推出了多语言版本,并且推出了它们之间的翻译服务,即Google翻译。其翻译的准确性是目前免费翻译工具中非常杰出的。未来的搜索引擎将在多语种检索和翻译技术有较大的突破。
5.4、搜索引擎的个性化
提高搜索精度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。中搜,雅虎,Google等都在加紧开发个性化搜索引擎技术。如Google在搜索时对个人偏好予以重视,用全新的搜索理念,让搜索无处不在,用户点击次数多的搜索结果将在下次搜索靠前,用户也可以直接将某条或者多条搜索结果靠前排名。这样基于搜索和用户数据库的应用模式,使得搜索的多样化,个性化成为可能,这也是搜索引擎今后发展的趋势之一。
5.5、多媒体智能搜索引擎
随着Internet的强势发展,网上庞大的数字化星系和人们获取所需信息能力之间的矛盾日益突出。人们对于娱乐方面的搜索要求日益提高。在网络上看电影,听歌已经成为一种习惯。现在已经有多种此类的搜索引擎,百度和Google都推出了视频、音乐和图片搜索服务。而未来的发展应该是提供一个视频片段、音频片段或者一张图片的一部分,搜索引擎可以在王山找到相应的资源。这也是搜索引擎新的发展方向。

综上所述,搜索引擎正处在高速发展阶段,是人们不可缺少的一部分,已经融入了人们的生活。但是目前仍存在多个没有解决的问题,相信在以后的发展中,搜索引擎技术会越来越成熟,为人们的工作生活带来更大的便利。

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号