欢迎来到学术参考网

浅谈搜索引擎技术

发布时间:2015-12-15 14:29

摘 要:本文阐述了搜索引擎的工作流程和原理,介绍了搜索引擎未来发展趋势。

关键词:搜索引擎;趋势

互联网作为一个个人平台在人们的日常生活和工作中发挥着越来越重要的作用,人们越来越多地通过互联网获取信息。在互联网发展初期,网站相对较少,网页数量也少,因而信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,搜索引擎正是为了解决这个问题而出现的技术。
     搜索引擎(Search Engine简称SE)是一个信息处理系统,指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。

      
  搜索引擎的工作流程包括信息搜集、预处理、服务。

1.信息的搜集
  搜索引擎从网站提取信息建立网页数据库。由于互联网中超链接应用很普遍,每个独立的搜索引擎都有自己的网页抓取程序,抓取程序顺着网页中的超链接,连续地抓取网页。这里面也分为两种,一种是定期搜索,即每隔一段时间(Google一般是28天,百度一个月两次),搜索引擎主动派出“蜘蛛”(Spider)程序,或“爬虫”(Crawler)程序,或“机器人”(Robot)程序,对于一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是网站拥有者主动向搜索引擎提交网址,它在一定的时间内,定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库。当然主动提交网址并不保证你的网站能进入搜索引擎数据库,因此最好多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
2.预处理
    搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中最重要的就是①提取关键词,对一篇网页来说,有效词语量在200个左右;②建立索引文件,索引文件的建立一定要有利于快速检索。其它还包括去除重复网页、中文分词、判断网页类型、分析超链接、计算网页的重要度等。
3.服务
    用户输入关键词进行检索,搜索引擎从索引数据加中找到匹配该关键词的网页。当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法───通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等,计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
  
  搜索引擎主要技术分类
  图片搜索引擎
  图片搜索引擎是全新的搜索引擎,目前国内有安图搜。基于图像形式特征的抽取,由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像特征层次的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索)。
  全文索引引擎
  全文索引引擎从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。   国外代表有Google,国内知名的百度搜索。
  目录索引引擎
  目录索引是按目录分类的网站链接列表。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。最具代表性新浪、Yahoo分类目录搜索。
  元搜索引擎
  元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
  垂直搜索引擎
  垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。它专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。它的硬件成本低、用户需求特定、查询的方式多样。

  搜索引擎的发展趋势
(1) 提高搜索引擎对用户提问的理解
  提高搜索引擎对用户检索提问的理解,就要有一个良好的检索提问语言。为了克服关键词检索和目录查询的缺点,现在出现了自然语言智能答询。如“怎样杀计算机病毒”,如果用关键词查询,会用“病毒”来检索,必定会产生许多象各类病毒的介绍,病毒的产生等无用的信息,而用“怎样杀计算机病毒”检索,会将怎样杀死计算机病毒的信息提供给用户,提高了检索效率。
(2) 提供更优化的检索结果
  搜索引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。是针对搜索引擎对网页的检索特点,让网站建设各项基本要素适合搜索引擎的检索原则,从而使搜索引擎收录尽可能多的网页,并在搜索引擎自然检索结果中排名靠前,最终达到网站推广的目的。有些搜索引擎利用人工智能算法,可达到目前搜索引擎的缺乏的简易人工互动模型。
  总之,未来的搜索引擎支持多语言搜索,并且信息量更大,搜索速度更快,搜索精度更高,更能满足用户个性化信息查询需求。

参考文献:
[1] 赵杰. 搜索引擎技术. 哈尔滨工程大学出版社,2007。
[2] 李晓明,闫宏飞,王继民. 搜索引擎. 科学出版社,2004。
[3] 李远明. 试析搜索引擎技术及其未来发展趋势. 情报杂志2002年21卷7期,2002年。

上一篇:关于国有企业ERP项目管理探索

下一篇:基于AHP的高校毕业生择业评估系统