中文搜索引擎技术揭密:网络蜘蛛 - 范文中心

中文搜索引擎技术揭密:网络蜘蛛

08/30

2004-05-17 11:21   作者:Winter   来源:e800.com.cn

内容提取

搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。

动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

更新周期

由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。

一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。

结论

本文主要讨论了网络蜘蛛相关的技术要点,如果要设计好的网络蜘蛛,需要了解更多的技术细节,可以参考文献[5]。

网络蜘蛛在搜索引擎中占有重要位置,对搜索引擎的查全、查准都有影响,决定了搜索引擎数据容量的大小,而且网络蜘蛛的好坏直接影响搜索结果页中的死链接(即链接所指向的网页已经不存在)的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同的网页等都是网络蜘蛛需要进一步改进的问题。


相关内容

  • 百日冲刺书上涉及的选择题(包括例题)
    百日冲刺书上涉及的选择题(包括例题) 一.必修部分 1.以下( )项所述不是信息. A. 通知:今天下午高一和高二举行篮球赛 B. 全班的期中考试成绩 C. 2006年12月23日的<新华日报> D. 教育部公布"20 ...
  • 网络信息组织对传统信息组织的借鉴
    [内容提要]本文以网络信息组织继承和发展传统信息组织的方法为切入点,从四个方面论述了网络信息组织对传统信息组织的借鉴,这四个方面包括用体系分类法完善信息资源分类体系:用分面分类法改进网络信息组织:用分类主题一体化改造网络信息组织:建立一套科 ...
  • 网络基础知识及常用软件 - 系统攻防 - 360论坛
    [好学者] 系统攻防版主 金币:1537 经验:8939 等级:高中二年级 功勋:14 短信 [回到顶部][奖励金币][回复此楼][引用][举报] 1 楼 2011-04-16 08:56 [心得] 网络基础知识及常用软件 一.网络基础知识 ...
  • 网络信息检索工具浅析
    ISSN1009-3044E-mail:jslt@cccc.neLcn http://www.dnzs.net.cn -I.el:+86.551-56909635690964Computer珩柳他咖And乃叻棚'ogy电■知识与技术V01. ...
  • 初中信息技术八年级上册备课笔记
    义 务 教 育 实 验 教 科 书 信 息 技 术 八年级上 备 课 资 料 目 录 第一单元 网络与生活 第一课 我看网络 第二课 上网准备 第三课 我的E世界 第四课 因特网探源 第五课 因特网的未来 第二单元 网上交流 第六课 电子邮 ...
  • 企业级局域网的搭建及应用之一
    (2009-04-07 22:14:25) 对于职业高中的学生来说,这是一个比较新颖的课题.好像从2008年开始就像雨后的春笋破土而出满地都是.不信你可以打开任何一个搜索引擎,输入"企业级局域网的搭建及应用大赛"的字样, ...
  • 电子商务作业
    电子商务作业 一.名词解释(每题2分,共8分) 1. 电子数据交换:将业务文件按一个公认的标准从一台计算机传输到另一台计算机上去的电子传输方法. 2.数字证书:网络通信中标志通信各方身份信息的一系列数据,是一个经证书授权中心数字签名的包含公 ...
  • 网络公司电话销售实习日记
    实 习 日 志 实习日期 实习地点 2010 年 3 月 2 日 XX 实习时间 实习单位 XX 全天 早上自己来的比较早,于是就先打扫办公室里的卫生,上班时间到 了, 坐在位置上的我便认真的看着宣传单页, 开始想想我今天该做什么. 由于经 ...
  • 高中信息技术必修知识点汇总
    主题1 信息的获取 高中信息技术必修知识点汇总 一.信息及其特征 1.信息的基本概念 "信息"一词通常是指数据.消息所包含的内容和意义.信息的表现形式有多种,如:图片.声音.动作.表情.文字等.当今世界的三大要素:物质. ...
  • 网站建设过程中有可能遇到的问题
    网站建设过程中有可能遇到的问题. 1.什么是域名? 域名通俗的说也叫网站的网址,如allyr.com 或www.allyr.com 是我们重庆炳卓科技的域名(网址)再如qq.com 是腾讯的域名.域名最后是".com " ...