用户登录  |  傲看软件园 用户注册
文章中心广告代码ASP源码PHP源码JSP源码.NET源码源码相关傲看留言板繁體中文
当前位置:傲看软件园文章中心技巧应用工具软件

怎样指导网络蜘蛛爬行互联网

减小字体 增大字体 作者:Fuller  来源:本站原创  发布时间:2009-11-30 19:07:16

万维网(Web,有时也叫成互联网)是由众多HTML网页文档织成的网,HTML文档中的超链接是织网的线,我们形象地将Web看成一张蜘蛛网,网络蜘蛛顺着超链接线索扩展爬行范围,所以,网络蜘蛛的原理如此简单,而且大部分免费下载的开源的网络蜘蛛爬行Web过程都不需要用户干预,由它自主决定怎样扩展爬行范围,一般来说,网络蜘蛛会将网上的所有超链接提取出来,作为今后爬行的线索。但是,网络蜘蛛/网页内容抓取软件工具包MetaSeeker中的网络蜘蛛不同,是一个定题网络蜘蛛(或者称为聚焦网络蜘蛛),爬行范围必须符合特定主题,所以,因为网络蜘蛛并不能理解网页内容的语义,用户必须进行干预,指导网络蜘蛛在主题规定的范围内爬行,也就是说,需要给网络蜘蛛定义超链接提取规则,将网页上的与主题不相关的超链接滤除掉。

MetaStudio的Clue Editor工作台提供了诸多超链接提取规则定义手段,图形用户界面(GUI)可以避免手工编写提取规则引入错误。

一般,一个网页上有很多超链接,分属不同主题,如果需要将它们提取下来,为每一个超链接定义特定的提取规则显然是不可行的,所以,MetaStudio将超链接进行了分类,只要为有限的类别定义提取规则即可,所以,首先根据主题提取需要,创建各种线索,并对其特征进行描述。

然后,指定从网页的什么位置提取超链接,为了提高超链接提取规则的适应性,尽量不要使用绝对路径的XPath表达式定位确定的HTML DOM节点,而是在HTML页面的某个范围内,根据超链接的特征进行提取,所以,分成了Marker类、Pattern类、Relative类线索,这些都用于在某个范围内提取网络蜘蛛线索。MetaStudio的优势在于全图形化界面操作,所以,指定从页面什么位置提取网络蜘蛛线索是通过线索映射完成的,例如,指定从HTML某个范围或者确定位置(用于Single类线索)提取超链接的过程称为线索映射;为Marker类指定以网页上的什么文字或者结构信息作为标志是通过记号映射完成的;为Pattern类指定以什么URL样式匹配和提取超链接的过程称为样式映射;为Relative类指定参照哪个超链接提取另一个超链接的过程称为相对映射。映射完成后,由MetaStudio自动生成网络蜘蛛线索提取规则文件,用户可以预览规则文件,检查其正确性。MetaStudio还提供比较全面的错误提示和日志功能。

Tags:工具软件

作者:Fuller

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论

精品栏目导航

关于本站 | 网站帮助 | 广告合作 | 下载声明 | 友情连接 | 网站地图
冀ICP备08004437号 | 客服Q:354766721 | 交流群83228313
傲看软件园 - 绿色软件,破解软件下载站! 源码网 源码之家 绿软之家
Copyright © 2003-2010 OkHan.Net. All Rights Reserved .
页面执行时间:13,546.88000 毫秒
Powered by:OkHan CMS Version 4.0.0 SP2