网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页提取的原理
目标网站上内容很多时会用多个页显示,例如,博客、新闻、论坛、电子商城的首页,开发网页抓取程序时,必须要实现翻页抓取,但是翻页操作看起来很简单,实现过程需要解决一些困难,下面结合MetaSeeker工具包实现的翻页提取功能,简单解释一下翻页的原理,分成两种情况:
1,页面上每一页用另外一个URL地址表示。翻这样的网页是最好实现的,将这个URL提取下来,以后某个时间加载这个地址的页面就行了。而MetaSeeker还可以在一个信息提取事务中将所有的页在一个会话中翻完,在这个会话中这些URL称为线内线索, 这些URL没有被记录下来,翻完就丢掉了,实际上这类URL记录下来的意义不大,目标网站显示多页时往往使用一个服务器动态页面,页码作为参数,例如 page=2,这些页面的内容是变化的,例如,一个博客网站,新博文添加以后,原来的分页就变了,原来一篇博文位于页码2,后来就可能位于页码3上了。
2,页面上每一页关联一段Javascript代码,被点击时执行,这是普通爬虫的天敌,一般的爬虫难于提取javascript管理的内容,尤其是用AJAX框架制作的网站最难抓取,MetaSeeker工具包通过模拟用户的点击操作,直接向代表翻页的HTML页面元素发送click消息,翻页后理解抽取内容,也就是说在一个抓取会话中翻完所有页,否则,如果将这段js/javascript代码保存下来,以后再想翻页是做不成的。
Tags:解决方案
作者:Fuller评论内容只代表网友观点,与本站立场无关!
评论摘要(共 0 条,得分 0 分,平均 0 分)
查看完整评论