网页抓取/数据抽取/信息提取工具包MetaSeeker的翻页提取的原理

减小字体

增大字体作者：Fuller 来源：本站原创发布时间：2009-08-20 17:11:43

目标网站上内容很多时会用多个页显示，例如，博客、新闻、论坛、电子商城的首页，开发网页抓取程序时，必须要实现翻页抓取，但是翻页操作看起来很简单，实现过程需要解决一些困难，下面结合MetaSeeker工具包实现的翻页提取功能，简单解释一下翻页的原理，分成两种情况：

1，页面上每一页用另外一个URL地址表示。翻这样的网页是最好实现的，将这个URL提取下来，以后某个时间加载这个地址的页面就行了。而MetaSeeker还可以在一个信息提取事务中将所有的页在一个会话中翻完，在这个会话中这些URL称为线内线索，这些URL没有被记录下来，翻完就丢掉了，实际上这类URL记录下来的意义不大，目标网站显示多页时往往使用一个服务器动态页面，页码作为参数，例如 page=2，这些页面的内容是变化的，例如，一个博客网站，新博文添加以后，原来的分页就变了，原来一篇博文位于页码2，后来就可能位于页码3上了。

2，页面上每一页关联一段Javascript代码，被点击时执行，这是普通爬虫的天敌，一般的爬虫难于提取javascript管理的内容，尤其是用AJAX框架制作的网站最难抓取，MetaSeeker工具包通过模拟用户的点击操作，直接向代表翻页的HTML页面元素发送click消息，翻页后理解抽取内容，也就是说在一个抓取会话中翻完所有页，否则，如果将这段js/javascript代码保存下来，以后再想翻页是做不成的。