周末小课堂:定向爬虫及网页结构解析
我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是...
我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是所有网站中的一个特定子集,甚至就是某一个网站。
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
- 对抓取目标的描述或定义;
- 对网页或数据的分析与过滤;
- 对URL的搜索策略。
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:
- (1)预先给定的初始抓取种子样本;
- (2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
- (3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。
采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做下面几个工作:下载网页,解析网页,修正结果,存储数据。如果数据符合自己要求,修正结果这步可省略。把配置过程分解为这几个步骤。
配置主要分四个步骤:
- 第一步网页爬虫,配置网页爬虫规则,用来把需要采集的网页批量保存到本地。这套规则成为一个网页爬虫。
- 第二步网页采集,设置采集规则,找一个网页为模板例子,设置要采集的数据块。其他符合此模板的网页将被按照这个规则解析。这套规则成为一个网页采集。
- 第三步采集任务,配置采集任务,对网页爬虫和网页采集进行组合,一个网页爬虫可以对应多个网页采集,组合后保存为一个采集任务。这个步骤中可以对结果的修正和存储(既输出)进行配置
- 第四步任务发布,对采集任务进行发布,可以发布到指定服务器的某个采集队列中。采集到的资源为下一个项目组同学所用。
回复文章前的编码,可查看【大数据联】精彩文章[111]大数据,究竟是什么?
[113]95后基本不用微信,90后研究报告!
[118]为什么早上堵车时根本看不到豪车?
[130]从数据看二胎政策的背后真相
[131]地球上曾活过1150亿人?其实你根本不了解地球
[132]你的微信头像,说明了你是什么样的人!
[136]震惊!大数据告诉你,电商会把假货发给谁?
关注 大数据联
微信扫一扫关注公众号