周末小课堂:定向爬虫及网页结构解析

 

我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是...



我们大致把爬虫分为两类:一类是用于搜索引擎的搜索爬虫,抓取目标是整个互联网;一类则是各种定向爬虫,抓取目标是所有网站中的一个特定子集,甚至就是某一个网站。



聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

  • 对抓取目标的描述或定义;
  • 对网页或数据的分析与过滤;
  • 对URL的搜索策略。
       抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为:

  • (1)预先给定的初始抓取种子样本;
  • (2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
  • (3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。
       解析网站内容,就要提到robots.txt。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉spider在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
下面大概说一下我们这个项目的采集工作。

采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的数据库或其他的存储形式,这个过程需要做下面几个工作:下载网页,解析网页,修正结果,存储数据。如果数据符合自己要求,修正结果这步可省略。把配置过程分解为这几个步骤。

配置主要分四个步骤:

  • 第一步网页爬虫,配置网页爬虫规则,用来把需要采集的网页批量保存到本地。这套规则成为一个网页爬虫。
  • 第二步网页采集,设置采集规则,找一个网页为模板例子,设置要采集的数据块。其他符合此模板的网页将被按照这个规则解析。这套规则成为一个网页采集。
  • 第三步采集任务,配置采集任务,对网页爬虫和网页采集进行组合,一个网页爬虫可以对应多个网页采集,组合后保存为一个采集任务。这个步骤中可以对结果的修正和存储(既输出)进行配置
  • 第四步任务发布,对采集任务进行发布,可以发布到指定服务器的某个采集队列中。采集到的资源为下一个项目组同学所用。
End. #大数据怎么用#

回复文章前的编码,可查看【大数据联】精彩文章[111]大数据,究竟是什么?

[113]95后基本不用微信,90后研究报告!

[118]为什么早上堵车时根本看不到豪车?

[130]从数据看二胎政策的背后真相

[131]地球上曾活过1150亿人?其实你根本不了解地球

[132]你的微信头像,说明了你是什么样的人!

[136]震惊!大数据告诉你,电商会把假货发给谁?


    关注 大数据联


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册