如何高效抓取网络事件中的相关资料

 

在数字时代,我们完全可以依靠信息储存技术和独特的检索方法,建立一套属于自己的搜索体系。...

小新说
颇具魔幻色彩的朴槿惠事件发生以来,又带来了好大一波热(bao)点(gao)!热点好蹭,但要对信息做一个全面的抓取和把握可不容易。不会写代码,如何在网络热点发酵时迅速抓取需要的信息,如何在网站上抠出需要的文字、图片、视频而过滤掉多余的信息? 今天小编依然带来满满的干货,聊一聊这些年我们不能不知道的信息抓取技能~
单一信息抓取
视频抓取

在信息搜寻过程中,我们有时遇到只需要截取一篇报道中单一视频的情况,但这些视频并不总是提供下载地址,那么如何将这些视频从网页中剥离出来呢?


1
通过阅读网页源代码,找到视频的

原地址进行下载。


打开视频所在的网页,按F12打开浏览器的开发视窗,通过按Ctrl+Shift+C或者按视窗左上角箭头,选中视频所在区域,下方代码会自动视频相关的代码部分,代码中的地址即视频的源地址,再可通过进入源地址或者借助迅雷等下载软件进行下载。
按F12出来的网页源代码页面


2
借助Google Chrome上的相关视频抓取插件


说到视频等信息抓取工具,一定绕不过Google Chrome上那些好用到上天的黑科技插件。小新常用的Chrome扩展程序比如Video DownloadHelper、SaveFrom Net等等,这些插件一般能自动检测页面中的视频,进行下载。
插件Video DownloadHelper的页面示意

此外,Chrome上还有许多针对专门的视频网站所开发的视频插件,比如哔哩哔哩助手、Youtube Downloader等。这些视频助手除了提供视频下载地址外,也提供视频弹幕查询和弹幕下载等功能。


3
在哔哩哔哩,有一个遥远的传说叫:哔哩哔哩唧唧


哔哩哔哩唧唧是一个基于web,用于下载bilibili视频的在线应用程序,能够下载99 %的bilibili官方视频,并且终身免费使用。

要下载bilibili上的相关视频,只需要在视频页面地址中的“bilibili”后面加上字母“jj”,即会自动跳转到该视频对应的哔哩哔哩唧唧下载页面。
图片抓取

网页图片抓取想必对大家来说已经是小菜一碟,不过在一般的图片抓取基础上,我们还找到了一些好玩的图片抓取工具,能让你的图片抓取秘术更上一层楼~


1
Google Chrome插件:Fatkun Batch

Download Image


遇到一些特殊情况的时候,这款插件可以帮你下载当前页面所有的图片,根据你的需要,还可以通过大小来过滤。更让人眼前一亮的是,此插件下载下来的都是原图,而非缩略图哦,无损画质,你值得拥有!
比如在小编打开的网易新闻关于的朴槿惠的报道,点击Fatkun Batch Download Image插件按钮,它就会针对特定标签页或者全体标签

页,自动读取出页面中的所有图片,使用者可以在此基础上进行选择下载。


2
网页整体截图插件:别适合用于

保存信息量较大的网页


在信息抓取中,网页整体截图也是常常被用到的做法。截取页面好办,但如何将较长的网页截成一张完整的长图呢?

Google Chorme里提供了许多的网页整体截图插件,小编常用的有Capture Page等,这些插件除了可以生成网页整体截图外,也可以截取网页部分生成PDF、JPG等各个格式的图片,并进行图片编辑、上传、打印、分享等操作,特别适合用于保存信息量较大的网页,或者作为重要统计工具,可以说是信息保存的一大神器!
插件Capture Page的页面操作示意


3
插件不够用,我们还有FastStone Capture等

抓取软件


相对于chrome插件里面的网页屏幕抓图,这款软件则可以运用到各种场合,其拥有不规则抓图、滚动抓图、活动窗口抓图、图片简单处理、屏幕录制等很多很多实用的功能。
FastStone Capture软件操作页面

网页抓取

网页抓取和保存最简单的方法是右键保存,不过这样保存下来的网页往往元素较多,更适用于网页开发者。
至于只是要保存页面信息与视觉效果,则不需要这么麻烦,想必一键保存页面的软件或插件诸如Pocket早已是不少朋友的心水了。印象笔记、为知笔记等笔记软件也常在各种效率工具排行榜里以高票当选。

此外,知乎助手之类的专门针对特定网站的插件也是不可以错过的好工具哦!
Pocket能够将网页内容和形式完整地一键保留下来。美中不足的是,这两年开始账户的登录可能需要翻墙。

信息屏蔽工具

此外,如果你还停留在简单的信息抓取上,那么你的信息抓取能力只能说还在入门级。一个处女座级的信息抓取者(呜呜呜小编真的不是处女座),为了更好地抓取信息,也需要首先对需要抓取页面进行调整和美化,这就不得不提Google Chrome上的一些信息屏蔽黑科技了!


1
Google Chrome插件 Adblock:屏蔽广告必备

如果你厌倦了打开网页不断有广告弹出的日常,那么Adblock一定对你胃口。Adblock帮你自动屏蔽网页上的广告,还原清爽的网页界面,保障你的视觉体验和工作效率。


2
Google Chrome插件 微博急简 WC:你的微博排版工具

如果你是喜欢用网页刷微博的同学,这款插件可以用得上。不仅整个页面的广告都没了,而且三栏变成了两栏,切面很清爽,视觉感受更加美好。


3
Google Chrome插件 屏蔽百度推广:一键解决你的广告恐惧

直接屏蔽百度推广,只显示你真正需要出现的搜索页面。


4
Google Chrome插件 Just Read:制定私人阅读页面

一个专注页面阅读的软件,实现的功能类似safari的阅读视图,强烈推荐,看新闻必备良品。而且可以自己更改style,会的同学,改一下css就可以啦~


5
网站 Stylish:重新定制你的私人网页风格

一个可以自己写style来定制网页的网站,可以自己写一些小功能,比如改变字体什么的。
信息集中抓取
爬虫软件

要大量集中、大量地抓取网络上的信息,则不得不提到信息自动抓取,也就是我们所说的“爬虫”技术等(类似于一种网络机器人,代替手工输入信息检索、抓取的方式,自动浏览网络,对网络信息进行抓取),那我们则需要借助一些爬虫软件软件,同时也需要借助资料库(比如统计局、银监会网站等)、第三方报告等等。
其中爬虫软件可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
常用的入门级爬虫软件包括gooseeker、八爪鱼采集器等,这些软件除了一般的爬虫功能,能对网页表格信息进行抓取,还提供定时采集、云采集等功能,保证了对信息的实时追踪。
这些爬虫软件的官网上一般会提供短视频介绍软件的基本操作,属于入门简单的信息抓取工具
建立记忆宫殿


在英剧《神探夏洛克》中,夏洛克·福尔摩斯大脑中有一座独特的“记忆宫殿”,能够帮助自己记下所有搜集到的信息。在数字时代,我们完全可以依靠信息储存技术和独特的检索办法,建立一套属于自己的数字化的“记忆宫殿”。

建立搜索逻辑

在注意积累信息之外,积累信息搜索渠道,做好索引、分类,形成一套自己的信息抓取逻辑和办法,也是构建“记忆宫殿”相当关键的一步。比起信息的积累,也许渠道的积累在当下社会的能量更不容小觑。
信息抓取并不是信息搜集的全部,信息抓取之后关键的一步,是对搜集到的信息进行重要的梳理,形成自己的知识管理体系。
信息搜索也需要结构化、体系化、标签化。小编一般会根据信息来源的不用,对信息进行标签化的分类处理,以Google Chrome的标签页为例,通过文件夹的建立,构成一套符合自己搜索逻辑的知识体系,这对于提升信息的重复使用效率非常关键。
对Google Chrome收藏的标签页按照逻辑化的方式进行命名和分类,可以提升信息的再利用效率。
一些后话
不知道看到这里的你,有没有对信息抓取有豁然贯通之感,已经跃跃欲试,想要大展身手?不过在信息抓取之余,小编还是需要特别马出两点,与各位共勉:


1
虽然提升效率是当下社会不可或缺的技能,但毕竟信息抓取是一个一不小心就会涉及到网络伦理的操作,搜索信息中一定要注意的是对知识产权及他人隐私权的保护。


2
切记勿本末倒置,信息搜索只是手段和开始,真正的知识需要靠个人的努力和时间的积累。

另外,再分享一个信息搜索的小tip:我们在涉及到港台类的关键词搜索时,往往会遇到一些文化隔阂,比如两岸词语叫法很不相同的情况。
这里介绍一个网站:中华语文知识库。作为两岸合作编纂中华语文工具书项目的重要成果之一,两岸共同建设的“中华语文知识库网站”于2012年2月8日免费面向全球网民开通。
中华语文知识库 台湾版网址

http://chinese-linguipedia.org/clk/

中华语文知识库 大陆版网址http://zhonghuayuwenzhishiku.org/

编辑:钟凤梅

来源:新记者


    关注 SUMCNEWS


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册