Getting Data

 

简单聊聊获取数据...



研究生的时候在Coursera平台上上课,第一个毕业的课程就是The Johns HopkinsUniversity的数据科学系列课程的第一课“Getting Data”,当时也就是用R语言能够读取csv啦,excel啦,xml啦这种常见的数据格式,然后summary一下,看看数据长什么样。虽然毕业之后就没有怎么用R语言,获取数据的方式也比之前要复杂许多,但是引领我走进数据科学的这一课我还是不会忘记。

现在也可以列举下数据科学里常用的Data格式和来源,如果有缺漏,也欢迎大家留言补充。首先是文件数据,其他人整理的表格啦,程序生成的日志啦等等都是文件数据,这类数据就直接用各种语言给的接口读入就很好。比如txt、csv、xlsx等格式的文件,但需要注意的是,这类文件一次性读取,有可能会超出程序默认的最大内存,这时需要对文件进行逐行处理或者分块处理,如果事先得知文件的重复率较高,也可以使用哈希映射减少内存的使用量。其次是数据库数据,在数据科学中,数据库也是数据科学家必备的技能之一,反复IO的数据在数据库里存储和处理的效率会比直接读取文件高几倍,而Python、R这种为数据科学而生的语言对MySQL、PostgreSQL、MongoDB、Redis等各类数据库也都有比较成熟的算法包处理数据库涉及的各类命令,不过核心原理还是调用SQL语言。例如Python中的PyMySQL包就会使用excute函数来执行SQL命令。



最后也是最复杂的是Web Data,也分为别人写好的API和爬虫程序两种。网上都有相应的教程,我以后也会专门写文章来探讨获取和解析网络数据的方法,

数据科学家的数据就是财富,所以也是绝大多数持有数据的人不愿意共享这份财富的原因,我不想论制度和人性,只是当别人不愿意共享的时候,你也需要有自己的途径继续自己的研究,对吗?


    关注 墨眉的城市数据分析日记


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册