数据数据库文件

Getting Data

简单聊聊获取数据...

研究生的时候在Coursera平台上上课，第一个毕业的课程就是The Johns HopkinsUniversity的数据科学系列课程的第一课“Getting Data”，当时也就是用R语言能够读取csv啦，excel啦，xml啦这种常见的数据格式，然后summary一下，看看数据长什么样。虽然毕业之后就没有怎么用R语言，获取数据的方式也比之前要复杂许多，但是引领我走进数据科学的这一课我还是不会忘记。

现在也可以列举下数据科学里常用的Data格式和来源，如果有缺漏，也欢迎大家留言补充。首先是文件数据，其他人整理的表格啦，程序生成的日志啦等等都是文件数据，这类数据就直接用各种语言给的接口读入就很好。比如txt、csv、xlsx等格式的文件，但需要注意的是，这类文件一次性读取，有可能会超出程序默认的最大内存，这时需要对文件进行逐行处理或者分块处理，如果事先得知文件的重复率较高，也可以使用哈希映射减少内存的使用量。其次是数据库数据，在数据科学中，数据库也是数据科学家必备的技能之一，反复IO的数据在数据库里存储和处理的效率会比直接读取文件高几倍，而Python、R这种为数据科学而生的语言对MySQL、PostgreSQL、MongoDB、Redis等各类数据库也都有比较成熟的算法包处理数据库涉及的各类命令，不过核心原理还是调用SQL语言。例如Python中的PyMySQL包就会使用excute函数来执行SQL命令。

最后也是最复杂的是Web Data，也分为别人写好的API和爬虫程序两种。网上都有相应的教程，我以后也会专门写文章来探讨获取和解析网络数据的方法，

数据科学家的数据就是财富，所以也是绝大多数持有数据的人不愿意共享这份财富的原因，我不想论制度和人性，只是当别人不愿意共享的时候，你也需要有自己的途径继续自己的研究，对吗？