【R读书笔记】R语言读书心得4-初级数据管理(1)

 

数据人需要R语言、Python语言、机器学习、数据分析、Hadoop框架和Spark框架资料,加微信:luqin360。数据人网是数据人学习、交流和分享的平台http://shujuren.org,您可以建轻博客,分享知识,认识朋友。...



在整个读书笔记的开端,我介绍了多种导入数据的方法,并给大家讲解了R语言的基本数据类型。而在新的一个部分,我们依然围绕数据本身进行讲解。和开始的第一部分有所不同的是,我在这里开了一个新的专题,数据管理。

数据管理,顾名思义就是对现有的数据进行管理。数据管理在整个数据分析的过程中也是非常重要的,如果我们没有把数据管理好,没有好好的检查我们现有的数据本身,将会给我们的结果的精度带来比较多负面的影响。

上一部分的内容中,我提到了我们导入的数据类型一般都会被转换为数据框。但是,这仅仅是我们整个数据分析当中一个很小部分。那么,我们在做数据分析
的时候,哪些步骤会比较花时间呢?其实,很多时候,我们往往会在数据的清洗和管理上花比较大量的时间,以此保证模型的精度。很多时候,当你有了一定的业务
背景以后,其实建模也不会花太多的时间。但是,数据内部的清洗和调整往往不是一簇而就的,甚至在分析过程中我们可能还要回过头来重新检查,这样,我们会发
现,我们花在数据清洗和管理的时间真的很多。所以,学好数据管理是非常重要的,它能给我们的模型带来良好的精度。

好了,既然之前我提到了我们一般处理导入过来的数据时,它们的一般格式就是数据框。所以,第一个实例也依然围绕数据框来展开。
假设有这样的5位领导层的人员,详细信息如下:


这时,我们可能会问这样的几个问题:
1.领导们所处的职位是否在性别上存在差异?
2.其它因素诸如国籍是否也影响一个人的职位?
这似乎看起来是一个有趣的问题。那么,看到这张表,可能我们立马想要研究的,就是领导人员的表现是否在某些因素上存在相关的差异?我们不妨看一看相关评判标准:


看到这个表格,我们很清晰的看见,它把评判标准分成5个等级,我们在后面的分析中,多少可能会设置一些相关的标准和区间来判别。
这时,我们不妨先把它转化为数据框的格式进行研究。

[list=1][*][code]manager


    关注 R语言


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册