数据数据人管理

【R读书笔记】R语言读书心得4-初级数据管理（1）

数据人需要R语言、Python语言、机器学习、数据分析、Hadoop框架和Spark框架资料，加微信：luqin360。数据人网是数据人学习、交流和分享的平台http://shujuren.org，您可以建轻博客，分享知识，认识朋友。...

在整个读书笔记的开端，我介绍了多种导入数据的方法，并给大家讲解了R语言的基本数据类型。而在新的一个部分，我们依然围绕数据本身进行讲解。和开始的第一部分有所不同的是，我在这里开了一个新的专题，数据管理。

数据管理，顾名思义就是对现有的数据进行管理。数据管理在整个数据分析的过程中也是非常重要的，如果我们没有把数据管理好，没有好好的检查我们现有的数据本身，将会给我们的结果的精度带来比较多负面的影响。

上一部分的内容中，我提到了我们导入的数据类型一般都会被转换为数据框。但是，这仅仅是我们整个数据分析当中一个很小部分。那么，我们在做数据分析
的时候，哪些步骤会比较花时间呢？其实，很多时候，我们往往会在数据的清洗和管理上花比较大量的时间，以此保证模型的精度。很多时候，当你有了一定的业务
背景以后，其实建模也不会花太多的时间。但是，数据内部的清洗和调整往往不是一簇而就的，甚至在分析过程中我们可能还要回过头来重新检查，这样，我们会发
现，我们花在数据清洗和管理的时间真的很多。所以，学好数据管理是非常重要的，它能给我们的模型带来良好的精度。

好了，既然之前我提到了我们一般处理导入过来的数据时，它们的一般格式就是数据框。所以，第一个实例也依然围绕数据框来展开。
假设有这样的5位领导层的人员，详细信息如下：

这时，我们可能会问这样的几个问题：
1.领导们所处的职位是否在性别上存在差异？
2.其它因素诸如国籍是否也影响一个人的职位？
这似乎看起来是一个有趣的问题。那么，看到这张表，可能我们立马想要研究的，就是领导人员的表现是否在某些因素上存在相关的差异？我们不妨看一看相关评判标准：

看到这个表格，我们很清晰的看见，它把评判标准分成5个等级，我们在后面的分析中，多少可能会设置一些相关的标准和区间来判别。
这时，我们不妨先把它转化为数据框的格式进行研究。

[list=1][*][code]manager