数据挖掘一百天(5)
数据挖掘一百天,继续更新...
相关性分析
分析连续变量之间相关程度的强弱,并用适当的统计指标表示出来的过程称为相关性分析
1直接绘制散点图
判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图
2需要同时考察多个变量之间的相关关系时,一一绘制它们间的简单散点图是十分麻烦的,此时可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。
3计算相关系数
为了更加准确的描述变量之间的线性相关程度,可以计算相关系数来进行相关分析。在二元变量的相关性分析过程中比较常用的有Pearson相关系数,Spearman秩相关系数和判定系数。
Pearson相关系数
一般用于分析两个连续性变量之间的关系。计算公式如下:
相关系数r的取值范围:-1
关注 应心学习
微信扫一扫关注公众号