别说相关太简单,且听松哥说相关

 

变量分三种,计量(数值变量、连续变量、定距变量等不同叫法)、等级(有序)和计数(分类、名义),因此变量的相关...

变量分三种,计量(数值变量、连续变量、定距变量等不同叫法)、等级(有序)和计数(分类、名义),因此变量的相关就有不同的形式。

一、两个计量资料之间的相关

(一)pearson相关:必须双变量符合正态分布

(二)Spearman相关:双变量不符合正态分布或者一个不符合正态分布、或者分布不清资料。对于服从Pearson相关系数的数据也可以计算Spearman相关系数,但统计效能比Pearson相关系数要低一些(不容易检测出两者事实上存在的相关关系)。

二、两个等级资料之间相关

(一)Spearman相关

(二)对于行和列都包含已排序值的表,请选择伽玛(对于 2 阶表,为零阶;对于 3 阶到 10 阶表,为条件)、Kendall 的 tau-b 和Kendall 的 tau-c。要根据行类别预测列类别,请选择 Somers 的 d

(1)伽玛 (Gamma). 两个有序变量之间的对称相关性测量,它的范围是从 -1 到 1。绝对值接近 1 的值表示两个变量之间存在紧密的关系。接近 0 的值表示关系较弱或者没有关系。对于双向表,显示零阶伽玛。对于三阶表到 n 阶表,显示条件伽玛。

(2)Somers' d. 两个有序变量之间相关性测量,它的范围是从 -1 到 1。绝对值接近 1 的值表示两个变量之间存在紧密的关系,值接近 0 则表示两个变量之间关系很弱或没有关系。Somers 的 d 是伽玛的不对称扩展,不同之处仅在于它包含了未约束到自变量上的成对的数目。还将计算此统计的对称版本。

(3)Kendall 的 tau-b (Kendall's tau-b). 将结考虑在内的有序变量或排序变量的非参数相关性测量。系数的符号指示关系的方向,绝对值指示强度,绝对值越大则表示关系强度越高。可能的取值范围是从 -1 到 1,但 -1 或 +1 值只能从正方表中取得。

(4)Kendall's tau-c (Kendall's tau-c). 忽略结的有序变量的非参数相关性测量。系数的符号指示关系的方向,绝对值指示强度,绝对值越大则表示关系强度越高。可能的取值范围是从 -1 到 1,但 -1 或 +1 值只能从正方表中取得。

三、两个分类变量之间的相关

(一)列联系数(contingency coefficient):等于卡方/(卡方+n),其值介于0-1之间,越大说明相关性越强。

(二)Phi and Cramers V:phi等于卡方/N,越大说明相关性越强,Cramers V是Phi的一个调整,绝对值越大,说明相关性越强。

(三)lamda系数:

用于反映自变量对因变量的预测效果,即知道自变量取值时对因变量的预测有多少改进,或者说知道自变量的取值时期望预测误差个数减少的比例,Lambda将误差定义为列(行)变量预测时的错误,其预测值是基于个体所在行(列)的众数。值为 1时表明知道了自变量就可以完全确定因变量取值,为 0时表明自变量对因变量完全无预测作用。

(四)不确定系数:

其值介于 0~1之间,和 lambda类似,也用于反映当知道自变量后,因变量的不确定性下降了多少(比例),只是在误差的定义上稍有差异。以熵为不确定性大小的度量指标,共会输出行变量为自变量、列变量为自变量、对称不确定系数三个结果,后者为前两者的对称平均指标。

四、分类变量与数值变量相关

希望测量一个名义变量和连续变量间的相关程度时,还可以使用一个叫做 Eta的指标,它所对应的问题以前是用方差分析来解决的。实际上, Eta的平方表示

由组间差异所解释的因变量的方差的比例,即 ss组间/ss总。范围在 0 到 1 之间的相关性测量,其中 0 值表示行变量和列变量之间无相关性,接近 1 的值表示高度相关。Eta 适用于在区间刻度上度量的因变量(例如收入)以及具有有限类别的自变量(例如性别)。计算两个 eta 值:一个将行变量视为区间变量,另一个将列变量视为区间变量。

貌似已经结束了,别急,还有呢?

五、偏相关(Partial correlation)

当我们处理X和Y之间的相关性,可是Z与X和Y都有密切相关,因此Z的存在会影响X和Y之间真实的相关性,因此,需要控制Z后,研究X和Y之间的相关性。因此偏相关又叫做净相关。Z可能为X和Y的共同因素或者中介因素。偏相关为下图中A的部分。
六、部分相关(Part correlation)

有的时候,研究者想知道当去除了第三变量Z在X和Y变量中的效应后,两个变量X和Y之间的相关,在这种情况下,当用X来解释Y时,我们仅将Z从X中去除,而保持Y的“完整性”,在从X中去除Z后,"完整的"Y因变量和自变量X残差之间的相关,称为控制Z后的X和Y之间的部分相关。

如下图,Y为完整的,X中去除了Z。

松哥,结束了吗????                                   别急,还有呢!!!

七、典型相关(canonical correlation analysis)

当我们处理资料为两组资料之间的相关性时,就不能采用上面的相关性分析了,如一个班级学生的身体健康资料(身高、体重)与考试成绩(语文、数学、外语)之间的相关性,此时就是两组资料之间的相关性,应该采用典型相关分析。

八、距离相关(Distance correlation)

距离相关时用于计算数值变量之间的距离相关性,通常不单独分析,一般为聚类分析或者因子分析的中间过程。 Distinces过程就可以用于计算记录(或变量)间的距离(或相似程度),根据变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于本模块只是一个预分析的过程,因此距离分析并不会给出常用的p值,而只给出各变量/记录之间的距离大小,以供用户自行进行判断相似性。

这么多啊!!!!!!!!!在哪算呀??

呵呵,品种确实不少,SPSS中通常如下几个地方可以计算

1、交叉表


下图中的相关系数,前面都介绍过了哦!
2、分析—相关

包括了双变量(Pearson、Spearman和Kendall)、偏相关、距离相关,还有典型相关(注典型相关以前小编都是通过编程实现的,可费劲了,SPSS23已经加载进菜单了,赞一个!!)
3、部分相关在哪算呢?

看下图的标题,知道了吧!算出结果是这样的!


上图中零阶表示pearson相关,偏就是偏相关(1阶相关),部分就是部分相关的意思呢!
-----------------------------------------------------------------------------------------
松哥说:今天给大家介绍了相关,如此品种繁多的相关可能是您第一次听说吧,松哥也花了不少时间整理呢?

相关的正确选择需要根据研究目的、研究设计和研究资料的类型,这是松哥一直啰嗦的三个方面。

最近一个同事一篇SCI文章,编审提出的就是多重相关校正的问题,非常有意思,后面将给大家做一个介绍。
最后还是那就老话,你的分享就是对我们努力的最大支持!松哥!!
另欢迎转载,但需标明出处和如下二维码,谢谢!!


    关注 精鼎数据分析联盟


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册