[常见疑惑]这里应该用卡方、校正卡方还是Fisher?

 

微信订阅号“医学统计分析精粹”授权发布几年前,听过一堂讲座,唐金陵讲《第三只眼看医学》,谈到过高血压的诊断标...



微信订阅号“医学统计分析精粹”授权发布,欢迎扫描文末二维码关注!

几年前,听过一堂讲座,唐金陵讲《第三只眼看医学》,谈到过高血压的诊断标准。现在同样的问题问问各位,

真的是,140mmHg以上就是高血压,140mmHg以下,就不是高血压吗?

那如果,我们把高血压诊断标准调到135mmHg,又会如何?

——唐教授当时的重点,在于诊断指标的公共卫生意义和经济学意义。从140降到135,对单个患者来说,可能没有什么差异。但是,全国的高血压发病人数可能就会成亿成亿地增加!控制高血压的费用,可能也会十亿百亿千亿地增长!这个,可了不得啊!

扯远了,这里关键是一个需要额外考虑性价比的一个不确定性的问题。这跟我们今天的主题相关。

很多《医学统计学》的课本上、试卷上都会有关于卡方的适用标准,那么就有疑问了,你以总样本量为40来做选择卡方或者校正卡方的界定,如果改成41,会有多大差异?改成42,又会有多大差异?再更大一点呢?如果是上万的样本量,又会如何?

我们看一下公式吧:

红色公式就是卡方的校正公式了,去掉里面的0.5,就是卡方的计算公式。



不需要畏惧公式,其实很简单的,一点初高中数学的知识就很够用了。随着样本量的增大,A和T都在增大,差值(虽然不太一定)也会远远的大于0.5。这时候,这样小的一个0.5,真的就可以忽略了啊!

那么我们是不是可以得到一个结论,随着样本量的增加,卡方与矫正卡方的结果越来越接近呢?

(答案:是的,这一点读者可以试着动手计算一下。)

(另一点,两者比较,反而是在样本量小的时候差异更大,这个差异原因我们稍后还会谈到。)

(所以,在这一点上,统计人员的共识就比较重要了,如果你家的选择标准是40,我家的选择标准是42,在样本量是41、42这种情况下,得到的卡方值和P值就会有较大的差异!)

那下面我们再来看一下Fisher确切概率法。

其实这个名字就说明了一切了!我是确切概率哦~你们不确切的,统统向我看齐!对,就这个意思!

所以根据名字就可以安心的下结论了,一切与Fisher不一致的,都以Fisher为准!

那为什么大家通常还是要用卡方呢?

Fisher的精准,在于它穷举所有可能出现的情况,并根据各种情况出现的概率,来确定某实际情况出现的概率以及小于该概率的情况的概率之和(即P值的定义),得到最后的Fisher的P值。

它是穷举的,考虑所有的情况,无一遗漏,所以,原则上来讲,它是不会出错误的!

大家普遍的使用的卡方检验,也是上世纪IT技术落后时的产物了(落后,有时候不是件坏事啊!正因为有了IT技术的落后,才激发统计学家们发挥极大的聪明才智来弥补这个缺陷啊!)。

这与本公众号上一篇文章提到的通过单变量分析来筛选进入回归模型中的变量是有些类似的。

前面提到过,Fisher是穷举,40以下的样本量,在四格表中出现的情况,动动手指脚趾,还是可以数的过来的,但如果是上万的样本量,那最终可能出现的情况可是指数级增长啊!这在当年的电脑上几乎也是不可能实现的。何况,发明卡方的时候,还没有电脑呢(我没验证过哦)!

所以,统计学家们就开发了卡方分布,来模拟可能出现的数据分布情况。这是一种抽象,就像我们用正态分布,T分布来模拟常见的数值型分布一样。

于是,我们有了卡方分布,有了对应的自由度,用不着穷举所有情况了,我们就已经可以猜出这些情况的分布是个什么样子!所以,有了卡方,轻轻松松就可以避免Fisher复杂的穷举过程,迅速得到结论!

虽然卡方在时间长度和计算难度上进行了极大的改进,但毕竟还是有问题的,就是样本量较少的时候,数据并不呈卡方分布!所以,后续不得已,又衍生了校正卡方,校正卡方也解决不了的,就最终还是回到了Fisher进行解决。

以现在的IT技术来看,哪怕上万的样本量,算个Fisher也不过秒秒钟的事儿了!所以,如果真让你选择的话?你会选什么呢?

Fisher?

这个答案有点奇葩了,因为,很多人都选了——logistic回归!



是的,Logistic回归!

原因很简单,当卡方只报告一个根本看不懂的卡方值和一个P值的时候,Logistic发挥了它最根本的优势,报告OR值!于是,它彻底秒杀了卡方!

平时关注文献的读者,可能也会发现,用单因素logistic回归替代卡方,竟逐渐逐渐成了惯例!

如下图,大表的第四列,即为单因素回归结果(注释a)。





总结一下:

卡方是IT技术不发达时期时用来替代Fisher的一种方法。但样本量较小时,卡方分布并不理想,所以需要校正后使用。样本量再小一点,无法校正时,还是要还原到Fisher的方法。

虽然对于目前的IT技术,计算Fisher已经不再困难,但卡方仍然作为一个便捷的主流方法被广泛采用。

而在正式论文写作时,使用单因素logistic回归来替代卡方,因其可以给出更重要的信息(OR值及其可信区间,可按RR解释成为多少多少倍的发病危险),也不失为一种良策!

如果非要加一条,那么,那个总样本量40还是单个格子是否小于5大于1,真的不重要,真的没必要出现在考卷上!



关注“一起学SPSS”后,回复“电子书”或“book”可获取本书配套免费电子书及数据文件下载地址。回复“key”可获取订阅号文章目录。





邮箱:mchgz@163.com共享网盘:http://pan.baidu.com/s/1bnDDh2R

统计交流请加“一起学SPSS小编”微信,请注明所从事的专业。


    关注 一起学SPSS


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册