实验设计之均衡——从设计到统计方法的随想

 

设计不均衡有什么后果?如何分别从设计角度和统计分析角度处理不均衡?...



很多人都相信,经过随机分组后,两组研究对象的各种条件应该是均衡的,起码理论上是如此。事实上,不管是不是均衡,但是只要严格做到了随机,起码你可以理直气壮地说:我是随机分组,我认为两组是均衡的。

但是,如果你做不到随机分组,或者说,即使随机分组,你仍有些须怀疑认为两组在某些条件上仍没有达到均衡。这时候,你是不是仍然可以说,我的研究结论是可靠的?

先看下面这个例子:

某研究评价一种中药预防甲肝的效果,在两所大学各选择10000名学生,两所大学选择同年龄组、同年级、性别比例相同的人群。甲学校服用中药,乙学校服用安慰剂。经过2年观察,发现甲学校的甲肝发病率明显低于乙学校。作者认为该中药有效。

这个例子中,你能相信研究者的结论吗?看起来似乎研究者考虑的挺周到,性别、年龄,都考虑到尽量做到条件一致了。可是却忽略了一个最关键的因素:甲肝更主要的是跟饮食卫生有关。

事实上,在该研究中,两所学校的饮食卫生、饮水卫生差别较大,乙学校食堂卫生较差,而甲学校卫生条件较好。这里就是典型的因素不均衡,而且是有影响的因素不均衡。那最后乙学校效果不好,到底是因为它的卫生条件,还是因为没有接受干预呢?恐怕在这个研究中是很难说清楚了。

通过这个例子我们可以看出,即使你做随机分组,有些情况下,仍需要考虑均衡问题。该研究也是随机分组,但是属于群随机分组,也就是说,不是对人分组,而是对学校随机分组。这种情况下尤其需要注意均衡问题。

再来聊一个我们都熟悉的人物和熟悉的事件:

大家都知道Fisher老先生,堪称统计学的鼻祖。当然其实他不仅在统计学领域,在其它领域也都有很深的造诣。当年有遗传学家曾问一位统计学家:“我不知道Fisher在统计学界的地位是不是也跟他在遗传学界一样的崇高?”

Fisher在晚年的时候,曾特地撰写论文,批评吸烟与肺癌的关系(当时是个流行病学刚流行的时代,也是吸烟与肺癌研究的时代,是流行病与生物统计学人才辈出的时代),认为吸烟不会导致肺癌,或者说吸烟与肺癌的发生是没有关系的。为什么这么说呢?当然很多人认为最主要的原因是因为Fisher是个烟鬼。但是Fisher有自己的理由:“没有进行随机对照试验,并非公平的比较”,所以结论是不可信的。

诚然,只比较吸烟和不吸烟者的肺癌发生率,当然不可信,毕竟肺癌跟很多因素有关,比如社会阶层,有的劳动者(如烟囱清扫工)由于其职业原因,得肺癌的几率是要大于其它阶层。如果吸烟和不吸烟人群中的阶层不一致,肯定会导致结果的偏倚。所以当年Doll和Hill在研究吸烟和肺癌时,特地选择了两组在性别、年龄、社会阶层和居住地都相似的人群,然后进行比较。

这样算均衡了吧?但是反对者仍然不满意,认为仍有可能有其它因素在两组中存在混杂,影响结果。当然,谁也不可能考虑到所有可能的因素都均衡,但是Fisher认为,随机分组可以做到把各种潜在的因素都均衡。

那么,如果我们不是做随机试验,没有做随机分组,是不是我永远没有办法说我是均衡的,是不是我就永远没有办法保证我结果的可靠性了?并非如此。因为认识始终是有局限的,我们是不可能穷尽所有的因素,所以如果你因为觉得可能存在“潜在的”混杂而拒绝承认一个研究结果,这是很愚蠢的行为。

事实上,新英格兰杂志曾在2000年有一篇文章,题目大概是“在对同样的因果关系进行分析的医学研究中,流行病学研究真的不如随机对照试验吗?”这篇文章的结论是:流行病学研究所证明的一些风险因素,与随机对照试验几乎没有区别。

很多人都青睐于随机对照试验,这当然是好事。但是,我们更需要注意的是,一个有缺陷的随机对照研究,还不如一个设计好的病例对照研究。就像我在前面一篇文章中说的,有问题的数据还不如没有数据。

如果你做不到随机,保证不了均衡,但又想尽量达到随机保证均衡,这怎么办呢?有一些可选的思路供你参考:

(1)自然实验。比如你想知道哈佛毕业生是不是比其它普通高校毕业生的工资高。如果直接观察哈佛毕业生和普通高校毕业生的薪水,那就存在一个问题:一般来说,考上哈佛的学生,可能一开始就比较优秀。如果哈佛毕业生薪水是高于其它学校,那怎么确定到底是因为这些学生一开始就优秀,还是考上哈佛后变得优秀?这是很难区分的。而现实又不允许你做随机试验,把一批考生随机分到哈佛或其它学校。

那怎么办呢?国外有人发现了一个现象,有的学生在入学时选了好几个学校,有的被哈佛录取就直接去了,有的却是考虑再三选择了其它学校。所以他们就对这样的一群人做了比较。这种情况下,这些学生不是随机分配到不同学校,而是自然形成的去了不同学校,而且他们都考上了哈佛,只是选择了去不去而已。这样的话,可比性就要好得多。

(2)二次差值法。就像第一个例子中,我们直接比较甲和乙学校干预2年后的效果,很难说明问题。但是如果换种思路,我们不比较2年后的甲肝发生率,而是比较两个学习的甲肝变化率,也就是说,甲学校2年后甲肝降低了多少,乙学校2年后甲肝降低了多少,比较一下降低的幅度(而不是单纯的2年后的率)。如果两个学校的食堂一直卫生条件都是如此,那就可以平衡一些卫生条件导致的偏倚(当然不可能完全平衡掉)。因为用到了2次差值,所以称为二次差值(difference in difference),有的也翻译为倍差法等。

事实上,对于不均衡数据的分析,有很多专门针对此的统计学方法,例如倾向性评分、协方差分析、二次差值法、固定效应模型、多因素分析,等等。目的就是为了使结论更为可靠。如果你的研究出现了这种情况,考虑一下这些方法吧。


    关注 小白学统计


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册