随机均衡分组

实验设计之均衡——从设计到统计方法的随想

设计不均衡有什么后果？如何分别从设计角度和统计分析角度处理不均衡？...

很多人都相信，经过随机分组后，两组研究对象的各种条件应该是均衡的，起码理论上是如此。事实上，不管是不是均衡，但是只要严格做到了随机，起码你可以理直气壮地说：我是随机分组，我认为两组是均衡的。

但是，如果你做不到随机分组，或者说，即使随机分组，你仍有些须怀疑认为两组在某些条件上仍没有达到均衡。这时候，你是不是仍然可以说，我的研究结论是可靠的？

先看下面这个例子：

某研究评价一种中药预防甲肝的效果，在两所大学各选择10000名学生，两所大学选择同年龄组、同年级、性别比例相同的人群。甲学校服用中药，乙学校服用安慰剂。经过2年观察，发现甲学校的甲肝发病率明显低于乙学校。作者认为该中药有效。

这个例子中，你能相信研究者的结论吗？看起来似乎研究者考虑的挺周到，性别、年龄，都考虑到尽量做到条件一致了。可是却忽略了一个最关键的因素：甲肝更主要的是跟饮食卫生有关。

事实上，在该研究中，两所学校的饮食卫生、饮水卫生差别较大，乙学校食堂卫生较差，而甲学校卫生条件较好。这里就是典型的因素不均衡，而且是有影响的因素不均衡。那最后乙学校效果不好，到底是因为它的卫生条件，还是因为没有接受干预呢？恐怕在这个研究中是很难说清楚了。

通过这个例子我们可以看出，即使你做随机分组，有些情况下，仍需要考虑均衡问题。该研究也是随机分组，但是属于群随机分组，也就是说，不是对人分组，而是对学校随机分组。这种情况下尤其需要注意均衡问题。

再来聊一个我们都熟悉的人物和熟悉的事件：

大家都知道Fisher老先生，堪称统计学的鼻祖。当然其实他不仅在统计学领域，在其它领域也都有很深的造诣。当年有遗传学家曾问一位统计学家：“我不知道Fisher在统计学界的地位是不是也跟他在遗传学界一样的崇高？”

Fisher在晚年的时候，曾特地撰写论文，批评吸烟与肺癌的关系（当时是个流行病学刚流行的时代，也是吸烟与肺癌研究的时代，是流行病与生物统计学人才辈出的时代），认为吸烟不会导致肺癌，或者说吸烟与肺癌的发生是没有关系的。为什么这么说呢？当然很多人认为最主要的原因是因为Fisher是个烟鬼。但是Fisher有自己的理由：“没有进行随机对照试验，并非公平的比较”，所以结论是不可信的。

诚然，只比较吸烟和不吸烟者的肺癌发生率，当然不可信，毕竟肺癌跟很多因素有关，比如社会阶层，有的劳动者（如烟囱清扫工）由于其职业原因，得肺癌的几率是要大于其它阶层。如果吸烟和不吸烟人群中的阶层不一致，肯定会导致结果的偏倚。所以当年Doll和Hill在研究吸烟和肺癌时，特地选择了两组在性别、年龄、社会阶层和居住地都相似的人群，然后进行比较。

这样算均衡了吧？但是反对者仍然不满意，认为仍有可能有其它因素在两组中存在混杂，影响结果。当然，谁也不可能考虑到所有可能的因素都均衡，但是Fisher认为，随机分组可以做到把各种潜在的因素都均衡。

那么，如果我们不是做随机试验，没有做随机分组，是不是我永远没有办法说我是均衡的，是不是我就永远没有办法保证我结果的可靠性了？并非如此。因为认识始终是有局限的，我们是不可能穷尽所有的因素，所以如果你因为觉得可能存在“潜在的”混杂而拒绝承认一个研究结果，这是很愚蠢的行为。

事实上，新英格兰杂志曾在2000年有一篇文章，题目大概是“在对同样的因果关系进行分析的医学研究中，流行病学研究真的不如随机对照试验吗？”这篇文章的结论是：流行病学研究所证明的一些风险因素，与随机对照试验几乎没有区别。

很多人都青睐于随机对照试验，这当然是好事。但是，我们更需要注意的是，一个有缺陷的随机对照研究，还不如一个设计好的病例对照研究。就像我在前面一篇文章中说的，有问题的数据还不如没有数据。

如果你做不到随机，保证不了均衡，但又想尽量达到随机保证均衡，这怎么办呢？有一些可选的思路供你参考：

（1）自然实验。比如你想知道哈佛毕业生是不是比其它普通高校毕业生的工资高。如果直接观察哈佛毕业生和普通高校毕业生的薪水，那就存在一个问题：一般来说，考上哈佛的学生，可能一开始就比较优秀。如果哈佛毕业生薪水是高于其它学校，那怎么确定到底是因为这些学生一开始就优秀，还是考上哈佛后变得优秀？这是很难区分的。而现实又不允许你做随机试验，把一批考生随机分到哈佛或其它学校。

那怎么办呢？国外有人发现了一个现象，有的学生在入学时选了好几个学校，有的被哈佛录取就直接去了，有的却是考虑再三选择了其它学校。所以他们就对这样的一群人做了比较。这种情况下，这些学生不是随机分配到不同学校，而是自然形成的去了不同学校，而且他们都考上了哈佛，只是选择了去不去而已。这样的话，可比性就要好得多。

（2）二次差值法。就像第一个例子中，我们直接比较甲和乙学校干预2年后的效果，很难说明问题。但是如果换种思路，我们不比较2年后的甲肝发生率，而是比较两个学习的甲肝变化率，也就是说，甲学校2年后甲肝降低了多少，乙学校2年后甲肝降低了多少，比较一下降低的幅度（而不是单纯的2年后的率）。如果两个学校的食堂一直卫生条件都是如此，那就可以平衡一些卫生条件导致的偏倚（当然不可能完全平衡掉）。因为用到了2次差值，所以称为二次差值（difference in difference），有的也翻译为倍差法等。

事实上，对于不均衡数据的分析，有很多专门针对此的统计学方法，例如倾向性评分、协方差分析、二次差值法、固定效应模型、多因素分析，等等。目的就是为了使结论更为可靠。如果你的研究出现了这种情况，考虑一下这些方法吧。