非此即彼的Ⅰ类错误和Ⅱ类错误:哪个更要命?

 

垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们生活中有很多情景其实就是在建立原假设并检验它。在大胆求证和谨慎结论之间,我们不能容忍哪些误判,又能对哪些误判的风险可以“睁一只眼闭一只眼”?本期纸老虎来谈谈I类错误和II类错误的困境。...



纸老虎在之前的推送里给大家讲解了中心极限定理“一叶知秋”的魔法,但在统计推断的强大光环下,我们也要小心它的陷阱。对于任何一类假设检验来说,我们在拒绝和接受原假设的决策之间都面临着一个根本性的困境,那就是容忍Ⅰ类错误还是容忍Ⅱ类错误的两难。

2011年的时候,《人格与社会心理学杂志》准备刊登一篇表面平淡无奇的学术论文:康奈尔大学的一位教授明确提出了一个原假设,进而开展了一项实验来验证这一原假设,并结合实验结果在显著性水平为0.05的基础上将其推翻。而该论文的结论却在学术界和诸如《纽约时报》这样的主流媒体上引起了轩然大波。

通常来说,在《人格与社会心理学杂志》等学术刊物上发表的文章基本上不会登上报纸头条,那到底是什么原因让那篇文章受到如此关注?论文作者是想测试人类是否存在超感知觉(ESP),即人们俗称的“第六感”。其原假设是“第六感”不存在,备择假设则是人类具有超感知觉。为了解开这一谜题,论文作者招募了很多人来参与这个实验。他在两块电脑屏幕上分别遮盖着一块不透明的布,电脑软件会随机在一块布的后面显示一张“照片”,参与者们要在两块布中选择一块掀开,并记录下结果。从概率的角度来说,掀开一块布后面显示“照片”的概率恰好为50%,但在反复实验以后,研究表明显示照片的概率为53%。

在大量样本数据的支持下,论文作者推翻了“人类不存在超感知觉”的原假设,承认备择假设成立,即超感知觉能够让人预知未来。这篇论文一经发表,招来了关注,也招致了大量批评,这些批评认为仅凭一项具有统计学意义的研究不足以排除巧合的可能性,尤其是还没有其他证据来佐证,也缺乏对研究发现背后机制的明确解释。《纽约时报》总结道:

“一个藐视几乎所有科学常识的结论就其本质来说应该是超乎寻常的,因此就更需要超乎寻常的证据来证明它。如果忽视了这一点,正如那些充满争议的科学分析故意做的那样,会使得许多研究成果的重要性被夸大。”

若要应对这种推断过于大胆的问题,一个办法是抬高统计学意义的“门槛”,如将显著性标准设定为0.001。但这也存在缺陷,那就是过高的门槛让研究者将他们试图证明的备择假设拒之门外。可见,选择一个合理的统计学意义“门槛”本身就包含了权衡和妥协。让我们具体来谈谈这些权衡和妥协:

如果我们用于推翻原假设的举证责任定得过于宽松(例如0.1),那么我们就会经常处于推翻原假设的状态,而实际上,在很多时候原假设是正确的(就像我对“第六感”实验的怀疑)。这就是统计分析中肯定或否定假设前提的Ⅰ类错误(或“弃真错误”)。想象一下美国的司法制度,对于陪审团来说,法庭上的原假设是被告无罪,推翻这一原假设的门槛是“排除一切可疑之处,确信被告有罪”,假如我们将这一门槛降低为“强烈的直觉告诉我被告有罪”,那么导致的结果肯定是更多的罪犯锒铛人狱,当然也会有更多无辜的人蒙冤入狱。这相当于统计学中将显著性水平降到一个相对低的水平,如0.1。

严格来说,1/10的概率并非毫无可能。如果放在某种癌症新药的临床试验上,每10次的药物使用,或许就会有那么一次没有起到药效(又或者在法庭上,每被定罪的10个被告里,就有一个人是无辜的)。Ⅰ类错误表示错误地推翻了一个原假设,可能直接看这些统计学术语不是那么直观,所以我们可以称之为“假阳性”,下面就来解释一个为什么叫作“假阳性”。当你去医院进行某项疾病的检查时,医院的原假设是你并没有患上该疾病,如果实验室的检测结果推翻了原假设,那么就会在体检报告里注明“阳性”,但假如你的检验结果为“阳性”,事实上你并没有患上该疾病,那么检验结果就是“假阳性”。

在任何情况下,对推翻原假设的举证责任的要求越宽松,推翻原假设的可能性就越大。但我们显然不愿意看到无效的癌症治疗药物进入市场,也不希望将无辜的人送人监狱。

但这又出现了一个矛盾。推翻原假设的门槛越高,我们推翻原假设的可能性就越小,以至于很多应该被推翻的原假设“逃过一劫”。如果我们要求必须凑齐5位目击证人才能将被告定罪,那么将会有很多罪大恶极的罪犯逍遥法外(当然,蒙冤入狱的人也会相应减少)。如果我们对所有新药的临床试验都要求0.001的显著性水平,那么将会极大地减少无效药物进入市场的可能性(因为错误推翻“药物没有比安慰剂更有疗效”的原假设的概率只有千分之一),但我们同时也面临着将有效药物拒之门外的风险,因为我们的准人门槛太高了,这就是统计学上的Ⅱ类错误(或“纳伪错误”),又称为“假阴性”。

哪种错误更加严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡和妥协,因为统计学里没有“免费的午餐”。下面的几种情形虽然与统计学没有直接关系,但也都包含了Ⅰ类错误和Ⅱ类错误之间的妥协。

(1)垃圾邮件过滤。原假设为任何一封电子邮件都不是垃圾邮件。你的垃圾邮件过滤插件会寻找可用来推翻原假设的线索,如一份内容较多的、包含“增高”、“促销”等广告关键词的清单。Ⅰ类错误表示一些不是垃圾邮件的电子邮件也被屏蔽掉了(“假阳性”),Ⅱ类错误表示让垃圾邮件通过筛选进入到了你的收件箱里(“假阴性”)。考虑到漏收一封重要邮件的损失要大大超过收到一封推销天然维生素的广告邮件,绝大多数人可能会更倾向于站在Ⅱ类错误这一边。一个经过优化设计的垃圾邮件过滤插件在推翻“来信为垃圾邮件”的原假设并屏蔽这封邮件之前,应该设法掌握足够多的证据和相对高的准确性。

(2)癌症筛查。我们在医学上有多种方法用于初期癌症的筛查,如乳腺图像(乳腺癌)、前列腺特异抗原测试(前列腺癌),甚至全身核磁共振扫描(看看身体哪个部位存在问题)。对于任何一位进行癌症筛查的人来说,原假设都是没有患上癌症。筛查的作用就是通过发现可疑结果,进而推翻原假设。按常理,Ⅰ类错误(身体没有任何问题的“假阳性”)总是要优于Ⅱ类错误(癌症没有被诊断出来的“假阴性”)。从历史上看,癌症筛查经常站在垃圾邮件过滤的对立面:医生和病人总是愿意容忍一定程度的Ⅰ类错误,而尽力避免出现Ⅱ类错误。最近,美国卫生政策专家开始挑战这一观点,这是因为Ⅰ类错误所导致的高费用和副作用。

(3)打击恐怖分子。在这个例子中,Ⅰ类错误和Ⅱ类错误都是不可容忍的,这也是为什么如今社会上还在激烈讨论如何处理好打击恐怖主义和保护公民自由之间的关系。原假设为某人不是恐怖分子。如果换作一个普通的庭审,我们并不希望犯Ⅰ类错误,而将无辜的人送进关塔那摩监狱。但在一个充斥着大规模杀伤性武器的世界里,哪怕是一个恐怖分子逍遥法外(Ⅱ类错误)都会带来不可估量的灾难。不管你是否赞同,这就是为什么美国政府会在证据不充分的情况下依然将大量的可疑分子关到关塔那摩监狱里。

Ⅰ类错误和Ⅱ类错误是统计推断在哲学上的困境,与其说我们能依靠哪种统计方法解决这个两难,不如说我们只能在认清研究目的的基础上权衡利弊。其实,这种权衡利弊是我们中的绝大部分人每天都在做的事——例如,“我认为那个晕倒在一堆啤酒瓶中间的大学生肯定是喝多了”,而不是“我认为那个晕倒在一堆啤酒瓶中间的大学生是被恐怖分子毒杀了”。

内容改编自:《赤裸裸的统计学》

编辑:田志鹏

北京大学社会学系


    关注 统计课是纸老虎


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册