女士品茶实验

女士品茶统计学历史上最著名的试验

在英国剑桥一个夏日的午后，一群大学的绅士和他们的夫人们，还有来访者，正围坐在户外的桌旁，享用着下午茶。在品茶过程中，一位女士坚称：把茶加进奶里，或把奶加进茶里，不同的做法，会使茶的味道品起来不同。.........

可乐数学按：我最近以高价买了本二手书《女士品茶》。这本书的全名为《女士品茶——20世纪统计学怎样变革了科学》(The Lady Tasting Tea——How Statistics Revolutionized Science in the Twentieth Century ) 。该书是美国统计学家萨尔斯伯格以“女士品茶问题”为切入点所著的一部关于统计学历史与变革的书，以一种全新的视角带领读者进入统计学的世界，体会统计学带给哲学观、宇宙观的变革。下面摘录第一章供读者各位男士女士品书。

那是20 世纪20 年代后期，在英国剑桥一个夏日的午后，一群大学的绅士和他们的夫人们，还有来访者，正围坐在户外的桌旁，享用着下午茶。在品茶过程中，一位女士坚称：把茶加进奶里，或把奶加进茶里，不同的做法，会使茶的味道品起来不同。在场的一帮科学精英们，对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢？他们不能想象，仅仅因为加茶加奶的先后顺序不同，茶就会发生不同的化学反应。然而，在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生，却不这么看，他对这个问题很感兴趣。

他兴奋地说道：“让我们来检验这个命题吧！”并开始策划一个实验。在实验中，坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶，其中，有的是先加茶后加奶制成的，有的则是先加奶后加茶制成的。

写到这里，我可以想象，部分读者会对这种实验不以为意，认为它不过是一帮精英们于夏日午后的一个小消遣。他们会说：“这位夫人能不能区分两种不同的注茶方式，又有什么大不了的呢？这个问题并没有什么科学价值，这些大人物更应该把他们的天才用在对人类有所裨益的事情上去。”不幸的是，不管外行对科学及其重要性怎么想象，从我个人的经验来看，大多数科学家之所以从事科研活动，只是因为他们对结果感兴趣，或者能够在工作中得到理性的刺激。

好的科学家很少会想到工作的最终重要性，剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来，但这无关紧要，因为，实验的真正乐趣，在于找到一种判断该女士是对还是错的方案来。于是，在蓄着胡须先生的指导下，大家开始讨论应该如何进行实验判断。接下来，在场的许多人都热心地加入到实验中来。几分钟内，他们在那位女士看不见的地方调制出不同类型的茶来。最后，在决战来临的气氛中，蓄短胡须的先生为那位先生为那位女士奉上第一杯茶，女士品了一小会儿，然后断言这一杯是先倒的茶后加的奶。这位先生不加评论地记下了女士的说法，然后，又奉上了第二杯……

科学的合作性质

这个故事是我在20 世纪60 年代后期，从一个当时在场的先生那里听到的。这位先生就是休·史密斯（Hugh Smith），但他都是以H·费尔菲尔德·史密斯（H. Fairfield Smith）的名义发表科研论文。我认识他的时候，他在位于斯托尔斯（Storrs）的康涅狄格大学（theUniversity of Connecticut）任统计学教授，而我则是两年以前在这个大学拿到了统计学博士学位。在宾州大学（the University of Pennsylvania）教了一阵子书后，我加入到了辉瑞公司（Pfizer Inc.）的临床研究部门。这是一家大型制药公司，它的研究园区坐落在格罗顿（Groton）,离斯托尔斯大约一个小时的车程。当时，我是那里唯一的统计学家。在辉瑞期间，我要处理许多疑难的数学问题，还要负责给他们讲解这些问题，并告诉他们，对这些问题，我个人的结论是什么。

在辉瑞工作期间，我发现，科研工作几乎不能独立完成，通常需要不同智慧的结合。因为，这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时，这个模型有时可能并不适合；或者我就所处理情况而引入的假设并不真实；或者我发现的“解”是公式中的失误部分推导出来的；甚至我可能在演算中出了错。无论何时，我去斯托尔斯的大学拜访，与史密斯教授探讨问题，或者，与辉瑞的化学专家、药理专家坐在一起讨论，我提出的问题都会受到欢迎，他们对这种讨论充满兴趣和热情。对大多数科学家来说，工作中令他们最感兴趣的，就是解决问题时那种兴奋感。因此，在检验并试图理解问题时，他们期盼着与他人交流。

实验的设计

剑桥那个夏日午后的情形正是如此，那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔（Ronald Aylmer Fisher），当时他只有三四十岁。后来，他被授予爵士头衔。1935 年，他写了一本叫《实验设计》（The Design of Experiments）的书，书的第2 章就描述了他的“女士品茶”实验。在书中，他把女士的断言视为假设问题，他考虑了各种可能的实验方法，以确定那位女士是否能做出区分。设计实验时的问题是，如果只给那位女士一杯茶，那么即使她没有区分能力，她也有50%的机会猜对。如果给两杯茶，她仍可能猜对。事实上，如果她知道两杯茶分别以不同的方式调制，她可能一下子全部猜对（或全部猜错）。同样，即便这位女士能做出区分，她仍然有猜错的可能。或者是其中的一杯与奶没有充分地混合，或者是泡制时茶水不够热。即便这位女士能做出区分，也很有可能是奉上了10杯茶，她却只是猜对了其中的9 杯。

在这本书中，费歇尔讨论了这个实验的各种可能结果，他叙述了如何确定这样一些问题：应该为那位女士奉上多少杯茶？这些茶应该按什么样的顺序奉上？对所奉各杯茶的顺序应该告诉那位女士多少信息？依据那位女士判断的对错与否，费歇尔搞出了各种不同结果的概率。但在讨论中，他并没有指明这种实验是否真的发生过，也没有叙述这次实验的结果。

费歇尔书中有关实验设计的著述是科学革命的要素之一，这场革命在20 世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前，科学实验已经进行了几百年。在16世纪后期，英国的威廉•哈维（William Harvey）用动物做实验，他将不同动物静脉和动脉里的血液堵住，试图追踪血液从心脏到肺，回流到心脏，流向全身，再回到心脏的循环路线。费歇尔没有发现实验是增长知识的方法。

费歇尔之前，实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验，而二流的科学家常常从事的是积累数据的实验，但对知识增长没有什么用处。为说明这点，可以举发生在19 世纪后期的一个例子。那时的科学家就测量光速做了许多无关要旨的努力，而直接到美国物理学家艾伯特·米切尔森（Albert Michelson）用光线和镜子建造了一个特别精巧的系列实验，才第一次得到好的估计。

在19 世纪，科学家很少发表实验结果。他们所做的是论述自己的结论，并发表能证明结论真实性的数据。格雷戈尔•门德尔（Gregor Mendel）没有展示出他全部豌豆培育实验的结果，他叙述了他的系列实验，然后写道：“两组系列实验的前10 个数据可以用来说明……”在20 世纪40 年代，费歇尔检验了门德尔用来说明结论的数据，发现这些数据过分完美，以至于失真，它们并没有表现出应该具有的随机程度。尽管科学从审慎思考、观察和实验发展而来，但从来不清楚应该怎样从事实验，实验的全部结果通常也没有展现给读者。

19 世纪末和20 世纪初的农业研究中，上述情况尤为明显。20 世纪早期费歇尔在农业实验站工作，在费歇尔去那儿工作之前，这个实验站已经进行了约90 年的肥料构成（称之为人工肥料）实验。在一个典型的实验中，工人将磷肥和氮肥的混合物撒在整块田中，然后种植作物，测度收成和整个夏季的雨量。这里有精巧的公式用来“调整”某年或某块地的产量，以便与另一块地、或同一块地的另一年产量相比，这被称为“肥力指数”。每一个农业实验站都有自己的肥力指数，而且都认为自己的指数是最精确的。

90 年的实验结果不过是一堆未经发表、了无用处的混乱数据。看来某些品种的小麦对某种肥料反应优于其它品种，但只是在降雨过量的年份如此。其它实验似乎显示：第一年用钾硫化物，第二年用碳酸硫化物，会使某些品种的马铃薯增产，而对其它品种并非如此。因此，就这些人工肥料，充其量可以说，其中有些在有的时候，可能或大概有效。作为一个卓越的数学家，费歇尔审视了农业科学家用来修正实验结果的肥力指数，这些指数是用来解释不同年份气象变化所造成的差异的，他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时，这些指数不过是同一公式的不同表现形式，换句话说，看似激烈争斗的两个指数，其实起着同样的修正作用。

1921 年，费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文，文中他指出了采用哪种指数并没有什么差异，并且，所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20 多年的科学论战。费歇尔接着检查了过去90 年来的雨量和收成数据，指出年度间不同气候的影响远远大于不同肥力的影响。

用费歇尔后来在他的实验设计理论里发明的一个词来说，“混合”（confounded）的，这意味着用已有的实验数据是不能将二者分开的。90年的实验和20 年的科学论战几乎是无谓的浪费。这使得费歇尔专注于实验和实验设计的思考。他的结论是：科学家需要从潜在实验结果的数据模型开始工作，这是一系列数据公式，其中一些符号代表实验中将被搜集的数据，其它则代表实验的全部结果。科学家从实验数据开始，并计算与所考虑科学问题相应的结果。

让我们考虑一个关于一个老师和某个学生的简单例子。这个老师非常想找出一些关于这个孩子学习情况的测试数据，为了达到这个目的，老师对孩子进行了一组考试，每一个考试都在0 到100 之间评分，任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估；这个孩子可能是没有学习多少考试所涉及的内容，但是知道不少考试以外的事情；可能是这个孩子在参加考试那天头疼；还可能是参加考试那天早上孩子与父母发生了争执。由于种种原因，单一考试不能对知识量提供好的估计，所以老师进行了一组考试，然后计算出所有考试的平均分来评价孩子的知识量。这样的估计结果会更好，多少分是孩子知识量的实验结果，而每一个单独考试的分数则是数据。那么老师应该如何组织考试？是搞那种只包括几天前所教授内容的系列考试，还是每次考试都从考试前所教授的全部内容中提取一部分？考试是一个星期搞一次，还是每天搞一次？或者在每个教学单元结束时搞？所有这些都是实验设计涉及到的问题。如果农业科学家想知道某种人工肥料对小麦生长的效用，就要构建一个实验以取得效用估计时所需要的数据。

费歇尔表明，实验设计的第一步是建立一组数学公式，用以描述待搜集数据与欲估计结果之间的关系，因此，任何有用的实验必须是能够提供估计结果的。实验必须是有效的，能够让科学家测定出气候的差异和不同肥料的使用对产量差别的影响。特别是，有必要包括同一实验中打算加以比较的实验处理（treatments）,即那些后来被称为“控制组件”（controls）的东西。在他那本关于实验设计的书中，费歇尔提供了几个实验设计的范例，并导出优秀设计的一般原则。然而，费氏方法中所涉及到的数学非常复杂，多数科学家设计不了自己的实验，除非他们遵循费歇尔书中提出的实验设计中的某个模式。

农业科学家认识到费歇尔工作的伟大价值，在大多数说英语的国家中，费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发，用来论述不同实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域，包括医学、化学和工业质量管理。在许多案例中，所涉及的数学高深且复杂，但此时此刻，我们不妨停下来想想，科学家不可能不假思索地动手实验，这通常需要长时间的审慎思考，而且，其中通常会有大量的、高难的数学。至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中，那位女士怎样了呢？费歇尔没有描述这项实验的结果，但史密斯教授告诉我，那位女士竟然正确地分辨出了每一杯茶！

书目录：

第1章女士品茶

第2章偏斜分布

第3章可爱的戈塞特先生

第4章在“垃圾堆”中寻觅

第5章收成变动研究

第6章 “百年不遇的洪水”

第7章费歇尔获胜

第8章致命的剂量

第9章钟形曲线

第10章拟合优度检验

第11章假设检验

第12章置信诡计

第13章贝叶斯异论

第14章数学界的莫扎特

第15章 “小人物”之见解

第16章非参数方法

第17章当部分优于总体时

第18章吸烟会致癌吗？

第19章如果您需要最佳人选

第20章朴实的德克萨斯农家小伙

第21章家庭中的天才

第22章统计界的毕加索

第23章处理有瑕疵的数据

第24章重塑产业的人

第25章来自黑衣女士的忠告

第26章鞅的发展

第27章意向治疗法

第28章电脑随心所欲

第29章 “泥菩萨”

附：作者后记

大事年表

参考书目