样本标准差抽样

【统计学】貌合神离的标准差与标准误

作者：冯国双来源:小白学统计标准差和标准误是不少统计初学者难以区分的两个概念，以前我曾看到有的医学统计...

作者：冯国双来源:小白学统计

标准差和标准误是不少统计初学者难以区分的两个概念，以前我曾看到有的医学统计学教科书中在第一次介绍标准误的时候，说“样本均数的标准误是样本均数的标准差”，现在回想起来，我仍然在想，还有比这更无耻的解释吗？你到底想不想让学生看明白？其实标准误和标准差并不是很难区别，只是不知道为什么书上总是不喜欢讲清楚。尽管统计教科书上也分别介绍了二者的区别，而且还将其作为考试重点，但净是说些不疼不痒的话，让人摸不着头脑。本文主要从理解的角度来介绍一下二者的概念。

先说简单的概念标准差。标准差反映了数据的波动情况，标准差越大，表明数据之间差别越大。如下面的左图反映了均数为10、标准差为3的情形；右图反映了均数为10、标准差为6的情形。两个图形一对比，你就可以发现，右图比左图波动程度大得多。这就是标准差的直观含义。

再说标准误。用一个例子来说一下，假设某一学校有1000名学生（将其作为一个总体），欲了解全校学生身高，随机抽取了100人，这100人的身高的波动范围就是标准差。这个标准差反映了在一次抽样中原始数据的波动情况。如果我们做了多次抽样，比如我抽了10次，每次仍然是100人，这样就有10个样本，每个样本中都是100人（注意：一次抽样叫做一个样本，你在一次抽样中抽取了100人，不能说你有100个样本，而是你有一个样本，样本中是100个人）。

对于抽取的10个样本，每个样本都可以计算一个均值，这样10个样本就可以计算出10个均值。将这10个均值作为原始数据，仍然可以计算出均值和标准差，这里的标准差就是标准误，它是用10个均值计算的，而标准差是用一次样本中的原始数据计算的。

所以，标准差反映的是一个样本中原始数据的波动情况，而标准误反映的是多个样本之间的波动情况。不难想象，如果样本之间波动小，可以理解为抽取的样本的代表性可能比较好，因为每次抽取计算的均值都差不多。所以可以用标准误来反映抽样误差的大小，如果标准误比较大，提示可能抽样误差较大，也就是说样本的代表性可能不好，抽取的样本有偏。反之，说明抽样误差比较小。

所以，其实如果非要说标准差和标准误的区别，最实质的地方至少是两点：一是针对计算的对象不同，标准差是根据一次抽样的原始数据计算的，而标准误是根据多次抽样的样本统计量（可以是均值，也可以是率等）计算的。二是标准差只是一个描述性指标，只是描述原始数据的波动情况，而标准误是跟统计推断有关的指标，大多数的统计量计算都需要用到标准误。

为什么不少医学统计学教材中都说“样本均数的标准误是样本均数的标准差”这么让人抓狂的概念呢？因为大多数在介绍标准误的时候，都是在t检验那一章介绍的，所以就只提到均数。实际上，标准误不是均数独有的。像刚才例子中，如果我们不是调查身高，而是调查饮酒率，那么如果重复抽取10次样本，计算的标准误就是率的标准误。所以，如果真要严格定义，应该说标准误是“样本统计量的标准差”更加合适，而不是非要局限于均数或率等。而标准差是“样本原始数据的标准差”。

还有一个很实际的问题，可能有的人会说，实际中怎么可能多次抽样呢？不错，实际中的确很难做到多次抽样，我们通常只能抽取一次。但是我们仍然可以根据抽取一次的样本的原始数据计算标准误。这也就是统计书中给出的标准误的计算公式，即标准差/例数的平方根。已经有统计学家都研究过了，用这个公式是有道理的，是可以代表样本之间的波动情况的。

很多统计量都跟标准误有关，以简单的t检验为例，可能以前有的人都没有注意过。仔细观察一下就可以发现，t检验统计量的分子是两组样本数据的均值差值，反映了样本数据的差异；分母是标准误，反映了抽样误差。所以t检验反映了什么呢？其实就是看到底是抽样误差大还是真实差异大。如果分母的抽样误差大，那就说明结果可能不可靠，所以P值就会比较大；如果分子的差异大，说明抽样误差造成这种差异的可能性不大，所以P值就会比较小。

我想，如果统计老师能够在课堂上多解释一下这些内容，而不是简单地照本宣科，我想可能统计学就不会这么让学生头疼了。