干货 用一个例子讲清统计学若干概念

 

小编就快小测验了,你呢?...

-1-
小杨想了解上海对外经贸大学学生英语水平的总体情况。

假设她通过各种渠道,最终获得了上贸大的所有学生的英语四级的成绩。

然而,她所获得的其实也不过是几千个,近一万个数而已,并没有办法直观地反映上贸大学生的情况,因此,需要对数据进行处理,通过几个指标来显示。于是,就有了均值、方差、偏态、丰态等概念。
-2-
但是,在现实情况中,要调查取得上贸大所有学生的四级成绩需要耗费巨大的时间和精力,对于小杨而言近乎是不可能完成的事情。

因此,她只能退而求其次,在所有上贸大学生中抽取一部分人,以他们的四级成绩的情况来反映整个上贸大的学生的四级成绩的情况。

假设现在小杨抽样调查了49人的英语四级成绩,如图所示:
(文中所涉及的四级成绩纯属杜撰)

现在,通过这49个数据可以计算出这49个人的四级水平的平均数、方差等指标。换句话说,不依赖任何总体参数,当这49个人的四级成绩确定的时候就能够算出这些指标。这就是统计量的概念。

经计算,
样本平均数是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。并且,当总体服从正态分布或者样本量n≥30时,样本平均数的抽样分布仍是正态分布:
同理,样本方差等别的统计量也会服从一个抽样分布。
-3-
现在,小杨需要通过计算出的样本均值和样本标准差对贸大学生四级总体水平进行估计。

她首先想到的是把统计量的值直接作为总体水平的估计值。但是这种方法的缺点在于,点估计值与总体参数往往存在差异,并且这个值与总体参数究竟相差多少,这个数值有多可靠,仅通过一个计算得出的值无法得到衡量
因此,现在一般会根据给定的置信度水平构造置信区间。
在小杨的例子中,样本量n=50>30,因此无论总体是否服从正态分布都可以使用Z统计量构造置信区间:
因此在95%置信度水平下的置信区间为(487.37,525.37)。
-4-
小杨发现,虽然这一置信区间的置信度水平是95%,但这并不说明实际的总体均值就一定落在这个区间内,甚至不能说总体均值落在这一区间的概率是95%,因为这仅仅是一次抽样,如果能知道总体均值的数值,就能不论均值有没有落在这个区间内,都是一个确定的事件,不涉及概率。

她只能知道,在100次抽样中,总体的均值有95次落在由这一次抽样所构造出来的置信区间内。

小杨这才发现,原来自己对于统计学的理解还不够透彻,还需要去励学堂听听讲师的授课。
期 中 励 学 堂 即 将 开 课

敬 请 关 注 后 续 推 送
另外,临近期中,小编为大家准备了统计学的复习资料,点击下方阅读原文即可获取。
小  杨  系  列
干货 | 用易懂的话解释难懂的微经
往  期  回  顾
测评 | 地表最强奶盖

攻略 | 微积分新手攻略

安利 | 什么都不想做的时候,可以玩什么游戏?


    关注 CECsuibe


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册