数据分析师统计学必知必会!

 

来源:数据蛙DataFrog阅读路线:概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验一...



来源:数据蛙DataFrog

阅读路线:

  • 概率介绍
  • 离散型概率分布和连续型概率分布
  • 抽样和抽样分布
  • 区间估计
  • 假设检验

一、概率介绍

概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。

1. 计数法则

1.1 多步骤试验的计数法则

如果一个试验可以分为循序的k个步骤,在第1步中有N1种试验结果,在第2步中有N2种试验结果...以此类推。那么所有的试验结果的总数为N1*N2*N3...*Nk。
举例:抛两枚硬币,第一枚有正反两种结果,第二枚有正反两种结果。所以试验结果的总数是 2X2=4

1.2 组合计数法则

从N项中任取n项的组合数
N和n的上下位置与我们平常见的是相反的。因为我们这里是以欧美规范为主。

举例子:从5个彩色球中,选出2个彩球,有多少种选法?
1.3 排列计数法则

从N项中任取n项的排列数
举例子:从5个彩色球中,选出2个彩球,有多少种排列方法?
代入得出答案是20种

2. 事件及其概率

2.1 事件

其实事件为样本空间的一个子集,通常,如果能确定一个试验的所有样本点并且能够知晓每个样本点的概率,那么我们就能求出事件的概率。



2.2 概率的基本性质

事件A的补:指的是所有不包含在事件A中的样本点所以事件A发生的
概率 P(A)=1-P(A-)

事件的组合:并和交



两个圆形区域所在的部分就是事件A和B的并,其中重叠的部分说明有一些样本点即属于A又属于B,它可以称之为交。

得出加法公式为:

P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是两个圆形面积,P(A)是蓝色圆面积,P(B)是橙色圆面积,当两者相加时,会多出一块重叠区域,于是减去P(A∩B)进行修正,得出正确的结果。

如果某个事件A发生的可能性受到另外一个事件B的影响,此时A发生的可能性叫做条件概率,记作P(A|B)。表明我们是在B条件已经发生的条件下考虑A发生的可能性,统计学中称为给定条件B下事件A的概率。
进而又得出了乘法公式:
2.3 贝叶斯定理

简单的来讲,贝叶斯定理其实就是,我们先假设一个事件发生的概率,然后又找到一个信息,最后得出在这个信息下这一事件发生的概率。举一个我们生活中的例子,当我们和一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率为a,然后我们根据和他交谈的信息,得出对他新的认识,重新判断他做坏事的概率b。

贝叶斯就是阐述了这么一个事实:

新信息出现后B的概率=B的概率 X 新信息带来的调整

如果当直接计算P(A)较为困难时,而P(Bj),P(A|Bj) (j=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。

思想就是:将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn, 每一Bj发生都可能导致A发生相应的概率是P(A|Bj),由加法公式得



P(A)=P(AB1)+P(AB2)+....+P(ABn)

=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)
所以调整后的贝叶斯公式为:
离散型概率分布和连续型概率分布

概率中通常将试验的结果称为随机变量。随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。相对应的,有离散型概率分布和连续型概率分布。

2.4 数学期望和方差

数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说,它是概率中的平均值。
方差随机变量的变异性或者是分散程度的度量。
其中的u就是E(x)。

2.5 离散型概率分布

二项概率分布

二项分布是一种离散型的概率分布。故明思义,二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。

除了结果的规定,它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同,为1-p。每次试验必须相互独立,该试验也叫做伯努利试验,重复n次即二项概率。掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式
且二项概率的数学期望为E(x) = np,方差Var(x) = np(1-p)。

泊松概率分布

泊松概率是另外一个常用的离散型随机变量,它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。

泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。

泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限,x取值可以无限大,只是可能性无限接近0,f(x)的最终值很小。

x代表发生x次,u代表发生次数的数学期望,概率函数为:
其中泊松概率分布的数学期望和方差是相等的。

连续型概率分布

上述分布都是离散概率分布,当随机变量是连续型时,情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率,而连续随机变量不行,它的取值是可以无限分割的,它取某个值时概率近似于0。

连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。

均匀概率分布

随机变量x在任意两个子区间的概率是相同的。

均匀概率密度函数
数学期望
方差
正态概率分布

正态概率分布是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。

正态分布如同一条钟形曲线。中间高,两边低,左右对称。想象身高体重、考试成绩,是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。
正态概率密度函数为:
u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。

一个正态分布的经验法则:
正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。



均值u=0,标准差σ=1的正态分布叫做标准正态分布。它的随机变量用z表示,将均值和标准差代入正态概率密度函数,得到一个简化的公式:
为了计算概率需要学习一个新的函数叫累计分布函数,它是概率密度函数的积分。用P(X


    关注 大数据公社


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册