R语言第九讲-回归分析

 

先八卦下回归的起源~~再用我们的R进行回归分析~~...





首先来八卦一下回归这个词的起源,“回归”是由英国著名生物学家兼统计学家高尔顿在研究人类遗传问题时提出来的(也许大家对高尔顿这个名字比较陌生,但他表哥大家一定比较熟悉,表哥叫达尔文O(∩_∩)O)~~言归正传,为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个现象一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。高尔顿的实验是为了研究父代与子代身高的关系,这种关系反应了变量间的统计规律,而研究这类统计规律的方法之一就是回归分析啦,很有意思对不对~~

接下来我们从最简单的一元线性回归开始入坑吧!

其实回归分析主要是研究什么呢,简单地来说是四个问题:1)确定回归方程;2)对回归方程的可信度进行检验;3)判断自变量对因变量有无影响;4)利用所求得的回归方程进行预测和控制

那么还是来个栗子吧:

我们对102位长安CS75车主对该车销售点服务满意度进行了调查,包括总体满意度以及对销售点细分的各项满意度,将数据读入R程序中:



现在假设销售服务的总体满意度与销售店员的接待满意度成线性关系,即:y=β0+β1x1,其中β0为回归常数,β1为回归系数,统称为回归参数。在R软件中,与线性模型有关的函数有:lm(),summary(),anova()和predict(),接下来我们就用R来求解这个一元回归方程的回归参数,并作出相应的检验。



在上述的操作中,首先要有自变量x1和因变量y,函数lm()表示线性模型,模型公式是y~1+x1表示y=β0+β1x1,函数summary()是提取模型的计算结果。

结果分析:

(call)列出了相应的回归模型公式;

(Residuals)列出的是残差的最小值点,1/4分位点,中位数点,3/4分位点和最大值点;

(Coefficients)中:Estimate表示的是回归方程参数的估计,即我们要求的β0和β1的估计值,Std. Error表示回归参数的标准差,t value为t值,Pr(>|t|)表示P值,其中“***”说明极为显著,“**”说明高度显著,“*”说明显著,“.”说明不太显著,没有记号为不显著;

(Residual standard error):表示残差的标准差

(Multiple R-squared):相关系数的平方

(F-statistic):F统计量

从计算结果可以看出回归方程通过了回归参数的检验与回归方程的检验,因此可以得到回归方程:

y=5.0335+0.5434*x1,

即销售服务的总体满意度=5.0335+0.5434*销售店员的接待满意度。

当经过检验,回归方程有意义时,我们可以用它做预测和控制,当然栗子中的数据也许没有太大的实际意义,不过也还是可以说明点问题,当我们把所有对销售点细分的各项满意度与总体满意度都计算出来时,可以根据各项指标对总体满意度的影响大小分轻重来实行销售点的管理,以提升客户对销售点的总体满意度。

本周的分享到此结束,对我们的分享有建议或意见或问题的伙伴们欢迎加入我们的学习交流QQ群:219201219一起探讨,一起学习,谢谢大家~~

长按扫描二维码关注我们吧


    关注 易察咨询


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册