粒子统计 Logistic回归超基础软件操作

 

SPSS做Logistic的简单操作,非常基础的教程...



闲话依旧要说,这是传统:

昨天的粒子统计发布之后,谢谢大家的建议,在下次的内容中我会改进的。其中有位朋友建议我增加些软件操作的演示,比如SAS的代码啊、R的代码啊之类的。我考虑了下,最后选了SPSS……因为这个系列的方法很基础,所以软件也选个基础些的吧,方便大家上手。文末我会给出SAS的结果作简单验证。

高能提醒:SPSS截图较多,请在WiFi下食用本文,土豪随意~

-----这也是传统!-----

讲操作比昨天轻松多了,我们先编造一个数据(因为手头的数据不能公开),然后用SPSS跑一边,关键步骤我会截图在文章中,最后我们来看一下SPSS结果的解读。嗯,今天的流程基本就是这样。

第一步,编数据。这个数据一共100个样本我就展示了前8个给大家看看形式~其中num是样本编号,这个不用管它。outcome是治疗效果,0表示无效,1表示有效,是随机生成的。gender是性别,0表示女性,1表示男性,也是随机生成的。age表示年龄,在区间[18,60]内随机生成。group是我们关心的变量,可以解释成治疗分组吧,0表示传统方法,1表示新方法,也是随机生成的。所以按理,我们会做出来P>0.05……(都是独立变量,能有啥关联啊真是)

我是一堆随机生成的数据


第二步,导入spss。这个我就不展示了吧,节约大家流量。从SPSS中可以直接打开Excel文件的,但如果大家的Excel文件比较大的话,建议先把数据清一下,不纳入分析的列先删掉,SPSS打开的效率真心有点懵。

第三步,跑Logistic。SPSS中Logistic所在的位置如图所示,可以看到目录中有3个Logistic:分别是二元、多项和有序,分别对应二分类因变量、无序多分类因变量和有序多分类因变量。我们这个数据因为outcome是0-1变量,所以选择二元Logistic。
图1


第四步,设置因变量、自变量以及变量筛选方法。点击二元Logistic菜单之后就会弹出来如下图所示的对话框。我们需要把因变量outcome选到因变量的框中,方法是从左侧列表中选择outcome,点击因变量边上的箭头,就可以了(图中我已经选好了,所以列表中没有outcome了,箭头也变成了灰色)。

然后我们把gender、age和group选入协变量框(方法和因变量类似)。要注意的是协变量框左侧箭头下方有个a*b的按钮,这个是用来告诉SPSS,所选的自变量要以交互项的形式纳入。例如,如果我们同时选中gender和group,点此按钮,在协变量框中会显示为gender*group。

最后我们选择方法,方法中“输入”的含义是SPSS不会过滤自变量,所有选择的自变量都被纳入方程中,即使P远大于0.05;如果选择其他向前/向后的6种方法,SPSS都会自动筛选自变量,没有统计学意义的自变量会被剔除(一般选向前有条件或者向后有条件就可以了)。

在自变量是否纳入方程有明确的理论依据情况下,个人推荐选择“输入”。因为SPSS剔除自变量的时候仅考虑是不是有统计学意义,而不会顾及理论解释(要是顾及了就可以干掉阿尔法狗了……)
图2


第五步,设置哑变量。关于哑变量我们还没仔细讨论过,不过这里操作可以先看一下。在因变量右边有个分类按钮,这个点一下就会弹出来如下对话框,我们只需要将无序多分类和有序等级(部分)变量选入进去,就可以自动设置哑变量(注意:SPSS中不是所有方法都能自动设置哑变量的,开发的也是比较任性)

哑变量因为都是多分类嘛,所以会涉及到哪一组作为对照的问题,SPSS提供了“最后一个/第一个”这两种选择(在协变量框的下面)。所谓最后一个就是取值最大的一组,第一个就是取值最小的一组。要提醒一句的是,默认进入的时候是“最后一个”,如果要改为第一个,需要点击第一个前面的小圆点,然后再点击更改~ 只点一下小圆点是没用的。
图3


我们的案例数据因为比较简单,都是二分类变量和连续变量,所以就不需要设置哑变量了。在第四步设置完成直接点击确定就可以了。计算结果如下所示。SPSS会给出好几张表,我们主要看最后一个Step中的这两张。第一张表给出了整个方程是否有意义,可以看到P值是0.345(看第一张表最后一列Sig.),说明这个方程是没有意义的。换句话说,所有自变量的系数都是0。

然后我们再看下面这张表,这张表给出了每个自变量系数的估计以及OR值,可以看到group的系数估计是-0.197(列B),系数的标准误是0.410(列S.E.),系数的P值是0.630(列Sig.),OR值为0.821(列Exp(B))。所以说,我们这个数据中group是没有统计学意义的。如果我们之前选了显示OR值的95%可信区间(图2的选项按钮中设置),会看到这个区间是包含1的。


图4
以上就是最简单的二分类Logistic回归的SPSS操作。结果和我们之前预想的一样,一堆随机数据肯定没意义嘛。最后我们直接给出SAS的运行结果验证一下,如下图。SAS过程我们就不展示了,可以看到两款软件运行的结果是完全一致的。


图5
好啦,今天主要的内容都讲完啦,是不是超简单。有序和多项Logistic回归的操作大同小异,大家可以自己点开试着玩玩,有一点需要提醒一下:在有序和多项Logistic中,SPSS将自变量进一步分成了两个框,因子(F)对应的是分类自变量,协变量(C)对应的连续性自变量。

(SPSS开发的真是比较任性,对话框就没个统一格式……)
长按下图并识别即可关注“蚂蚁数据”


欢迎转发,请注明出处


    关注 蚂蚁数据


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册