变量回归分类

小议Logistic回归模型

微信订阅号“SPSS实战案例”授权发布，欢迎扫描文末二维码关注！【关注度、流行趋势】Logistic...

微信订阅号“SPSS实战案例”授权发布，欢迎扫描文末二维码关注！

【关注度、流行趋势】

Logistic回归是分类资料回归分析的一种，而且是最基础的一种。Logistic回归应用广泛、关注度较高，在医学研究、市场研究等方面比较流行。下图是CNKI学术搜索给出的学术关注度，可见其被广泛关注应用程度和时间序列的关系。

【主要特征】

Logistic回归模型有几个显著的特征，

其一，因变量是分类变量，而我们经常看到的回归分析因变量一般为连续变量，比如，“是否购买”变量取值只有两个状况，购买或者不购买，这类问题正是logistic回归所涉及的；

其二，某事件发生概率P进行logit变换，则logit P取值范围将与“是否购买”“是否发病”等因变量的取值一致，此时，可以用logit P作为因变量进行回归；

其三，可以预测某事件发生某种状况的概率，logistic回归模型之所以如此受关注，也是基于其比其他回归模型更符合实际情况；

【主要应用领域】

1、影响因素、危险因素分析

主要在流行病学中应用较多，比较常用的情形是探索某疾病的危险因素，也即影响因素分析。包括从多个可疑影响因素中筛选出具有显著影响的因素变量，还包括仅考察某单一因素是否为影响某一事件发生与否的因素。

2、预测是否发生、发生的概率

如果已经建立了logistic回归模型，则可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。

3、判别、分类

实际上跟预测有些类似，也是根据logistic模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

【logistic回归模型的应用条件】

以下内容分享自网易卫生统计学博主，感谢博主精彩的内容。以下为原文：

logistic回归与多重线性回归一样，在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归，有些条件仍然是需要考虑的。

首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中，要求自变量与因变量符合线性关系。而logistic回归则不同，它要求的是自变量与logit（y）符合线性关系，所谓logit实际上就是ln（P/1-P）。也就是说，自变量应与ln（P/1-P）呈线性关系。当然，这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了，因为两点永远是一条直线。

这里举一个例子。某因素y与自变量x之间关系分析，y为二分类变量，x为四分类变量。如果x的四分类直接表示为1，2，3，4。则分析结果为p=0.07，显示对y的影响在0.05水准时无统计学意义，而如果将x作为虚拟变量，以1为参照，产生x2，x3，x4三个变量，重新分析，则结果显示：x2，x3，x4的p值分别为0.08，0.05和0.03。也就是说，尽管2和1相比无统计学意义，但3和1相比，4和1相比，均有统计学意义。

为什么会产生如此结果？实际上如果仔细分析一下，就可以发现，因为x与logit（y）并不是呈线性关系。而是呈如下图的关系：

这就是导致上述差异的原因。从图中来看，x的4与1相差最大，其次是2，3与1相差最小。实际分析结果也是如此，上述分析中，x2，x3，x4产生的危险度分别为3.1，2.9，3.4。

因此，一开始x以1，2，3，4的形式直接与y进行分析，默认的是认为它们与logit（p）呈直线关系，而实际上并非如此，因此掩盖了部分信息，从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式，由于虚拟变量都是二分类的，我们不再需要考虑其与logit（p）的关系，因而显示出了更为精确的结果。

最后强调一下，如果你对自变量x与y的关系不清楚，在样本含量允许的条件下，最好转换为虚拟变量的形式，这样不至于出现太大的误差。

如果你不清楚应该如何探索他们的关系，也可以采用虚拟变量的形式，比如上述x，如果转换的虚拟变量x2，x3，x4他们的OR值呈直线关系，那x基本上可以直接以1，2，3，4的形式直接与y进行分析。而我们刚才也看到了，x2，x3，x4的危险度分别为3.1，2.9，3.4。并不呈直线关系，所以还是考虑以虚拟变量形式进行分析最好。

总之，虚拟变量在logistic回归分析中是非常有利的工具，善于利用可以帮助你探索出很多有用的信息。

【logistic回归所需的样本量】

同上，摘自卫生统计学

一般来说，简单的研究，比如组间比较，包括两组和多组比较，都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究，比如多重线性回归、logistic回归之类的，涉及多个因素。这种方法理论上也是有计算公式的，但是目前来讲，似乎尚无大家公认有效的公式，而且这些公式大都计算繁琐，因此，现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。

其实关于logistic回归的样本量在部分著作中也有提及，一般来讲，比较有把握的说法是：每个结局至少需要10例样品。这里说得是每个结局。例如，观察胃癌的危险因素，那就是说，胃癌是结局，不是你的总的例数，而是胃癌的例数就需要这么多，那总的例数当然更多。比如我有7个研究因素，那我就至少需要70例，如果你是1：1的研究，那总共就需要140例。如果1：2甚至更高的，那就需要的更多了。

而且，样本量的大小也不能光看这一个，如果你的研究因素中出现多重共线性等问题，那可能需要更多的样本，如果你的因变量不是二分类，而是多分类，可能也需要更大的样本来保证你的结果的可靠性。

理论上来讲，logistic回归采用的是最大似然估计，这种估计方法有很多优点，然而，一个主要的缺点就是，必须有足够的样本才能保证它的优点，或者说，它的优点都是建立在大样本的基础上的。一般来讲，logistic回归需要的样本量要多于多重线性回归。

最后仍然需要说一句，目前确实没有很好的、很权威的关于logistic回归样本量的估计方法，更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握，就去请教统计老师吧，至少他能给你提出一些建议。

您的支持是我们写作的动力，各位小伙伴记得分享本文，以帮助更多的朋友哦。

【“一起学SPSS”倾情整理统计学习资源包】

内含《SPSS常用统计分析教程（SPSS 22.0中英文版)（第4版）》配套免费电子书及数据文件；各种统计及数据管理免费软件；各种统计学习素材。（不定期更新）

注：资源包提供部分免费工具和试用版软件下载，但不提供盗版软件。见谅！

【资源包下载方法】

回复关键词“SPSS”即可获取下载地址。

回复“文章”或“art”可获取订阅号文章目录。

投稿邮箱：mchgz@163.com

凡与医学科研、统计相关的文章，都可以给小编发来！

文章会默认给作者署名，如有需作者简介等要求，请在投稿邮件中注明。