变量协方差回归

高频引用次数系列论文· PLS-regression：a basic tool of chemometrics

偏最小二乘回归（Partialleastsquaresregression，PLS回归）是一种统计学...

偏最小二乘回归（Partial least squares regression， PLS回归）是一种统计学方法，与主成分回归有关系，但不是寻找响应和独立变量之间最小方差的超平面，而是通过投影预测变量和观测变量到一个新空间来寻找一个线性回归模型。因为数据X和Y都会投影到新空间，PLS系列的方法都被称为双线性因子模型。

偏最小二乘来源于瑞典统计学家Herman Wold，然后由他的儿子Svante Wold发展。偏最小二乘的另一个词（根据Svante Wold）是投影到潜在结构，但偏最小二乘法依然在许多领域占据着主导地位。尽管最初的应用是在社会科学中，偏最小二乘回归今天被广泛用于化学计量学和相关领域。它也被用于生物信息学，sensometrics，神经科学和人类学。相比之下，偏最小二乘路径建模最常用于社会科学、计量经济学、市场营销和战略管理。

首先，明确一个概念，【协方差】。协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。

方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来，质量因子是可以人为控制的。

回归分析是从数量因子的角度出发，通过建立回归方程来研究实验指标与一个(或几个)因子之间的数量关系。但大多数情况下，数量因子是不可以人为加以控制的。

两个不同参数之间的方差就是协方差！若两个随机变量X和Y相互独立，则E[(X-E(X))(Y-E(Y))]=0，因而若上述数学期望不为零，则X和Y必不是相互独立的，亦即它们之间存在着一定的关系。

定义：

E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差，记作COV(X,Y)，即COV(X,Y)=E[(X-E(X))(Y-E(Y))]。

协方差与方差之间有如下关系：

D(X+Y)=D(X)+D(Y)+2COV(X,Y)

D(X-Y)=D(X)+D(Y)-2COV(X,Y)

因此，COV(X，Y)=E(XY)-E(X)E(Y)

定义：

设X和Y是随机变量，若E(X^k)，k=1，2，...存在，则称它为X的k阶原点矩，简称k阶矩。

若E{[X-E(X)]^k}，k=1，2，...存在，则称它为X的k阶中心矩。

若E(X^kY^l)，k、l=1，2，...存在，则称它为X和Y的k+l阶混合原点矩。

若E{[X-E(X)]^k[Y-E(Y)]^l}，k、l=1，2，...存在，则称它为X和Y的k+l阶混合中心矩。

显然，X的数学期望E(X)是X的一阶原点矩，方差D(X)是X的二阶中心矩，协方差COV(X,Y)是X和Y的二阶混合中心矩。

协方差是关于如何调节协变量对因变量的影响效应，从而更加有效地分析实验处理效应的一种统计技术，也是对实验进行统计控制的一种综合方差分析和回归分析的方法。当研究者知道有些协变量会影响因变量，却不能够控制和不感兴趣时（当研究学习时间对学习绩效的影响，学生原来的学习基础、智力学习兴趣就是协变量），可以在实验处理前予以观测，然后在统计时运用协方差分析来处理。

将协变量对因变量的影响从自变量中分离出去，可以进一步提高实验精确度和统计检验灵敏度。

方差是用来度量单个变量 “自身变异”大小的总体参数，方差越大，该变量的变异越大；

协方差是用来度量两个变量之间 “协同变异”大小的总体参数，即二个变量相互影响大小的参数，协方差的绝对值越大，二个变量相互影响越大。

对于仅涉及单个变量的试验资料，由于其总变异仅为“自身变异”（如单因素完全随机设计试验资料，“自身变异”是指由处理和随机误差所引起的变异），因而可以用方差分析法进行分析；

对于涉及两个变量的试验资料，由于每个变量的总变异既包含了“自身变异”又包含了“协同变异”（是指由另一个变量所引起的变异），须采用协方差分析法来进行分析，才能得到正确结论。

偏最小二乘回归 ≈ 多元线性回归分析＋典型相关分析＋主成分分析

与传统多元线性回归模型相比，偏最小二乘回归的特点是：

能够在自变量存在严重多重相关性的条件下进行回归建模；
允许在样本点个数少于变量个数的条件下进行回归建模；
偏最小二乘回归在最终模型中将包含原有的所有自变量；
偏最小二乘回归模型更易于辨识系统信息与噪声（甚至一些非随机性的噪声）；
在偏最小二乘回归模型中，每一个自变量的回归系数将更容易解释。

在计算方差和协方差时，求和号前面的系数有两种取法：当样本点集合是随机抽取得到时，应该取1/(n-1)；如果不是随机抽取的，这个系数可取1/n。

长期以来，模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了，在一个算法下，可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面：

偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。

偏最小二乘法之所以被称为第二代回归方法，还由于它可以实现多种数据分析方法的综合应用。

主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息，然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量，噪音将被消除，从而达到改善预测模型质量的目的。但是，主成分回归仍然有一定的缺陷，当一些有用变量的相关性很小时，我们在选取主成分时就很容易把它们漏掉，使得最终的预测模型可靠性下降，如果我们对每一个成分进行挑选，那样又太困难了。

偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法，从变量X和Y中同时提取成分(通常称为因子)，再将因子按照它们之间的相关性从大到小排列。现在，我们要建立一个模型，我们只要决定选择几个因子参与建模就可以了。

PLS-regression-a basic tool ofchemometrics由Svante Wold等人于2001年10月28日在Chemometrics and intelligent laboratory systems杂志上首发，据Google Scholar统计，到目前为止已经该文章的引用次数已达4006次。