偏最小二乘回归(PLSR)- 2 标准算法(NIPALS)
2013-10-30 10:02
405 查看
1 NIPALS 算法
Step1:对原始数据X和Y进行中心化,得到X0和Y0。从Y0中选择一列作为u1,一般选择方差最大的那一列。 注:这是为了后面计算方便,如计算协方差时,对于标准化后的数据,其样本协方差为cov(X,Y)=XTY/(n-1)。
Step2:迭代求解X与Y的变换权重(w1,c1)、因子(u1,t1),直到收敛
step 2.1:利用Y的信息U1,求X的变换权重w1(w1实现有X0到因子t1的变换,t1=X0*w1)及因子t1。从而将X0的信息用t1来近似表达。
(2.1)
(2.2)
(2.3)
Step2.2:利用X的信息t1,求Y的变换权重c1(c1实现有Y0到因子u1的变换,u1=Y0*c1),并更新因子u1。从而将Y0的信息用t1来近似表达。
(2.4)
(2.5)
Step2.5:判断是否已找到合理解
(2.7)
若
<阈值(如
)则继续下面步骤;否则,取
,返回step2.1。
注:
1)以上过程的意义及其收敛性的直观分析
a)公式2.1,实际上求解了由Y的因子u1到X的回归模型的系数
,公式2.2与2.3将X映射为第一个因子t1。
b)同理,公式2.4,实际上求解了由X的因子t1到Y的回归模型的系数,公式2.5与2.6将X映射为第一个因子t1。
c)这里交替建立X与Y直接回归关系的方式,通常会很快收敛。
2)w1与c1的其他求法。[2,3]中已经证明以上求解过程收敛后找到的解w1与c1可以利用矩阵分析方法找到
a)特征值分解方法(Eigen Value Decomposition):w1是
的最大特征值的单位特征向量,c1是
的最大特征值的单位特征向量,
b)SVD分解法(singular vector decomposition):w1和c1分别于对X0TY0进行SVD分解获得的第一对左奇异向量(left singular vector)和右奇异向量的单位
向量。
Step3:求X与Y的残差矩阵
1)以上过程的意义及其收敛性的直观分析
a)公式2.1,实际上求解了由Y的因子u1到X的回归模型的系数
,公式2.2与2.3将X映射为第一个因子t1。
b)同理,公式2.4,实际上求解了由X的因子t1到Y的回归模型的系数,公式2.5与2.6将X映射为第一个因子t1。
c)这里交替建立X与Y直接回归关系的方式,通常会很快收敛。
2)w1与c1的其他求法。[2,3]中已经证明以上求解过程收敛后找到的解w1与c1可以利用矩阵分析方法找到
a)特征值分解方法(Eigen Value Decomposition):w1是
的最大特征值的单位特征向量,c1是
的最大特征值的单位特征向量,
b)SVD分解法(singular vector decomposition):w1和c1分别于对X0TY0进行SVD分解获得的第一对左奇异向量(left singular vector)和右奇异向量的单位
向量。
Step3:求X与Y的残差矩阵
step 3.1:求X的载荷(X-loading)p1(p1反映X0与因子t1的直接关系,
)
注:前面求得X的变换权重w1是由X0到t1的关系,此处的p1是由t1到X0的关系。而且,由于后续的Wi(i>1)是根据Xi的残差求得的,因此它无法反映T到X0的关系。所以,才要求出P以直接反映T到X0的关系)
)
注:前面求得X的变换权重w1是由X0到t1的关系,此处的p1是由t1到X0的关系。而且,由于后续的Wi(i>1)是根据Xi的残差求得的,因此它无法反映T到X0的关系。所以,才要求出P以直接反映T到X0的关系)
(2.8)
p1求解公式的推导如下
a)前面已求出t1,现在希望用t1来表达X0,建立回归模型
b)模型不能表达的信息即为X0的残差矩阵X1。
c)上式的关键是求p1,其求解公式推导过程:对
转置得
,两边右乘t1有
,从而有
注:p1代表因子t1在X上的载荷(loadings),它反映了原始变量X与第一个因子向量t1间的关系。
step 3.2:求X0的残差X1。此残差表达了u1所不能反映的X0中的信息。
(2,9)
step 3.3:求Y的载荷(Y-loading)q1(q1反映Y0与因子U1的关系,
)
(2.10)
step 3.4:建立X因子t1与Y因子u1间的回归模型
,用t1预测u1的信息。
(2.11)
step 3.5:求Y0的残差Y1。此残差表达了X因子t1所不能预测的Y0中的信息
(2.12)
注:这里利用
,建立t1与Y间的关系。
Step4:利用X1与Y1,重复上面步骤,求解下一批PLS参数(因子、转换权重、载荷、回归系数等)。b)模型不能表达的信息即为X0的残差矩阵X1。
c)上式的关键是求p1,其求解公式推导过程:对
转置得
,两边右乘t1有
,从而有
注:p1代表因子t1在X上的载荷(loadings),它反映了原始变量X与第一个因子向量t1间的关系。
step 3.2:求X0的残差X1。此残差表达了u1所不能反映的X0中的信息。
(2,9)
step 3.3:求Y的载荷(Y-loading)q1(q1反映Y0与因子U1的关系,
)
(2.10)
step 3.4:建立X因子t1与Y因子u1间的回归模型
,用t1预测u1的信息。
(2.11)
step 3.5:求Y0的残差Y1。此残差表达了X因子t1所不能预测的Y0中的信息
(2.12)
注:这里利用
,建立t1与Y间的关系。
在这个算法中,当一个因子计算出来后,进一步计算出X(及Y)的残差。下一个因子是从当前残差矩阵计算出来,因此PLS模型参数(因子scores,loadings, weights)与最初的X0无关,而是与残差有关。
2 NIPALS-PLS 参数的理解
1)变换权向量w在第二轮及以后的计算过程中,权向量wa将残差Xa-1变换为因子得分ta,而不是对原始预处理后的数据X0直接进行变换,这阻碍了对于因子的有效解释。实际上,权向量在PLS回归模型中的解释中用处不大。
2)构建X0到T直接联系的权向量R
,
PLS算法执行完成后,我们得到所有的因子t,那么我们就可以直接建立原始数据X0与其之间的转换权重矩阵R。其实R就是由X0到T的回归系数,其计算公式为
3 NIPALS-PLS 的预测过程
当完成PLS模型构建后,我们得到的PLS模型参数包括: 1)转换权重:W(X-weights),C(Y-wights)
2)因子得分:T(X-factor scores),U(Y-factor scores)
3)载荷:P(X-loadings),Q(Y-loadings)
2)因子得分:T(X-factor scores),U(Y-factor scores)
3)载荷:P(X-loadings),Q(Y-loadings)
当来了一条新数据
,其预测计算过程如下
1)预处理:
。注:预处理方法与建模时保持一致,这里公式采用中心化处理方法。
2)依次求出求
的各因子和残差
3)计算预测值
上面是由T到Y预测值的回归方程,而不是由X0到Y预测值的回归方程。如果在PLS建模过程中获得第2节中介绍的可将X0直接转换为T的权重R,那么就能获得一个针对X0的更直接的回归公式。
。注:预处理方法与建模时保持一致,这里公式采用中心化处理方法。
2)依次求出求
的各因子和残差
3)计算预测值
上面是由T到Y预测值的回归方程,而不是由X0到Y预测值的回归方程。如果在PLS建模过程中获得第2节中介绍的可将X0直接转换为T的权重R,那么就能获得一个针对X0的更直接的回归公式。
,回归系数
参考文献
[1] S. de Jong. SIMPLS: an alternative approach to partial least squares regression. Chemometrics and Intelligent Laboratory Systems, 18:251–263, 1993.
[2] R. Manne. Analysis of Two Partial-Least-Squares Algorithms for Multivariate Calibration. Chemometrics and Intelligent Laboratory Systems, 2:187–197, 1987.
[3] A. H¨oskuldsson. PLS Regression Methods. Journal of Chemometrics, 2:211–228,1988.
[4]
相关文章推荐
- 偏最小二乘回归(PLSR)- 2 标准算法(NIPALS)
- 偏最小二乘回归(PLSR)算法原理
- 偏最小二乘回归(PLSR)算法原理
- PLSR(偏最小二乘回归浅析)
- 偏最小二乘回归分析建模步骤的R实现(康复俱乐部20名成员测试数据)+补充pls回归系数矩阵的算法实现
- 回归学习算法---偏最小二乘回归、PCA降维与理论
- Lasso回归优化算法: 坐标轴下降法与最小角回归
- 偏最小二乘回归(PLSR)- 1 概览
- [置顶] 局部加权回归、最小二乘的概率解释、逻辑斯蒂回归、感知器算法——斯坦福ML公开课笔记3
- 局部加权回归、最小二乘的概率解释、逻辑斯蒂回归、感知器算法——斯坦福ML公开课笔记3
- Python偏最小二乘回归(PLSR)测试
- 应用偏最小二乘回归(PLSR)对NIR光谱与样本中RON含量进行定量分析
- 蓝桥杯算法训练——最小乘积(基本型)
- 最小生成树算法(Kruskal算法)
- 数据结构与算法问题 sdut oj 2144 最小生成树
- 最小生成树之克鲁斯卡尔(Kruskal)算法、普里姆(prim)算法
- CRC16常见几个标准的算法及C语言实现
- 算法:求比指定数大且最小的“不重复数”问题的高效实现
- 二叉查找树的查找,插入,最大/最小值查找,前驱/后续查找,删除算法[java]