主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取过程,直到所提取的信息与原指标相差不多时为止。主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。主成分回归是在主成分分析法的基础上,由m1个自变量选出前q个主成分,他们是互不相关的;在保持因变量不变,用这q个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。
2数学模型与几何解释
主成分分析的数学模型是,设p个变量构成p维随机向量为X1,X2,...,Xp。对X作正交变换,令YTTX,其中T为正交阵,要求Y的各分量是不相关的,并且Y的第一个方差是最大的,第二个分量的方差次之,……。为了保持信息不丢失,Y的各分量方差与X的各分量方差和相等。其数学推导为:
设XX1,X2,,XpT为一个p维随机向量,并假定存在二阶
矩,其均值向量与协方差分别记为
E(X),D(X)
考虑如下的线性变换
Y1t11X1t21X2...tp1Xp Y2t12X1t22X2...tp2Xp ……
Ypt1pX1t2pX2...tppXp 用矩阵表示为
YTTX
其中,YY1,Y2,,YPT;TT1,T2,,TP。 满足如下条件:
每个主成分的系数平方和为1。即||Ti||1。 主成分之间相互独立,即无重叠信息。即
CovYi,Yj0,ij,i,j1,2,...,p
主成分的方差依次递减,重要性依次递减,即
Var(Y1)Var(Y2)Var(Yp)
2.3 主成分分析的性质及推导
(1) 第一主成份的推导: 设X
12122212的协方差阵为Σxp1p21p2p2p
由于Σx为非负定的对称阵,则有利用线性代数的知识可得,
1必存在正交阵T使得TTΣXT00其中1,2,p,p为X的特
征根,不妨假设12p。而T恰好是由特征根相对应的特征
向量所组成的正交阵。T(t1,Tit1i,t2i,,tpit11t12tt2221,tp)tp1tp2t1pt2pn tpp i1,2,,P
设有P维正交向量
a1a11,a21,,ap1Y1a11X1...ap1Xpa'X
12T'a a1a1TVar(Y1)a11p12'a1u1,u2,...,upu1'u2a ...1'pup1(ati)1atit'ia1aTT'a1
2i1i1pp'a'tta=(a't)i'iiiii1i1pp2Y1t11X1tp1Xp当且仅当a1t1时,即 时,有最大的方差
1。因为
Var(Y1)T1' xT11。
如果第一主成分表达的信息不够,则须找第二主成分。 (2)第二主成分:
因为第一,第二主成分线性无关所以有条件cov(Y1,Y2)0,寻找
第
二
主
成
分
。
Y2t12X1...tp2Xp,因为
cov(Y1,Y2)cov(t'1x,t'2x)t'2t11t'2t10所以t'2t10。则对p维向量t2有Var(Y2)t'2t2it'2tit'it2i(t'2ti)2
i1pi1pp2(t'2ti)2t'2tit'it22t'2TT't22t'2t22。
2i2i1p所以取线性变换Y2t12X1t22X2tp2Xp,则Y2方差次大。依次类
Y1t11X1t21X2tp1Xp推
Y2t12X1t22X2tp2XpYpt1pX1t2pX2tppXp
矩阵形式为 YTTX。 2.3.2 主成份性质:
性质1 主成分的协方差矩阵是对角阵。 性质2 主成分的总方差等于原是变量的总方差。
ktki 性质3 主成分Yk与原是变量Xi的相关系数为(Yk,Xi)ii并称之为因子负荷量。
性质4 i(.k..,2,12(Yk,Xi)iik,1样本主成分性质:
1、第k个主成分Yk的系数向量是第k个特征根k所对应的标准化特征向量。
2、第k个主成分的方差为第k个特征根k,且任意两个主成分都是不相关的,也就是Y1,Y2,...,Yp的样本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为p 4、第k个样本主成分与第j个变量样本之间的相关系数为:
p。 p)
(Yk,Xi)k。 tki (因子载荷量)
ii2.4主成分的方差贡献率
主成分分析把p个原始变量X1,X2,...,Xp的总方差tr()分解成了p个相互独立的变量Y1,Y2,...,Yp的方差之和k主成分分析的目k。1的是减少变量的个数,所以一般不会使用所有p个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称kkk为第k个主成分Yk的贡献率。第一主成分的
k1pp贡献率最大,这表明Y1T1'X综合原始变量X1,X2,...,Xp的能力最强,而Y1,Y2,...,Yp的综合能力依次递减。若只取m个主成分,则称
mkk1mk1k为主成分Y1,Y2,...,Yp的累计贡献率,累计贡献率表明
pY1,Y2,...,Yp综合X1,X2,...,Xp的能力。通常使得累计贡献率达到一个较
高的百分数(如85%以上)。 2.5主成分分析的计算步骤
(1)由观测数据计算Xk,sk 及tkj k,j1,2,...m
(2)由协方差矩阵T得到特征值j,j1,2...m及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数p。
(3)写出m个基本方程
jX1t11X1t21X2tm1XmjX2t12X1t22X2tm2XmjXmt1mX1t2mX2tmmXm
式中,j1,2...m
利用施密特正交化方法,对每一个j求他所对应的基本方程组的解X1,X2,...,Xm,j1,2...m,然后令
bkjXkX,
2kk**X1*,X2,...,Xm从而得到用
*Xk所表示的主成分zjbkjXk*,或将
kXkXksk代入后得到用
X1,X2,...,Xm所表示的主成分
zjbkjXkaj。
k(4)将X1,X2,...,Xm的观测值带入主成分的表达式中计算各个主成分的值。
(5)计算原指标与主成分的相关系数即因子载荷,解释主成分的意义。
表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类
表1-1 16个地区的农民生活水平的调查数据 (单位:元)
地区
食品 (X1)
北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南
再令标准化的矩阵为 Y=(yij)166 ,理论部分给出了如下的计算公式: yijxijXSjj衣着 (X2) 43.77 36.40 22.83 25.11 27.63 32.83 33.38 29.57 38.64 29.12 32.75 23.09 21.26 21.50 30.26 23.26
燃料 (X3) 9.73 10.47 9.30 6.40 8.94 17.79 18.37 13.24 12.53 11.67 12.72 15.62 16.96 17.64 12.20 8.46
住房 (X4) 60.54 44.16 22.44 9.89 12.58 27.29 11.81 13.76 115.65 42.60 47.12 23.54 19.52 19.19 33.61 20.20
生活用品及其它 (X5) 49.01 36.49 22.81 18.17 23.99 39.09 25.29 21.75 50.82 27.30 34.35 18.18 21.75 15.97 33.77 20.50
文化生活服务 (X6) 9.04 3.94 2.80 3.25 3.27 3.47 5.22 6.04 5.89 5.74 5.00 6.39 6.73 4.94 3.85 4.30
190.33 135.20 95.21 104.78 128.41 145.68 159.37 116.22 221.11 144.98 169.92 153.11 144.92 140.54 115.84 101.18
(i=1,2,…,16; j=1,2,…,6)
运用MATLAB对此公式进行计算,可得出矩阵Y
1.4603 2.1712 -0.7784 1.0484 1.8823 2.4823 -0.1943 1.0528 -0.5796 0.4306 0.7218 -0.6450 -1.3946 -1.0065 -0.8939 -0.3886 -0.5462 -1.3441 -1.1074 -0.6605 -1.6730 -0.8619 -0.9762 -1.0681 -0.3981 -0.2781 -0.9906 -0.7605 -0.4368 -1.0559 0.1202 0.5110 1.3869 -0.2057 0.9628 -0.9332 0.5311 0.5945 1.5427 -0.7895 -0.3163 0.1399 -0.7640 0.0163 0.1645 -0.7160 -0.6444 0.6427 2.3842 1.3927 -0.0262 3.1269 2.0500 0.5507 0.0992 -0.0520 -0.2572 0.3717 -0.1300 0.4588 0.8477 0.4989 0.0248 0.5422 0.5235 0.0050 0.3432 -0.9670 0.8039 -0.3471 -0.9753 0.8573 0.0974 -1.2447 1.1639 -0.4987 -0.6444 1.0658 -0.0341 -1.2083 1.3466 -0.5112 -1.1802 -0.0318 -0.7754 0.1210 -0.1148 0.0327 0.4697 -0.7002 -1.2154 -0.9412 -1.1196 -0.4731 -0.7603 -0.4243 设矩阵Y的相关阵为R(rkj),前面有公式
116116(xikXk)(xijXj)rkjyikyij(k,j=1,2,…,6) 1611n11SjSk
1. 运用MATLAB可得到下面的矩阵Y的相关阵R:
1.0000 0.6635 0.3371 0.7800 0.7058 0.6346 0.6635 1.0000 -0.0810 0.6630 0.9015 0.3748 0.3371 -0.0810 1.0000 -0.0887 -0.0614 0.2542 0.7800 0.6630 -0.0887 1.0000 0.8311 0.3635 0.7058 0.9015 -0.0614 0.8311 1.0000 0.3112 0.6346 0.3748 0.2542 0.3635 0.3112 1.0000前面介绍了这么个定理:设X(X1,...,Xp)'是p维随机向量,且D(X),则X的的特征值为12...p0,a1,a2,...,ap为相应的单位正交特征向量,第i主成分为
Ziai'X (i1,2,...p ,
下面,要做的应该是求R的特征值和特征向量。设其特征值为j(j=1,2,…,6),且1234560j(j=1,2,…,6)对应的正则化
,的特征向量为lj(l1j,l2j,l6j)'(j=1,2,…,6),同样运用MATLAB可计算出结果:
1=3.5584 l1=(0.4811,0.4612,0.0525,0.4668,0.4842,0.3173)'
2=1.3163 l2=(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355)' 3=0.6082 l3=(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877)'
4=0.3734 l4=(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370)' 5=0.1072 l5=(-0.7203,-0.2379,0.2355,0.2900,0.4634,0.2652)'
6=0.0365 l6=(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016)' 这样,把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:
Z1=0.4811Y1+0.4612Y2+0.0525Y3+0.4668Y4+0.4842Y5+0.3173Y6 Z2=-0.2570Y1+0.2176Y2-0.7777Y3+0.1806Y4+0.2438Y5-0.4355Y6
Z3=0.0445Y1+0.1001Y2+0.5488Y3+0.0726Y4+0.2472Y5-0.7877Y6 Z4=0.2772Y1-0.6540Y2-0.1033Y3+0.6571Y4-0.1851Y5-0.1370Y6 Z5=-0.7203Y1-0.2379Y2-0.2355Y3+0.2900Y4+0.4634Y50.2652Y6 Z6=-0.3238Y1+0.4957Y2+0.1584Y3+0.4779Y4-0.6293Y5+0.0016Y6
为了说明各主成分(即新指标)反映的原信息量的多少,还应该求出主成
分Zk(k=1,2,…,6)的贡献率k献率ki1mp(第k个主成分反映的信息量)和累计贡
ii1p(前k个主成分反映的总信息量)。实际结果如下表所示: 。
ii1
表3-2 各主成分对应的贡献率与累计贡献率 主成分Zk 贡献率k ii16累计贡献率 kii1i1mpZ1 Z2 0.59306667 0.21938333 0.10136667 0.06223333 0.01786667 0.00608333 0.59306667 0.81245000 0.91381667 0.97605000 0.99391667 1.00000000 Z3 Z4 Z5 Z6
最后,将标准化后的样本数据代入前两个主成分
Z1=0.4811Y1+0.4612Y2+0.0525Y3+0.4668Y4+0.4842Y5+0.3173Y6
和
Z2=-0.2570Y1+0.2176Y2-0.7777Y3+0.1806Y4+0.2438Y5-0.4355Y6
可得到各地区在第一主成分和第二主成分的得分情况
表3-3 各地区在第一主成分和第二主成分的得分图
地区 第一主成分得分 第二主成分得分
地区 第一主成分得分 第二主成分得分
地区 第一主成分得分 第二主成分得分
地区 第一主成分得分 第二主成分得分
1北京 3.8515 0.2697 5内蒙古 -1.2733 1.0282 9上海 4.4150 0.5354 13福建 -0.6727 -1.9124
2天津 0.7075 1.2644 6辽宁 0.4404 -0.3943 10江苏 0.2664 -0.0012 14江西 -1.3231 -1.6676
3河北 -2.0544 1.2166 7吉林 0.1334 -1.4875 11浙江 1.1474 0.0948 15山东 -0.3027 0.7402
4山西 -2.1391 1.5135 8黑龙江 -0.7937 -0.4943 12安徽 -0.6009 -1.5976 16河南 -1.8012 0.8922
3.2 结果分析
根据前面得出了六个主成分的表达式。
第一主成分中Y1、Y2、Y4、Y5的系数都在0.5附近, Y6的系数也相差不远且都是正值,只有Y3的系数比较小。它反映总体消费高的地区除燃料消费外,其它消费基本也都较高。它的贡献率为59.31%,表达出的信息量很大。
第二主成分中Y3的系数绝对值较大,它更多地反映了燃料消费的情况。它的贡献率为21.94%,表达的信息较大。第一主成分与第二主成分的累计贡献量达到81.25%。
第三主成分更多地反映了农民文化生活服务消费的情况,它的贡献率为10.14%,已经较小;
从第四到第六主成分的贡献率都很小,它们表达的信息量也小,基本上它们反映的消费指标间的关系已经没有太多意义。因此可以用两个或三个新生成的指标来对各地区的消费情况进行分析总结。
下面用第一主成分与第二主成分对16个地区进行分类。
根据前面各个地区第一主成分与第二主成分的得分,可用数学工具MATLAB列出第二主成分对第一主成分的散布图如下:
图3-1 第二主成分对第一主成分的散布图
从图中可以看出,这些地区大体上可分为四类
第一类包括:上海、北京。这些地区的农民总体消费最高,农民生活水平较高。
第二类包括:浙江、江苏、辽宁、黑龙江。这些地区燃料消费相对于总消费的比率相对趋中。总消费普遍高于后两类地区。
第三类包括:天津、山东、内蒙古、河南、河北、山西。这些地区燃料消费相对于总消费的比率较低。
第四类包括:吉林、安徽、福建、江西。这些地区燃料消费相对于总消费的比率很高。
如果要分得更简单点,可以只把北京和上海归为一类,其它14个地区分为另一类。只是这样的分类只需要依赖第一主成分,在反映信息的准确度上差了不少。当然,这样的分类也不能最完整地反映实际情况,从累计贡献率上可以看出两个主成分只反映了原信息量的81.25%。要达到更精确的分类,得取更多的主成分,而取更多主成分又势必增大评价难度。
4 结论
课题中的6个指标是有一定联系的,论文用主成分分析找出了课题中6个指标的相关点,并找到了用原始指标表示的6个新指标。然后用可最多地表达原信息量的2个新指标(即取到第二个主成分)对16个样本进行分类比较。透过两个新指标的表达式和代入样本数据后算出的新指标值,很容易地看出了不同类的不同消费特点:上海、北京的农民总体消费最高,农民生活较富足;浙江、江苏、辽宁、黑龙江的农民燃料和消费相对总消费的比率趋中,总消费普遍高于后两类地区;天津、山东、内蒙古、河南、河北、山西的农民燃料消费相对总消费的比率偏低,其中天津、山东的农民消费水平相对较高;吉林、安徽、福建、江西的农民燃料消费相对总消费的比率很高。
主成分分析在这里实现了它存在的意义,大限度保持信息量的同时达到降维指标、简化问题的目的的这一特点使它得以迅速发展和广泛应用。
实际上,现在许多统计问题依据的多个指标都存在着相关性,主成分分析很适合解决这些问题。但它毕竟不能最完整地反映原来的信息。如本论文取前两个主成分进行分析,它只表达了原信息量的81.25%,另外18.75%包含在其它四个指标中。可如果取到第三个主成分,势必又会大大增加评价的难度。因此,对于具体的问题应该具体地分析,尽量找到一种理想的既能满足信息量要求又能最大限度简化问题的主成分取法。
因篇幅问题不能全部显示,请点此查看更多更全内容