第二章 一元线性回归
2.14 解答:EXCEL结果:
SUMMARY OUTPUT
回归统计
Multiple R 0.944911 R Square 0.892857 Adjusted R Square 0.857143
0.597614 标准误差
5 观测值
方差分析
df SS MS
1 8.928571 8.928571 回归分析
3 1.071429 0.357143 残差
4 10 总计
Coefficients 标准误差 t Stat
Intercept -0.21429 0.6962 -0.30779 X Variable 1 0.178571 0.035714 5 RESIDUAL OUTPUT
观测值 预测 Y 残差
1 1.571429 -0.57143 2 1.571429 0.428571 3 3.357143 -0.35714 4 3.357143 0.642857 5 5.142857 -0.14286
SPSS结果:(1)散点图为:
F Significance F
25 0.015392
P-value Lower 95% Upper 95% 下限 95.0% 上限 95.0% 0.778371 -2.4299 2.001332 -2.4299 2.001332 0.015392 0.064913 0.29223 0.064913 0.29223
(2)x与y之间大致呈线性关系。 (3)设回归方程为y01x
1=
xynxyiinxi1i1n2in(x)27
0y1x20731
可得回归方程为y17x
1n(4)(yiyi) n-2i=11n (yi(01x))
n-2i=122210-(-1+71))(10-(-1+72))(20-(-1+73))1( = 223(20-(-1+74))(40-(-1+75))222116904936
3110/31
13306. 13(5)由于1N(1,2Lxx)
t11/Lxx2(1)Lxx
服从自由度为n-2的t分布。因而
()LxxP|1|t/2(n2)1 也即:p(1t/2Lxx11t/2Lxx)=1
1133,7+2.35333) 33可得1的置信度为95%的置信区间为(7-2.353即为:(2.49,11.5)
1(x)220N(0,())
nLxxt001(x)22()nLxx001(x)2nLxx
服从自由度为n-2的t分布。因而
00P||t/2(n2)1
1(x)2nLxx即p(01(x)t/200nLxx21(x)2t/2)1 nLxx可得1的置信度为95%的置信区间为(7.77,5.77)
2
(6)x与y的决定系数r2(yy)ii1nii1n2490/6000.817
2(yy)(7) ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 9.000 8.167 .833 1.000 10.000 df 2 1 1 2 4 均方 4.500 8.167 .833 .500 F 9.000 16.333 1.667 显著性 .100 .056 .326 由于FF(1,3),拒绝H0,说明回归方程显著,x与y有显著的线性关系。
(8)t1/Lxx21Lxx1n21n 其中(yiyi) ein2n2i1i122 710213.66
1333303t/22.353 t3.66t/2
接受原假设H0:10,认为1显著不为0,因变量y对自变量x的一元线性回归成立。
(9)相关系数 r(xx)(yy)iii1n(xx)(yy)2iii1i1nnLxyLxxLyy
=7070.904
10600603
r小于表中1%的相应值同时大于表中5%的相应值,x与y有显著的线性关系.
(10) 序号 1 2 3 4 5 残差图为: x 1 2 3 4 5 y 10 10 20 20 40 y e 4 -3 0 -7 6 6 13 20 27 34 从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
置信度为95%的置信区间 (11)当广告费x0=4.2万元时,销售收入y028.4万元,近似为y2,即(17.1,39.7)
2.15 解答:
(1) 散点图为:
4
(2)x与y之间大致呈线性关系。 (3)设回归方程为y01x
1=
xynxyiinxi1i1n2in(x)2(2637021717)0.0036
(71043005806440)0y1x2.850.00367620.1068
可得回归方程为y0.10680.0036x
1n(4) (yiyi) n-2i=11n (yi(01x))
n-2i=12225
=0.2305
0.4801
(5) 由于1N(1,2Lxx)
t11/Lxx2(1)Lxx
服从自由度为n-2的t分布。因而
()L1xxP||t/2(n2)1 也即:p(1t/2Lxx11t/2Lxx)=1
可得1的置信度为95%的置信区间为
(0.0036-1.8600.4801/1297860,0.0036+1.8600.4801/1297860)即为:(0.0028,0.0044)
1(x)220N(0,())
nLxxt001(x)22()nLxx001(x)2nLxx
服从自由度为n-2的t分布。因而
00P||t/2(n2)1
1(x)2nLxx即p(0
1(x)t/200nLxx21(x)2t/2)1 nLxx6
可得1的置信度为95%的置信区间为(0.3567,0.5703)
(6)x与y的决定系数 r2(yy)ii1nii1n22(yy)(7) 16.82027=0.908
18.525ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 1231497.500 1168713.036 62784.464 66362.500 1297860.000 df 7 1 6 2 9 均方 175928.214 1168713.036 10464.077 33181.250 F 5.302 35.222 .315 显著性 .168 .027 .885 由于FF(1,9),拒绝H0,说明回归方程显著,x与y有显著的线性关系。
(8) t1/Lxx21Lxx1n21n 其中ei(yiyi) n2i1n2i122 0.003612978608.54 20.04801t/21.895 t8.542t/2
接受原假设H0:10,认为1显著不为0,因变量y对自变量x的一元线性回归成立。
(9) 相关系数 r(xx)(yy)iii1n(xix)2(yiy)i1i1nnLxyLxxLyy =46530.9489
129786018.5257
r小于表中1%的相应值同时大于表中5%的相应值,x与y有显著的线性关系. (10) y x e 序号 y 1 2 3 4 5 6 7 8 9 10 825 215 1070 550 480 920 1350 325 670 1215 3.5 1 4 2 1 3 4.5 1.5 3 5 3.0768 0.8808 3.9588 2.0868 1.8348 3.4188 4.9688 1.2768 2.5188 4.4808 0.4232 0.1192 0.0412 -0.0868 -0.8348 -0.4188 -0.4668 0.2232 0.4812 0.5192
从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
(11)新保单x01000时,需要加班的时间为y03.7小时。
(12)y0的置信概率为1-的置信区间精确为y0t/2(n2)1h00, 即为(2.7,4.7)
近似置信区间为:y02,即(2.74,4.66)
(13)可得置信水平为1-的置信区间为y0t/2(n2)h00,即为(3.33,4.07). 2.16 (1)散点图为:
8
可以用直线回归描述y与x之间的关系. (2)回归方程为:y12112.6293.314x (3)
9
从图上可看出,检验误差项服从正态分布。
第三章 多元线性回归
3.11 初始数据:
y x1 编号
1 160 2 260 3 210 4 265 5 240 6 220 7 275 8 160 9 275 10 250
x2 70 75 65 74 72 68 78 66 70 65
x3 35 40 40 42 38 45 42 36 44 42
10
1 2.4 2 3 1.2 1.5 4 2 3.2 3
解:(1)用SPSS算出y,x1,x2,x3相关系数矩阵: 相关性 Pearson 相关性 y x1 x2 x3 y x1 x2 x3 N y x1 x2 x3 y 1.000 .556 .731 .724 . .048 .008 .009 10 10 10 10 x1 .556 1.000 .113 .398 .048 . .378 .127 10 10 10 10 x2 .731 .113 1.000 .547 .008 .378 . .051 10 10 10 10 x3 .724 .398 .547 1.000 .009 .127 .051 . 10 10 10 10 r=所以~
系数 模型 非标准化系数 B 1 (常量) 标准系数 t Sig. -1.974 B 的 95.0% 置信区间 下限 上限 零阶 相关性 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 176.459 -348.280 .096 -780.083.500 60 .556 .731 .724 .825 .687 .586 1.211 1.455 1.708 x1 x2 x3 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .535 2.465 .277 1.178 .100 .049 -.977 8.485 .053 14.149 .621 .350 .709 .444 .433 .212 .284 -13.4138.310 5 a. 因变量: y (2)
ˆ348.283.754x17.101x212.447x3 所以三元线性回归方程为y11
模型汇总 模型 R 1 .898 a标准 估计的R 方 .806 调整 R 方 .708 误差 23.44188 R 方更改 .806 F 更改 8.283 更改统计量 df1 3 df2 6 Sig. F 更改 .015 a. 预测变量: (常量), x3, x1, x2。 (3) 由于决定系数R方=0.708 R=0.898较大所以认为拟合度较高
(4)
Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 549.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y
因为F=8.283 P=0.015<0.05所以认为回归方程在整体上拟合的好
(5)
系数 模型 非标准化系数 B 1 (常量) x1 x2 x3 a. 因变量: y 3.754 7.101 12.447 1.933 2.880 10.569 .385 1.942 .100 .535 2.465 .049 .277 1.178 .284 -.977 .053 -13.415 8.485 14.149 38.310 .556 .731 .724 .621 .709 .433 .350 .444 .212 .825 1.211 .687 1.455 .586 1.708 -348.280 标准 误差 176.459 标准系数 试用版 t Sig. 下限 -780.060 B 的 95.0% 置信区间 上限 83.500 零阶 相关性 偏 部分 共线性统计量 容差 VIF a-1.974 .096
(6)可以看到P值最大的是x3为0.284,所以x3的回归系数没有通过显著检验,应去除。
12
去除x3后作F检验,得: Anova 模型 1 回归 残差 总计 平方和 12893.199 4059.301 16952.500 df 2 7 9 均方 6446.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y
由表知通过F检验 继续做回归系数检验 系数 模型 非标准化系数 B 1 (常量) -459.624 x1 x2 4.676 8.971 标准系数 t Sig. B 的 95.0% 置信区间 相关性 下限 -821.547 .381 3.134 上限 -97.700 8.970 14.808 零阶 偏 部分 共线性统计量 容差 VIF a标准 误差 试用版 153.058 1.816 2.468 .479 .676 -3.003 .020 2.575 3.634 .037 .008 .556 .731 .697 .808 .476 .672 .987 1.013 .987 1.013 a. 因变量: y
此时,我们发现x1,x2的显著性大大提高。
(7)x1:(-0.997,8.485) x2:(0.053,14.149) x3:(-13.415,38.310)
ˆ*0.385x1*0.535x2*0.277x3* (8)y(9) 残差统计量 a 预测值 标准 预测值 预测值的标准误差 调整的预测值 残差 标准 残差 Student 化 残差
极小值 175.4748 -1.438 10.466 188.3515 -25.19759 -1.075 -2.116 极大值 292.5545 1.567 20.191 318.1067 33.22549 1.417 1.754 13
均值 231.5000 .000 14.526 240.1835 .00000 .000 -.123 标准 偏差 38.95206 1.000 3.127 49.83914 19.14022 .816 1.188 N 10 10 10 10 10 10 10 已删除的残差 Student 化 已删除的残差 Mahal。 距离 Cook 的距离 居中杠杆值 a. 因变量: y -97.61523 -3.832 .894 .000 .099 50.88274 2.294 5.777 3.216 .642 -8.68348 -.255 2.700 .486 .300 43.43220 1.658 1.555 .976 .173 10 10 10 10 10
所以置信区间为(175.4748,292.5545)
(10)由于x3的回归系数显著性检验未通过,所以居民非商品支出对货运总量影响不大,但是回归方程整体对数据拟合较好
3.12 解:在固定第二产业增加值,考虑第三产业增加值影响的情况下,第一产业每增加一个单位,GDP就增加0.607个单位。
在固定第一产业增加值,考虑第三产业增加值影响的情况下,第二产业每增加一个单位,GDP就增加1.709个单位。
第四章 违背基本假设的情况
4.9 初始数据:
y 用户序号 x
1 679 2 292 3 1012 4 493 5 582 6 1156 7 997 8 2189 9 1097 10 2078 11 1818 12 1700 13 747 14 2030 15 1643 16 414 17 354
0.79 0.44 0.56 0.79 2.7 3.64 4.73 9.5 5.34 6.85 5.84 5.21 3.25 4.43 3.16 0.5 0.17
14
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
解:
1276 1.88 745 0.77 435 1.39 540 0.56 874 1.56 1543 5.28 1029 0.64 710 4 1434 0.31 837 4.2 1748 4.88 1381 3.48 1428 7.58 1255 2.63 1777 4.99 370 0.59 2316 8.19 1130 4.79 463 0.51 770 1.74 724 4.1 808 3.94 790 0.96 783 3.29 406 0.44 1242 3.24 658 2.14 1746 5.71 468 0.64 1114 1.9 413 0.51 1787 8.33 3560 14.94 1495 5.11 2221 3.85 1526
3.93
15
系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -.831 .004 标准 误差 .442 .000 标准系数 试用版 t -1.882 .839 11.030 Sig. .065 .000 a ˆ=-0.831+0.004x 由SPSS计算得:y残差散点图为:
(2)由残差散点图可知存在异方差性 再用等级相关系数分析: 相关系数 Spearman 的 rho x 相关系数 x 1.000 16
t .318 *
Sig.(双侧) N t 相关系数 Sig.(双侧) N *. 在置信度(双测)为 0.05 时,相关性是显著的。 . 53 .318 .021 53 *.021 53 1.000 . 53
P=0.021 所以方差与自变量的相关性是显著的。 (3)
模型描述
因变量 自变量 权重
1 源 幂值
模型: MOD_1.
y x x
1.500
M=1.5时可以建立最优权函数,此时得到: ANOVA 回归 残差 总计 平方和 .006 .003 .009 df 1 51 52 均方 .006 .000 F 98.604 Sig. .000 系数 (常数) x 未标准化系数 B -.683 .004 标准误 .298 .000 标准化系数 试用版 标准误 t -2.296 .082 9.930 Sig. .026 .000 .812
ˆ-0.683+0.004x 所以:y(4)
系数
a
17
模型 非标准化系数 B 1 (常量) x a. 因变量: yy .582 .001 标准 误差 .130 .000 标准系数 试用版 t 4.481 .805 9.699 Sig. .000 .000
4.13初始数据:
x y 序号
1 127.3 2 130 3 132.7 4 129.4 5 135 6 137.1 7 141.1
20.96 21.4 21.96 21.52 22.39 22.76 23.48
18
8 9 10 11 12 13 14 15 16 17 18 19 20
142.8 145.5 145.3 148.3 146.4 150.2 153.1 157.3 160.7 164.2 165.6 168.7 172
23.66 24.1 24.01 24.54 24.28 25 25.64 26.46 26.98 27.52 27.78 28.24 28.78
解: (1) 系数 模型 非标准化系数 B 1 (常量) x a. 因变量: y -1.435 .176 标准 误差 .242 .002 标准系数 试用版 t -5.930 .999 107.928 Sig. .000 .000 a
ˆ=-1.435+0.176x y(2) 模型汇总 模型 R 1 .999 ab标准 估计的误R 方 .998 调整 R 方 .998 差 .09744 Durbin-Watson .663 a. 预测变量: (常量), x。 b. 因变量: y
DW=0.663 查DW分布表知:dL=0.95 所以DW
残差图为:
et随t的变化逐次变化并不频繁的改变符号,说明误差项存在正相关。
ˆ=1-0.5*DW=0.6685 计算得: (3)Y’ x’ 7.39 44.90 7.65 45.80 6.84 40.69 8.00 48.50 7.79 46.85 8.26 49.45 7.96 48.47 8.28 50.04 7.90 48.03 8.49 51.17 7.88 47.26 8.77 52.33 8.93 52.69 9.32 54.95 9.29 55.54 9.48 56.77 9.38 55.83 9.67 58.00 9.90 59.22
20
模型汇总 模型 R 1 .996 ab标准 估计的误R 方 .993 调整 R 方 .993 差 .07395 Durbin-Watson 1.344 a. 预测变量: (常量), xx。 b. 因变量: yy 系数 模型 非标准化系数 B 1 (常量) xx a. 因变量: yy -.303 .173 标准 误差 .180 .004 标准系数 试用版 t -1.684 .996 49.011 Sig. .110 .000 a ˆ'=-0.303+0.173x’ 得回归方程 yˆt=-0.303+0.6685yt1+0.173(xt—0.6685xt1) 即:y(4)
模型汇总 模型 R 1 .978 ab标准 估计的误R 方 .957 调整 R 方 .955 差 .07449 Durbin-Watson 1.480 a. 预测变量: (常量), x3。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x3 .033 .161 标准 误差 .026 .008 标准系数 试用版 t 1.273 .978 21
19.528 Sig. .220 .000 a 系数 模型 非标准化系数 B 1 (常量) x3 a. 因变量: y3 .033 .161 标准 误差 .026 .008 标准系数 试用版 t 1.273 .978 19.528 Sig. .220 .000 a
△yt=0.033+0.161△xt
ˆt=0.033+yt1+0.161(xt-xt1) 即:yˆ值最小为(5)差分法的DW值最大为1.48消除相关性最彻底,但是迭代法的0.07395,拟合的较好。
4.14解:(1) 模型汇总 模型 R 1 .541 ab标准 估计的误R 方 .293 调整 R 方 .264 差 329.69302 Durbin-Watson .745 a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 模型 非标准化系数 B 1 (常量) x1 x2 a. 因变量: y -574.062 191.098 2.045 标准 误差 349.271 73.309 .911 标准系数 试用版 t -1.644 .345 .297 2.607 2.246 Sig. .107 .012 .029 a
ˆ=-574.062+191.098x1+2.045x2 回归方程为:yDW=0.745
22
ˆ=1-0.5*DW=0.6275 (2) 模型汇总 模型 R 1 .688 ab标准 估计的误R 方 .474 调整 R 方 .452 差 257.67064 Durbin-Watson 1.716 a. 预测变量: (常量), x22, x12。 b. 因变量: y2 系数 模型 非标准化系数 B 1 (常量) x12 x22 a. 因变量: y2 -179.668 211.770 1.434 标准 误差 90.337 47.778 .628 标准系数 试用版 t -1.989 .522 .269 4.432 2.283 Sig. .052 .000 .027 a
ˆt’=-179.668+211.77x1’+1.434x2’ 此时得方程:y23
所以回归方程为:
ˆt179.6680.6275yt1211.77(x1t0.6275x1t1?)1.434(x2t0.6275x2t1) y
(3) 模型汇总 模型 R 1 .715 ab标准 估计的误R 方 .511 调整 R 方 .490 差 283.79102 Durbin-Watson 2.042 a. 预测变量: (常量), x23, x13。 b. 因变量: y3 系数 模型 非标准化系数 B 1 (常量) x13 x23 a. 因变量: y3 7.698 209.891 1.399 标准 误差 39.754 44.143 .583 标准系数 试用版 t .194 .544 .274 4.755 2.400 Sig. .847 .000 .020 a
ˆt7.698209.891此时得方程:△yx11.399x2
ˆt7.698209.891所以回归方程为:y(xtxt1)1.399(x2tx2t1)
第五章 自变量选择与逐步回归
5.9 初始数据: 年份
农业x1 1978 1979
工业x2
建筑业x3 人口x4
138.2 143.8
24
受灾面积
最终消费x5 财政收入y
x6
2239.1 2619.4
50760 39370
1132.3 1146.4
1018.4 1258.9
1607.0 1769.7
96259 97542
1980 1359.4 1996.5 195.5 98705 2976.1 1981 1545.6 2048.4 207.1 100072 3309.1 1982 1761.6 2162.3 220.7 101654 3637.9 1983 1960.8 2375.6 270.6 103008 4020.5 1984 2295.5 2789.0 316.7 104357 4694.5 1985 2541.6 3448.7 417.9 105851 5773.0 1986 2763.9 3967.0 525.7 107507 6542.0 1987 3204.3 4585.8 665.8 109300 7451.2 1988 3831.0 5777.2 810.0 111026 9360.1 1989 4228.0 6484.0 794.0 112704 10556.5 1990 5017.0 6858.0 859.4 114333 11365.2 1991 5288.6 8087.1 1015.1 115823 13145.9 1992 5800.0 10284.5 1415.0 117171 15952.1 1993 6882.1 14143.8 2284.7 118517 20182.1 1994 9457.2 19359.6 3012.6 119850 26796.0 1995 11993.0 24718.3 3819.6 121121 33635.0 1996 13844.2 29082.6 4530.5 122389 40003.9 1997 14211.2 32412.1 4810.6 123626 43579.4 1998
14599.6
33429.8
5262.0
124810
46405.9
解:后退法:输出结果
系数a 模型 非标准化系数 标准系数 B 标准 误差 试用版 t Sig. 1 (常量) 1438.120 2252.472 .638 .533 农业x1 -.626 .168 -1.098 -3.720 .002 工业x2 -.328 .207 -1.352 -1.587 .135 建筑业x3 -.383 .555 -.251 -.691 .501 人口x4 -.004 .025 -.014 -.161 .875 最终消费x5 .672 .130 3.710 5.178 .000 受灾面积x6 -.006 .008 -.015 -.695 .499 2 (常量) 1079.754 299.759 3.602 .003 农业x1 -.642 .130 -1.126 -4.925 .000 工业x2 -.303 .131 -1.249 -2.314 .035 建筑业x3 -.402 .525 -.263 -.765 .456 最终消费x5 .658 .095 3.636 6.905 .000 受灾面积x6 -.006 .007 -.017 -.849 .409 25
44530 1159.9 39790 1175.8 33130 1212.3 34710 1367.0 31890 1642.9 44370 2004.8 47140 2122.0 42090 2199.4 50870 2357.2 46990 2664.9 38470 2937.1 55470 3149.5 51330 3483.4 48830 4349.0 55040 5218.1 45821 6242.2 46989 7408.0 53429 8651.1 50145
9876.0
3 (常量) 农业x1 工业x2 最终消费x5 受灾面积x6 4 (常量) 农业x1 工业x2 最终消费x5 a. 因变量: 财政收入y 1083.150 -.624 -.373 .657 -.005 874.604 -.611 -.353 .637 295.816 .127 .093 .094 .007 106.869 .124 .088 .089 -1.095 -1.535 3.627 -.015 3.662 -4.931 -3.998 6.981 -.758 8.184 -4.936 -3.994 7.142 .002 .000 .001 .000 .460 .000 .000 .001 .000 -1.073 -1.454 3.516 Anovae 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 4 回归 残差 总计 平方和 1.365E8 528793.319 1.370E8 1.365E8 529767.852 1.370E8 1.364E8 550440.103 1.370E8 1.364E8 570180.931 1.370E8 df 6 14 20 5 15 20 4 16 20 3 17 20 均方 2.274E7 37770.951 F 602.127 Sig. .000a 2.729E7 35317.857 772.734 .000b 3.411E7 34402.506 991.468 .000c 4.547E7 33540.055 1355.753 .000d a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 e. 因变量: 财政收入y 模型汇总 模型 标准 估计的误R 1 .998a R 方 .996 调整 R 方 .994 差 194.34750 26
R 方更改 .996 F 更改 602.127 df1 6 df2 14 更改统计量 Sig. F 更改 .000 2 3 4 .998b .998c .998d .996 .996 .996 .995 .995 .995 187.93046 185.47913 183.13944 .000 .000 .000 .026 .585 .574 1 1 1 14 15 16 .875 .456 .460 a. 预测变量: (常量), 受灾面积x6, 建筑业x3, 人口x4, 农业x1, 最终消费x5, 工业x2。 b. 预测变量: (常量), 受灾面积x6, 建筑业x3, 农业x1, 最终消费x5, 工业x2。 c. 预测变量: (常量), 受灾面积x6, 农业x1, 最终消费x5, 工业x2。 d. 预测变量: (常量), 农业x1, 最终消费x5, 工业x2。 回归方程为:y874.6040.611x10.353x20.637x5
逐步回归法:输出结果
模型汇总 模型 标准 估计的误R 1 2 3 .994a .996b .998c R 方 .989 .992 .996 调整 R 方 .988 .991 .995 差 285.68373 247.77768 183.13944 R 方更改 .989 .003 .004 F 更改 1659.441 7.258 15.948 df1 1 1 1 df2 19 18 17 更改统计量 Sig. F 更改 .000 .015 .001 a. 预测变量: (常量), 最终消费x5。 b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 平方和 1.354E8 1550688.654 1.370E8 1.359E8 1105088.003 1.370E8 1.364E8 570180.931 1.370E8 df 1 19 20 2 18 20 3 17 20 均方 1.354E8 81615.192 F 1659.441 Sig. .000a 1106.637 .000b 6.794E7 61393.778 4.547E7 33540.055 1355.753 .000c a. 预测变量: (常量), 最终消费x5。 27
b. 预测变量: (常量), 最终消费x5, 农业x1。 c. 预测变量: (常量), 最终消费x5, 农业x1, 工业x2。 d. 因变量: 财政收入y
系数a 模型 非标准化系数 B 1 (常量) 最终消费x5 2 (常量) 最终消费x5 农x1 3 (常量) 最终消费x5 农x1 工x2 a. 因变量: 财政收入y 业-.353 .088 -1.454 -3.994 .001 .992 -.696 -.062 业-.611 .124 -1.073 -4.936 .000 .987 -.767 -.077 874.604 .637 106.869 .089 业-.414 .154 -.726 -2.694 .015 .987 -.536 -.057 1011.912 .311 136.901 .049 710.372 .180 标准 误差 90.891 .004 标准系数 试用版 t 7.816 .994 40.736 Sig. .000 .000 零阶 相关性 偏 部分 .994 .994 .994 1.718 7.392 6.374 .000 .000 .994 .832 .135 3.516 8.184 7.142 .000 .000 .994 .866 .112 回归方程为:y874.6040.636x10.353x20.637x5
5.10 (1) 模型汇总 模型 R 1 2 .908a .000b R 方 .824 .000 调整 R 方 .736 .000 标准 估计的误差 625.88326 1217.15945 a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) 28
Anovac 模型 1 回归 残差 总计 2 回归 残差 总计 平方和 1.830E7 3917298.522 2.222E7 .000 2.222E7 2.222E7 df 5 10 15 0 15 15 均方 3660971.683 391729.852 F 9.346 Sig. .002a .000 1481477.129 . .b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量) c. 因变量: y 系数a 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) 5922.827 4.864 2.374 -817.901 14.539 -846.867 7542.938 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 304.290 标准系数 试用版 t 2.365 .677 .782 -1.156 .050 -.899 1.940 2.818 -4.367 .099 -2.904 24.789 Sig. .040 .081 .018 .001 .923 .016 .000 a. 因变量: y 回归方程为:y5922.8274.864x22.374x3817.901x414.539x5846.867x6 (2)后退法:输出结果 模型汇总 模型 R 1 2 .908a .907b R 方 .824 .824 调整 R 方 .736 .759 标准 估计的误差 625.88326 597.04776 a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 29
Anovac 模型 1 回归 残差 总计 2 回归 残差 总计 平方和 1.830E7 3917298.522 2.222E7 1.830E7 3921126.262 2.222E7 df 5 10 15 4 11 15 均方 3660971.683 391729.852 F 9.346 Sig. .002a 4575257.669 356466.024 12.835 .000b a. 预测变量: (常量), x6, x3, x2, x4, x5。 b. 预测变量: (常量), x6, x3, x2, x4。 c. 因变量: y 系数a 模型 非标准化系数 B 1 (常量) x2 x3 x4 x5 x6 2 (常量) x2 x3 x4 x6 a. 因变量: y 5922.827 4.864 2.374 -817.901 14.539 -846.867 6007.320 5.068 2.308 -824.261 -862.699 标准 误差 2504.315 2.507 .842 187.279 147.078 291.634 2245.481 1.360 .486 167.776 232.489 标准系数 试用版 t 2.365 .677 .782 -1.156 .050 -.899 1.940 2.818 -4.367 .099 -2.904 2.675 .706 .760 -1.165 -.916 3.727 4.750 -4.913 -3.711 Sig. .040 .081 .018 .001 .923 .016 .022 .003 .001 .000 .003 y6007.3205.068x22.308x3824.261x4862.699x6
(3)逐步回归
模型汇总
30
模型 R 1 2 3 .498a .697b .811c R 方 .248 .485 .657 调整 R 方 .194 .406 .572 标准 估计的误差 1092.83206 937.95038 796.60909 a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。 Anovad 模型 1 回归 残差 总计 2 回归 残差 总计 3 回归 残差 总计 a. 预测变量: (常量), x3。 b. 预测变量: (常量), x3, x5。 c. 预测变量: (常量), x3, x5, x4。 d. 因变量: y 平方和 5502210.090 1.672E7 2.222E7 1.079E7 1.144E7 2.222E7 1.461E7 7615032.418 2.222E7 df 1 14 15 2 13 15 3 12 15 均方 5502210.090 1194281.918 F 4.607 Sig. .050a 5392697.554 879750.910 6.130 .013b 4869041.506 634586.035 7.673 .004c 系数a 模型 非标准化系数 B 1 (常量) x3 2 (常量) x3 x5 3 (常量) x3
5161.259 1.511 472.298 3.188 212.325 1412.807 3.440 标准 误差 1142.744 .704 2150.138 .913 86.643 1865.912 .782 标准系数 试用版 t 4.517 .498 2.146 .220 3.492 2.451 .757 4.398 Sig. .000 .050 .830 .004 .029 .464 .001 1.050 .737 1.133 31
x5 x4 a. 因变量: y 348.729 -415.136 92.220 169.163 1.210 -.587 3.782 -2.454 .003 .030 y1412.8073.440x3348.729x5415.136x4
(4)两种方法得到的模型是不同的,回退法剔除了x5,保留了x6, x3, x2, x4作为最终模型。而逐步回归法只引入了x3。说明了方法对自变量重要性的认可不同的,这与自变量的相关性有关联。相比之下,后退法首先做全模型的回归,每一个变量都有机会展示自己的作用,所得结果更有说服力
第六章 多重共线性的情形及其处理
6.6对财政收入的数据,分析数据的多重共线性,并根据多重共线性剔除变量。将所得结果与用逐步回归法所得的选元结果相比较。
答:
首先,采用方差扩大因子法,使用SPSS软件诊断财政收入的多重共线性问题,得到的计算结果如下。 Coefficients aUnstandardized Coefficients Std. Model 1 (Constant) x1 B Error Standardized Coefficients Collinearity Statistics TolerancBeta t Sig. e VIF 1348.338 2211.463 .610 .552 -.641 .167 -1.125 -3.840 .002 .003 319.484 2636.56.000 4 .002 479.288 x2 -.317 .204 -1.306 -1.551 .143 x3 -.413 .548 -.270 -.752 32
.464
x4 x5 -.002 .671 -.008 .024 .128 .008 -.007 -.087 3.706 5.241 -.020 -.928 .932 .000 .369 .037 27.177 1860.72.001 6 .574 1.743 x6 a. Dependent Variable: y 从输出结果看到,x2,x5的方差扩大因子很大,分别为VIF22636,VIF71860, 远远超过10。说明财政收入的数据存在严重的多重共线性。
其次采用特征根判定法,使用SPSS软件诊断财政收入的多重共线性问题,得到的计算结果如下。 Collinearity Diagnostics Variance Proportions DimensEigenvaCondition (ConsModel ion 1 1 2 3 4 5 6 7 lue 6.127 .857 .011 .004 .001 Index tant) x1 x2 x3 x4 x5 x6 a1.000 .00 .00 .00 .00 .00 2.673 .00 .00 .00 .00 .00 23.954 .01 .00 .00 .00 .00 38.000 .01 .16 .00 .07 .00 98.485 .02 .11 .08 .78 .02 .00 .00 .00 .00 .00 .81 .00 .00 .07 .03 .20 .09 .72 .07 .000 119.124 .11 .55 .04 .01 .13 7.352E-5 288.677 .85 .18 .88 .14 .85 a. Dependent Variable: y
从条件数看到,最大的条件数k7288.677,说明自变量之间存在严重的多重共线性问题。这与方差扩大因子法的结果一致。
先剔除方差扩大因子最大的x2,重新做回归,结果如下,发现自变量之间仍然存在严
重的多重共线性问题。
33
Coefficients Standardized Unstandardized CoefficientCoefficients Std. Model 1 B (Constant-1252.83) x1 x3 x4 x5 x6 Error 1.508E3 2 .163 .459 .017 .078 .008 Beta t Sig. s Collinearity Statistics Tolerance VIF -.831 .419 -1.291 -4.524 .000 -.604 -2.012 .063 .093 1.591 .132 2.815 6.527 .000 -.028 -1.274 .222 a-.735 -.923 .026 .510 -.011 .004 276.969 .003 306.617 .086 11.605 .002 632.896 .608 1.645 a. Dependent Variable: y
再剔除方差扩大因子最大的x5,重新做回归,结果如下,发现自变量之间仍然存在严
重的多重共线性问题。
Coefficients Unstandardized Coefficients Model 1 B Std. Error 2829.351 .235 .526 .031 .015 Standardized Coefficients Beta t Collinearity Statistics Sig. Tolerance .006 160.513 .009 111.949 .087 .649 11.507 1.540 VIF a(Constant) -2715.046 x1 x3 x4 x6 -.047 1.463 .036 .003 -.960 .352 -.083 -.202 .843 .957 2.781 .013 .128 1.160 .263 .008 .206 .839 a. Dependent Variable: y
34
再剔除方差扩大因子最大的x1,重新做回归,结果如下,发现此时多重共线性问题应
经消除。但是继续观察如下结果,自变量x6的P值为0.801,说明x6对于财政收入的回归方程作用是不显著的。
Coefficients Unstandardized Standardized Coefficients Std. Model 1 (Constant) x3 x4 x6 B Error Beta t Sig. -2296.322 1.870E3 1.359 .031 .004 .097 .019 .014 Coefficients Collinearity Statistics Tolerance VIF -1.228 .236 .889 14.036 .000 .111 .010 1.649 .117 .256 .801 a.249 4.018 .222 4.509 .673 1.485 a. Dependent Variable: y
剔除不显著的x6,仅保留x3和x4两个自变量,进行回归分析。
Coefficients Unstandardized Coefficients Standardized Coefficients Collinearity Statistics ToleraModel 1 (Constant) x3 x4 B Std. Error Beta t Sig. nce VIF -2306.802 1820.091 1.359 .033 .094 .018 -1.267 .221 a.889 14.415 .000 .249 4.018 .116 1.886 .076 .249 4.018 a. Dependent Variable: y
ˆ2306.81.359x30.033x4,但是发现x4的P值为0.076>0.05,表回归方程为y35
示x4对于y只有较弱的显著性。
用逐步回归法所得的选元结果如下,从中可以看出逐步回归法所保留的变量为
x5,x1,x2,而这三个变量正是方差扩大因子法所剔除的,所以按照共线性提出变量与常规的
逐步回归法按照t值显著性提出变量会有较大差别。 Coefficients Unstandardized Coefficients Std. Model 1 (Constant) x5 2 (Constant) x5 x1 3 (Constant) x5 x1 x2
36
aStandardized Coefficients Collinearity Statistics B 710.370 .180 Error 90.891 .004 Beta t 7.816 Sig. Tolerance .000 .000 .000 .000 .015 .000 .000 .000 .001 1.000 VIF .994 40.736 7.392 1.000 1011.913 136.899 .311 -.414 .049 .154 1.718 -.726 6.374 -2.694 8.184 .006 162.146 .006 162.146 .001 989.833 .005 192.871 .002 541.459 874.600 106.866 .637 -.611 -.353 .089 .124 .088 3.516 -1.073 -1.454 7.143 -4.936 -3.994 a. Dependent Variable: y
7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为了弄清不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的方法。下表是该银行所属25家分行2002年的有关业务数据。
初始数据:
x1 x2 x3 x4 分行编号 y
1 0.9 67.3 6.8 5 51.9 2 1.1 111.3 19.8 16 90.9 3 4.8 173 7.7 17 73.7 4 3.2 80.8 7.2 10 14.5 5 7.8 199.7 16.5 19 63.2 6 2.7 16.2 2.2 1 2.2 7 1.6 107.4 10.7 17 20.2 8 12.5 185.4 27.1 18 43.8 9 1 96.1 1.7 10 55.9 10 2.6 72.8 9.1 14 64.3 11 0.3 64.2 2.1 11 42.7 12 4 132.2 11.2 23 76.7 13 0.8 58.6 6 14 22.8 14 3.5 174.6 12.7 26 117.1 15 10.2 263.5 15.6 34 146.7 16 3 79.3 8.9 15 29.9 17 0.2 14.8 0.6 2 42.1 18 0.4 73.5 5.9 11 25.3 19 1 24.7 5 4 13.4 20 6.8 139.4 7.2 28 64.3
37
21 22 23 24 25
11.6 1.6 1.2 7.2 3.2
368.2 95.7 109.6 196.2 102.2
16.8 3.8 10.3 15.8 12
32 10 14 16 10
163.9 44.5 67.9 39.7 97.1
(1) 建立y与其余四个变量的简单相关系数
Correlations Pearson Correlation y x1 x2 x3 x4 Sig. (1-tailed) y x1 x2 x3 x4 N y x1 x2 x3 x4
从相关阵看出,y与x1,x2,x3的相关系数都在0.7以上,说明所选的自变量与y具有一定的相关性,但并不高度显著。
(2) 建立不良贷款y与4个变量的线性回归方程,所得回归系数是否合理?
38
y 1.000 .844 .732 .700 .519 . .000 .000 .000 .004 25 25 25 25 25 x1 .844 1.000 .679 .848 .780 .000 . .000 .000 .000 25 25 25 25 25 x2 .732 .679 1.000 .586 .472 .000 .000 . .001 .009 25 25 25 25 25 x3 .700 .848 .586 1.000 .747 .000 .000 .001 . .000 25 25 25 25 25 x4 .519 .780 .472 .747 1.000 .004 .000 .009 .000 . 25 25 25 25 25
Model Summary Adjusted R Std. Error of Model 1 R .893 abR Square .798 Square .757 the Estimate Durbin-Watson 1.7788 2.626 a. Predictors: (Constant), x4, x2, x3, x1 b. Dependent Variable: y
ANOVA Model 1 Regression Residual Total Sum of Squares 249.371 63.279 312.650 df 4 20 24 b Mean Square 62.343 3.164 aF 19.704 Sig. .000 aa. Predictors: (Constant), x4, x2, x3, x1 b. Dependent Variable: y Coefficients Unstandardized Standardized Coefficients Std. Model 1 (Constant) x1 x2 x3 x4 B -1.022 .040 .148 .015 -.029 Error .782 .010 .079 .083 .015 .891 .260 .034 Beta t -1.306 3.837 1.879 .175 Coefficients 95% Confidence Interval for B Lower Sig. Bound Upper Bound .610 .062 .312 .188 .002 .206 -2.654 .001 .018 .075 -.016 .863 -.159 .067 -.061 -.325 -1.937 a. Dependent Variable: y 回归方程为
39
y1.0220.04x10.148x20.015x30.029x4
ˆ,ˆ,ˆ,ˆ的置信区间分别为[-2.654, 0.61], 但是,所得系数并不合理,因为0234[-0.016,0.312],[-0.159,0.188],[-0.061,0.002],置信区间中存在0,是不合理的。而且复相关系数R0.893,R20.798,由决定系数看回归方程并非高度显著。最后计算得关于j的相应P值,结果发现,只有P10.05,通过显著性检验。综合以上理由认为所得系数不合理
(3)分析回归模型的共线性 1.方差扩大因子法
观察下表,可以看出VIFj10(j1,2,3,4),说明自变量xj之间没有严重的多重共线性,但是VIFj1,说明xj之间还是具有一定的多重共线性的。 Coefficients Standardized Unstandardized CoefficienCoefficients Std. Model 1 (Constant) x1 x2 x3 x4 .040 .148 .015 -.029 .010 .079 .083 .015 .891 .260 .034 3.837 1.879 .175 .001 .075 .863 .067 .018 -.016 -.159 -.061 .062 .188 5.331 .312 .529 1.890 .188 .261 3.835 .002 .360 2.781 -1.022 B Error .782 -1.306 .206 -2.654 Beta t Sig. ts 95% Confidence CollinearitInterval for B y Statistics Lower Bound Upper Bound Tolerance VIF .610 a-.325 -1.937 a. Dependent Variable: y
2.特征根判定法
40
使用SPSS计算出特征根与条件数如下表所示。 Collinearity Diagnostics DimensModel ion 1 1 2 3 4 5 Eigenvalue 4.538 .203 .157 .066 .036 Condition Index (Constant) .01 .68 .16 .00 .15 1.000 4.733 5.378 8.287 11.215 Variance Proportions x1 .00 .03 .00 .09 .87 x2 .01 .02 .66 .20 .12 x3 .00 .01 .01 .36 .63 x4 .00 .09 .13 .72 .05 aa. Dependent Variable: y 通常认为,0k10时,自变量之间没有多重共线性;10k100自变量之间具有较强的多重共线性;k100自变量之间具有严重的多重共线性。从条件数可以看出,最大的条件数k511.215稍稍大于10,说明自变量之间存在一定的多重共线性,这与方差扩大因子的结果是一致的。
(4)采用后退法和逐步回归法选择变量,所得回归方程的回归系数是或否合理,是否还存在共线性?
1.后退法选择变量的结果如下
Coefficients Unstandardized Coefficients Model 1 (Constant) x1 x2 x3 x4
aStandardized Coefficients Beta t -1.306 .891 .260 .034 -.325 3.837 1.879 .175 -1.937 Sig. .206 .001 .075 .863 .067 B -1.022 .040 .148 .015 -.029 Std. Error .782 .010 .079 .083 .015 41
2 (Constant) x1 x2 x4 -.972 .041 .149 -.029 .711 .009 .077 .014 .914 .261 -.317 -1.366 4.814 1.938 -2.006 .186 .000 .066 .058 a. Dependent Variable: y 对后退法选择的变量再进行多重共线性检验,使用方差扩大因子法与特征根判定法进行判定发现多重共线性有所改善。但是其中x4的系数4为负数是不合理的,说明仍存在共线性。
2.逐步回归法选择变量
Coefficients Unstandardized Coefficients Model 1 (Constant) x1 2 (Constant) x1 x4 B -.830 .038 -.443 .050 -.032 Std. Error .723 .005 .697 .007 .015 1.120 -.355 .844 Standardized Coefficients Beta t -1.147 7.534 -.636 6.732 -2.133 Sig. .263 .000 .531 .000 .044 a
a. Dependent Variable: y 对逐步回归法选择的变量再进行多重共线性检验,使用方差扩大因子法与特征根判定法进行判定发现多重共线性有所改善。但是其中x4的系数4为负数是不合理的,说明仍存在共线性。
(5)建立不良贷款对四个自变量的岭回归
使用SPSS软件实现岭回归,得到结果主要结果如下。
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ X1 X2 X3 X4 .00000 .79760 .891313 .259817 .034471 -.324924
42
.05000 .79088 .713636 .286611 .096624 -.233765 .10000 .78005 .609886 .295901 .126776 -.174056 .15000 .76940 .541193 .297596 .143378 -.131389 .20000 .75958 .491935 .295607 .153193 -.099233 .25000 .75062 .454603 .291740 .159210 -.074110 .30000 .74237 .425131 .286912 .162925 -.053962 .35000 .73472 .401123 .281619 .165160 -.037482 .40000 .72755 .381077 .276141 .166401 -.023792 .45000 .72077 .364000 .270641 .166949 -.012279 .50000 .71433 .349209 .265211 .167001 -.002497 .55000 .70816 .336222 .259906 .166692 .005882 .60000 .70223 .324683 .254757 .166113 .013112 .65000 .69649 .314330 .249777 .165331 .019387 .70000 .69093 .304959 .244973 .164397 .024860 .75000 .68552 .296414 .240345 .163346 .029654 .80000 .68024 .288571 .235891 .162207 .033870 .85000 .67508 .281331 .231605 .161000 .037587 .90000 .67003 .274614 .227480 .159743 .040874 .95000 .66508 .268353 .223510 .158448 .043787 1.0000 .66022 .262494 .219687 .157127 .046373
岭迹图
用岭回归来选择变量的原则是:
1.我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。
2.当k值较小时,标准化岭回归系数的绝对值并不小,但是不稳定,随着k的增加迅速趋于0。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除。 3.去掉标准化岭回归系数很不稳定的自变量。
43
根据以上岭回归结果,变量x3岭回归系数比较稳定且绝对值很小;变量x4的回归系数
ˆ(k)绝对值并不小,但是不稳定,且随着k的增加趋于0。根据以上原则,将x,x其344剔除。用余下的两个自变量作岭回归。把岭参数步长改为0.02,范围减小到0.2。编程得到以下(6)的结果。
(6)对第(4)步剔除变量后的回归方程再作岭回归。
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ X1 X2 .00000 .75844 .643550 .294682 .02000 .75827 .627803 .299382 .04000 .75780 .613317 .303080 .06000 .75708 .599909 .305947 .08000 .75614 .587431 .308123 .10000 .75500 .575766 .309719 .12000 .75371 .564814 .310826 .14000 .75226 .554492 .311519 .16000 .75069 .544734 .311858 .18000 .74899 .535479 .311896 .20000 .74719 .526679 .311675
岭迹图
由上表看到,剔除x3,x4后岭回归的系数变化幅度减小,从岭迹看图上领参数在0.1~0.2上基本稳定。给定k=0.1,重新作岭回归输出结果如下 Run MATRIX procedure:
****** Ridge Regression with k = 0.1 ******
44
Mult R .868909798 RSquare .755004238 Adj RSqu .732731896 SE 1.865938991 ANOVA table
df SS MS Regress 2.000 236.052 118.026 Residual 22.000 76.598 3.482 F value Sig F 33.89873583 .00000019
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x1 .025864420 .005128734 .575766004 5.043041590 x2 .176466602 .065050050 .309719365 2.712781978 Constant -1.095799831 .701872837 .000000000 -1.561251230 ------ END MATRIX -----
得到y对x1,x2的标准化岭回归方程为
ˆ0.57576x10.30972x2 y未标准化的岭回归方程为
ˆ1.095860.02586x10.17647x2 y (7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做是否可行,如果可行应该怎么做? 对x1,x2,x3作岭回归得出结果如下:
R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K
K RSQ X1 X2 X3 .00000 .75964 .698331 .295891 -.065536 .05000 .75667 .591044 .303379 .020096 .10000 .75175 .526452 .303409 .068986 .15000 .74671 .482505 .300383 .099950 .20000 .74181 .450130 .295992 .120819 .25000 .73705 .424913 .290990 .135446 .30000 .73238 .404450 .285747 .145954 .35000 .72775 .387319 .280455 .153611 .40000 .72314 .372627 .275214 .159221 .45000 .71851 .359783 .270080 .163320
45
.50000 .71388 .348378 .265083 .166279 .55000 .70921 .338123 .260236 .168360 .60000 .70452 .328807 .255545 .169756 .65000 .69981 .320268 .251009 .170613 .70000 .69507 .312385 .246627 .171039 .75000 .69031 .305063 .242394 .171119 .80000 .68554 .298225 .238304 .170920 .85000 .68076 .291811 .234352 .170494 .90000 .67597 .285769 .230532 .169883 .95000 .67118 .280059 .226837 .169121 1.0000 .66639 .274646 .223262 .168236
岭迹图
Run MATRIX procedure:
****** Ridge Regression with k = 0.4 ******
Mult R .850373821 RSquare .723135635 Adj RSqu .683583583 SE 2.030268037
ANOVA table
df SS MS Regress 3.000 226.089 75.363 Residual 21.000 86.562 4.122
46
F value Sig F 18.28313822 .00000456
--------------Variables in the Equation----------------
B SE(B) Beta B/SE(B) x1 .016739073 .003359156 .372627316 4.983118685 x2 .156806656 .047550034 .275213878 3.297719120 x3 .067110931 .032703990 .159221005 2.052071673 Constant -.819486727 .754456246 .000000000 -1.0861951666
ˆ0.8190.0167x10.157x20.0671x3,回归系数有合理解释。表岭回归方程 y中B/SE(B)是近似t的值,t14.983,t23.298,x1和x2都是显著的,t32.052说明x3也是比较显著的,所以做y对x1,x2,x3的岭回归是可行的。
47
因篇幅问题不能全部显示,请点此查看更多更全内容