二元线性回归分析预测法-foreverdengwei-ChinaUnix博客

维博dengwei.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

foreverdengwei

博客访问： 97908
博文数量： 38
博客积分： 950
博客等级：准尉
技术积分： 235
用户组：普通用户
注册时间： 2011-03-01 10:17

文章分类

全部博文（38）

未分配的博文（38）

文章存档

2011年（38）

我的朋友

相关博文

二元线性回归分析预测法

分类： LINUX

2011-05-22 20:49:38

二元线性回归分析预测法

(重定向自)

目录[]

[]

什么是二元线性回归分析预测法

　　二元线性回归分析预测法是指运用影响一个的两个自变量进行的一种预测方法。关键是通过同两个自变量的因果关系进行术解回归方程，对回归方程进行检验得出预测值。

[]

二元线性回归分析模型

　　二元线性回归分析模型及参数的确定。二元线性回归分析预测法的回归方程为：

　　 $.widehat{y}=a+b_1x_1+b_2x_2$

　　式中： $x 1, x 2$ ——自变量；

　　 $.widehat{y}$ ——因变量，即估值，或预测值；

　　 $a, b 1, b 2$ ——待定回归方程参数。

　　建立的求参数的方程为：

　　 $.sum y=na+b_1.sum x_1+b_2.sum x_2$

　　 $.sum x_1y=a.sum x_1+b_1.sum x_1^2+b_2.sum x_1x_2$

　　 $.sum x_2y=a.sum x_2+b_1.sum x_1x_2+b_2.sum x_2^2$

只需将历史资料自变量2和对应的因变量—v的数据代人上面公式，并联立求解方程组，即可求得回归参数 $a, b 1, b 2$

　　再将这些参数代人回归方程，即可得预测模型。

[]

二元线性回归分析模型的检验及参数确定

　　二元线性回归分析预测法预测模型的检验比的检验复杂得多。常用的有经济意义检验、回归检验、检验、F检验和等。

　　(1)一般经济意义检验，是指根据一般的经济规律，从参数的符号来鉴别模型的真实性。其他检验都需要根据来确定模型是否能够通过检验。

　　(2)回归检验。计算多元回归标准差的公式与计算一元线性方程回归标准差的公式相同，即：

　　 $s=.sqrt{.frac{.sum(y_t-.widehat{y}_t)^2}{n-k}}$

　　式中：

　　 $y t$ ——因变量第t期的观察值；

　　 $.widehat{y}_t$ ——因变量第t期的估计值；

　　n——观察期的个数；

　　k——自由度，为变量的个数(包括因变量和自变量)。

　　判断回归标准差能否通过检验，仍用以下公式：式中：

　　 $.frac{s}{.overline{y}_t}.times100%$

　　s——回归标准差；

　　 $.overline{y}_t$ ——因变量观察值的平均值。

　　当依此式计算出的值小于15%，说明预测模型通过了回归标准差检验。

　　(3)检验。相关系数检验是检验变量之间线性关系密切程度的指标。在中应计算和偏相关系数。

复相关系数

　　复相关系数是反映因变量y与自变量 $x 1, x 2$ 之间线性相关关系密切程度的指标，其计算公式为：

　　 $r=.sqrt{1-.frac{.sum(y-.widehat{y})/n-k}{.sum(y-.overline{y})^2/n-k}}$

　　即

　　 $r=.sqrt{1-.frac{.sum(y-.widehat{y})^2}{.sum(y-.overline{y})^2}}$

　　其中，r表示的是所有自变量作为一个整体对因变量y的影响。

偏相关系数

　　在多变量情况下，变量之间的相关关系是很复杂的。这是因为，任意变量之间都可能存在着相关关系。如果需要真正显示变量之间的相互关系，则必须在消除其他变量影响的情况下，计算某两个变量之间的相互关系，这种相关系数称为偏相关系数。在计算偏相关系数之前，还须先计算单相关系数。

　　二元线性回归模型中共有三个变量，所以有三个单相关系数。

　　　a)y与 $x 1$ 的相关系数：

　　 $r_{01}=.frac{.sum(y-.overline{y})(x_1-.overline{x}_1)}{.sum(y-.overline{y})^2.sum(x_1-.overline{x}_1)^2}$

　　　b)y与 $x 2$ 的相关系数：

　　 $r_{02}=.frac{.sum(y-.overline{y})(x_2-.overline{x}_2)}{.sum(y-.overline{y})^2.sum(x_1-.overline{x}_1)^2}$

　　　c) $x 1$ 与 $x 2$ 的相关系数：

　　 $r_{12}=.frac{.sum(x_2-.overline{x_2})(x_1-.overline{x}_1)}{.sum(x_2-.overline{x_2})^2.sum(x_1-.overline{x}_1)^2}$

　　因为在多个变量的情况下，由于计算简单相关系数时，并没有控制其他变量的影响，所以简单相关系数不能表明变量的真实相关程度，为此就要计算偏相关系数。

　　设：当 $x 2$ 不变时，y与 $x 1$ 间的相关系数为 $r_{01}^.prime$ ；

　　当 $x 1$ 不变时，y与 $x 2$ 间的相关系数为 $r_{02}^.prime$ ；

　　当Y不变时，y与 $x 1$ ， $x 2$ 间的相关系数为 $r_{12}^.prime$ 。

　　则三个偏相关系数的计算公式为：

　　 $r_{01}^.prime=.frac{r_{01}-r_{01}r_{12}}{.sqrt{(1-r^2_{01})(1-r^2_{02})}}$

　　 $r_{02}^.prime=.frac{r_{02}-r_{01}r_{12}}{.sqrt{(1-r^2_{01})(1-r^2_{02})}}$

　　 $r_{12}^.prime.frac{r_{12}-r_{01}r_{12}}{.sqrt{(1-r^2_{01})(1-r^2_{02})}}$

　　数学上可以证明，所有的偏相关系数都在—1与十1之间，一般偏相关系数的绝对值愈接近于1，两变量间线性程度越高。因此用偏相关系数检验时， $r_{01}^.prime$ 和 $r_{02}^.prime$ 的绝对值应接近于1，而 $r_{12}^.prime$ 应接近于0。否则 $x 1$ 与 $x 2$ 之间有很强的线性相关关系，二元回归预测模型经过换算就可变成一元回归分析模型厂，原模型就失去了意义。

　　根据样本数据( $x 1, x 2, y t$ )计算复相关系数r和各个偏相关系数。

　　(4)()。是用来检验自变量作为一个整体对因变量的影响是否有显著的相关关系。F检验的计算公式与中F值的计算公式相同。

　　 $F=.frac{.sum(.widehat{y}-.overline{y})^2/(k-1)}{.sum(y-.widehat{y})/(n-k)}$

　　式中：y——因变量的观察值；

　　\overline{y}——因变量的观察值的平均值；

　　\widehat{y}——因变量第t期的估计值；

　　n——观察期的个数；

　　k——自由度，为变量的个数(包括因变量和自变量)。

　　根据有关数据算出多统计量。查F分布表，在下，分子自由度为是k-1=2，分母自由度为n-3情况下的临界值为 $F a$ 。当F> $F a$ 时，则说明预测模型通过了F检验。如在一般问题中，通常取a=5%，若计算出的F统计量大于 $F a$ ，则表明可以有95%的把握认定 $x 1$ 和 $x 2$ 与y之间存在着显著的相关关系。

　　(5)。，又称回归系数检验，是检验某个自变量对因变量的显著性。即检验某个自变量是否对因变量有显著的影响，是否是多余的，所以要对自变量逐个检验其对因变量的显著性。若某个自变量对因变量的影响不显著，则应当将此自变量从预测模型中剔除，重新建立更为简单的回归模型，或更换自变量，以便提高预测的精度。

　　t检验的计算公式如下：

对回归系数 $b 1$ 的检验：

$t 1 = b 1 / s b 1$

　　其中：

　　 $sb_1=.sqrt{.frac{.sum(x_2-.overline{x}_2).sum(y-.widehat{y})^2}{[.sum(x_1-.overline{x}_1)^2.sum(x_2-.overline{x}_2)^2-(.sum(x_1-.overline{x}_1)(x_2-.overline{x}_2))^2](n-3)}}$

对回归系数 $b 2$ 的检验：

　　 $t 2 = b 2 / s b 2$

　　其中：

　　 $sb_2=.sqrt{.frac{.sum(x_1-.overline{x}_1).sum(y-.widehat{y})^2}{[.sum(x_1-.overline{x}_1)^2.sum(x_2-.overline{x}_2)^2-(.sum(x_1-.overline{x}_1)(x_2-.overline{x}_2))^2](n-3)}}$

　　将有关数据代人上式，即可得两个t统计量值。

　　一般情况下选择95%的置信度，即5%的显著水平，对此两个统计值分别查t分布表中的自由度为n-3，可得此时t的两个临界值 $t a$ 。若计算得出的某个t统计量大于 $t a$ 。t则说明它所对应的自变量与因变量之间存在着相关性，这种相关性在统计上有意义。若某个t值小于 $t a$ ，则表明该回归系数所对应的自变量对因变量没有影响，或影响不显著，则应从预测模型中去掉该变量，或重新选择白变量。若全部回归系数通过了此检验，则可以用这种预测模型进行预测。

　　3.预测并确定置信区间

　　在上述检验都通过以后，即可将已判断出的未来的两个自变量的值代入预测模型，就可算出预测值。

　　二元回归预测值的，同一元回归相类似，其公式为：

　　 $.widehat{y}_t.pm t_a/2^s$

　　对于小样本，即n≤30时，估算预测值的，应引入一个校正系数：

　　 $.sqrt{1+.frac{1}{n}}$

　　则置信区间为：

　　 $.widehat{y}_t.pm t_a/2^s.sqrt{1+.frac{1}{n}}$

　　式中：

　　 $t a / 2$ —— $.frac{a}{2}$ 置信度和n-k自由度的t的临界点；

　　n——观察期数据点的个数。

[]