残差分析、预报和控制-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4662541
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

残差分析、预报和控制

分类： IT业界

2012-05-09 14:26:49

文章来源：

一、残差分析

前面我们介绍了线性回归方程的建立和检验。在实际问题中，由于观察人员的粗心或偶然因素的干扰。常会使我们所得到的数据不完全可靠, 即出现异常数据。有时即使通过相关系数或F检验证实回归方程可靠，也不能排除数据存在上述问题。残差分析的目的就在于解决这一问题。所谓残差是指实际观察值与回归估计值的差，即

(2-1-26)

显然，有多少对数据，就有多少个残差。残差分析就是通过残差所提供的信息，分析出数据的可靠性、周期性或其它干扰。

首先介绍如何检查异常数据。

异常数据是指与其它数据产生的条件有明显不同的数据，因此异常数据的残差会特别的大。一旦发现异常数据应及时剔除，用剩余数据重新建立回归方程，以提高回归方程的质量。

发现异常数据主要从技术上找原因，当技术上无法找到原因时，就得借助于数理统计方法。

由数理统计方法可以证明

(2-1-27)

或记为

(2-1-28)

这说明残差的方差D(e)是x的函数，且二者呈曲线关系。以回归方程及方程和作图。

见方开泰《实用回归分析》P45图2.3

考虑到较小，当n较大时

(2-1-29)

此时图中的两条曲线可近似于两条平行直线。从而有

(2-1-30)

或近似地

(2-1-31)

这表明，当n较大时yi落在图2-1-3的长条形带子中的概率约为95%，只要知道，就可以得到残差的置信区域。

一般是未知的，通常用残差标准差来估计。可用下式求得

(2-1-32)

由此可得残差置信带

(2-1-33)

对残差在置信带以外的数据都要进行检查，以区别是否是异常数据，如果是异常数据就要剔除掉。

现在我们对例1做残差检查。由式(2-1-32)

残差置信带为(-5.712,5.712)。计算5个实验点的预报值与残差值(见表2-1-4)，并作出残差检查图(见图2-1-4)

表2-1-4 例1的残差值

图2-1-4 例1的残差图

由图2-1-4可见，例1中全部数据的残差都在置信带内，没有异常数据。

除此以外，残差图还可以为我们提供许多有用信息。

比如，在研究铁水质量时我们看到1号高炉的残差偏于2 处，而2号高炉的残差偏于-2 处(见图2-1-5)。在图2-1-5所示的这种情况下，建立统一的回归方程是不合适的，应该分别按1号和2号高炉建立回归方程。

图2-1-5数据有周期性变化的残差图

图2-1-6数据有倾向性变化的残差图

有时我们还会发现数据有倾向性变化。在残差图上表现为前一部分数据的残差均为正值(或负值)，而后一部分数据的残差均为负值(或正值)，如图2-1-6所示。遇到这种情况要仔细研究，找出原因。比如前后两部分数据是由两个人观测的，可能两人掌握尺度不同所造成的，也可能是外界条件产生了变化或系统本身的原因造成的。

当残差出现一段全为正(或负)，接着一段全为负(或正)，然后又接着一段全为正或(为负)时(见图2-1-7)，说明回归模型选择不当，此时需要考虑用非线性回归模型去拟合它。

图2-1-7 残差图表明回归模型选择不当

二、预报和控制

建立回归方程的重要目的是为了用来进行预报和控制。由于我们通过样本所建立的回归方程只是关于特征数的估计式，由此所得到的预报值也只能是一个估计结果。因此当我们利用回归式进行预报的时候，除了预报值之外，我们还希望知道预报的精度。换句话说，就是预报值的取值范围。也就是对于给定的显著性水平，找出一个区间(t1,t2)，使对应于某特定点的实际值y0以1- 的概率被区间(t1,t2)所包含，即

(2-1-34)

可以证明满足式(2-1-34)的区间(t1,t2)是存在的，并且这个区间是关于的对称区间。这个区间可以由下式求得

(2-1-35)

其中

(2-1-36)

为y0的标准差，为F分布表上查得的临界值。因此有

(2-1-37)

比如对于例1，若已知含氮量x0=0.0095，要预报初生奥氏体析出温度y0。由式(2-1-36)得

取查F分布表得F5％(1,3)=10.1,由式(2-1-35)得

由前面的回归关系式可知,当x0=0.0095时

因此

通过上例计算可以体会到，要建立回归方程时样本容量n越大，Fa (1,n-2)和都越小, 就越小，即预报精度就越高。此外，x0越接近，预报精度也就越高。

在实际问题中，当n越大，x0接近时，为了方便起见，一般采用代替，取 ( 时)或 ( 时)。参见本节残差分析部分。

下面简要介绍控制问题。

在实际问题中我们常常需要将y控制在一定的范围内,即t1为此我们要合理控制x的取值。由于

(2-1-38)

又

(2-1-39)

故可取c和c的函数g(c),使对给定的下式成立

(2-1-40)

解不等式组

(2-1-41)

得x。x和c可以在这个不等式组成立的条件下调整。

在实际问题中，我们可以用残差标准差来简单的解决控制问题中x的取值。由式(2-1-31)和式(2-1-33)可知，在所有可能出现的y值中满足

(2-1-42)

的点大约有95%。因此我们只要求解不等式组

(2-1-43)

便可得到x的取值范围(x1,x2)。

阅读(1929) | 评论(0) | 转发(0) |

上一篇：回归方程的显著性检验

下一篇：R语言学习笔记--数据对象和简单统计

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6