Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4609237
  • 博文数量: 1214
  • 博客积分: 13195
  • 博客等级: 上将
  • 技术积分: 9105
  • 用 户 组: 普通用户
  • 注册时间: 2007-01-19 14:41
个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文(1214)

文章存档

2021年(13)

2020年(49)

2019年(14)

2018年(27)

2017年(69)

2016年(100)

2015年(106)

2014年(240)

2013年(5)

2012年(193)

2011年(155)

2010年(93)

2009年(62)

2008年(51)

2007年(37)

分类: IT业界

2012-05-09 14:26:49

文章来源:

    一、残差分析

    前面我们介绍了线性回归方程的建立和检验。在实际问题中,由于观察人员的粗心或偶然因素的干扰。常会使我们所得到的数据不完全可靠, 即出现异常数据。有时即使通过相关系数或F检验证实回归方程可靠,也不能排除数据存在上述问题。残差分析的目的就在于解决这一问题。所谓残差是指实际观察值与回归估计值的差,即

                 (2-1-26)

    显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的 信息,分析出数据的可靠性、周期性或其它干扰 。

    首先介绍如何检查异常数据。

    异常数据是指与其它数据产生的条件有明显不同的数据,因此异常数据的残差会特别的大。一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归方程的质量 。

    发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法。

    由数理统计方法可以证明

                  (2-1-27)

    或记为

                     (2-1-28)

    这说明残差的方差D(e)x的函数,且二者呈曲线关系。以回归方程 及方程 作图。

    见方开泰《实用回归分析》P452.3

    考虑到 较小,当n较大时

                                      (2-1-29)

    此时图中的两条曲线可近似于两条平行直线。从而有

               (2-1-30)

    或近似地

                  (2-1-31)

    这表明,当n较大时yi落在图2-1-3的长条形带子中的概率约为95%,只要知道 ,就可以得到残差的置信区域

    一般是未知的,通常用残差标准差 来估计 * 可用下式求得

                              (2-1-32)

    由此可得残差置信带

                              (2-1-33)

    对残差在置信带以外的数据都要进行检查,以区别是否是异常数据,如果是异常数据就要剔除掉。

    现在我们对例1做残差检查。由式(2-1-32)

    

    残差置信带为(-5.712,5.712)。计算5个实验点的 预报值与残差值(见表2-1-4),并作出残差检查图(见图2-1-4)

2-1-4   1的残差值  

  

   

  2-1-4  1的残差图

    由图2-1-4可见,例1中全部数据的残差都在置信带内,没有异常数据。

    除此以外,残差图还可以为我们提供许多有用信息。

    比如,在研究铁水质量时我们看到1号高炉的残差偏于2 处,而2号高炉的残差偏于-2 (见图2-1-5)。在图2-1-5所示的这种情况下,建立统一的回归方程是不合适的,应该分别按1号和2号高炉建立回归方程。

   

 图2-1-5数据有周期性变化的残差图

  

2-1-6数据有倾向性变化的残差图

    有时我们还会发现数据有倾向性变化。在残差图上表现为前一部分数据的残差均为正值(或负值),而后一部分数据的残差均为负值(或正值),如图2-1-6所示。遇到这种情况要仔细研究,找出原因。比如前后两部分数据是由两个人观测的,可能两人掌握尺度不同所造成的,也可能是外界条件产生了变化或系统本身的原因造成的。

 当残差出现一段全为正(或负),接着一段全为负(或正),然后又接着一段全为正或(为负)(见图2-1-7),说明回归模型选择不当,此时需要考虑用非线性回归模型去拟合它。

    


  图2-1-7 残差图表明回归模型选择不当

 

    预报和控制

    建立回归方程的重要目的是为了用来进行 预报和控制。由于我们通过样本所建立的回归方程只是关于特征数的估计式,由此所得到的预报值也只能是一个估计结果。因此当我们利用回归式进行预报的时候,除了预报值之外,我们还希望知道 预报的精度。换句话说,就是预报值的取值范围。也就是对于给定的显著性水平 ,找出一个区间(t1,t2),使对应于某特定点的实际值y01- 的概率被区间(t1,t2)所包含,即

                (2-1-34)

    可以证明满足式(2-1-34)的区间(t1,t2)是存在的,并且这个区间是关于 的对称区间。这个区间可以由下式求得

 (2-1-35)

    其中

    (2-1-36)

    y0的标准差, F分布表上查得的临界值。因此有

         (2-1-37)

    比如对于例1,若已知含氮量x0=0.0095,要 预报初生奥氏体析出温度y0。由式(2-1-36)

 

    F分布表得F5(1,3)=10.1,由式(2-1-35)

    由前面的回归关系式可知,x0=0.0095

    因此

    通过上例计算可以体会到,要建立回归方程时样本容量n越大,Fa (1,n-2) 都越小, 就越小,即 预报精度就越高。此外,x0越接近 , 预报精度也就越高。

在实际问题中,当n越大,x0接近 时,为了方便起见,一般采用 代替 ,取 ( ) ( )。参见本节残差分析部分。

下面简要介绍控制问题。

在实际问题中我们常常需要将y控制在一定的范围内,t1为此我们要合理控制x的取值。由于

                 (2-1-38)

    又

                  (2-1-39)

    故可取cc的函数g(c),使对给定的 下式成立

                                                 (2-1-40)

    解不等式组

                  (2-1-41)

    xxc可以在这个不等式组成立的条件下调整。

在实际问题中,我们可以用残差标准差 来简单的解决控制问题中x的取值。由式(2-1-31)和式(2-1-33)可知,在所有可能出现的y值中满足

                  (2-1-42)

    的点大约有95%。因此我们只要求解不等式组

                (2-1-43)

    便可得到x的取值范围(x1,x2)
阅读(1905) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~