C++,python,热爱算法和机器学习
全部博文(1214)
分类: IT业界
2012-05-09 14:26:49
一、残差分析
前面我们介绍了线性回归方程的建立和检验。在实际问题中,由于观察人员的粗心或偶然因素的干扰。常会使我们所得到的数据不完全可靠, 即出现异常数据。有时即使通过相关系数或F检验证实回归方程可靠,也不能排除数据存在上述问题。残差分析的目的就在于解决这一问题。所谓残差是指实际观察值与回归估计值的差,即
(2-1-26)
显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的 信息,分析出数据的可靠性、周期性或其它干扰 。
首先介绍如何检查异常数据。
异常数据是指与其它数据产生的条件有明显不同的数据,因此异常数据的残差会特别的大。一旦发现异常数据应及时剔除,用剩余数据重新建立回归方程,以提高回归方程的质量 。
发现异常数据主要从技术上找原因,当技术上无法找到原因时,就得借助于数理统计方法。
由数理统计方法可以证明
(2-1-27)
或记为
(2-1-28)
这说明残差的方差D(e)是x的函数,且二者呈曲线关系。以回归方程 及方程 和 作图。
见方开泰《实用回归分析》P45图2.3
考虑到 较小,当n较大时
(2-1-29)
此时图中的两条曲线可近似于两条平行直线。从而有
(2-1-30)
或近似地
(2-1-31)
这表明,当n较大时yi落在图2-1-3的长条形带子中的概率约为95%,只要知道 ,就可以得到残差的置信区域。
一般是未知的,通常用残差标准差 来估计 。 可用下式求得
(2-1-32)
由此可得残差置信带
(2-1-33)
对残差在置信带以外的数据都要进行检查,以区别是否是异常数据,如果是异常数据就要剔除掉。
现在我们对例1做残差检查。由式(2-1-32)
残差置信带为(-5.712,5.712)。计算5个实验点的 预报值与残差值(见表2-1-4),并作出残差检查图(见图2-1-4)
表2-1-4 例1的残差值
图2-1-4 例1的残差图
由图2-1-4可见,例1中全部数据的残差都在置信带内,没有异常数据。
除此以外,残差图还可以为我们提供许多有用信息。
比如,在研究铁水质量时我们看到1号高炉的残差偏于2 处,而2号高炉的残差偏于-2 处(见图2-1-5)。在图2-1-5所示的这种情况下,建立统一的回归方程是不合适的,应该分别按1号和2号高炉建立回归方程。
图2-1-5数据有周期性变化的残差图
图2-1-6数据有倾向性变化的残差图
有时我们还会发现数据有倾向性变化。在残差图上表现为前一部分数据的残差均为正值(或负值),而后一部分数据的残差均为负值(或正值),如图2-1-6所示。遇到这种情况要仔细研究,找出原因。比如前后两部分数据是由两个人观测的,可能两人掌握尺度不同所造成的,也可能是外界条件产生了变化或系统本身的原因造成的。
当残差出现一段全为正(或负),接着一段全为负(或正),然后又接着一段全为正或(为负)时(见图2-1-7),说明回归模型选择不当,此时需要考虑用非线性回归模型去拟合它。
图2-1-7 残差图表明回归模型选择不当
二、预报和控制
建立回归方程的重要目的是为了用来进行 预报和控制。由于我们通过样本所建立的回归方程只是关于特征数的估计式,由此所得到的预报值也只能是一个估计结果。因此当我们利用回归式进行预报的时候,除了预报值之外,我们还希望知道 预报的精度。换句话说,就是预报值的取值范围。也就是对于给定的显著性水平 ,找出一个区间(t1,t2),使对应于某特定点的实际值y0以1- 的概率被区间(t1,t2)所包含,即
(2-1-34)
可以证明满足式(2-1-34)的区间(t1,t2)是存在的,并且这个区间是关于 的对称区间。这个区间可以由下式求得
(2-1-35)
其中
(2-1-36)
为y0的标准差, 为F分布表上查得的临界值。因此有
(2-1-37)
比如对于例1,若已知含氮量x0=0.0095,要 预报初生奥氏体析出温度y0。由式(2-1-36)得
取 查F分布表得F5%(1,3)=10.1,由式(2-1-35)得
由前面的回归关系式可知,当x0=0.0095时
因此
通过上例计算可以体会到,要建立回归方程时样本容量n越大,Fa (1,n-2)和 都越小, 就越小,即 预报精度就越高。此外,x0越接近 , 预报精度也就越高。
在实际问题中,当n越大,x0接近 时,为了方便起见,一般采用 代替 ,取 ( 时)或 ( 时)。参见本节残差分析部分。
下面简要介绍控制问题。
在实际问题中我们常常需要将y控制在一定的范围内,即t1
(2-1-38)
又
(2-1-39)
故可取c和c的函数g(c),使对给定的 下式成立
(2-1-40)
解不等式组
(2-1-41)
得x。x和c可以在这个不等式组成立的条件下调整。
在实际问题中,我们可以用残差标准差 来简单的解决控制问题中x的取值。由式(2-1-31)和式(2-1-33)可知,在所有可能出现的y值中满足
(2-1-42)
的点大约有95%。因此我们只要求解不等式组
(2-1-43)
便可得到x的取值范围(x1,x2)。