C++,python,热爱算法和机器学习
全部博文(1214)
分类:
2012-05-09 14:14:41
一切客观事物都有其内部规律,都受着许多因素的影响。为了研究实际问题,我们往往要寻找共处于一个统一体中的诸多因素之间的相互联系、相互制约的客观规律。我们把共处于一个统一体中的诸多因素称为变量,把它们之间相互联系和相互制约的客观规律称为系统中变量之间的关系。通常,系统中变量之间的关系有两大类:
1. 确定性关系:所谓确定性关系是指可以唯一地由一个或数个变量确定另一个变量。例如,圆的面积S可唯一地由圆的半径R确定,即
S=πR2
这里R和S之间就是确定性关系。
2. 相关关系:在实际问题中,变量之间常常存在着既密切而又 不是完全确定的关系,即一个变量确定后,另一个变量并不是唯一地确定,而是按一定的概率分布取各种可能值。我们把变量之间的这种关系称为相关关系。例如, 人的年龄与身长的关系就是一种典型的相关关系。此外,炼钢时钢液的化学成分与精练时间的关系,某一金属材料的耐磨性与其自身硬度的关系等也都是相关关系。
需要指出的是,确定性关系和相关关系之间既有区别又有联系,并在一定条件下可以相互转化。在实际问题中,由于人们认识水平、控制手段、测量误差等方面的原因,确定性关系也往往通过相关关系表现出来。因此,研究相关关系是十分重要的。
回归分析方法是研究相关关系的一种有力的数学工具,它是建立在对客观事物进行大量试验和观测的基础上寻找变量之间统计规律性的数理统计方法。
回归分析主要包括以下内容:
1.根据一组观测值,确定变量之间是否存在相关关系,并对具有相关关系的变量之间的定量关系作出最佳拟合;
2.对这些关系的可信程度进行统计检验;
3.对影响指标的诸多因素进行显著性检验,确定哪些变量对指标的影响是显著的,哪些变量的影响是不显著的;
4.利用所求得的关系式和误差估计,对指标作出 预报和控制。在上面的分析中,为了求得回归方程,我们曾假定x与y之间存在着线性关系。在求得回归方程后,我们必须对这一假定进行检验,以确定x与y是否的确存在线性关系。
设(X,Y)为二维随机变量,如果E[X-EX][Y-EY]存在,则称它为X与Y之间的协方差,记为Cov(X,Y)。即
Cov(X,Y)=E[X-E(x)][Y-E(y)] (2-1-15)
如果D(X)>0,D(Y)>0,则称
(2-1-16)
为X与Y之间的相关系数。
对于一个具有n组观测值的样本,其相关系数γ定义为
(2-1-17)
其中Lyy称为观测值的离差平方和,记为
(2-1-18)
见式(2-1-7)。
相关系数 是绝对值小于1,大于0的无量纲统计量。 接近于1,表明x与y之间线性关系密切。当 =1时,表示两个变量间存在确定性的线性函数关系。当 =0时,表示两个变量间无线性关系。这时有两种可能情况,一种是二者没有关系(如图2-1-2(c)),另一种可能是二者有非线性关系(如图2-1-2(d))。相关系数的正负号由 决定,即 与b同号。当 >0时,y随x的增加而增加,当 <0时,y随的x增加而减少。相关系数的直观意义参见图2-1-2。
见方开泰《实用回归分析》P32图2.2
相关性检验一般利用相关系数检验表(见附录)进行。该表中给出的 值为相关系数的起码值。只有当求出的相关系数大于表上相应的数值时,才能考虑用直线来描述x和y之间的相关关系。
查表时要遇到三个参数:变量总数、自由度和置信水平。对于一元回归分析,变量只有两个(x,y)。自由度等于数据组数与变量个数之差。置信水平(5%和1%)表示线性相关的程度。通常当 大于表上 相应的值,但小于表上 相应的值时,称为x与y有显著的线性关系;如果 大于表上 相应的值时,称x与y有十分显著的线性关系;如果 小于表上 相应的值时,称为x与y没有明显的线性关系,即回归方程没有实际意义。
对于本章例1,变量有2个,共5组数据,故自由度数为5-2=3,表中 相应的值为0.878, 相应的值为0.959。由式(2-1-17)计算得到的相关系数 。可见
0.878< <0.959
因此灰铸铁初生奥氏体析出温度与含氮量之间存在着显著的线性关系。
二、方差分析与F检验
n个观测值之间存在着差异,我们用观测值yi与其平均值 的偏差平方和来表示这种差异程度,称其为总离差平方和,记为
(2-1-19)
由于
(2-1-20)
所以
(2-1-21)
式中 称为回归平方和,记为S回。 称为残差平方和,记为 。不难证明,最后一项 。
因此
S总=S回+S残 (2-1-22)
上式表明,y的偏差是由两个因素造成的,一是x变化所引起,二是各种偶然因素干扰所致。
事实上,S回和S残可用下面更简单的关系式来计算。
(2-1-23)
(2-1-24)
具体检验可在方差分析表上进行。
见方开泰《实用回归分析》P34表2.2
这里要注意S回的自由度为1,S残的自由度为n-2,S总的自由度为n-1。如果x与y有线性关系,则
(2-1-25)
其中,F(1,n-2)表示第一自由度为1,第二自由度为n-2的分布。在F表中显著性水平用
表示,
一般取0.10,0.05,0.01,1-
表示检验的可靠程度。在进行检验时,表2-1-2中的F值应大于F表中的临界值Fα。若F<0.05(1,n-2),则称x与y没有明显的线性关系,若F0.05(1,n-2)
下面对例1中x与y的线性关系进行F检验。由式(2-1-6)、式(2-1-7)、式(2-1-18)、式(2-1-23)及式(2-1-24),可得计算结果如表2-1-3。由F表查得F0.05(1,3)=10.1,F0.01(1,3)=34.1,而计算值F=16.37,可见F0.05
表2-1-3 例1方差分析表