Machine Learning Least Squares Linear Regression Assumptions-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4636027
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

Machine Learning Least Squares Linear Regression Assumptions

分类： IT业界

2020-11-04 16:42:47

https://www.cnblogs.com/HuZihu/p/10142737.html

在之前的文章《机器学习---线性回归（Machine Learning Linear Regression）》中说到，使用最小二乘回归模型需要满足一些假设条件。但是这些假设条件却往往是人们容易忽略的地方。如果不考虑模型的适用情况，就只会得到错误的模型。下面来看一下，使用最小二乘回归模型需要满足哪些假设，以及如果不满足这些假设条件会产生怎样的后果。

最小二乘回归模型的5个基本假设：

自变量（X）和因变量（y）线性相关
自变量（X） $ε）之间相互独立$
误差项（ $ε）之间相互独立$

$线性相关（linearly dependent）是最基本的假设。如果自变量和因变量之间没有关系或者是非线性关系，那么就无法使用线性回归模型进行预测，或者无法预测出准确的结果。$

第二个假设：自变量（X） $共线性（c$ ollinearity） $多重共线性（multicollinearity））$

第三个假设： $ε）之间相互独立$

随机误差项的各期望值之间存在着相关关系，称随机误差项之间存在自相关性（autocorrelation）。自相关性通常出现在时间序列里，后一项依赖于前一项；也可能出现在有偏差的样本里，比如样本搜集自同一个家庭的成员。当自相关性出现的时候，预测值的标准差往往比真实的小，进而会导致置信区间变窄，同时，较低的标准差会导致p值较小，这会让我们得到错误的假设检验结果。

第四个假设：误差项（ $ε）呈正态分布，期望为0，方差为定值$

这里其实分为两个假设。第一个假设：误差项服从均值为0的正态分布。第二个假设：误差项的方差为定值（不变）。这两个假设是为了保证回归模型在小样本下能够顺利进行假设检验。正态分布假设仅在小样本的情况下需要，大样本的情况下则不需要，因为有中心极限定理做正态性的支撑。而方差齐性则保证最小二乘法估计出来的统计量具有最小的方差。如果违反了这个假设，置信区间会变宽，这称之为异方差性（heteroscedasticity）。当异方差性出现的时候，如果仍采用最小二乘法估计参数，会导致参数的t检验值被高估，可能造成本来不显著的某些参数变为显著，使假设检验失去意义。

第五个假设： $ε）之间相互独立$

模型中一个或多个自变量与随机误差项存在相关关系，这称之为内生性（endogeneity）。内生性通常由于遗漏变量而导致的，因此是一个普遍存在的问题。内生性会导致模型参数估计不准确。

阅读(851) | 评论(0) | 转发(0) |

0

上一篇：Sublime Text 3安装Json格式化插件

下一篇：【python】【Memory leak】urllib2, request内存泄露问题解决方案

给主人留下些什么吧！~~

评论热议

请登录后评论。
登录注册