最近自学机器学习整理的一些要点，供用时翻阅-kkmm0105-ChinaUnix博客

恋你2011

首页　| 　博文目录　| 　关于我

kkmm0105

博客访问： 255526
博文数量： 45
博客积分： 802
博客等级：军士长
技术积分： 470
用户组：普通用户
注册时间： 2010-10-08 12:21

文章分类

全部博文（45）

未分配的博文（45）

文章存档

2014年（4）

2013年（4）

2012年（37）

我的朋友

最近访客

推荐博文

最近自学机器学习整理的一些要点，供用时翻阅

分类：信息化

2014-12-04 23:38:19

1. 分类是监督学习的一个核心问题，在监督学习中，当输出变量Y取有限个离散值时，预测回归问题便成为分类问题
2. 对于二分类问题来说，线性回归模型的Hypothesis输出值

可以大于1也可以小于0。这个时候我们引出逻辑回归，逻辑回归的Hypothesis输出介于0与1之间
3. Hypothesis输出的直观解释： = 对于给定的输入x，y=1时估计的概率。较正式的说法可以表示为：给定输入x，参数化的

（参数空间），y=1时的概率。即，

5. 对于因变量y=0或1这样的二分类问题：，，整合后，可以写成
6. 由最大似然估计原理，我们可以通过m个训练样本值，来估计出值，使得似然函数值最大

这里，为m个训练样本同时发生的概率。对求log，得：

7. 求最大似然函数参数的立足点是求出每个参数方向上的偏导数，并让偏导数为0，最后求解此方程组。由于中参数数量的不确定，考虑到可能参数数量很大，此时直接求解方程组的解变的很困难。于是，我们用随机梯度上升法，求解方程组的值，就是使最大化时的值，迭代函数为：

8. 线性回归的Cost Function是凸函数，具有碗状的形状，而凸函数具有良好的性质：对于凸函数来说局部最小值点即为全局最小值点，因此只要能求得这类函数的一个最小值点，该点一定为全局最小值点。如果直接把代入到线性回归的损失函数中，得到的损失函数而是非凸的，梯度上升法无法收敛，所以需要其他形式的Cost Function来保证逻辑回归的成本函数是凸函数。
9. 逻辑回归的损失函数，实际是利用了统计学中的对数损失函数。在逻辑回归中：

逻辑回归代价函数-我爱公开课-52opencourse.com

由于y 只能等于0或1，所以可以将逻辑回归中的Cost function的两个公式合并，具体推导如下：

逻辑回归代价函数推导-我爱公开课-52opencourse.com

故逻辑回归的Cost function可简化为：

逻辑回归代价函数简化公式-我爱公开课-52opencourse.com

可以看到中括号中的部分为逻辑回归模型的对数似然函数，故求得的相同
10. 为了解决模型过拟合的问题，两种方式：1）减少特征数量 2）保留特征，降低部分特征权重，主要有L1、L2两种范数
11. L1范数会将影响小的特征权重设为0，特征被稀疏化，适用于做特征的筛选
12. L2范数会将影响小的特征权重设置为很小，但不会为0。效果较L1弱些，但是L2处处可导，计算简单
13. 正则化系数（范数）是加在损失函数尾部的
14. 对于LR模型的评价，指标有ROC曲线、PR曲线、Accuracy=(TP+TN)/(P+N)。其中，AUC用来衡量ROC曲线的好坏；PR曲线中，准确率=TP/(TP+FP)、召回率=TP/P。具体这些变量的含义网上有介绍，地址：

参考文章主要是斯坦福机器学习的公开课的部分章节，以后有时间再系统地读一下

阅读(1445) | 评论(0) | 转发(0) |

上一篇：项目中发现python代码用了装饰器，上网搜了资料，这篇文章写的不错

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6