核密度估计-dreamjdn-ChinaUnix博客

阳光的味道dreamjdn.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

dreamjdn

博客访问： 695586
博文数量： 90
博客积分： 1631
博客等级：上尉
技术积分： 1413
用户组：普通用户
注册时间： 2008-04-15 22:43

文章分类

全部博文（90）

文章存档

2017年（8）

2016年（9）

2015年（11）

2014年（10）

2013年（9）

2012年（9）

2010年（2）

2009年（10）

2008年（22）

我的朋友

相关博文

核密度估计

分类： C#/.net

2016-04-25 09:29:10

核密度估计（kernel density estimation）是在概率论中用来估计未知的密度函数，属於非参数检验方法之一，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。

统计分布密度估计是根据观测数据而对其假定的概率函数进行估测。核密度估计(KERNEL DENSITY ESTIMATE)属于一种非参数的估计方式：对某一已知的的密度函数，也就是KERNEL, 在观测点上平均化，以期得到一条光滑的估计曲线。

核密度估计VS直方图估计

直方图密度估计是较为传统的非参密度估计方法，通常我们的做法：

1 将数据值覆盖的数据区间分成几个等子区间（bin)。

2 一个数据值落到这个相应的子区间，这个子区间块的高度就相应的加一个单位的高度。

举个wiki上的例子：

现在有6个数据点：x1=-2.1, x2=-1.3, x3=-0.4, x4=1.9, x5=5.1, x6=6.2.我们取子区间的宽度为2，然后按照步骤2依次操作：

核密度估计 - zhuandi_h - scholar_fish

图1 构造的直方图

这样我们就利用样本数据构造出了概率密度函数。

但是从图中很显然，利用直方图估计密度函数还是有不完美的地方：

1 密度函数是不平滑的

2 密度函数受子区间宽度影响很大，如果我们取0.5，5等构造出的密度函数显然与宽度取2的有很大差异。

3 当数据维数是1，2维情况下，直方图的使用是很普遍的，但是在数据维数再增加时，这种方法就有局限性了。

而基于核密度估计的方法就没有直方图的3的局限性。而且当我们采用平滑的核时，概率密度函数也是平滑的；但是当我们采用非平滑核时，概率密度函数也还是不连续的。

kernel density estimation:

假设样本数据值在D维空间服从一个未知的概率密度函数，那么在区域R内的概率为：

核密度估计 - zhuandi_h - scholar_fish

概率P的含义就为每个样本数据点落入区域R的概率为P.假设N个样本数据点有K个落入了区域R，那么就应该服从二项分布：

核密度估计 - zhuandi_h - scholar_fish

由概率知识可知，在N样本数据很大时，K约等于N*P。而另一方面，我们假设区域R足够小的话，那么P约等于p(x)*V(V为区域R的空间）。结合两个不等式子可得：

核密度估计 - zhuandi_h - scholar_fish （1）

那么，接下来根据等式（1）来估算p(x)就有两条路可以走：

1 K不变，我们通过决定区域V的大小来估算密度函数，那么我们就采用K-nearer-neighbour方法（这里不具体讨论）。

2 V不变，我们通过决定K的大小来估算密度函数，那么我们采用kernel方法。

我们顺着2的思路走下去。

假设区域R是一个以x为中心，边长为h的极小立方体（也就是V不变），我们现在要考虑的是落入立体体数据点的个数K。我们定义一个kernel函数：

核密度估计 - zhuandi_h - scholar_fish

该函数的意义是：数据维数为D维，当样本数据点落入小立方体时，函数值为1，其他情况下为0。所以落入立方提数据点的总个数K就可以表示为：

核密度估计 - zhuandi_h - scholar_fish （2）

那么根据等式（1），把等式（2）代入（1）中，可得：

核密度估计 - zhuandi_h - scholar_fish

此处的核密度估计 - zhuandi_h - scholar_fish 。

上面我们说过，当kernel density estimation采用平滑核时，估计出的概率密度函数也是平滑的。我们很多情况下都采用Gaussin Kernel.

然而，核密度估计也不是很完美，还是存在着一些缺陷。我们想要获得比较好的概率密度函数，h带宽（bandwidth)的选择就是个很大的问题，太大或者太小都能很大程度上影响p(x)结果。

来个例子理解下（还是上文提到过的6个样本数据点）：

假设我们采用Gaussin Kernel,方差取2.25.

核密度估计 - zhuandi_h - scholar_fish

注：蓝线代表估计出的p(x),每条红线代表一个样本数据点。

我们看p(x)是连续的，从某种程度上来说就相当于在估计值之外的区域进行插值处理。

阅读(4350) | 评论(1) | 转发(0) |

上一篇：似然比检验

下一篇：数据挖掘十大算法——K-均值聚类算法

给主人留下些什么吧！~~

xiejuntai2017-04-24 15:46:22

呵呵，为何图片看不见啊

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6