总体分布的非参数估计方法-GilBert1987-ChinaUnix博客

米斯特逗的学习笔记gilbert.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

GilBert1987

博客访问： 1519335
博文数量： 218
博客积分： 6394
博客等级：准将
技术积分： 2563
用户组：普通用户
注册时间： 2008-02-08 15:33

个人简介

持之以恒

文章分类

全部博文（218）

Android（12）

四大组件（3）

开发环境（5）

Games（2）

Interview（1）

HTTP（0）
Linux（5）

多线程同步（4）

编译内存性能（1）
C/C++（56）

基础（1）

String（3）

文件操作（3）

STL（10）
算法+数据结构（23）

索引结构学习（1）
Design Patterns（16）
Video（1）

RTMP（0）

FFMPEG（1）
计算机网络（28）

ACE（12）

网络基础（9）

HTTP（1）

HHTPS&&SSL（0）

Apache（2）
Java（3）

多线程（1）
Ubutun（1）
DataBase（2）
XML（3）
WinCE（7）
ARM（19）
Windows编程和MFC（35）
Pattern Recognit（6）
Others（1）
未分配的博文（0）

文章存档

2013年（8）

2012年（2）

2011年（21）

2010年（55）

2009年（116）

2008年（16）

我的朋友

最近访客

推荐博文

总体分布的非参数估计方法

分类：

2009-04-27 07:34:43

总体分布的非参数估计方法

为了设计贝叶斯分类器，需要总体分布的知识，但是很多实际问题并不知道总体的分布形式，或总体分布不是一些通常遇到的典型分布，不能写成某些参数的函数。于是提出了某些直接用样本来估计总体分布的方法。
幻灯片 3

估计总体分布函数

出发点：随机向量x落入到区域σ的概率P为P=∫σp(x)dx.其中p(x)为x的总体概率密度函数。

若有N个样本x1,x2,…xN是从密度函数为p(x)的总体中独立抽取的，则N个样本中

有k个落入区域σ中的概率Pk=CN P (1-P)N-k。

又E[k]=NP，

根据二项分布的性质可知k的众数m为(N+1)P的整数部分，即m=[(N+1)P]。且众

数定义为k=m时，Pk有最大值Pm=maxPk。

根据众数的这一定义，说明抽取N个样本，其中k=m个落入区域σ的概率最大。

可取k=m≈(N+1)P ≈NP ,则P ≈k / N。我们可以指望k / N是P的一个很好的估计，也就是总体密度p(x)在区域σ上的一个很好的估计。

而我们要估计的是总体密度函数p(x)的估计p(x)。为此设p(x)连续，并且区域σ足够小，以致使p(x)在这么小的区域中没有什么变化，可得P= ∫σp(x)dx=p(x)V，

其中V是区域σ的体积，x是σ中的点。

k / N ≈P= ∫σp(x)dx=p(x)V，则p(x)=k/(NV)，其中p(x)表示x点概率密度p(x)的估计值，N为样本数， V为包含x的区域σ的体积，k为落入V中的样本数。

构造一串包括x的区域序列σ1,σ2,…,σN,…对σ1采用一个样本进行估计，对σ2

采用两个样本进行估计,…。设VN是σN的体积，kN是落入在σN中的样本数，

PN(x)是p(x)的第N次估计，则PN(x)=kN/(NVN)。若满足以下三个条件

(1)limVN=0 (N->∞)

(2)limkN= ∞(N-> ∞)

(3)limkN/N=0(N-> ∞)

则PN(x)收敛于P(x)。

PARZEN窗估计和幻灯片 11kN-近邻估计
幻灯片 4

幻灯片 10

kN-近邻法的基本思想是使体积为数据的函数，而不是样本数N的函数。

我们可以预先确定N的某个函数，然后在x点周围选择一个体积，并让它不断增长直至捕获kN个样本为止，这些样本为x的kN个近邻。
幻灯片 11

kN-近邻法存在一般非参数估计的问题，即所需样本很多，因而计算量、存储量很大。可以采用分支定界法解决此问题。

阅读(3664) | 评论(0) | 转发(0) |

上一篇：贝叶斯算法(bayesian)介绍（转）

下一篇：BSP、BIOS、Bootloader介绍（转）

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6