Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1496364
  • 博文数量: 218
  • 博客积分: 6394
  • 博客等级: 准将
  • 技术积分: 2563
  • 用 户 组: 普通用户
  • 注册时间: 2008-02-08 15:33
个人简介

持之以恒

文章分类

全部博文(218)

文章存档

2013年(8)

2012年(2)

2011年(21)

2010年(55)

2009年(116)

2008年(16)

分类:

2009-04-27 07:34:43

总体分布的非参数估计方法
为了设计贝叶斯分类器,需要总体分布的知识,但是很多实际问题并不知道总体的分布形式,或总体分布不是一些通常遇到的典型分布,不能写成某些参数的函数。于是提出了某些直接用样本来估计总体分布的方法。
幻灯片 3
估计总体分布函数
出发点:随机向量x落入到区域σ的概率P为P=∫σp(x)dx.其中p(x)为x的总体概率密度函数。
若有N个样本x1,x2,…xN是从密度函数为p(x)的总体中独立抽取的,则N个样本中
有k个落入区域σ中的概率Pk=CN P (1-P)N-k。
又E[k]=NP,
根据二项分布的性质可知k的众数m为(N+1)P的整数部分,即m=[(N+1)P]。且众
数定义为k=m时,Pk有最大值Pm=maxPk。
根据众数的这一定义,说明抽取N个样本,其中k=m个落入区域σ的概率最大。
可取k=m≈(N+1)P ≈NP ,则P ≈k / N。我们可以指望k / N是P的一个很好的估计,也就是总体密度p(x)在区域σ上的一个很好的估计。
而我们要估计的是总体密度函数p(x)的估计p(x)。为此设p(x)连续,并且区域σ足够小,以致使p(x)在这么小的区域中没有什么变化,可得P= ∫σp(x)dx=p(x)V,
其中V是区域σ的体积,x是σ中的点。
k / N ≈P= ∫σp(x)dx=p(x)V,则p(x)=k/(NV),其中p(x)表示x点概率密度p(x)的估计值,N为样本数, V为包含x的区域σ的体积,k为落入V中的样本数。
构造一串包括x的区域序列σ1,σ2,…,σN,…对σ1采用一个样本进行估计,对σ2
采用两个样本进行估计,…。设VN是σN的体积,kN是落入在σN中的样本数,
PN(x)是p(x)的第N次估计,则PN(x)=kN/(NVN)。若满足以下三个条件
(1)limVN=0 (N->∞)
(2)limkN= ∞(N-> ∞)
(3)limkN/N=0(N-> ∞)
PN(x)收敛于P(x)。

PARZEN窗估计和幻灯片 11kN-近邻估计
幻灯片 4


幻灯片 10
kN-近邻法的基本思想是使体积为数据的函数,而不是样本数N的函数。
  我们可以预先确定N的某个函数,然后在x点周围选择一个体积,并让它不断增长直至捕获kN个样本为止,这些样本为x的kN个近邻。
幻灯片 11
   kN-近邻法存在一般非参数估计的问题,即所需样本很多,因而计算量、存储量很大。可以采用分支定界法解决此问题。











阅读(3428) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~