为了设计贝叶斯分类器,需要总体分布的知识,但是很多实际问题并不知道总体的分布形式,或总体分布不是一些通常遇到的典型分布,不能写成某些参数的函数。于是提出了某些直接用样本来估计总体分布的方法。
估计总体分布函数
出发点:随机向量x落入到区域σ的概率P为P=∫σp(x)dx.其中p(x)为x的总体概率密度函数。
若有N个样本x1,x2,…xN是从密度函数为p(x)的总体中独立抽取的,则N个样本中
有k个落入区域σ中的概率Pk=CN P (1-P)N-k。
又E[k]=NP,
根据二项分布的性质可知k的众数m为(N+1)P的整数部分,即m=[(N+1)P]。且众
数定义为k=m时,Pk有最大值Pm=maxPk。
根据众数的这一定义,说明抽取N个样本,其中k=m个落入区域σ的概率最大。
可取k=m≈(N+1)P ≈NP ,则P ≈k / N。我们可以指望k / N是P的一个很好的估计,也就是总体密度p(x)在区域σ上的一个很好的估计。
而我们要估计的是总体密度函数p(x)的估计p(x)。为此设p(x)连续,并且区域σ足够小,以致使p(x)在这么小的区域中没有什么变化,可得P= ∫σp(x)dx=p(x)V,
其中V是区域σ的体积,x是σ中的点。
k / N ≈P= ∫σp(x)dx=p(x)V,则p(x)=k/(NV),其中p(x)表示x点概率密度p(x)的估计值,N为样本数, V为包含x的区域σ的体积,k为落入V中的样本数。
构造一串包括x的区域序列σ1,σ2,…,σN,…对σ1采用一个样本进行估计,对σ2
采用两个样本进行估计,…。设VN是σN的体积,kN是落入在σN中的样本数,
PN(x)是p(x)的第N次估计,则PN(x)=kN/(NVN)。若满足以下三个条件
(1)limVN=0 (N->∞)
(2)limkN= ∞(N-> ∞)
(3)limkN/N=0(N-> ∞)
则PN(x)收敛于P(x)。