Chinaunix首页 | 论坛 | 博客

Lzy

  • 博客访问: 213253
  • 博文数量: 56
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 675
  • 用 户 组: 普通用户
  • 注册时间: 2014-02-27 15:50
文章分类

全部博文(56)

文章存档

2014年(56)

我的朋友

分类: 信息化

2014-09-12 14:52:41

期望、方差、协方差及相关系数的基本运算

概率 统计 数学

这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。

期望

定义

P(x)是一个离散概率分布函数,自变量的取值范围为{x1,x2,?,xn}。其期望被定义为:

E(x)=∑k=1nxkP(xk)


p(x)是一个连续概率密度函数。其期望为:

E(x)=∫+∞?∞xp(x)dx


性质

1、线性运算规则

期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:

E(ax+by+c)=aE(x)+bE(y)+c


这个性质可以推广到任意一般情况:

E(∑k=1naixi+c)=∑k=1naiE(xi)+c


2、函数的期望

f(x)为x的函数,则f(x)的期望为:

离散:

E(f(x))=∑k=1nf(xk)P(xk)


连续:

E(f(x))=∫+∞?∞f(x)p(x)dx


一定要注意,函数的期望不等于期望的函数,即E(f(x))≠f(E(x))!。

3、乘积的期望

一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则E(xy)=E(x)E(y)。

期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望

方差

定义

方差是一种特殊的期望,被定义为:

Var(x)=E((x?E(x))2)


性质

1、展开表示

反复利用期望的线性性质,可以算出方差的另一种表示形式:

Var(x)=====E((x?E(x))2)E(x2?2xE(x)+(E(x))2)E(x2)?2E(x)E(x)+(E(x))2E(x2)?2(E(x))2+(E(x))2E(x2)?(E(x))2


2、常数的方差

常数的方差为0,由方差的展开表示很容易推得。

3、线性组合的方差

方差不满足线性性质,两个变量的线性组合方差计算方法如下:

Var(ax+by)=a2Var(x)+b2Var(y)+2Cov(x,y)


其中Cov(x,y)为x和y的协方差,下一节讨论。

4、独立变量的方差

如果两个变量相互独立,则:

Var(ax+by)=a2Var(x)+b2Var(y)


作为推论,如果x和y相互独立:Var(x+y)=Var(x)+Var(y)。

协方差

定义

两个随机变量的协方差被定义为:

Cov(x,y)=E((x?E(x))(y?E(y)))


因此方差是一种特殊的协方差。当x=y时,Cov(x,y)=Var(x)=Var(y)。

性质

1、独立变量的协方差

独立变量的协方差为0,可以由协方差公式推导出。

2、线性组合的协方差

协方差最重要的性质如下:

Cov(∑i=1maixi,∑j=1nbjyj)=∑i=1m∑j=1naibjCov(xi,yj)


很多协方差的计算都是反复利用这个性质,而且可以导出一些列重要结论。

作为一种特殊情况:

Cov(a+bx,c+dy)=bdCov(x,y)


另外当x=y时,可以导出方差的一般线性组合求解公式:

Var(∑k=1naixi)=∑i=1n∑j=1naiajCov(xi,xj)


相关系数

定义

相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:

Corr(x,y)=Cov(x,y)Var(x)Var(y)???????????√


性质

1、有界性

相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。

2、统计意义

值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

以下来自维基百科

协方差[编辑]

协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

期望值分别为E(X)=.muE(Y)=.nu的两个实数随机变量X 与Y 之间的协方差定义为:

.operatorname{cov}(X, Y) = .operatorname{E}((X - .mu) (Y - .nu))

其中E是期望值。它也可以表示为:

.operatorname{cov}(X, Y) = .operatorname{E}(X .cdot Y) - .mu .nu

直观上来看,协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果X 与Y 是统计独立的,那么二者之间的协方差就是0,这是因为

E(X .cdot Y)=E(X) .cdot E(Y)=.mu.nu,

但是反过来并不成立,即如果X 与Y 的协方差为0,二者并不一定是统计独立的。

取决于协方差的相关性η

 .eta = .left| .dfrac{.operatorname{cov}(X, Y)}{.sqrt{.operatorname{var}(X) .cdot .operatorname{var}(Y)}} .right| ,

更准确地说是线性相关性,是一个衡量线性独立的无量纲数,其取值在[0,+1]之间。相关性η = 1时称为“完全线性相关”,此时将Yi对Xi作Y-X 散点图,将得到一组精确排列在直线上的点;相关性数值介于0到1之间时,其越接近1表明线性相关性越好,作散点图得到的点的排布越接近一条直线。

相关性为0(因而协方差也为0)的两个随机变量又被称为是不相关的,或者更准确地说叫作“线性无关”、“线性不相关”,这仅仅表明X 与Y 两随机变量之间没有线性相关性,并非表示它们之间一定没有任何内在的(非线性)函数关系,和前面所说的“X、Y二者并不一定是统计独立的”说法一致。

属性[编辑]

如果X 与Y 是实数随机变量,a 与b 不是随机变量,那么根据协方差的定义可以得到:

.operatorname{cov}(X, X) = .operatorname{var}(X).operatorname{cov}(X, Y) = .operatorname{cov}(Y, X).operatorname{cov}(aX, bY) = ab., .operatorname{cov}(X, Y)

对于随机变量序列X1, ..., XnY1, ..., Ym,有

.operatorname{cov}.left(.sum_{i=1}^n {X_i}, .sum_{j=1}^m{Y_j}.right) =  .sum_{i=1}^n{.sum_{j=1}^m{.operatorname{cov}.left(X_i, Y_j.right)}}

对于随机变量序列X1, ..., Xn,有

\operatorname{var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{var}(X_i) + 2\sum_{i,j\,:\,i。
			<h2 style= 协方差矩阵[编辑]

分别为m 与n 个标量元素的列向量随机变量X 与Y,二者对应的期望值分别为μ与ν,这两个变量之间的协方差定义为m×n 矩阵

.operatorname{cov}(X, Y) = .operatorname{E}((X-.mu)(Y-.nu)^.top).

两个向量变量的协方差cov(XY)与cov(YX)互为转置矩阵

协方差有时也称为是两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性线性独立不同。

阅读(8682) | 评论(0) | 转发(0) |
0

上一篇:opencv之CvScalar

下一篇:malloc实现

给主人留下些什么吧!~~