这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。

期望

定义

设P(x)是一个离散概率分布函数，自变量的取值范围为{x1,x2,?,xn}。其期望被定义为：

E(x)=\sumk=1nxkP(xk)

设p(x)是一个连续概率密度函数。其期望为：

E(x)=\int+\infty?\inftyxp(x)dx

性质

1、线性运算规则

期望服从线性性质（可以很容易从期望的定义公式中导出）。因此线性运算的期望等于期望的线性运算：

E(ax+by+c)=aE(x)+bE(y)+c

这个性质可以推广到任意一般情况：

E(\sumk=1naixi+c)=\sumk=1naiE(xi)+c

2、函数的期望

设f(x)为x的函数，则f(x)的期望为：

离散：

E(f(x))=\sumk=1nf(xk)P(xk)

连续：

E(f(x))=\int+\infty?\inftyf(x)p(x)dx

一定要注意，函数的期望不等于期望的函数，即E(f(x))≠f(E(x))！。

3、乘积的期望

一般来说，乘积的期望不等于期望的乘积，除非变量相互独立。因此，如果x和y相互独立，则E(xy)=E(x)E(y)。

期望的运算构成了统计量的运算基础，因为方差、协方差等统计量本质上是一种特殊的期望。

方差

定义

方差是一种特殊的期望，被定义为：

Var(x)=E((x?E(x))2)

性质

1、展开表示

反复利用期望的线性性质，可以算出方差的另一种表示形式：

Var(x)=====E((x?E(x))2)E(x2?2xE(x)+(E(x))2)E(x2)?2E(x)E(x)+(E(x))2E(x2)?2(E(x))2+(E(x))2E(x2)?(E(x))2

2、常数的方差

常数的方差为0，由方差的展开表示很容易推得。

3、线性组合的方差

方差不满足线性性质，两个变量的线性组合方差计算方法如下：

Var(ax+by)=a2Var(x)+b2Var(y)+2Cov(x,y)

其中Cov(x,y)为x和y的协方差，下一节讨论。

4、独立变量的方差

如果两个变量相互独立，则：

Var(ax+by)=a2Var(x)+b2Var(y)

作为推论，如果x和y相互独立：Var(x+y)=Var(x)+Var(y)。

协方差

定义

两个随机变量的协方差被定义为：

Cov(x,y)=E((x?E(x))(y?E(y)))

因此方差是一种特殊的协方差。当x=y时，Cov(x,y)=Var(x)=Var(y)。

性质

1、独立变量的协方差

独立变量的协方差为0，可以由协方差公式推导出。

2、线性组合的协方差

协方差最重要的性质如下：

Cov(\sumi=1maixi,\sumj=1nbjyj)=\sumi=1m\sumj=1naibjCov(xi,yj)

很多协方差的计算都是反复利用这个性质，而且可以导出一些列重要结论。

作为一种特殊情况：

Cov(a+bx,c+dy)=bdCov(x,y)

另外当x=y时，可以导出方差的一般线性组合求解公式：

Var(\sumk=1naixi)=\sumi=1n\sumj=1naiajCov(xi,xj)

协方差[编辑]

协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

期望值分别为 $E(X)=.mu$ 与 $E(Y)=.nu$ 的两个实数随机变量X 与Y 之间的协方差定义为：

.operatorname{cov}(X, Y) = .operatorname{E}((X - .mu) (Y - .nu))

，

其中E是期望值。它也可以表示为：

.operatorname{cov}(X, Y) = .operatorname{E}(X .cdot Y) - .mu .nu

，

直观上来看，协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。

如果X 与Y 是统计独立的，那么二者之间的协方差就是0，这是因为

E(X .cdot Y)=E(X) .cdot E(Y)=.mu.nu,

但是反过来并不成立，即如果X 与Y 的协方差为0，二者并不一定是统计独立的。

取决于协方差的相关性η

.eta = .left| .dfrac{.operatorname{cov}(X, Y)}{.sqrt{.operatorname{var}(X) .cdot .operatorname{var}(Y)}} .right| ,

更准确地说是线性相关性，是一个衡量线性独立的无量纲数，其取值在[0,+1]之间。相关性η = 1时称为“完全线性相关”，此时将Y_i对X_i作Y-X 散点图，将得到一组精确排列在直线上的点；相关性数值介于0到1之间时，其越接近1表明线性相关性越好，作散点图得到的点的排布越接近一条直线。

相关性为0（因而协方差也为0）的两个随机变量又被称为是不相关的，或者更准确地说叫作“线性无关”、“线性不相关”，这仅仅表明X 与Y 两随机变量之间没有线性相关性，并非表示它们之间一定没有任何内在的（非线性）函数关系，和前面所说的“X、Y二者并不一定是统计独立的”说法一致。

属性[编辑]

如果X 与Y 是实数随机变量，a 与b 不是随机变量，那么根据协方差的定义可以得到：

.operatorname{cov}(X, X) = .operatorname{var}(X)

，

.operatorname{cov}(X, Y) = .operatorname{cov}(Y, X)

，

.operatorname{cov}(aX, bY) = ab., .operatorname{cov}(X, Y)

，

对于随机变量序列X₁, ..., X_n与Y₁, ..., Y_m，有

.operatorname{cov}.left(.sum_{i=1}^n {X_i}, .sum_{j=1}^m{Y_j}.right) = .sum_{i=1}^n{.sum_{j=1}^m{.operatorname{cov}.left(X_i, Y_j.right)}}

，

对于随机变量序列X₁, ..., X_n，有

\operatorname{var}\left(\sum_{i=1}^n X_i \right) = \sum_{i=1}^n \operatorname{var}(X_i) + 2\sum_{i,j\,:\,i。 <h2 style=

协方差矩阵[编辑]

分别为m 与n 个标量元素的列向量随机变量X 与Y，二者对应的期望值分别为μ与ν，这两个变量之间的协方差定义为m×n 矩阵

.operatorname{cov}(X, Y) = .operatorname{E}((X-.mu)(Y-.nu)^.top).

两个向量变量的协方差cov(X, Y)与cov(Y, X)互为转置矩阵。

协方差有时也称为是两个随机变量之间“线性独立性”的度量，但是这个含义与线性代数中严格的线性独立性线性独立不同。