浅谈协方差矩阵-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4669200
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

最近访客

推荐博文

浅谈协方差矩阵

分类： IT业界

2015-09-23 11:41:37

原文地址： />
统计学的基本概念
学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合X={X1,……Xn}，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。

很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n，是因为这样能使我们以较小的样本集更好的逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
为什么需要协方差？
上面几个统计量看似已经描述的差不多了，但我们应该注意到，标准差和方差一般是用来描述一维数据的，但现实生活我们常常遇到含有多维数据的数据集，最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量，我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，标准差可以这么来定义：

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，也就是说一个人越猥琐就越受女孩子欢迎，嘿嘿，那必须的~结果为负值就说明负相关的，越猥琐女孩子越讨厌，可能吗？如果为0，也是就是统计上说的“相互独立”。
从协方差的定义上我们也可以看出一些显而易见的性质，如：

协方差多了就是协方差矩阵
上一节提到的猥琐和受欢迎的问题是典型二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算

个协方差，那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

这个定义还是很容易理解的，我们可以举一个简单的三维的例子，假设数据集有{x,y,z}三个维度，则协方差矩阵为

可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。

总结
理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差，而不是不同样本之间，拿到一个样本矩阵，我们最先要明确的就是一行是一个样本还是一个维度，心中明确这个整个计算过程就会顺流而下，这么一来就不会迷茫了~

原文地址：http://blog.csdn.net/goodshot/article/details/8611178

纠正
协方差为0只能说明两者不相关，这里的不相关指的是不是线性关系，和独立是两个不同的概念。
X，Y相互独立协方差一定为零，但是其逆命题却不真。
例如
p{x=0}=p{x=1}=p{x=-1}=1/3
定义
Y=0 (x不等于0)
Y=1(X=0)
由XY=0，知E[XY]=0,又因为E[X]=0,
Cov(x,y)=E[XY]-E[X][Y]=0
显然X,Y不独立

Matlab协方差实战
协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。
首先，随机产生一个10*3维的整数矩阵作为样本集，10为样本的个数，3为样本的维数。

MySample = fix(rand(10,3)*50)

根据公式，计算协方差需要计算均值，协方差矩阵是计算不同维度间的协方差，样本矩阵的每行是一个样本，每列为一个维度，所以我们要按列计算均值。我们先将三个维度的数据分别赋值：

dim1 = MySample(:,1);dim2 = MySample(:,2);dim3 = MySample(:,3);
计算dim1与dim2，dim1与dim3，dim2与dim3的协方差：

sum( (dim1-mean(dim1)) .* (dim2-mean(dim2)) ) / ( size(MySample,1)-1 ) % 得到 74.5333
sum( (dim1-mean(dim1)) .* (dim3-mean(dim3)) ) / ( size(MySample,1)-1 ) % 得到 -10.0889
sum( (dim2-mean(dim2)) .* (dim3-mean(dim3)) ) / ( size(MySample,1)-1 ) % 得到 -106.4000
搞清楚了这个后面就容易多了，协方差矩阵的对角线就是各个维度上的方差，下面我们依次计算：

std(dim1)^2 % 得到 108.3222
std(dim2)^2 % 得到 260.6222
std(dim3)^2 % 得到 94.1778
这样，我们就得到了计算协方差矩阵所需要的所有数据，调用Matlab自带的cov函数进行验证：

cov(MySample)

把我们计算的数据对号入座，是不是一摸一样？

Update：原来协方差矩阵还可以这样计算，先让样本矩阵中心化，即每一维度减去该维度的均值，使每一维度上的均值为0。然后用新得到的样本矩阵（样本矩阵中心化后的矩阵）的转置乘上它本身，然后除以(N-1)即可。其实这种方法也是由前面的公式推导而来，只不过理解起来不是很直观，但在抽象的公式推导时还是很常用的！同样给出Matlab代码实现：

X = MySample - repmat(mean(MySample),10,1); % 中心化样本矩阵，使各维度均值为0
C = (X'*X)./(size(X,1)-1);

问题
Python里验证不同dimsension之间的协方差用上面算法计算是对的，而一个dimension自己的协方差不等于方差。

In [19]: X = np.random.randn(10,3)
In [20]: X
Out[20]:
array([[ 1.24996038e+00, -1.85003332e-01, -1.20438170e-01],
[ -9.65735601e-01, -2.08639315e+00, 1.33745834e+00],
[ 1.33256395e+00, 7.37633132e-01, -9.20016938e-01],
[ -5.61517540e-01, 1.09394760e+00, 4.47078189e-01],
[ -1.41744170e+00, 5.83846911e-02, 7.68006855e-01],
[ 8.72665850e-01, -1.83266828e-01, -1.08544321e+00],
[ 1.46818277e-03, 3.31183912e-01, -6.43292349e-01],
[ -1.09326178e+00, -8.20437125e-01, 2.48005188e-01],
[ -5.52168162e-01, 7.20421887e-01, -8.77084699e-01],
[ -1.43331418e-01, 5.98995643e-01, 1.98742785e+00]])

In [25]: np.cov(X, rowvar=0)
Out[25]:
array([[ 0.96826636, 0.2619252 , -0.54243349],
[ 0.2619252 , 0.86873758, -0.28913458],
[-0.54243349, -0.28913458, 1.07575136]])

根据协方差定义计算的不同维度之间协方差和根据numpy库cov函数计算结果一致。

In [27]: dim1 = X[:, 0]
In [28]: dim2 = X[:, 1]

In [37]: sum((dim1 - np.mean(dim1)) * (dim2 - np.mean(dim2))) / 9
Out[37]: 0.26192520332743185
In [38]: sum((dim1 - np.mean(dim1)) * (dim1 - np.mean(dim1))) / 9
Out[38]: 0.9682663628675231

dim1自己的协方差却不等于方差：

In [41]: np.cov(dim1)
Out[41]: array(0.9682663628675231)
In [42]: np.var(dim1)
Out[42]: 0.87143972658077085
In [44]: np.std(dim1) ** 2
Out[44]: 0.87143972658077085

原来Python里方差和标准差计算时，分母是n，而协方差计算时分母是无偏估计n-1
In [45]: sum((dim1 - np.mean(dim1)) * (dim1 - np.mean(dim1))) / 10
Out[45]: 0.87143972658077085

阅读(1365) | 评论(0) | 转发(0) |

上一篇：numpy的vstack和covariance

下一篇：Clustering of sparse data using python with scikit-learn

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6