机器学习中的相似性度量-梦醒潇湘love-ChinaUnix博客

梦醒潇湘loveloveyou1314.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

梦醒潇湘love

博客访问： 2135624
博文数量： 249
博客积分： 1305
博客等级：军士长
技术积分： 4733
用户组：普通用户
注册时间： 2011-12-17 10:37

个人简介

不懂的东西还有很多，随着不断的学习，不懂的东西更多，无法消灭更多不懂的东西，那就不断的充实自己吧。欢迎关注微信公众号：菜鸟的机器学习

文章分类

全部博文（249）

机器学习（1）
Hadoop（2）
互联网广告（0）

特征工程（0）
算法（2）

SearchForPattern（2）
TCP/IP（1）
笔试题（4）

腾讯（2）
STL学习（3）
Big Data&nb（1）
程序员自我修养（4）
编程珠玑（5）
面试编程题（132）

Google（0）

智力题（2）

C/C++（11）

数学相关（7）

二分查找（7）

数组（30）

栈、队列、堆（4）

单链表（20）

经典二叉树（26）

字符串（20）
数据挖掘（6）
杂谈（1）
信息检索（1）
Linux编程（14）
Load Balance学习（4）
C/C++学习（19）

字节对齐（0）
linux下多线程（3）
数据结构与算法（29）

递归与分治（2）

并查集（1）

数据结构（1）

算法（3）
Makefile（8）
Mongoose(web服务（4）
BitTorrent（2）
未分配的博文（3）

文章存档

2015年（1）

2014年（4）

2013年（208）

2012年（35）

2011年（1）

我的朋友

相关博文

机器学习中的相似性度量

分类： C/C++

2013-08-27 11:29:04

在做分类时常常需要估算不同样本之间的相似性度量，这时通常采用的方法就是计算样本间的距离。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。
本文的目的就是对常用的相似性度量作一个总结。

1、欧式距离
欧式距离是最易于理解的一种距离计算方法，源自欧氏空间中两点间的距离公式。
（1）二维平面上的两点a(x1, y1)与b(x2, y2)之间的欧氏距离：

（2）三维空间两点 a(x1, y1)与b(x2, y2)之间的欧氏距离：

（3）两个n维向量a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的欧氏距离：

2、曼哈顿距离
从名字就可以看出这种距离的计算方法了。想象你在曼哈顿要从一个十字路口开车到另一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿过大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离。
（1）二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离

（2）两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离：

3、切比雪夫距离
    国际象棋玩过么？国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走试试。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。
    (1)二维平面两点a(x1,y1)与b(x2,y2)间的切比雪夫距离

(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的切比雪夫距离

这个公式的另一种等价形式是

4、闵可夫斯基距离
闵可夫斯基距离不是一种距离，而是一组距离的定义。
（1）闵可夫斯基距离的定义
    两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为：

其中p是一个变参数。
当p = 1时，就是曼哈顿距离
当p = 2时，就是欧氏距离
当p->∞时，就是切比雪夫距离
根据变参数的不同，闵可夫斯基距离可以表示一类的距离。
（2）闵可夫斯基距离的缺点
    闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点。
    举个例子：二维样本(身高,体重)，其中身高范围是150~190，体重范围是50~60，有三个样本：a(180,50)，b(190,50)，c(180,60)。那么a与b之间的闵氏距离（无论是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c之间的闵氏距离，但是身高的10cm真的等价于体重的10kg么？因此用闵氏距离来衡量这些样本间的相似度很有问题。

    简单说来，闵氏距离的缺点主要有两个：(1)将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。(2)没有考虑各个分量的分布（期望，方差等)可能是不同的。

5、标准化欧氏距离
（1）标准欧氏距离的定义
    标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，好吧！那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为：
    而且标准化变量的数学期望为0，方差为1。因此样本集的标准化过程(standardization)用公式描述就是：

    标准化后的值 = ( 标准化前的值－分量的均值 ) /分量的标准差
    经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的标准化欧氏距离的公式：

如果将方差的倒数看成是一个权重，这个公式可以看成是一个加权欧氏距离。

6、马氏距离
（1）马氏距离的定义

（2）马士距离的优缺点
量纲无关，排除变量之间的相关性干扰。

7、余弦夹角
    (1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式：

(2) 两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夹角余弦
类似的，对于两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)，可以使用类似于夹角余弦的概念来衡量它们间的相似程度。

即：

    夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

8、汉明距离
    (1)汉明距离的定义
    两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。
    应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

9、杰卡德相似系数
    (1) 杰卡德相似系数
    两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。

杰卡德相似系数是衡量两个集合的相似度的一种指标。
（2）杰卡德距离
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示：

    　杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
    (3) 杰卡德相似系数与杰卡德距离的应用
    可将杰卡德相似系数用在衡量样本的相似度上。
    样本A与样本B是两个n维向量，而且所有维度的取值都是0或1。例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。
    p ：样本A与B都是1的维度的个数
    q ：样本A是1，样本B是0的维度的个数
    r ：样本A是0，样本B是1的维度的个数
    s ：样本A与B都是0的维度的个数
    那么样本A与B的杰卡德相似系数可以表示为：
    这里p+q+r可理解为A与B的并集的元素个数，而p是A与B的交集的元素个数。
    而样本A与B的杰卡德距离表示为：

10、相关系数
（1）相关系数的定义

相关系数是衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。
（2）相关距离的定义

11、信息熵
    信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均)，信息熵就越大。分布越有序（或者说分布越集中），信息熵就越小。
    计算给定的样本集X的信息熵的公式：

    参数的含义：
    n：样本集X的分类数
    pi：X中第i类元素出现的概率
    信息熵越大表明样本集S分类越分散，信息熵越小则表明样本集X分类越集中。。当S中n个分类出现的概率一样大时（都是1/n），信息熵取最大值log2(n)。当X只有一个分类时，信息熵取最小值0。

引自：http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html

阅读(1926) | 评论(0) | 转发(0) |

上一篇：第十二章——Linux系统调用

下一篇：了解typename的双重意义

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6