集体智慧之聚类-bluecase-ChinaUnix博客

生活在别处xiangyu.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

bluecase

博客访问： 188283
博文数量： 13
博客积分： 1660
博客等级：上尉
技术积分： 688
用户组：普通用户
注册时间： 2008-08-04 16:38

文章分类

全部博文（13）

思考，快与慢（0）
互联网（1）
数据分析（8）
C++（0）
Linux内核相关（0）
python相关（0）
Linux系统（2）
数据库相关（2）
未分配的博文（0）

文章存档

2014年（2）

2013年（11）

我的朋友

相关博文

集体智慧之聚类

分类：云计算

2013-01-13 15:41:48

1.是无监督学习(不需要预先学习)中的一种 unsupervised learning。还有负矩阵因式分解和自组织映射也是。

2.对博客来进行聚类，步骤如下：

	word1	word2	word3	word4	word5	word6	word7
blog1	2	1	3	5	0	1	3
blog2				count
blog3

3.层级聚类法

a.对博客的单词统计 dict= {key1:count2;key2:count2,……}

b.过滤掉概率大于>0.5和<0.1的单词

c.生成一个单词向量，例如blog1={2,1,3,5,0,1,3}

d.计算博客之间的距离，可以参考前一篇的相关性系数p 或者余弦等？

e.类似与哈弗曼树的生成规则，生成一颗聚类树,聚类的属性算法（平均？？）

缺点：如果没有决策条件，最后的结果就是一个类。怎么才能拆成不同组呢？

4.k-means聚类(K均值的意思是簇中心是平均值)。K中心法选用离平均值最近的点作为簇中心，可以修正对孤立点的敏感性

a.先给定K个点作为中心，将每个元素归到最近的K点处。

b.新生成的类的属性计算同3，平均值，这里的中心点是个虚点。

c.到所有点都归类后，结束

缺点：K怎么来？最初的中心点又怎么来？

聚类的扩展阅读：

词频TF(word) = word出现的次数/文件的单词数单词在文档中的概率

文频DF(word) = log (word出现过的所有文档数/所有文件数 ) 包含单词word的文档概率

TF-IDF(term frequency - inverse document frequency) = sum(TF/DF) 判断文档的相似性

例如对the，所有文档都出现，那么DF=0,没有权重

一,划分法：

1.聚于质心的K-mean(KNN呢?)

2.K中心点

二,分层法：

1.凝聚AGNES，开始的每个元素都是一个类，然后合并。

2.分裂DIANA，开始全部是一个类，然后分裂。

三,基于密度

一二两种是基于距离的聚类，只能找到球状的簇。基于密度就可以找到任何形状的簇

主要思想：邻近区域密度超过阈值，就继续聚类。可以用来过滤噪声孤立点数据

四,基于网格

STING，

WaveCluster，

CLIQUE，

五,基于模型

统计学和神经网络

阅读(2005) | 评论(0) | 转发(0) |

上一篇：集体智慧之协同过滤

下一篇：集体智慧之搜索

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6