Chinaunix首页 | 论坛 | 博客
  • 博客访问: 186422
  • 博文数量: 13
  • 博客积分: 1660
  • 博客等级: 上尉
  • 技术积分: 688
  • 用 户 组: 普通用户
  • 注册时间: 2008-08-04 16:38
文章分类
文章存档

2014年(2)

2013年(11)

分类: 云计算

2013-01-13 15:41:48

1.是无监督学习(不需要预先学习)中的一种  unsupervised learning。还有负矩阵因式分解和自组织映射也是。
2.对博客来进行聚类,步骤如下:

 

word1

word2

word3

word4

word5

word6

word7

blog1

 2

 1

 3

 5

 0

 1

 3

blog2

 

 

 

count

 

 

 

blog3

 

 

 

 

 

 

 


3.层级聚类法
a.对博客的单词统计 dict= {key1:count2;key2:count2,……}
b.过滤掉概率大于>0.5和<0.1的单词
c.生成一个单词向量,例如blog1={2,1,3,5,0,1,3}
d.计算博客之间的距离,可以参考前一篇的相关性系数p 或者余弦等?
e.类似与哈弗曼树的生成规则,生成一颗聚类树,聚类的属性算法(平均??)
缺点:如果没有决策条件,最后的结果就是一个类。怎么才能拆成不同组呢?

4.k-means聚类(K均值的意思是簇中心是平均值)。K中心法选用离平均值最近的点作为簇中心,可以修正对孤立点的敏感性
a.先给定K个点作为中心,将每个元素归到最近的K点处。
b.新生成的类的属性计算同3,平均值,这里的中心点是个虚点。
c.到所有点都归类后,结束
缺点:K怎么来?最初的中心点又怎么来?

聚类的扩展阅读:

词频TF(word) = word出现的次数/文件的单词数                                            单词在文档中的概率
文频DF(word) = log (word出现过的所有文档数/所有文件数 )                           包含单词word的文档概率 
TF-IDF(term frequency - inverse document frequency) = sum(TF/DF)         判断文档的相似性
例如对the,所有文档都出现,那么DF=0,没有权重

一,划分法:
1.聚于质心的K-mean(KNN呢?)
2.K中心点

二,分层法:
1.凝聚AGNES,开始的每个元素都是一个类,然后合并。
2.分裂DIANA,开始全部是一个类,然后分裂。

三,基于密度
一二两种是基于距离的聚类,只能找到球状的簇。基于密度就可以找到任何形状的簇
主要思想:邻近区域密度超过阈值,就继续聚类。可以用来过滤噪声孤立点数据

四,基于网格
STING,
WaveCluster,
CLIQUE,

五,基于模型
统计学和神经网络
阅读(1973) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~