1.是无监督学习(不需要预先学习)中的一种 unsupervised learning。还有负矩阵因式分解和自组织映射也是。
2.对博客来进行聚类,步骤如下:
| word1 | word2 | word3 | word4 | word5 | word6 | word7 |
blog1 | 2 | 1 | 3 | 5 | 0 | 1 | 3 |
blog2 | | | | count | | | |
blog3 | | | | | | |
|
3.层级聚类法
a.对博客的单词统计 dict= {key1:count2;key2:count2,……}
b.过滤掉概率大于>0.5和<0.1的单词
c.生成一个单词向量,例如blog1={2,1,3,5,0,1,3}
d.计算博客之间的距离,可以参考前一篇的相关性系数p 或者余弦等?
e.类似与哈弗曼树的生成规则,生成一颗聚类树,聚类的属性算法(平均??)
缺点:如果没有决策条件,最后的结果就是一个类。怎么才能拆成不同组呢?
4.k-means聚类(K均值的意思是簇中心是平均值)。K中心法选用离平均值最近的点作为簇中心,可以修正对孤立点的敏感性
a.先给定K个点作为中心,将每个元素归到最近的K点处。
b.新生成的类的属性计算同3,平均值,这里的中心点是个虚点。
c.到所有点都归类后,结束
缺点:K怎么来?最初的中心点又怎么来?
聚类的扩展阅读:
词频TF(word) = word出现的次数/文件的单词数 单词在文档中的概率
文频DF(word) = log (word出现过的所有文档数/所有文件数 ) 包含单词word的文档概率
TF-IDF(term frequency - inverse document frequency) = sum(TF/DF) 判断文档的相似性
例如对the,所有文档都出现,那么DF=0,没有权重
一,划分法:
1.聚于质心的K-mean(KNN呢?)
2.K中心点
二,分层法:
1.凝聚AGNES,开始的每个元素都是一个类,然后合并。
2.分裂DIANA,开始全部是一个类,然后分裂。
三,基于密度
一二两种是基于距离的聚类,只能找到球状的簇。基于密度就可以找到任何形状的簇
主要思想:邻近区域密度超过阈值,就继续聚类。可以用来过滤噪声孤立点数据
四,基于网格
STING,
WaveCluster,
CLIQUE,
五,基于模型
统计学和神经网络
阅读(1973) | 评论(0) | 转发(0) |