cspybcspyb.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

cspyb_cu

博客访问： 1127731
博文数量： 165
博客积分： 3900
博客等级：中校
技术积分： 1887
用户组：普通用户
注册时间： 2007-04-06 15:15

文章分类

全部博文（165）

android APP（0）
ijkplayer（1）
搜索（3）
tensorflow（1）
算法和深度学习（1）
今日美剧（0）
usb协议驱动学习（1）
tomcat学习研究（2）
hadoop学习（3）
工具（0）
android fra（2）
audio（0）
韩语学习（1）
C语言基础（2）
Linux系统编程（9）
数据库（4）
Kernel基础（16）
各种协议（2）
人生感悟（7）
乒乓球（2）
opengl（2）
Shell编程（5）
j2ee学习（3）
程序设计（2）

django（1）
心情日记（18）
英语学习（1）
嵌入式linux（34）

android移植（3）
网络技术（27）

linphone（1）

sip/opensips（3）
算法（6）

人工智能（2）
未分配的博文（10）

文章存档

2020年（3）

2019年（8）

2017年（2）

2016年（8）

2015年（14）

2013年（15）

2012年（32）

2011年（11）

2010年（14）

2009年（7）

2008年（20）

2007年（31）

我的朋友

gensim的doc2bow实现词袋模型

词袋模型不做过多介绍，直接来个案例

from gensim import corpora, models, similarities
raw_documents = [ '0无偿居间介绍买卖毒品的行为应如何定性', '1吸毒男动态持有大量毒品的行为该如何认定', '2如何区分是非法种植毒品原植物罪还是非法制造毒品罪', '3为毒贩贩卖毒品提供帮助构成贩卖毒品罪', '4将自己吸食的毒品原价转让给朋友吸食的行为该如何认定', '5为获报酬帮人购买毒品的行为该如何认定', '6毒贩出狱后再次够买毒品途中被抓的行为认定', '7虚夸毒品功效劝人吸食毒品的行为该如何认定', '8妻子下落不明丈夫又与他人登记结婚是否为无效婚姻', '9一方未签字办理的结婚登记是否有效', '10夫妻双方1990年按农村习俗举办婚礼没有结婚证 一方可否起诉离婚', '11结婚前对方父母出资购买的住房写我们二人的名字有效吗', '12身份证被别人冒用无法登记结婚怎么办？', '13同居后又与他人登记结婚是否构成重婚罪', '14未办登记只举办结婚仪式可起诉离婚吗', '15同居多年未办理结婚登记，是否可以向法院起诉要求离婚' ] 

	
	
		1
	

	
		2
	

	
		3
	

	
		4
	

	
		5
	

	
		6
	

	
		7
	

	
		8
	

	
		9
	

	
		10
	

	
		11
	

	
		12
	

	
		13
	

	
		14
	

	
		15
	

	
		16
	

	
		17
	

	
		18
	

	
		19

载入中文数据以及对应的包，corpora是构造词典的, similarities求相似性可以用得到。

texts = [[word for word in jieba.cut(document, cut_all=True)] for document in raw_documents] 

	
	
		1
	

	
		2

将词语进行分词，并进行存储。

dictionary = corpora.Dictionary(texts)

	
	
		1

寻找整篇语料的词典、所有词，corpora.Dictionary。

corpus = [dictionary.doc2bow(text) for text in texts]

	
	
		1

建立语料之后，分支一：BOW词袋模型；分支二：建立TFIDF。
.

分之一：BOW词袋模型

由doc2bow变为词袋，输出的格式为：

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (4, 1), (5, 1), (7, 1), (8, 1), (9, 2), (10, 1)], [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (10, 1)]]

	
	
		1

例如（9，2）这个元素代表第二篇文档中id为9的单词“silver”出现了2次。
.

分支二：建立TFIDF

tfidf = models.TfidfModel(corpus)

	
	
		1

使用tf-idf 模型得出该评论集的tf-idf 模型

corpus_tfidf = tfidf[corpus] 

	
	
		1

此处已经计算得出所有评论的tf-idf 值

在TFIDF的基础上，进行相似性检索。

similarity = similarities.Similarity('Similarity-tfidf-index', corpus_tfidf, num_features=600) 

	
	
		1

然后进行similarity检索。

print(similarity[test_corpus_tfidf_1]) # 返回最相似的样本材料,(index_of_document, similarity) tuples 

	
	
		1

当然其中的test_corpus_tfidf_1需要进行预先处理。先变为dow2bow，然后tfidf
.

情况一：新的句子

new_sensence = "16通过下面一句得到语料中每一篇文档对应的稀疏向量" test_corpus_1 = dictionary.doc2bow(jieba.cut(raw_documents[1], cut_all=True)) vec_tfidf = tfidf[test_corpus_1]

	
	
		1
	

	
		2
	

	
		3

利用doc2bow对其进行分割，然后求tfidf模型。输出的结果即为：

vec_tfidf Out[82]: 
[(1, 0.09586155438319434),
 (5, 0.1356476941913782),
 (6, 0.09586155438319434),
 (8, 0.1356476941913782),
 (11, 0.19172310876638868),
 (12, 0.38344621753277736),
 (13, 0.38344621753277736),
 (14, 0.38344621753277736),
 (15, 0.16086258119086566),
 (16, 0.38344621753277736),
 (17, 0.38344621753277736),
 (18, 0.38344621753277736)]

阅读(6288) | 评论(0) | 转发(0) |

上一篇：svm 的数学理解

下一篇：mysql 去重, 折腾了好一会(临时表很重要, 不然会出错)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6