解密搜索引擎技术之聚类与相似性word2vec-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5835207
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

解密搜索引擎技术之聚类与相似性word2vec

分类：架构设计与优化

2015-01-26 21:07:22

一、简要介绍
        word2vec是Google在2013年发布的一个开源项目，它能够将词表征为实数值向量的高效工具，采用的模型有CBOW(Continuous Bag-Of-Words，即连续的词袋模型)和Skip-Gram两种。word2vec项目详细信息请参见。
        word2vec通过训练，可以把文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度，因此，word2vec输出的词向量可以用来做聚类、找同义词、词性分析等NLP相关工作。word2vec单机每天可训练上千亿词，可见性能之高效。
        与传统信息检索模型中的向量空间模型（VSM）不同，向量空间模型（VSM）是将文档向量化，而word2vec是将词向量化。更新多心请参见。

二、快速入门
1、代码下载
        #mkdir word2vec && cd word2vec
        #svn co
2、编译源码
        修改makefile，以linux为例，将编译选项-Ofast改为-O2或者-g（调试时用），删除编译器不认识的选项-march=native和-Wno-unused-result。编译word2vec工具：
        #make
        编译通过后，产生word2vec和distance。
3、训练分词
        训练前确认保语料已经分词过了，执行如下命令，训练模型：
        ./word2vec -train text8 -output vectors.bin -cbow 0 -size 200 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 8 -binary 1
        上面参数说明如下：
        -train：输入文件
        -output：输出的词向量(或聚类)
        -cbow 0：0表示使用skip-gram模型(慢，对罕见词有利)，1表示使用continuous bag-of-words模型(速度快)。
        -size 200：每个单词的向量维度是200
        -window 10：窗口大小，skip-gram通常在10附近，cbow通常在5附近。
        -negative 0：采样使用hierarchical softmax方法(负采样，对常见词有利)，不使用negative sampling方法(对罕见词有利)。
        -sample 1e-3：采样阈值，如果一个词语在训练样本中出现的频率越大，那么就越会被采样。
        -binary 1：1表示模型存储为二进制，0表示模型存储为文本。
        还有其他一些默认参数：
        -alpha：学习速率，默认为0.025
        -min-count：最低频率，默认是5,如果一个词语在文档中出现的次数小于5，那么就会丢弃。
        -classes 5：输出单词聚类(聚类个数为5)，此时将不再输出词向量。
4、词的相似关系提取
        执行下面命令，提取词的相似关系：
        ./distance vectors.bin
        比如：输入china，就能得到相似词。
        上面过程也可以直接执行脚本demo-word.sh、demo-analogy.sh、demo-phrases.sh等完成编译、训练和相似词查询，默认下载样本数据text8，text8中是以空格分隔的英文单词，共1600多万个单词。
        如果你的分词是中文语料，且每个词（term）之间用空格分隔，则也可以直接用word2vec来处理。
5、聚类
        word2vec内置聚类（k-means）功能，即用词的向量表示来判断词与词的距离。
        ./word2vec -train text8 -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 100
        其中，classes表示聚成100个类，这个值可以根据你的语料多少或者分类要求而定。
        输出的数据classes.txt分为2列，分别是词和所属于的聚簇：
        #sort -k2,2n classes.txt |vim -
        zambia 99
        zambian 99
        zanzibar 99
      ...
        从上面数据可以看出对于部分近似词的聚类效果还是可以的。

阅读(4688) | 评论(0) | 转发(0) |

上一篇：网页内容编码转换之iconv

下一篇：Linux之crontab格式

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6