miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4663077
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

概念

节点（Node）：节点是一个ES的实例，一般一台主机上部署一个节点-
集群（Cluster）：集群由若干节点组成，和任意节点的通信等价于和集群的通信
分片（Shard）：一个索引会分成多个分片存储，分片数量在索引建立后不可更改
副本（Replica）：副本是分片的一个拷贝，目的在于提高系统的容错性和搜索的效率
索引（Index）：类似数据库的库
类型（Type）：类似数据库的表
文档（Document）：类似数据库的行，包含一个或多个Field
字段（Field）：搜索的最小单元，可通过Mapping定义不同的属性（比如可否被搜索）

部署

以ElasticSearch 1.5.0版本为例

ES的使用很简单，从官网下载压缩包后，解压后输入如下指令：

./bin/elasticsearch -d --cluster.name [your_cluster_name] --node.name [your_node_name]

一旦在多台主机上启动拥有同一个cluster.name的ES实例，它们会自动组成一个集群。

elasticsearch-head

是一个必装的插件，它提供了一个web界面，显示集群和索引的状态，同时具备浏览和搜索文档的功能。只需要通过ES的plugin指令安装就OK了：

./bin/plugin -install mobz/elasticsearch-head

同步

通常线上系统都不会使用ES作为主存储，从主存储创建索引的效率是我们关心的。ES的能支持批量操作，大大提升了创建索引的效率。以下是使用pyelasticsearch（非官方的一个Python客户端）批量创建索引的范例：

from pyelasticsearch import ElasticSearch from pyelasticsearch import bulk_chunks

es = ElasticSearch() def documents(): for _doc in docs: yield es.index_op(doc=_doc, id=doc['id']) for chunk in bulk_chunks(documents(), docs_per_chunk=500, bytes_per_chunk=10000):
    es.bulk(chunk, index='index-test', doc_type='doc')

单机索引200万条记录的耗时约10分钟。

中文

ES支持中文的前提是安装正确的分词组件，比如。但貌似该组件的最新版本（1.2.9）不支持plugin指令直接安装，只能通过Maven重新编译了：

git clone  --depth 1 cd elasticsearch-analysis-ik/ # 真心希望你的网络棒棒嗒 mvn package
unzip ./target/releases/elasticsearch-analysis-ik-1.2.9.zip

zip解压得到5个jar包：

elasticsearch-analysis-ik-1.2.9.jar
httpclient-4.3.5.jar
httpcore-4.3.2.jar
commons-logging-1.1.3.jar
commons-codec-1.6.jar

返回ES目录，新建路径./plugins/analysis-ik并把上述jar包全部移进去。
第二步，把elasticsearch-analysis-ik/config/ik文件夹（IK自带的词典）复制到ES目录的./config路径下。
第三步，在./config/elasticsearch.yml文件的最后加上：

index:
  analysis:
    analyzer:
      ik:
          alias: [news_analyzer_ik,ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider index.analysis.analyzer.default.type : "ik"

至此大功告成。注意配置分词组件必须在创建索引之前，否则是无效的。

调优

ES的调优分两个层面，一是Java层面的调优，包括加大JVM的可用内存及单线程内存。

对Unix系统，可修改./bin/elasticsearch.in.sh文件：

# 一般分配主机1/4-1/2的内存 if [ "x$ES_MIN_MEM" = "x" ]; then ES_MIN_MEM=12g fi if [ "x$ES_MAX_MEM" = "x" ]; then ES_MAX_MEM=12g fi JAVA_OPTS="$JAVA_OPTS -Xms${ES_MIN_MEM}" JAVA_OPTS="$JAVA_OPTS -Xmx${ES_MAX_MEM}" # 线程大小, ES单线程承载的数据量比较大 JAVA_OPTS="$JAVA_OPTS -Xss128m"

调优的第二个层面是ES本身的调优，修改./config/elasticsearch.yml文件，关键的项目如下所示：

# 分片数量，推荐分片数*副本数=集群数量 # 分片会带来额外的分割和合并的损耗，理论上分片数越少，搜索的效率越高 index.number_of_shards: 20 # 锁定内存，不让JVM写入swapping，避免降低ES的性能 bootstrap.mlockall: true # 缓存类型设置为Soft Reference，只有当内存不够时才会进行回收 index.cache.field.max_size: 50000 index.cache.field.expire: 10m index.cache.field.type: soft

阅读(925) | 评论(0) | 转发(0) |

上一篇：Product Catalog with MongoDB, Part 2: Product Search

下一篇：Faceted search with ElasticSearch

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6