miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4663668
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

安装mongo-connector

测试机上的默认版本为2.6，由于我采用anonacoda作为Python开发环境，Python默认版本2.7。故使用pip2.7而不是pip命令。

# 安装mongo-connector（当前版本为2.3） ./CONDA-HOME/bin/pip2.7 install mongo-connector # elastic2-doc-manager （当前版本为0.1.0） ./CONDA-HOME/bin/pip2.7 install elastic2-doc-manager 

	
	
		1
	

	
		2
	

	
		3
	

	
		4
	

	
		5
	

	
		6
	




	
	
		1
	

	
		2
	

	
		3
	

	
		4
	

	
		5
	

	
		6

导入mongodb中的数据到Elasticsearch集群

在安装了monog-connector的机子的命令行中执行下面的命令（该命令为测试时的真实命令）。

mongo-connector --auto-commit-interval=0 -m ip_addr1:27018 -t ip_addr2:9200 -d elastic2_doc_manager -n db.collection

	
	
		1
	




	
	
		1

mongo-connector命令主要参数解析：

-m   mongodb_host:port    —— 数据源地址，mongodb数据库地址。
-t   target_host:port     —— 数据目的地地址，elasticsearch/solr/mongodb集群地址。建议为集群中的协调节点的地址。
-d   xxx_doc_manager      —— 数据目的地的document类型。例如：
                               将mongodb中的数据同步到elasticsearch，使用elastic_doc_manager或elastic2_doc_manager。 
                               将mongodb中的数据同步到solr，使用solr_doc_manager。
                               将mongodb中数据同步到其他mongodb，使用mongo_doc_manager。
-n   db.collection ...    —— 待同步的数据库及其collection。默认同步所有数据库。
-i   filed_name ...       —— 待同步的字段。默认同步所有字段。
-o   mongodb_oplog_position.oplog  —— mongo-connector的oplog。默认在mongo-connector命令执行目录下创建oplog.timestamp文件。
                               建议重新分配存储位置（也可重新分配存储文件名），例如 /opt/mongo-connector.oplog。
--auto-commit-interval    —— 数据同步间隔。默认在不同系统上有不同的值。设置为0表示mongodb中的任何操作立即同步到数据目的地。
--continue-on-error       —— 一条数据同步失败，日志记录该失败操作，继续后续同步操作。默认为中止后续同步操作。

其他参数包括设置日志输出行为（时间、间隔、路径等）、设置mongodb登录账户和密码、设置（数据目的地）Http连接的证书等、设置mongo-connector的配置文件

。

使用mongo-connector同步数据注意事项

1. mongodb必须开启副本集（Replica Set）。开启副本集才会产生oplog，副本拷贝主分片的oplog并通过oplog与主分片进行同步。
   mongo-connector也是通过oplog进行数据同步，故必须开启副本集。

2. 使用mongo-connector命令同步数据时，-m参数中的mongodb地址应该是主/从分片的地址，
   从该地址登录可以看见并操作local数据库（oplog存储在local.oplog.rs）；不能使用mongoos地址。

3. 使用mongo-connector命令同步数据时 ，mongo-connector的oplog（参照-o参数）不能随便删除，
   否则会引起重新同步所有数据的问题。该问题可以通过--no-dump选项关闭。

4. 生产环境下建议将mongo-connector配置为系统服务，运行mongo-connector时采用配置文件的方式。

踩过的坑

1. 数据库A中有多个集合(A1, A2, A3)，且已开启了副本集（Replica Set），但是集合A1可以同步，集合A2不能同步.
    原因：oplog中有A1的操作记录，没有A2的操作记录。
    结论：开启副本集（Replica Set）并不能保证一定能同步，oplog中必须包含待同步集合的操作记录，才能通过mongo-connector同步到Elasticsearch集群。

2. mongodb3.x版本加强了安全机制，导致了在只拥有某个库的权限时不能同步数据的问题。
    原因：拥有某个库的权限，并不能拥有oplog的读取权限，而mongo-connector需要读取oplog的权限。 
    结论：同步数据至少需要能够读取oplog的权限，确保当前mongodb用户的权限能够操作oplog，或者直接使用mongodb的管理员权限。

阅读(1514) | 评论(0) | 转发(0) |

上一篇：MongoDB核心贡献者：不是MongoDB不行，而是你不懂！

下一篇：Product Catalog with MongoDB, Part 2: Product Search

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6