京东云开发者的ChinaUnix博客

首页　| 　博文目录　| 　关于我

京东云开发者

博客访问： 138622
博文数量： 165
博客积分： 0
博客等级：民兵
技术积分： 1655
用户组：普通用户
注册时间： 2022-09-26 14:37

文章分类

全部博文（165）

测试（26）
案例分享（31）
架构设计（24）
开发技能（26）
数据库（23）
未分配的博文（35）

文章存档

2024年（2）

2023年（95）

2022年（68）

我的朋友

背景

众所周知单个机房在出现不可抗拒的问题（如断电、断网等因素）时，会导致无法正常提供服务，会对业务造成潜在的损失。所以在协同办公领域，一种可以基于同城或异地多活机制的高可用设计，在保障数据一致性的同时，能够{BANNED}最佳大程度降低由于机房的仅单点可用所导致的潜在高可用问题，{BANNED}最佳大程度上保障业务的用户体验，降低单点问题对业务造成的潜在损失显得尤为重要。

同城双活，对于生产的高可用保障，重大的意义和价值是不可言喻的。表面上同城双活只是简单的部署了一套生产环境而已，但是在架构上，这个改变的影响是巨大的，无状态应用的高可用管理、请求流量的管理、版本发布的管理、网络架构的管理等，其提升的架构复杂度巨大。

结合真实的协同办公产品：京办（为北京市政府提供协同办公服务的综合性平台）生产环境面对的复杂的政务网络以及京办同城双活架构演进的案例，给大家介绍下京办持续改进、分阶段演进过程中的一些思考和实践经验的总结。本文仅针对ES集群在跨机房同步过程中的方案和经验进行介绍和总结。

架构

	1.部署Logstash在金山云机房上，Logstash启动多个实例（按不同的类型分类，提高同步效率），并且和金山云机房的ES集群在相同的VPC 

	2.Logstash需要配置大网访问权限，保证Logstash和ES原集群和目标集群互通。 

	3.数据迁移可以全量迁移和增量迁移，首次迁移都是全量迁移后续的增加数据选择增量迁移。 

	4.增量迁移需要改造增加识别的增量数据的标识，具体方法后续进行介绍。 

原理

Logstash工作原理

Logstash分为三个部分input 、filter、ouput：

	1.input处理接收数据，数据可以来源ES，日志文件，kafka等通道. 

	2.filter对数据进行过滤，清洗。 

	3.ouput输出数据到目标设备，可以输出到ES，kafka，文件等。 

增量同步原理

1. 对于T时刻的数据，先使用Logstash将T以前的所有数据迁移到有孚机房京东云ES，假设用时?T

2. 对于T到T+?T的增量数据，再次使用logstash将数据导入到有孚机房京东云的ES集群

3. 重复上述步骤2，直到?T足够小，此时将业务切换到华为云，{BANNED}最佳后完成新增数据的迁移

适用范围：ES的数据中带有时间戳或者其他能够区分新旧数据的标签

流程

准备工作

	1.创建ECS和安装JDK忽略，自行安装即可 

	2.下载对应版本的Logstash，尽量选择与Elasticsearch版本一致，或接近的版本安装即可 

1）源码下载直接解压安装包，开箱即用

2）修改对内存使用，logstash默认的堆内存是1G，根据ECS集群选择合适的内存，可以加快集群数据的迁移效率。

3. 迁移索引

Logstash会帮助用户自动创建索引，但是自动创建的索引和用户本身的索引会有些许差异，导致{BANNED}最佳终数据的搜索格式不一致，一般索引需要手动创建，保证索引的数据完全一致。

以下提供创建索引的python脚本，用户可以使用该脚本创建需要的索引。

create_mapping.py文件是同步索引的python脚本，config.yaml是集群地址配置文件。

注：使用该脚本需要安装相关依赖

yum install -y PyYAML
yum install -y python-requests

拷贝以下代码保存为 create_mapping.py：

import yaml import requests import json import getopt import sys

阅读(251) | 评论(0) | 转发(0) |

上一篇：各开发语言DNS缓存配置建议

下一篇：关系型数据库设计三大范式

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6