RabbitMQ源码解析前奏--partitions-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5855204
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

RabbitMQ源码解析前奏--partitions

分类：云计算

2013-08-13 17:31:51

一、集群与网络分区
      RabbitMQ集群不能很好滴容忍网络分区。如果你正在考虑跨越广域网部署集群，则你最好使用或者。
      然而事故发生是不可避免，本文描述如何检测网络分区、在分区产生时会产生哪些不良影响，怎样从网络分区中恢复。
      RabbitMQ存储信息到Erlang的分布式数据库Mnesia中，包括queue、exchange、binding等。围绕网络分区的许多详细故障信息都与Mnesia的行为有关。

二、检测网络分区
      如果一分钟左右（net_ticktime参看）另一个节点不能与该节点取得联系，则Mnesia通常会判定该节点down了。如果两个节点能够联系得上了，但又都认为对方down了，则Mnesia将判定分区发生了。这个现象将会以如下形式写入到RabbitMQ的日志中：
      =ERROR REPORT==== X15-Oct-2012::18:02:30 ===
      Mnesia(rabbit@smacmullen): ** ERROR ** mnesia_event got
              {inconsistent_database, running_partitioned_network, hare@smacmullen}
      当节点启动后，RabbitMQ节点将会记录这种事件是否发生过，并且通过rabbitmqctl cluster_status和管理插件来显示这个信息。
      rabbitmqctl cluster_status正常状态会显示空分区列表：
      #rabbitmqctl cluster_status
      Cluster status node rabbit@smacullen ...
      [{nodes, [{disc, [hare@smacmullen, rabbit@smacmullen]}]},
          {running_nodes, [rabbit@smacmullen, hare@smacmullen]},
          {partitions, []}]
      ... done.
      然而，如果一个网络分区已经发生了，则分区节点信息会显示在列表中：
      #rabbitmqctl cluster_status
      Cluster status node rabbit@smacullen ...
      [{nodes, [{disc, [hare@smacmullen, rabbit@smacmullen]}]},
          {running_nodes, [rabbit@smacmullen, hare@smacmullen]},
          {partitions, [{rabbit@smacmullen, [hare@smacmullen]},
                          {hare@smacmullen, [rabbit@smacmullen]}]}]
      ... done.
      管理插件API将会通过/api/nodes为每个分区节点返回分区信息，管理插件UI将会在overview页面显示一个巨大的红色警告，比如下图就是本人在生产环境中遇到过的一次网络分区事故时的截图：

三、网络分区产生
      当网络分区发生时，集群内两个或者更多节点认为其它节点crash了。queue、binding、exchange可能会分开创建或删除。通过分区分裂为二，在每个分区内以一个master节点而告终，双方独立行事。其它未定义和怪异的行为可能会发生。
      当网络连接恢复时，这种状况依然存在，理解这一点非常重要。集群将继续保持这种分区行为直到你采取行动来解决它。

四、从网络分区中恢复
      为了从网络分区中恢复，首先选择一个你最信任的分区。这个分区将被Mnesia当成是可靠的节点来使用，在其它分区内的任何改变都会丢失。
      在其它分区内停止所有节点，然后再次启动它们。当它们重新加入集群时，它们将从信任的分区中恢复状态。
      最后，你应该也重新启动信任分区内的所有节点以清除警告。
      可能更简单的解决方案时停止整个集群，然后再次启动集群，如果确保你第一个启动的节点在信任分区内。
      具体步骤如下：
      #kill -p(rabbitmq pid)
      #rm /var/lib/rabbitmq/mnesia
      #./rabbitmq-server &
      #./rabbitmqctr stop_app
      #./rabbitmqctr join_cluster rabbit@URL
      #./rabbitmactr start_app
      OK了。

五、自动处理分区
      RabbitMQ也提供了两种方式来自动处理网络分区：pause-minority模式和autoheal模式。（默认行为是ignore模式）。
      在pause-minority模式下，RabbitMQ将自动暂停集群节点。根据CAP原理，它选择分区容忍而不是可用性。在网络分区事件发生时，至少在单个分区内节点还继续在运行。
      在autoheal模式下，如果一个分区被认为已经发生了，那么RabbitMQ将自动决定获胜分区。它将重启不在获胜分区内的所有节点。拥有大多数客户端连接的分区被认为是获胜分区。
      你可以在中通过参数cluster_partition_handling来使能pause_minority或者autoheal模式。
1、应该选择哪种模式
      （1）ignore：你的网络是可靠的。所有你的节点在一个机架上，连接到一个交换机上，这个交换机也是通往外部世界的必经之路。
      （2）pause_minority：你的网络可靠性很低。
      （3）autoheal：你的网络可能不可靠。
2、更多关于暂停少数模式
      在pause节点上，Erlang VM将继续运行，但是节点不在任何端口上监听或者做任何网络操作。它们将每秒检测一次看集群内其它节点是否已经出现了，如果出现了再次启动它。
      需要注意的是：
      （1）节点在启动时不会再进入暂停状态，尽管它们是少数的。
      （2）RabbitMQ将暂停集群内的一些节点，这些节点的数目没有严格限制，也就是大于50%。因此在网络分区或者节点faulure事件发生时，在一个两节点的集群内使能pause-minority模式不是个好主意，两个节点将同时暂停。然而，在集群节点大于2时，pause_minority模式可能比ignore模式安全。
      关于更多分区的资料也可以参考。

阅读(8051) | 评论(1) | 转发(1) |

上一篇：RabbitMQ源码解析前奏--partions

下一篇：lsof

给主人留下些什么吧！~~

scq2099yt2013-08-13 17:32:05

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6