mongodb分配集群 shard key-pengphy-ChinaUnix博客

xpenxpen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

pengphy

博客访问： 311354
博文数量： 35
博客积分： 825
博客等级：
技术积分： 913
用户组：普通用户
注册时间： 2010-06-11 09:44

文章分类

全部博文（35）

Go（5）
linux（1）
git（4）
openshift（0）
kvm（4）
mac（1）
python（3）
perl（0）
ops（15）

mongodb（1）
未分配的博文（2）

文章存档

2013年（10）

2012年（24）

2010年（1）

我的朋友

相关博文

mongodb分配集群 shard key

分类： NOSQL

2013-01-25 15:13:56

重新配置了shard cluster 另外看了《scaling mongodb》这本书的前两章回头来再读这篇文档感觉容易理解很多顺便把它给翻译了吧

Shard Keys

Shard keys 是collection中的一个字段 Mongo DB用这个keys来对数据进行分片存放到集群中的各个存储节点上去

Cardinality

Cardinality 在这里的意思指系统对数据分片的能力举个例子吧存储地址簿：

用州这个字段作为shard key
state州，这个字段存放地址簿中美国州的名称用state作为shard key 那么相应的cardinality会比较小因为州名相同的地址必须存放在相同的shard中这可能导致分片后某个州的地址超过了chunk最大值
另外州这个字段可能的值是一定的美国就只有50来个州 MongoDB有可能把所有的数据不均匀地存放到少量的chunk中导致的后果是:

MongoDB无法对某个chunk分片迁移这些不可分割的chunk的代价可能很高万一某个chunk有2-5GB 那么做这样一次迁移的代价可想而知
state这样一个字段所可能的值很有限想多添加shard来增加集群的吞吐是不肯完成的任务 mission impossible

用zipcode邮政编码作为shard key
全国范围内的邮政编码的可能值比州要多很多相比state作为shard key 用zipcode的cardinality会高一些当然如果记录的地址都是某个特定的地区那么死的惨烈状况和用state一样但是记录全国范围内的地址它还是比较理想的shard key
用phone-number电话号码作为shard key
用这个字段比之上的两个字段都要棒可能的值更多 MongoDB会按需要对数据进行分片

较高的cardinality对于均匀地分布数据是有好处的但是这并不能保证读写的效率会相应地增加

写的伸缩性

下面这个例子用ObjectID作为shard key

ObjectID 在document创建的时候确定和存储的document是一一对应的但是这个值往往和时间戳相关也就意味着我们可以预计这个值的变化情况尽管用它作为shard key可以获得较高的cardinality 但是这种单调增长的值作为shard key 那么某一个时间段的数据都会存放到同一个chunk中也就会在同一个shard里从而这个shard就会直接影响到集群的写效率如果插入数据的比例很低那么用它是没有问题的并不会影响性能但是总的来说尽可能选择那些既可以获得高cardinality 又能把写分散到整个集群的字段作为shard key 可以选择那些比较随即的字段或者计算出document的hash值作为shard key 看起来这样对写来说是足够理想了但是考虑到读的性能哎

查询

mongos隐藏了整个集群的信息应用发送查询请求到mongos monos向config server请求metadata 然后把应用查询导向到某个mongod实例从这个过程中我们也可以看出shard key对查询性能的影响

查询隔离性

效率最高的查询是 mongos利用shard key 还有config server的metadata 发送到一个特定的shard上如果查询中没有包含shard key mongos必须询问所有的shard 然后等待它们响应如果你的请求包含了shard key的一部分 mongos就可以依赖这些信息把查询转给特定的shard 或者少数的几个shard 这样查询效率也会相应地提高

如何选择理想的shard key：

研究一下哪些字段是应用在查询时通常会被包含在请求中
哪些操作最影响性能

如果单一的字段作为shard key导致cardinality很低那么你可以再添加一个字段作为shard key 这种复合的shard key对于MongoDB来说更好

排序

mongos会对shard返回的查询结果合并排序

可靠性

在选择shard key时最需要考虑的因素：

确保MongoDB可以把数据均匀地分布到整个集群
把写操作分布到整个集群
确保mongos可以把查询请求转到一个明确的shard上而不是询问所有的shard

其它:

每一个shard最好是一个replica set 如果这个replica set中的某一个server 挂了那么其它的server可以投票选择一个新的shard作为primary shard继续提供服务如果这个shard replica set中的所有server都挂了那么大声说拜拜吧 game over
如果shard key可以让mongos的请求转到特定的shard上去那么这个shard的故障只会影响一部分数据
如果你选择的shard key 让所有的请求都需要通过整个集群的处理才能得到响应那么shard挂了整个集群也就挂了

Choosing a Shard Key

通常很难选择一个shard key 达到理想化的成都但是这里还是有三点建议提供给大家：

在应用层设法获取一个比较理想的shard key 并且在每条记录里都存这个字段可以是_id字段
使用复合的shard key 用两到三个字段这样有助于读写效率的提高 MongoDB也更加容易对数据进行分片
对比一下如果选择了一个稍微差一点的shard key 对性能的影响，可以从一下几点出发：

写性能,
预期的数据大小
请求的特点还有需求

阅读(6047) | 评论(0) | 转发(0) |

上一篇：linux top 命令

下一篇：kvm虚拟机 nginx性能测试

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6