Ceph配置参数（三）-u0402-ChinaUnix博客

u0402

首页　| 　博文目录　| 　关于我

u0402

博客访问： 832580
博文数量： 274
博客积分： 0
博客等级：民兵
技术积分： 862
用户组：普通用户
注册时间： 2015-10-24 15:31

个人简介

不合格的程序猿

文章分类

全部博文（274）

存储（24）
协议（1）

http（0）

tcp/ip（1）
设计模式（1）
算法（5）

加密算法（5）

排序算法（0）
虚拟化（1）

NFV（1）
office（0）

excel（0）

word（0）
linux开发工具（17）

io工具（1）

git（2）

svn（1）

ctags（0）

gdb（4）

gtags（0）

vim（1）
web服务器（7）

nginx（0）

apache（7）
语言c/c++/java（31）

java（0）

c++（3）

c语言（28）
vmware（2）
网络安全（23）

openssl（8）
Linux系统（108）

时间管理（0）

进程调度（0）

虚拟文件系统（3）

内存管理（2）
VPN（0）
脚本（37）

PHP（1）

Python（5）

shell（30）
SourceInsight（1）
ldap（16）
未分配的博文（0）

文章存档

2019年（3）

2018年（1）

2017年（4）

2016年（160）

2015年（106）

我的朋友

txgc_wm

相关博文

Ceph配置参数（三）

分类：服务器与存储

2016-05-20 14:16:38

8、MONITOR CONFIG REFERENCE

客户端在读写数据前，都比去和monitor取得联系，获得cluster map，结合CRUSH算法计算得到对象的位置。

（1）最小配置

生成一个fsid和monitorde的最小配置，配置字段[mon]或[mon.a]，ceph监视器默认监听6789端口。

主机名（e.g. mon host = hostname1,hostname2,hostname3）： mon host

主机IP（e.g. mon addr = 10.0.0.10:6789,10.0.0.11:6789,10.0.0.12:6789）： mon addr

（2）初始成员

必须是个奇数，表示一个初始的最小monitor数，active的monitor达到这个数才能启动。

初始monitor成员ID： mon initial members

（3）数据

monitor存储数据的路径，因为monitor也是在节点上的，monitor会做很多fsync()操作，影响OSD的工作负载，在0.58以前的版本中，monitor的数据是以文件形式存放的，可以用ls，cat等命令直接查看，但是一致性难以保障。之后的版本，数据以key/value的形式存放，并且需要原子性操作，保证一致性，数据保存路径不建议改动。

monitor数据保存路径（e.g. /var/lib/ceph/mon/$cluster-$id）： mon data

（4）存储容量

当集群的使用率接近"最大容量"时，monitor会阻止对OSD的读写请求以避免数据丢失，考虑到多个主机可能同时断电造成集群容量剧减，这个"最大容量"通常小于实际的集群总容量，配置段位[global]。

被认为集群已满的最大使用百分比（默认.95）： mon osd full ratio

被认为集群接近已满的最大使用百分比（默认.85）： mon osd nearfull ratio

（5）monitor间的同步

集群间存在多Monitor共同工作时，存在同步的问题，不必每个monitor都active集群才工作，只要达到最小可工作数量就行了，这个数量在mon initial members中规定，所以有可能一些mon在某一时刻不工作，后来恢复正常后状态就落后了。monitor三种角色：leader，最先获得最新的cluster map；provider，拥有最新的cluster map，但不是最先获得的；requester，状态落后，必须同步后方可工作。

在一个同步过程中，requester向leader请求同步，leader负责分派同步工作给provider，并告知requester去找provider，这样做分摊了工作负载。provider以chunk为单位发给requester最新的状态数据，同步完后，requester告知leader完成，leader恢复一个ACK宣布同步结束。

同步总是在一个新的monitor加入集群时发生。在运行过程中，cluster map不断更新，这三个角色也不断变化，如果provider接受到同步任务但自身状态落后于leader时，它可以终止同步并告知leader。同步完成后，ceph发出一个trimming，这个操作大概是修剪多余的状态数据，并且这个操作必须在PG状态是active+clean时进行。

trimming操作超时（默认30s）： mon sync trim timeout

同步时心跳超时（monotor之间的心跳检查，默认30s）： mon sync heartbeat timeout

同步时心跳检查间隔（默认5s）： mon sync heartbeat interval

同步超时（默认30s）： mon sync timeout

同步最大重试次数（默认5）： mon sync max retries

同步最大负载量（默认1045676）： mon sync max payload size

leader等待requester同步的最大时间（默认10s）： mon accept timeout

map更新前收集更新信息的时间间隔（默认1s）： paxos propose interval

收集更新信息的最小时间（默认0.05s）： paxos min wait

trimming操作前能容忍的最大proposal数（默认30）： paxos trim tolerance

未trimming时最大的版本数（默认100）： paxos trim disabled max versions

Monitor版本租约秒数（默认5）： mon lease

leader去更新其他monitor租约的时间间隔数（默认3s）： mon lease renew interval

leader等待provider告知其版本的秒数： mon lease ack timeout

OSD map维持的最小版本号数量（默认500）： mon min osdmap epochs

monitor维护的最多的PG map版本号数量（默认500）： mon max pgmap epochs

monitor保留的最大的log版本号数量（默认500）： mon max log epochs

（6）时钟

不同节点间时钟应该同步，否则一些超时和时间戳相关的机制将无法正确运行，运行又monitor的节点还需要安装NTP来同步时钟。然而NTP 级别的时钟同步还不够，即使NTP同步好，ceph也会报出时钟偏移警告，工作量，网络延迟，配置覆盖等也会对同步有影响。

相对于时间的偏移： clock offset

monitor计时间隔秒数（默认5）： mon tick interval

monitor间的clock drift（时钟嘀嗒数？，默认.05s）： mon clock drift allowed

时钟偏移补偿指数（默认5）： mon clock drift warn backoff

leader时间检查间隔（默认300s）： mon timecheck interval

（7）客户端

客户端每隔Ns尝试一个Monitor直到建立连接（默认3）： mon client hung interval

客户端每个Ns会去ping一个monitor（默认10）： mon client ping interval

每一个客户端信息产生的log entires数（默认1000）： mon client max log entries per message

内存中的客户端信息数据大小（默认100ul << 20）： mon client bytes

（8）杂项

集群允许的最大OSD数量（默认10000）： mon max osd

集群为客户端和daemon预分配的全局ID数量（默认100）： mon globalid prealloc

写了这么多个对象后和底层文件系统同步一次（默认5）： mon sync fs threshold

subscription 间隔秒数（默认500）： mon subscribe interval

使最近的N个PGmap统计数据呈现平滑趋势（默认2）： mon stat smooth intervals

monitor在bootstrapping前寻找其他Monitor的时间（默认2s）： mon probe timeout

元数据和OSD信息可以在内存中驻留的信息大小（默认400ul << 20byte）： mon daemon bytes

每个事件最大的log entries数（默认4096）： mon max log entries per event

9、Heartbeat Settings

OSD靠定期检查heartbeat来确认相邻的OSD有没有down，以及在peer过程中检查错误和向monitor汇报自身情况，包括故障发生，PG状态改变，以及检查monitor有没有down。

（1）MONITOR SETTINGS

向monitor报告down的最小OSD数（默认1）： mon osd min down reporters

OSD向monitor报告OSD down的最小次数（默认3）： mon osd min down reports

宣布一个无响应的OSD down的超时（默认900）： mon osd report timeout

自动标记为out的最大的CRUSH单位类型（默认rack）： mon osd downout subtree limit

注：是不是说最大可以标记一个机架out了？

标记一个OSD状态为down和out之前ceph等待的秒数（默认300）： mon osd down out interval

自动标记一个新加入的OSD状态为in（默认true）：mon osd auto mark new in

自动标记启动中的OSD状态为in（默认为false）： mon osd auto mark in

标记在启动过程中被自动标记为out的OSD状态为in（默认true）： mon osd auto mark auto out in

The minimum ratio of up Ceph OSD Daemons before Ceph will mark Ceph OSD Daemons down（默认.3）： mon osd min up ratio

The minimum ratio of in Ceph OSD Daemons before Ceph will mark Ceph OSD Daemons out（默认.3）： mon osd min in ratio

The number of seconds laggy estimates will decay（默认60*60）： mon osd laggy halflife

The weight for new samples in laggy estimation decay（默认0.3）： mon osd laggy weight

If set to true, Ceph will scale based on laggy estimations（默认true）： mon osd adjust heartbeat grace

The weight for new samples in laggy estimation decay（默认.3）： mon osd laggy weight

（2）OSD SETTINGS

心跳检查的OSD网络地址（默认主机IP）： osd heartbeat address

OSDping它的peer的时间间隔（默认6s）： osd heartbeat interval

OSD心跳停止间隔（默认20s）： osd heartbeat grace

OSD ping一个monitor的时间间隔（默认30s）： osd mon heartbeat interval

OSD报告monitor前等待的最大时间（默认120s）： osd mon report interval max

OSD报告monitor前等待的最小时间（默认5s）： osd mon report interval max

monitor恢复ACK的超时（默认30s）： osd mon ack timeout

10、网络配置

（1）集群网络配置

配置字段为[global]

公共网络： public network

私有网络： cluster network

注：建议私有地址和internet还有公共网络部能互通，这个地址用来做OSD的心跳检查，对象的复制和恢复，单独配置私有地址而不是用公用网络做这些对性能有提升。

（2）monitor网络配置

配置字段[mon.a]

主机名（不要使用loaclhost）： host

monitor 地址： mon addr

（3）OSD网络配置

配置字段[osd.0]

公共地址： public addr

私有地址： cluster addr

（4）绑定

OSD和MDS进程绑定的最小端口号（默认6800）： ms bind port min

OSD和MDS进程绑定的最大端口号（默认：7100）： ms bind port max

允许进程使用IPV6的地址（默认false）： ms bind ipv6

（5）TCP

开启nodelay选项（默认true）： tcp nodelay

注：ceph默认关闭了TCP的buffering，使得请求不缓存立即下发，这样增加了网络流量，增加了延迟如果你要传输大量小文件，就把这个选项关了吧。

收到网络连接终止时socket缓冲区大小（默认关闭）： tcp rcvbuf

tcp读超时（默认900s）： ms tcp read timeout

注：一个客户端请求另一个ceph daemon时需要新建立一个连接，但是又不想关闭现在的连接，现在的连接就不用了，过了这么多秒后，这个连接被标记为空闲状态。

转自：

阅读(1649) | 评论(0) | 转发(0) |

上一篇：Ceph配置参数二

下一篇：Ceph性能优化总结(v0.94)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6