记CBS一次动人心魄的数据保卫战-飞鸿无痕-ChinaUnix博客

从网络管理员到DBA的奋斗之路feihong.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

飞鸿无痕

博客访问： 7665669
博文数量： 368
博客积分： 9600
博客等级：上校
技术积分： 18875
用户组：普通用户
注册时间： 2009-01-01 00:00

文章分类

全部博文（368）

生活感悟（1）
每日精进（1）
普洱茶（4）
自动化运维（3）
学习笔记（19）
IT职场（12）
分布式文件系统学（2）
perl学习（11）
安全（1）
windows（2）
oracle学习笔记（6）
electro-server（1）
SmartFoxServer（2）
监控（12）
工作记录（21）
English Study（4）
电脑维护（6）
高可用（17）

mysql高可用方案（8）
mail（3）
LVM_RAID（6）
mysql（107）

mysql实用工具（10）

mysql cluster（22）
DNS--bind（4）
vpn（1）
cache（4）
web_server（32）
生活杂谈（5）
linux系统（51）

杂项（21）

linux文件（2）

基本命令（17）

FTP（5）
shell学习（25）

实用shell脚本（6）

其他shell命令学（9）

sed学习（2）

awk学习（4）
未分配的博文（5）

文章存档

2017年（9）

2016年（19）

2015年（3）

2014年（6）

2013年（8）

2012年（78）

2011年（66）

2010年（135）

2009年（44）

我的朋友

相关博文

记CBS一次动人心魄的数据保卫战

分类：服务器与存储

2016-09-19 19:46:05

接触分布式存储已经有一年多的时间了，首次遇到存储侧三份数据都有异常的情况，三份数据异常意味着客户数据的丢失，这个对云存储来讲是致命的打击。为了保证数据的安全，CBS运维和开发的同学进行了持续两天一夜的数据保卫战，最终做到数据0丢失，那么CBS运维和开发的同学是如何通过紧密合作来扭转乾坤的？且听我慢慢道来：

告警来袭，5个小表自动迁移异常

运维侧收到一个数据迁移失败的告警，告警内容如下：

[基础架构部][CBS3.0_广州_小set_快照_bonding_set4][10.182.24.13][cbs_web][check_storage_tablet][2016-09-07 11:11:19] [error] [重要] CBS3.0_广州_小set_快照_bonding_set4 有5个1份dead小表，没空闲小表迁移或者没有正常迁移，请检查!

备注：这是为了能保证异常的小标都能正常迁移，提升CBS数据安全的告警。

这种问题优先级最高，因此运维第一时间介入分析，这个是前一天有一台cell的机器异常，系统自动将其剔除，此时正常的数据变成了2份（Cell2和Cell3），如下图所示：

剔除后会自动发起容灾迁移，成功迁移后就能恢复三份数据正常的状态。查看迁移日志，发现是由于读取cell数据异常引起

根据以往的经验，一般是对应的cell机器对应的盘有异常，使用dmesg查看，发现迁移失败的盘所在的disk确实有异常：

备注：线上的dbtrasf（迁移模块）暂时不支持指定cell的IP来读取数据

此时的线上CBS的数据分布变成了如下图：

此时风险非常高，只有一份数据是正常的，如果此时Cell3再有异常后果将不堪设想，于是紧急和研发的同学沟通迁移方案，经过讨论，我们确定了指定从Cell3读取数据的修复策略。

定向读取，首战告捷

确定好方案后，研发开始修改dbtrasf代码，30分钟研发修改代码+自测完成（确实很高效，点赞），运维侧拿到支持指定cell读取数据的包后，在测试环境和仿真环境进行反复迁移过程中的数据一致性校验，未发现异常。正式开始在线上迁移，事实证明，定向读取确实靠谱，成功迁移4个小表，还有1个小表迁移仍然报数据读取失败，继续跟进。

多扇区异常，雾霾笼罩

通过使用smatctl分析发现10.53.65.214有14个扇区异常，那个小表的数据刚好有分布在坏的扇区的数据，因此迁移也是读取数据异常导致迁移失败。而10.53.65.101有800多个扇区异常，此时基本可以确定三份数据都出现不同程度的损坏。此时部分数据的分布如下图所示：

吓死宝宝了，于是和研发的同学一起再次讨论紧急修复方案。

备注：分布式存储1个小表的数据丢失可能是影响到整个set所有的盘的数据。

双cell数据merage，希望乍现

通过沟通，确定采用双cell数据merge的方式来修复数据，也就是通过从两个cell中分别读取可以读取的数据进行merge的操作，原理为：

1、先尝试从Cell3(10.53.65.214)读取

2、读取失败的数据再从Cell2(10.53.65.101)上读取

看看两次读取的数据是否能完全修复那个小表的数据。这次只有少量的block读取失败，虽然没成功，但让人看到了希望：

read from the first[diskid=290763668122043122, lba=1069470973952, sid=1]
[2016-09-09 16:13:38] read from the second[diskid=290763668122043122, lba=1069470973952, sid=1]

三个cell数据merage，扭转乾坤

通过双cell的数据merage发现通过两个cell无法修复那个小表的数据，难道数据就真的修复不了了吗？

到了这一步，研发的兄弟们还在疯狂的想办法，在pallysheng和yhwang的共同努力下，发现有异常的diskid的元数据在三个cell中是一致的，这说明这个数据在机器剔除后没有新的数据写入，因此可以通过读取被剔除机器的数据来恢复：