Mongodb大量\"serverStatus was very slow\"处理记录2-shibaolan-ChinaUnix博客

宝兰shibaolan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

shibaolan

博客访问： 1749664
博文数量： 186
博客积分： 3044
博客等级：中校
技术积分： 2493
用户组：普通用户
注册时间： 2006-03-25 15:04

文章分类

全部博文（186）

杂类（2）
其它（0）
计算机相关（162）

Windows（9）

Unix及Linx（150）
宝兰心情阁（13）
未分配的博文（9）

文章存档

2024年（2）

2022年（4）

2021年（3）

2020年（1）

2019年（5）

2018年（13）

2017年（6）

2016年（10）

2015年（11）

2014年（11）

2013年（13）

2012年（23）

2011年（25）

2010年（2）

2008年（1）

2007年（5）

2006年（51）

我的朋友

相关博文

Mongodb大量"serverStatus was very slow"处理记录2

分类： NOSQL

2018-08-16 16:32:13

前几天处理完一个Mongodb大量"serverStatus was very slow"处理记录的问题，这周又遇到同样的日志问题，大量的serverStatus was very slow日志，下面记录一下处理过程：
Mongodb数据服务器相关情况：
Mongodb版本：3.4.0
部署模式：分片（4个分片，每个分片都是1主2从）
数据量：每个分片有15亿数据(记录数)
机器配置：分片都是虚拟机,SSD 硬盘，32G内存，8C
出现的情况：4个分片，有一个分片的主在日志里出现大量的“serverStatus was very slow"日志，但是从没有出现这样的日志，还有一种问题就是：三个节点，无论那个节点为Mongodb的主时，日志才会出现。排除了系统本身的影响。

” serverStatus was very slow: { after basic: 0, after advisoryHostFQDNs: 0, after asserts: 0, after backgroundFlushing: 0, after connections: 0, after dur: 0, after extra_info: 0, after globalLock: 0, after network: 0, after opLatencies: 0, after opcounters: 0, after opcountersRepl: 0, after oplog: 1220, after repl: 1220, after security: 1220, after sharding: 1220, after storageEngine: 1220, after tcmalloc: 1220, after wiredTiger: 1220, at end: 1220 }"

根据以前的经验：问题出在“ after oplog: 1220”上。

先看系统的IO，CPU及LOAD，一切数据表明都很正常，没有让人感觉问题所在!
还看了系统的各种内核参数（主要是Limit），也都有安照官方的说法进行了修改，没有问题！
再看oplog.rs的大小，{BANNED}最佳大值是50G，现在有近10亿条记录，难道是记录数太多的原因，有点不敢信。好吧测试改下
附：修改oplog.rs的修改（Mongodb3.6已经支持在线修改了，但是3.4还是老实的按步骤修改吧）
#######################
在从上执行：db.shutdownserver(),然后以单实例启动数据库后，shell执行
use local
db.temp.drop()
db.temp.save( db.oplog.rs.find( { }, { ts: 1, h: 1 } ).sort( {$natural : -1} ).limit(1).next() )
db.oplog.rs.drop()
db.runCommand( { create: "oplog.rs", capped: true, size: (20 * 1024 * 1024 * 1024) } )
db.oplog.rs.save( db.temp.findOne() )
#查看一下是否有条记录了！
db.oplog.rs.find()
确认后以ReplSet重启，重新加入集群
##################
好了，现在oplog.rs的记录清空了，应该没有问题了吧，等整个集群正常后，强制这台成为主。
看日志，一万头马在心里碾过，问题依旧存在。抽支烟后继续研究！

另附一个Mongodb3.4的strace使用，如果直接使用：strace -p mongondPID的话，将不会有任何结果出来，必须加上另一个参数：-f

使用strace命令：strace -cf -p mongondPID 看一下有什么异常没有!()
% time seconds usecs/call calls errors syscall
------ ----------- ----------- --------- --------- ----------------
45.89 82.805333 2103 39381 5898 futex
43.57 78.623487 28580 2751 recvfrom
3.41 6.153932 8559 719 nanosleep
3.32 5.999088 88222 68 select
2.05 3.704592 374 9918 epoll_wait
1.40 2.528608 126430 20 13 restart_syscall
0.14 0.252668 4 62720 clock_gettime
0.10 0.183186 273 671 fdatasync
0.05 0.086402 4 19708 gettimeofday
0.02 0.037975 56 681 pread
0.01 0.023175 4 5927 2221 recvmsg
0.01 0.015350 21 727 pwrite
0.01 0.012949 7 1851 sendmsg
0.01 0.009036 7 1377 sendto

一大堆系统信息，看上去也正常！
真的让人抓狂呀，如何做，如何做
日志还是一样的狂打”very slow"

无奈之重启Mongodb，结果问题一样
XFS格式好像性能会好很多，好吧试一下，先停Mongodb服务（从节点），减少LV的大小，减少文件系统的大小，然后在空出来的空间上新建一个LV，格式化成xfs格式，然后把数据CP过去，重启Mongodb加入集群后，再把从变成主，再看日志，希望有奇迹出现。问题还是一样没有解决。

后来注意到启动命令里有这些参数：--nojournal 会不会跟这个有关呢！
反正已经到这一步，show hands
干掉这个参数，重启
世界突然清净了！
"serverStatus was very slow"字样竟没有出现了！
问题解决！但是如何解释这个问题，请听下回分解！

2024年再次出现此类问题，但解决问题的方法不一样：
2024-12-13T15:24:11.881+0800 I COMMAND [conn198750] serverStatus was very slow: { after basic: 0, after advisoryHostFQDNs: 6000, after asserts: 6000, after backgroundFlushing: 6000, after connections: 6000, after dur: 6000, after extra_info: 6000, after globalLock: 6000, after network: 6000, after opLatencies: 6000, after opcounters: 6000, after opcountersRepl: 6000, after oplog: 6000, after repl: 6000, after security: 6000, after sharding: 6000, after storageEngine: 6000, after tcmalloc: 6010, after wiredTiger: 6010, at end: 6010 }

关键在：after advisoryHostFQDNs: 6000
原因：虽然config里都是用ip+端口，但实际上底层还是用到了本地的机器名：

在使用db.hostinfo()命令可以看到相关的信息
那就把hostinfo()里的相关机器名与对应的ip写进/etc/hosts后，问题解决！！

阅读(3614) | 评论(0) | 转发(0) |

上一篇：Mongodb大量"serverStatus was very slow"处理记录

下一篇：psql不记录pg_log

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6