最近这2天连接机房老是掉线,开始以为是抓取服务器流量过高导致,联系相关人员修改抓取并发,控制流量后,已经发现有问题,开始检查各个服务器的流量,发现有一台服务器流量异常,有近1个G的流量外发,登录服务器使用iftop查看服务器实时流量,未发现有异常高发TCP流量,也没有运行特殊的应用服务,而且在检查过程中依旧掉线,很是恼火,经过思索整理思路,初步怀疑是服务器被黑导致,开始排查之旅:
1.检查系统日志,未发现异常
2.使用last命令检查最近登录,未发现异常
3.检查系统的安全日志,发现有大量的ssh尝试登录,检查防火墙发现22端口对外开放,但仔细分析安全日志,没有成功的登录。
4.由于每隔一段时间就会掉线,根据监控图的流量高发时间频率,在服务器后台使用tcpdump抓取外网网卡数据包。
5.等再次出现掉线到恢复后,下载抓取的日志,分析发现有大量的udp流量外发,判断为异常流量。
6.为了快速恢复故障,使用iptables禁用所有外发的udp协议访问,业务恢复正常。
7.开始检查系统的异常进程,发现有一个command标记为 [freeBSD]的进程在运行,运行时间为故障开始的时间,另外运行账户为es
8.联系es账户的所有人,检查是否为正常进程,发现此进程为非法进程。
9.使用kil关闭异常进程,并检查iptables的日志,发现不再产生大量的UDP外发请求,观察一段时间后,确认恢复正常。
总结:
监控是关键,正确的排查思路会减少很多时间,
阅读(1880) | 评论(0) | 转发(0) |