发布时间:2014-06-12 21:07:10
因zk的写性能不高,为了不让监控上报类的服务影响现网服务,我们把zk集群分离开。而有个上报接入agent需要在两个不同zk集群中注册节点,框架只支持一个zk集群,修改还需下个版本。临时写了个脚本完成节点同步:点击(此处)折叠或打开#!/usr/bin/env python#coding=utf-8.........【阅读全文】
发布时间:2014-04-28 22:16:12
问题描述之前有个同学反馈说现网有机器netstat看不了监听端口的进程与pid,当时让他改用lsof -i:PORT方式规避,没去深究。最近在核对外网监听端口时又碰到了:定位分析为啥有的端口ok有的不能显示?是否是监听端口范围问题?用python -m?SimpleHTTPServer测试监听不同端口,netstat都不能查出进程名pid说.........【阅读全文】
发布时间:2014-04-17 23:34:56
转自我的网易博客:blacktty.blog.163.com昨晚收到很多进程不存在的告警,今天在拉开发解决时有人跟我抱怨说,进程挂了没有core文件。我们知道linux的coredump开关就ulimit -c这个,检查现网配置后发现都是unlimited。打包系统也默认在进程启动前显示指定了配置:“ulimit -c 4 -S”,但就是没有corefile,而于此同时,.........【阅读全文】
发布时间:2014-02-14 22:32:23
背景:上周业务方反馈说访问兄弟部门的一个接口超时量突然增加,看监控视图,占比大概5~10%左右。我登录idc机器curl构造请求测试正常,无延时。对方特意提供了内网vip给我们测试,业务开发修改发布后发现还是有延时。接口方给出延时监控视图,最大延时,如下图:这么一看,开发认为是运维机器环境有问题,要求运维查.........【阅读全文】