最近真的很累,从4月初放完清明假后,差不多一直在出差,一直到现在,并且这个月出差还没完,至少还得去一趟广东和海南。期间还救了两次“火”,NND..........我都快抓狂了
。现在什么事都不想干,只想在家休息TMD一周再说。
月初,和一个PM去了一趟东莞,主要是跟客户演示,沟通反垃圾网关的事,期间,另外一个负责四川那边项目的PM电话不断,一会要干这个活,一会要给那个客户电话,一会又要和谁去沟通什么的.........
东莞的活干完后马上回到上海(周五),被告知下周一去成都处理邮件系统升级的事,又马不停蹄地飞往成都,到了那边,发现客户的准备工作做的非常充分,少了个Raid卡,shit,没Raid卡连个毛DAS,数据库文件放在哪里去?马上把问题反馈给客户这个项目负责人和我们公司负责这个项目的PM,沟通来沟通去,他们竟然想到的方法是把旧数据库的Raid卡拆下来,给新数据库用。在接下来的几天,PM的电话平均一小时一次,反垃圾网关的单点故障怎么办?NAS能在邮件系统升级的当天晚上投入使用不?F5的配置弄好了没?Alteon的更换有没有什么问题?商务领航与邮件系统的数据同步进展如何.....等等等问题,我的头都大了。
要命的事来了,在升级的当天晚上(周五),即将用Alteon更换F5时,发现之前连接Alteon的多模光纤的接口竟然和F5的接口不一致!!!F5更换不了,经过紧急的商讨后决定继续使用Alteon,可该死的Alteon,配置好LB后竟然不能生效,试了好几次都一样,这个时候已经是凌晨3点多了,赶紧打老大的电话,打了不下于5次,可一直没人接,急得我呀,都快成热锅是的蚂蚁了。跟PM说了这个问题,赶紧电话联系 supporting engineer的老大,他今晚做另外一个项目的升级,幸好,他还没睡着,赶紧跟他说了这个问题,让他帮忙看看。然后我们两个人开始捣鼓,弄了2个来小时,竟然发现Alteon的OS有bug,它这个型号比较老,是alteon 180e,配置了group和virtual server,可ena后apply,发现vritual server的status还是disable,最后把它重启了一下,终于使配置生效了。这个时候已经是凌晨5点了。告知PM这边事情弄好后,开始全面的测试,测试过程中,发现很多功能上的问题,然后开发一直不停地修复bug,我在这边当面解决或者解释客户测试出来的问题,一直弄到中午12点,眼睛都睁不开了...终于等到PM说“升级完成”。我除了睡觉,什么都不想了,什么吃饭,洗澡...先靠一边站吧,回到酒店,电话一关,直接就倒在床上了。这一觉一直睡到晚上7点多才醒。
下周一到了,用户反馈来的问题更多了,然后就是不断地解决问题。幸好有我们的supporting engineer在现场,用户的投诉他处理,系统上的问题和业务功能上的问题我配合开发处理。第二天,他们把F5的多模光纤接口弄好后,晚上12点后又开始干活了,和F5的工程师在机房把F5更换上去,测试没问题后做MTA的升级和邮件系统的数据同步。今天比较顺利,才搞了3小时。但大半夜又过去了......
好不容易这个项目的事刚处理完。第三天早上一起来,准备给公司前台打电话给我订回上海的票了,电话还没打,负责成都项目的另外一个PM电话就过来了,说那个项目的邮箱用户登陆不了,让我看看。shit,这个项目刚干完活,另外一个项目事又来了。想登陆系统上去看看,发现连OS也登陆不了了,但是网络正常。没办法,只能去机房现场了,到了机房。显示器连上linux一看,看到提示说sun cluster导出的存储挂不上!我靠,不会是sun cluster 出问题了吧。电话联系当初实施这个项目的SE,也是带我的师傅。检查后,让我把其中不正常的那台sun fire v490重启一下。日,重启后这台490就起不来了,sun cluster就更不用说了。不过oracle服务倒是切换到另外一台490上了,业务是正常了。但是sun cluster down了,问题就大了。然后要找串口线连上去看自检信息,可客户这里没有,我也没带........客户联系来联系去,说第二天能弄到一条。第二天继续去客户机房,拿了串口线,重启那台有问题的490,启动系统进单用户模式,用CRT记录下启动log,发给sun的工程师分析(我自己发现内存出问题了,有个DIMM插槽提示错误),命令检验一下,原来8192M的内存现在只有6144M!
我能做到的事都已经做了,把我分析到的问题也反馈了。终于可以回家了(本来之前订了下午1点多票,让改成下午6点多了)。啊,我从没这么想念你,可爱的上海!o(∩_∩)o...
回到公司,休息了一天,第三天公司组织去黄山游玩。照片倒是拍了不少,可是也没得休息。
本周二,在四川的那个项目的数据库server上做备份时发现,/dev/sda竟然没有了,touch和echo 都不能在数据库本地文件夹中创建文件!dmesg|grep error一看,hard disk error,天,硬盘挂了!幸好我之前有给两块硬盘做RAID1,并且把数据库文件都放在DAS上,否则,数据库早完蛋了。还好,现在还没影响业务,只是系统文件夹不能写(w)。
告知负责此项目的PM,PM联系客户负责人,又找到Dell的工程师,确认是硬盘的问题......要过去救火了。又飞到成都,CFO没在,钱也没借,还得自己先垫钱,NND。。。。 又是晚上12点开始干活,停掉业务,更换坏掉的一块硬盘,重建Raid。顺便把另外一台应用服务器上不用的Raid卡更换到数据库备份服务器,方便以后冷切换.....又干了大半夜,幸运的是还比较顺利。
周三晚上,负责成都项目的PM电话又来了,又让我过去机房配合检查sun cluster的问题。据说内存已经更换,但是sun cluster还是有些问题,没能起来。周四,又去机房了,配合做sun cluster的切换,记录日志,重启server,测试....又在机房忙乎了一整天。在下午弄得差不多时,东莞那个项目的事又来了,一要更换反垃圾网关的IP,说发信不到他们的公务员信箱,二要停业务,服务器厂商要做服务器维护。改IP的事又搞了2个多小时,成都项目的客户耳闻目睹我这电话一直没停过,笑着说“真的是忙得不得了”.......呜呼,如果每天都像这样忙,迟早要歇菜的。
周五,给东莞那项目业务停掉后,赶去机场飞回上海......这周末什么都不想干,太疲惫了。今天在家睡了一下午,精神感觉稍微好点......
PS:在机房干活真的很难受,其一,里面轰鸣的声音听久都会让人神经衰弱,其二,里面空气质量很糟糕,呼吸很困难,并且又很干,一会就渴得难受,我现在有点佩服IDC机房管理人员了,那么长时间呆在里面。在机房干活一天抵得上在外面干活三天那么累!真的不想再去IDC机房了.......