全部博文(221)
2012年(221)
分类: 云计算
2012-08-01 16:20:25
自从大学毕业,我就一直在IT圈里摸爬滚打,做过初级的网管、网络工程师、系统工程师、信息安全工程师、项目经理。一说起IT运维,那可是五味杂陈,今天我就来谈谈自己在IT运维中所遇见的倒霉事。
场景一:从小不学好,长大满机房跑
星期五中午接到任务,晚上机房割接,还要新上两台防火墙。根据我的经验,最多2个钟头搞定,争取早点收工然后回家看球赛。晚上8点准时开始,不到30分钟
就完成割接和测试,心想可以过个轻松愉快的周末了,悠闲自得地把防火墙上线,从内往外做ping测试,畅通无阻。习惯性地在电脑上打开浏览器,输入 itpub论坛地址,寻思着收工之前在pub上水上一帖,以作留念。谁知浏览器显示无法找到该地址,一丝不详的预感涌上心头,立即排查原因。查完防火墙策
略查DNS,查完DNS查网络线路,查完线路查设备,时间不知不觉中过去了,虽然知道是防火墙引起的,但是仍然没找到具体原因。眼看着已经过了午夜12 点,现场直播的球赛是看不成了。从小不学好,长大就得绕着机房跑,哥好歹也是个有思想有抱负的上进青年啊,咋今天就这么背呢?
场景二:常在河边走,怎能不湿鞋
晚上和女友在步行街吃完晚饭,氛围不错,准备去看新上映的美国大片。突然手机铃声响起,用户反映邮件系统故障,经过一番思想斗争和女友的劝说,我非常扫兴
地赶到机房,极不情愿地登录邮件系统查找问题,发现是其中一台邮件服务器宕机了。奇怪,邮件服务器不是有双机热备么,备机怎么没有起来?登录另一台邮件服
务器,执行手动切换,用户的邮件系统又可以用了。那台宕机的邮件服务器重启之后问题依旧,心想反正晚上是看不成电影了,好事做到底,送佛送上西,遂把那台
故障服务器用备份恢复了,这时候用户打电话来,说之前的一些邮件不见了……。我瞬间石化,这次惹大麻烦了,真是粗心惹的祸啊,悲催的系统运维人员伤不起
啊,常在河边走,怎能不湿鞋……
场景三:少壮努错力,老大干运维
同学从外地回长沙,中午几个人在一起吃饭喝酒小叙。手机铃声响起,用户说系统完全无法登录了。带着酒气微醺地来到机房,昏昏沉沉地登录服务器,一看屏幕傻
了眼,酒都被吓醒了:服务器上重要数据全都不见,只有一个壳子在那跑着。几个同事都在现场,发毒誓与自己无关。查了服务器记录,发现有人用root账户登
录系统,装了后门程序,把一些重要数据文件弄没了...估计是哪个同事用了带后门的PUTTY中文版,被人黑进系统......为了这事,这个季度的奖金
又泡汤了。真是伤心,后悔入错了行当......
场景四:本是同行,相煎何太急
一大清早手机就响了起来,用户反映内部应用系统奇慢无比。急急忙忙地赶到机房,发现做了负载均衡的服务器集群中,有一台CPU和内存已经被消耗完了,而另
外一台却始终空闲。不是用了专门的负载均衡设备么,为什么不会负载均分呢?小心翼翼地排查了一天,总算搞清楚是哪里的问题了,但是公司内部却起了内讧:这
次故障影响很大,公司会对相应责任人的绩效考核打低分,系统部想把责任推给网络部,网络部想把责任推给系统部,两个部门的人分别聚在一起出谋划
策......看到此情此景,我不禁感叹:本是同行,相煎何太急......
场景五:活到老,学到老
那天在全公司会议上,老板宣布了技术部员工职业规划,要求技术部运维人员必须在一年内拿到公司需要的技术证书,拿到证书的工资上浮10%,拿不到证书的工
资下降40%。转眼间大半年过去了,还有两个同事没有通过技能测试,我暗暗为他们着急。毕竟一起工作这么久,希望以后还能和他们继续共事。没通过测试并不
是因为他们不上进,要知道平时工作很多,要抽出时间来学习很不容易。我深深的体会到:对于IT运维人员,活到老,学到老,这是必须的。
场景六:珍爱生活,远离加班
那天听公司同事说,系统部老大颈椎病很严重,住院了。和几个同事来到医院看望他,只见他面庞消瘦的躺在病床上,看到了我们也无法坐起身打招呼。他妻子告诉
我们,现在他丈夫颈椎需要疗养,尽量不要让颈椎承受重量,因此坐着的时间最多不能超过两小时,直立行走时下台阶也需要注意,不能跳跃。悄悄地问了主治医
师,康复期要多久,医师表情严肃地回答说完全康复很难,要想能够正常工作保守估计要3年......回想起公司里这位加班狂人、铁哥、技术牛人,我心里不
禁暗暗叹息,也在告诫自己:珍爱生活,远离加班。
场景七:我们都是“消防员”,每一刻都马不停蹄
桌面运维部的电话就从没消停过,要么有人说电脑蓝屏,要么有人说输入法没了;还有人说登录淘宝太慢的,有说登录OA慢的,有领导说发现下属玩游戏的......桌面运维人员个个都像“消防员”,哪里有问题就奔向哪里……
这些在运维中遇见的问题,一直以来都困扰着运维部门,问题原因不外乎如下:
1、目前用户机房中设备各式各样,涉及多个厂家多个型号,这些设备集成在一起协同运作时总会有些问题,包括端口参数、数据包格式、功能匹配等等。这些问题有些需要设备厂商研发部提供支持,因此对于运维人员的技术水平要求较高,让人疲于应付。
2、是人总会犯错,运维人员也一样。一时大意操作失误既给公司带来损失,也给运维人员带来损失。
3、黑客后门让人防不胜防,一旦中招就可能造成重大经济损失,还有可能惹上官司。
4、出现问题之后,运维人员经常互相推卸责任。也不能全怪他们的素质低,毕竟家庭经济的负担让人变得势利和现实。
5、桌面运维事情琐碎而繁杂,需要投入很多人力。
微软云计算的出现,能够提供整体协调的信息系统解决方案。成熟的云计算平台综合考虑到了设备之间的配合,能够避免不同厂家型号的设备运行不协调的情况。
云计算包含多个服务器组成的集群,能够提供更高的可靠性;同时能够减少人为的干预操作,避免出现操作失误;
提供更高的安全性,能够避免外部恶意软件的入侵;
出现问题之后,能够快速客观地给故障定位,有利于问题的解决;
大大减少桌面运维的工作量,提高桌面终端的可用性。
作者:龚 捷