Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2247792
  • 博文数量: 454
  • 博客积分: 4860
  • 博客等级: 上校
  • 技术积分: 6374
  • 用 户 组: 普通用户
  • 注册时间: 2011-03-13 10:08
个人简介

10年工作经验,专研网站运维。

文章分类

全部博文(454)

文章存档

2017年(11)

2016年(13)

2015年(47)

2014年(36)

2013年(147)

2012年(64)

2011年(136)

分类: 系统运维

2015-08-08 13:28:56

服务器运维保障计划

 

目录

一、 前言(背景): 2

二、 概述: 2

三、 工作职责: 2

四、 范围: 2

五、 维护计划: 2

六、 软件包选择策略 3

七、 工作交接关注内容 3

八、 总结 3

附件一 3

附件二 4

 

 

 

 

 

 

 

 

 

 

 

 

 

一、 前言(背景):

公司现有网络服务器集群架构,已由网络公司建设及维护半年时间,接下来由我承担服务器运维工作,编写此文档作为运维保障计划。 

二、 概述:

服务器运维是网站架设的基础环节,也是重要一环,只有保障服务器基础设施的稳定运行,才能支持网站上层建筑的搭建。

三、 工作职责:

维护服务器安全稳定运行,保障业务不间断,快速解决系统故障。

四、 范围:

网站所有服务器的软、硬件运维。

4.1 硬件范围(目前未知):

根据系统使用需求,硬件设备包括:SAN存储设备、PC服务器、F5负载均衡器及交换机等。

4.2 软件范围:(目前未知)

根据系统使用需求,软件系统包括:Ubuntu操作系统、Nginx服务器、Mysql数据库、MEM缓存、代理服务器、SYNC同步软件、PHP程序、备份程序、FTP服务、集群服务器及常用脚本等。

五、 维护计划:

5.1 每日巡检

5.1.1 通过浏览器测试网站是否可以正常访问。

5.1.2 按照巡检手册进行操作。(详细内容见附件一)

5.2 《灾难恢复紧急处理方案》

5.2.1 编写灾难恢复紧急处理方案,假如服务器出现故障导致网站崩溃,并且需要长时间排除故障,这时可按照《灾难恢复紧急处理方案》快速恢复系统。

5.2.2 定期做灾难恢复测试。记录恢复时间,熟悉操作步骤。

5.3 备份计划

编写备份计划,定期做备份还原测试,验证备份是否可用。

5.4 测试环境

搭建测试环境,尽量使测试环境接近生产环境。

5.5 服务器变更制度

5.5.1 编写回滚方案。一旦变更失败立即恢复系统到初始状态。

5.5.2 编写操作计划,需要经过多个工程师评估后才能实施。

5.5.3 在测试环境测试通过后,才能应用于生产环境。

5.5.4 必须充分考虑操作后的影响,评估影响是否可承受。

5.5.5 操作过程中,每个阶段都要检查网站是否运行正常,遇到异常立刻终止操作,执行回滚方案。

5.5.6 要边操作边记录操作步骤,一旦发现网站异常,立刻执行回滚方案。

5.5.7 变更时间尽量安排在用户访问量最小时间段,并且预留充分操作时间。

5.6 压力测试

定期做服务器压力测试,评估服务器是否需要升级或变更。

5.7 维护日志

5.7.1 编写服务器维护日志,记录服务器的相关配置信息、硬件信息、软件信息。

5.7.2 做过的所有配置操作及操作时间。

5.7.3 所安装的软件及安装时间等。

5.7.4 故障处理完成后需要编写故障报告。

5.8 运维脚本

编写运维脚本,把常规的操作都用脚本来实现,这样避免出错而且增加工作效率。

5.9 监控平台

5.9.1 搭建系统监控平台,经常查看监控数据状态。

5.9.2 配置邮件报警,接到报警后立即响应。

5.9.3 判断服务器发展趋势,将可能发生的故障提前排除。

5.10 密码及补丁

服务器密码三个月更换一次。服务器安全补丁定期更新。

5.11 安全优化配置

服务器运行稳定后,逐步做安全及优化配置。

5.12 故障响应

全天24小时响应故障,接到电话后立即查看服务器,并到公司进行处理。

5.13 更新及维保

定期更新服务器软、硬件平台,定期购买软、硬件维保。

5.14 学习与研究

5.14.1 定期安排技术培训(公司间工程师技术经验交流),开阔思路,累计经验。

5.14.2 平时多研究官网及论坛网站,增加技术能力及troubleshoot能力。

5.15 关于软件包

根据情况详细讨论,是否需要卸载未使用的软件包。

六、 软件包选择策略

6.1 选择安全稳定版本的软件包。

6.2 要考虑其兼容性以及会给系统带来的影响。

6.3 要在测试环境下测试通过后才可以投入生产环境。

七、 工作交接关注内容

(详细内容见附件二)

八、 总结

此运维保障计划是运维工作的一部分,工作中灵活运用,并且需要相关人员提出意见或建议,使运维工作更顺利地展开。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

附件一

运维日常巡检表

序号

巡检内容

巡检结果

巡检日期

备注

数据库

1

磁盘空间

 

 

 

2

检查crond作业

 

 

 

3

检查脚本是否正常完成

 

 

 

4

查看系统日志和各应用日志

 

 

 

5

检查error日志

 

 

 

6

检查数据库死锁

 

 

 

7

slowlog检查

 

 

 

8

检查备份是否成功

 

 

 

服务器

9

服务器硬件检查

 

 

 

10

磁盘空间

 

 

 

11

检查Crond作业

 

 

 

12

检查脚本是否正常完成

 

 

 

13

查看系统日志和各应用日志

 

 

 

14

检查error日志

 

 

 

15

查看swap空间

 

 

 

16

查看CPU使用率

 

 

 

17

检查安全补丁

 

 

 

18

检查备份是否成功

 

 

 

19

查看系统邮件

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


附件二

工作交接关注内容

1. 主要工作内容,包括每日、每周、每月、不定期。重点关注数据实时同步需要做的工作。

2. 常见故障及解决方法。

3. 充值页面跳转时导致自动支付没有成功,是什么原因?

4. 之前的故障报告。

5. 系统架构及原理,同步时时彩数据的原理。数据不能自动同步的原因。

6. 下一步系统架构发展计划是什么?

7. 密码本

8. 近期急需要解决的问题。

9. 可能面临的风险,黑客市场竞争者导致的潜在隐患等。

10. 如何测试网站系统是正常的?我需要做每日巡检还有故障修复后的检查工作。

11. 更新网站的方法,需要我做什么?及更新时间。

12. 是否提供交接文档

阅读(1190) | 评论(0) | 转发(0) |
0

上一篇:导mysql数据

下一篇:运维日常巡检表

给主人留下些什么吧!~~