运维应急预案

李盛老师

  运维应急预案随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们目前面临的一项重要任务。为确保系统安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,反应迅速、处置有力的安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低,特制定本应急处置预案。

  一、系统故障流程说明

  1.故障发生获取途径

  1.1监控系统告警发现故障

  1.2用户发现故障

  1.3维护中心发现故障

  2.故障受理

  系统故障发生后,运维人员立即响应,并向相关人员了解系统故障情况。

  3.信息研判处理

  运维人员根据了解到的系统故障情况进行分析判断,以确定采用哪种处理方式。

  4.故障解除

  故障解除时间由运维人员及现场技术人员根据现场的'实际进展情况,在与用户协调后确认故障解决。

  5.结果处理

  故障解决后,书写详细的故障报告提交给相关人员。

  二、日常维护

  1.正常工作日内,对设备及系统的运行情况做监控,发生异常情况及时处理。

  2.节假日期间,保持通信畅通,遇有问题,尽快及时解决。

  3.认真做好数据备份工作,定期做好数据库的备份,每周检查服务器的运行和备份情况。

  三、故障处理

  1.故障流程

  故障发生

  判定

  硬件故障

  软件故障

  服务器提示的硬件错误信息

  查看系统、应用日志、其它异常等

  综合判断,快速查找原因

  解决故障

  编写故障文档

  2.故障预案

  2.1发生通信线路中断、路由故障、流量异常等,经初步判断后及时联系IDC机房或者其它相关人员,配合他们及时解决网络故障。

  2.2发生服务器软件系统故障,如有备份服务器,立即切换到备机上;如果没有备机,以快速解决为首要目标,故障出现的原因后续去排查;总之优先保证服务器能正常运行。

  2.3发生大流量网络攻击时,立即联系IDC机房及时处理。

  2.4发生服务器硬件故障后,联系硬件设备厂商,要求其快速上门处理。

  2.5发生业务数据损坏时,检查和备份当前业务系统数据,再调用备份数据来恢复。