当前位置: 主页 > 网络架构 >

故障分级和处罚规范

时间:2013-05-05 16:32来源:www.itkoala.com 作者:itkoala 点击:
互联网产品提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,
欢迎大家分享自己的文档,请点击查阅:分享方法,Linux系统运维
如果你喜欢这文章,可以点击文章结尾处百度分享,分享到你的各种社区收藏,或推荐给朋友……


返回:海量运维、运营规划--linux网络架构规划首页
互联网产品提供7*24小时服务,而因人为操作、程序BUG等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布“故障分级和处罚规范”是非常必要的。

故障分级标准

运营故障中,对非不可抗力所造成的故障归类为“故障”,对于故障将追究故障的分级,故障责任人,及故障处理结果。下面将就各类故障级别进行定义说明,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级最高者为该故障综合严重等级。
 

故障分类 等级 业务故障描述
业务可用类 一级故障 业务中断8小时以上
二级故障 业务中断2-8小时
三级故障 业务中断1-2小时,业务核心功能无法使用
四级故障 业务中断1小时以下,业务核心功能受到影响
五级故障 业务中断1小时以下,业务次要功能无法使用
业务安全类 一级故障 系统入侵:核心业务受到入侵,核心用户数据等受到入侵,或者系统文件给恶意窜改,容易引发入侵扩散;
页面窜改: 门户网站首页给非法窜改内容、内容涉及危害性极大的;
CGI漏洞:已经引起大面积用户讨论、传播和以之侵害公司品牌利益,或者造成直接经济损失的
二级故障 系统入侵:核心业务受到入侵,未危及重要数据,仅造成扩散隐患但是并未发现有以外的机器系统受入侵的;
页面窜改:业务页面给非法窜改内容、或者小恶作剧;
CGI漏洞:由外部发现但还没有造成重大危机或者造成经济利益损失的
三级故障 系统入侵:核心业务存在高危端口或者系统漏洞
CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的核心系统漏洞
四级故障 系统入侵:非核心业务存在高危端口或者系统漏洞
CGI漏洞:由内部发现但还没有造成重大危机或者造成经济利益损失的普通系统漏洞
五级故障 隐患:自身有漏洞,但无重大后果

故障奖惩制度

运营故障处理评定是根据相关责任人对故障的响应、处理、完成结果等因素来对故障的处理情况进行综合评定,部门内会依据这个评定来对故障处罚等级进行调整。该评定只用于由部门内决定的故障处罚分级,公司的处罚条例不受此约束。符合下面条件者,可以对故障处罚等级进行适当降级,具体所降等级由部门领导决定。
 

评定项 降级标准 升级标准
响应时间 第一时间响应,包括故障的通知,处理,善后等事宜 相关人员一再催促下,责任人仍没有及时对故障进行处理
准备度 对故障发生的原因已有充分的预防机制 对已有发生的问题,或低级错误没有进行预防或规避
处理态度与能力 在最快时间内处理故障,并积极配合其他相关人员的故障处理工作;遇到技术问题积极寻求解决办法和资源支持; 对故障不重视,态度怠慢,敷衍;或没有足够技能进行故障处理
处理结果 系统在最短时间内完全恢复正常运作,故障影响降到最低 故障没有完全解决;或由于处理过程不及时不妥善导致故障影响(范围,金额,投诉量,恶性舆论等)有所扩大
后续措施 对故障发生的原因进行总结,制定同类故障的预防规避措施 拒绝对故障原因(除不可抗力因素以外)进行总结和制定预防/规避措施

转载请注明linux系统运维
http://www.linuxyw.com/linux/wangluojiagou/20130420/93.html

------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片