Linux系统运维:http://www.linuxyw.com,QQ交流群:244914685

Linux系统运维

当前位置: 主页 > 架构 >

事件管理,记录、分类、诊断、解决问题

时间:2013-04-20 16:22来源:www.itkoala.com 作者:itkoala 点击:
事件是导致或可能导致服务的中断或服务质量下降的任何事件,例如事故、突发故障、意外事件等。 事件管理在于通过一套科学合理的方法论去减少或者消除存在或可能存在对服务影响

转载请注明出处: Linux系统运维 http://www.linuxyw.com/linux/jiagou/20130420/83.html


事件是导致或可能导致服务的中断或服务质量下降的任何事件,例如事故、突发故障、意外事件等。

事件管理在于通过一套科学合理的方法论去减少或者消除存在或可能存在对服务影响的事件,可以理解为可以快速有序地对事件进行响应和处理,降低事件对服务的影响,并且记录下完整的处理过程。当互联网公司成长到一定规模后,事件管理的价值就突显出来了,比如之前的部门要支撑100+个产品,2000+台服务器,14个IDC,4条专线,120+个开发、产品,一天发生的事件较多,必需通过事件管理来提高效率及可持续性,事件管理主要有以下几个重点:

流程

事件管理通常会有一个统一入口(服务台),通过统一入口再将事件进行流水线处理。这个入口的对象就是事件来源,如用户反馈、业务监控告警、员工保障等,主要流程如下:

1、接收和记录,发现并报告事件,同时生成一个事件记录(事件单)。
2、分类和初步支持,根据事件的类型、状态、影响程度、紧急程度、优先级等来对其进行处理。
3、排查和诊断,根据事件进行具体分析、诊断。
4、解决与恢复,联动相关资源并解决问题。
5、进展监控与跟踪,监控整个事件生命周期,如果估计事件不能及时得到解决或以当前的专业级别无法解决,刚进行事件升级。

影响程度

通过事件现象评估受影响的程度,例如交换机故障、IDC掉电、硬盘读写对应的影响程度是完全不同的。

紧急程度

根据事件影响程度,将事件造成的影响由高到低分为若干等级,便是紧急程度,等级越高,说明影响越大,需要优先处理。

优先级

事件基于相关配置项的紧急度和影响度进行优先级分类,优先级越高,说明产品受影响就越大,损失越多惨重。

事件录入:

Linux系统运维

事件追踪:

本文来自linux系统运维http://www.linuxyw.com/linux/jiagou/20130420/83.html

顶一下
(0)
0%
踩一下
(0)
0%
分享按钮
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片