Linux系统运维:http://www.linuxyw.com,QQ交流群:244914685

Linux系统运维

当前位置: 主页 > 架构 >

关于事件、问题、告警管理的一些体会

时间:2013-04-20 16:30来源:www.itkoala.com 作者:itkoala 点击:
事件管理、问题管理、告警管理是互相关联,互相影响的,也是ITIL体系里最重要三个环节,结合自己实践,分享如下体会: 定义 事件会导致,或可能导致生产环境服务中断或服务质量

转载请注明出处: Linux系统运维 http://www.linuxyw.com/linux/jiagou/20130420/87.html


事件管理、问题管理、告警管理是互相关联,互相影响的,也是ITIL体系里最重要三个环节,结合自己实践,分享如下体会:

定义

事件会导致,或可能导致生产环境服务中断或服务质量下降的故障,事件发生后,需要通过告警去触发人为介入,之后断定是否为故障,进而通过故障管理永久规避掉。

分类

根据每一类事件,建立对应告警分类、告警等级、告警模型、告警策略。
 

突发事件类型 子类 说明
硬件环境类事件 服务器事件 因服务器硬件故障导致的事件
运营IDC网络事件 因内网、专线、网络设备问题导致的事件
存储设备事件 因存储设备(指公司专门的数据存储磁盘柜,分为独立存储和集中存储,另外公司的磁带机也包含在内)问题导致事件
机房环境类事件 因机房环境(市电中断、机架掉电、UPS故障、空调故障等)问题导致事件
运营商事件 因电信、联通、移动等运营商网络、系统问题导致事件
软件类事件 应用类软件事件 因第三方软件(如:mysql,apache)问题导致的事件.
业务类软件事件 因业务软件问题导致的事件(如校友业务软件、DNF业务软件)
操作系统事件 因操作系统问题导致的事件(如Linux、Windows系统)
BU内部系统类软件 自研接口平台或工具平台(如LVS、GSLB)问题导致的事件。
DB类事件 因DB数据库(如数据丢失或数据异常)问题导致的事件
管理类事件 业务配置不当 因业务配置问题导致的事件。
人为操作失误 因人为操作失误导致的事件。
配置管理系统未更新 因配置管理系统未及时更新导致的事件。
新变更调整类事件 因新变更导致的事件。
部门协作类事件   因部门与部门间协作问题导致的事件。
安全类事件 高危端口 高危端口类安全事件
系统安全事件 操作系统类安全事件
程序安全事件  
网络漏洞 网络漏洞类安全事件。
公司内部系统事件 监控系统异常 监控系统不可用、BUG导致的事件。
事件管理系统异常 事件管理系统(helper系统)不可用、BUG等问题导致的事件。
OA系统异常 OA系统不可用、BUG等问题导致的事件。
LVS类事件 因LVS系统问题导致的事件
其它类事件    
CDN外包类事件 CDN网络类事件 因CDN网络问题导致的事件
CDN服务器类事件 因CDN服务器问题导致的事件
机房环境类事件 因CDN机房环境问题导致的事件
其它 其它CDN问题导致的事件
容量管理   因容量问题导致的事件

问题(以下是之前遇到过的问题)

1、监控存在局限,目前具备有限的系统层、应用层监控和告警,系统层以预警为主,业务层以通用监控为主,缺乏应用、网络(IDC、CDN、专线)预警。(目前开发团队未能在业务各模块中有成熟的监控、告警机制)

2、告警存在延时,短信告警使用公司通用接口(短信接口),存在排队、延时,RTX、邮件也存在延时现象。(短信网关如果出现拥塞,再好的告警模型也失效)

3、告警质量问题,告警淹没、告警质量是当下存在的核心问题,提升告警策略和质量是重点工作。

优化(针对以上三个问题)
linux系统运维

1、监测局限性优化,尽可能在网络层、应用层扫除盲点,培养研发模块间的异常监测机制(OP提供统一告警接口),网络层异常需要第一时间监测到确定影响范围;

2、告警延时优化,拓宽渠道,减少拥塞,1~2级事件申请新专用短信接口与通用接口做隔离,3~5级预警类通过通用短信接口、HI、邮件推送。(预警类可按天给一个汇总邮件即可,需要持续优化和定制)

3、告警质量优化,核心思想是“运营”,需要一定的规划和统筹能力,即要全局规划好告警分类、告警模型、告警策略,又要持续的按业务或人的告警数量、告警分布进行持续优化。(全部可视化,可以细到每一个OP,可以看到自己一个季度的告警数量和分布在那些产品线,是什么类型的告警)

这里的“运营”是指以事件为中心,根据每一类事件,可持续的对告警分类、告警等级、告警模型、告警策略进行调整优化,从中找到共性问题并解决,最大可能减少重复,提升每单告警质量。

本文来自linux系统运维http://www.linuxyw.com/linux/jiagou/20130420/87.html

顶一下
(0)
0%
踩一下
(0)
0%
分享按钮
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片