欢迎大家分享自己的文档,请点击查阅:分享方法,
如果你喜欢这文章,可以点击文章结尾处百度分享,分享到你的各种社区收藏,或推荐给朋友……
返回:海量运维、运营规划--linux网络架构规划首页
事件管理、问题管理、告警管理是互相关联,互相影响的,也是ITIL体系里最重要三个环节,结合自己实践,分享如下体会:
定义
事件会导致,或可能导致生产环境服务中断或服务质量下降的故障,事件发生后,需要通过告警去触发人为介入,之后断定是否为故障,进而通过故障管理永久规避掉。
分类
根据每一类事件,建立对应告警分类、告警等级、告警模型、告警策略。
突发事件类型 |
子类 |
说明 |
硬件环境类事件 |
服务器事件 |
因服务器硬件故障导致的事件 |
运营IDC网络事件 |
因内网、专线、网络设备问题导致的事件 |
存储设备事件 |
因存储设备(指公司专门的数据存储磁盘柜,分为独立存储和集中存储,另外公司的磁带机也包含在内)问题导致事件 |
机房环境类事件 |
因机房环境(市电中断、机架掉电、UPS故障、空调故障等)问题导致事件 |
运营商事件 |
因电信、联通、移动等运营商网络、系统问题导致事件 |
软件类事件 |
应用类软件事件 |
因第三方软件(如:mysql,apache)问题导致的事件. |
业务类软件事件 |
因业务软件问题导致的事件(如校友业务软件、DNF业务软件) |
操作系统事件 |
因操作系统问题导致的事件(如Linux、Windows系统) |
BU内部系统类软件 |
自研接口平台或工具平台(如LVS、GSLB)问题导致的事件。 |
DB类事件 |
因DB数据库(如数据丢失或数据异常)问题导致的事件 |
管理类事件 |
业务配置不当 |
因业务配置问题导致的事件。 |
人为操作失误 |
因人为操作失误导致的事件。 |
配置管理系统未更新 |
因配置管理系统未及时更新导致的事件。 |
新变更调整类事件 |
因新变更导致的事件。 |
部门协作类事件 |
|
因部门与部门间协作问题导致的事件。 |
安全类事件 |
高危端口 |
高危端口类安全事件 |
系统安全事件 |
操作系统类安全事件 |
程序安全事件 |
|
网络漏洞 |
网络漏洞类安全事件。 |
公司内部系统事件 |
监控系统异常 |
监控系统不可用、BUG导致的事件。 |
事件管理系统异常 |
事件管理系统(helper系统)不可用、BUG等问题导致的事件。 |
OA系统异常 |
OA系统不可用、BUG等问题导致的事件。 |
LVS类事件 |
因LVS系统问题导致的事件 |
其它类事件 |
|
|
CDN外包类事件 |
CDN网络类事件 |
因CDN网络问题导致的事件 |
CDN服务器类事件 |
因CDN服务器问题导致的事件 |
机房环境类事件 |
因CDN机房环境问题导致的事件 |
其它 |
其它CDN问题导致的事件 |
容量管理 |
|
因容量问题导致的事件 |
问题(以下是之前遇到过的问题)
1、监控存在局限,目前具备有限的系统层、应用层监控和告警,系统层以预警为主,业务层以通用监控为主,缺乏应用、网络(IDC、CDN、专线)预警。(目前开发团队未能在业务各模块中有成熟的监控、告警机制)
2、告警存在延时,短信告警使用公司通用接口(短信接口),存在排队、延时,RTX、邮件也存在延时现象。(短信网关如果出现拥塞,再好的告警模型也失效)
3、告警质量问题,告警淹没、告警质量是当下存在的核心问题,提升告警策略和质量是重点工作。
优化(针对以上三个问题)
linux系统运维
1、监测局限性优化,尽可能在网络层、应用层扫除盲点,培养研发模块间的异常监测机制(OP提供统一告警接口),网络层异常需要第一时间监测到确定影响范围;
2、告警延时优化,拓宽渠道,减少拥塞,1~2级事件申请新专用短信接口与通用接口做隔离,3~5级预警类通过通用短信接口、HI、邮件推送。(预警类可按天给一个汇总邮件即可,需要持续优化和定制)
3、告警质量优化,核心思想是“运营”,需要一定的规划和统筹能力,即要全局规划好告警分类、告警模型、告警策略,又要持续的按业务或人的告警数量、告警分布进行持续优化。(全部可视化,可以细到每一个OP,可以看到自己一个季度的告警数量和分布在那些产品线,是什么类型的告警)
这里的“运营”是指以事件为中心,根据每一类事件,可持续的对告警分类、告警等级、告警模型、告警策略进行调整优化,从中找到共性问题并解决,最大可能减少重复,提升每单告警质量。
转载请注明linux系统运维:
http://www.linuxyw.com/linux/wangluojiagou/20130420/87.html |