Linux系统运维:http://www.linuxyw.com,QQ交流群:244914685

Linux系统运维

当前位置: 主页 > 架构 >

关于事件、问题、告警管理的一些体会(2)

时间:2013-04-20 16:28来源:www.itkoala.com 作者:itkoala 点击:
问题 (以下是之前遇到过的问题) 1、监控存在局限,目前具备有限的系统层、应用层监控和告警,系统层以预警为主,业务层以通用监控为主,缺乏应用

转载请注明出处: Linux系统运维 http://www.linuxyw.com/linux/jiagou/20130420/87.html


问题(以下是之前遇到过的问题)

1、监控存在局限,目前具备有限的系统层、应用层监控和告警,系统层以预警为主,业务层以通用监控为主,缺乏应用、网络(IDC、CDN、专线)预警。(目前开发团队未能在业务各模块中有成熟的监控、告警机制)

2、告警存在延时,短信告警使用公司通用接口(短信接口),存在排队、延时,RTX、邮件也存在延时现象。(短信网关如果出现拥塞,再好的告警模型也失效)

3、告警质量问题,告警淹没、告警质量是当下存在的核心问题,提升告警策略和质量是重点工作。

优化(针对以上三个问题)
linux系统运维

1、监测局限性优化,尽可能在网络层、应用层扫除盲点,培养研发模块间的异常监测机制(OP提供统一告警接口),网络层异常需要第一时间监测到确定影响范围;

2、告警延时优化,拓宽渠道,减少拥塞,1~2级事件申请新专用短信接口与通用接口做隔离,3~5级预警类通过通用短信接口、HI、邮件推送。(预警类可按天给一个汇总邮件即可,需要持续优化和定制)

3、告警质量优化,核心思想是“运营”,需要一定的规划和统筹能力,即要全局规划好告警分类、告警模型、告警策略,又要持续的按业务或人的告警数量、告警分布进行持续优化。(全部可视化,可以细到每一个OP,可以看到自己一个季度的告警数量和分布在那些产品线,是什么类型的告警)

这里的“运营”是指以事件为中心,根据每一类事件,可持续的对告警分类、告警等级、告警模型、告警策略进行调整优化,从中找到共性问题并解决,最大可能减少重复,提升每单告警质量。

本文来自linux系统运维http://www.linuxyw.com/linux/jiagou/20130420/87.html

顶一下
(0)
0%
踩一下
(0)
0%
分享按钮
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
验证码: 点击我更换图片