监控报警
可观测性中心的监控报警功能,主要对服务进行实时监控并预警提醒,能够及时发现系统、应用组件、服务等问题,避免故障扩大化从而对业务造成影响。
主要功能
可以连接多种数据源,例如Prometheus、Elasticsearch等,来获取监控数据。
Dashboard 是一个可视化界面,展示各种指标的数据,在界面上可以根据需求设置图标、面板来展示监控数据。
通过 Alerting 功能来配置报警规则,可以在 Dashboard 上某个面板中创建报警规则,在创建报警规则的时候需要设置报警条件和触发方式。可以设置触发邮件、钉钉、Slack 通知、Webhook 等多种方式进行报警。
创建过报警规则后,需要进行测试并优化,可以通过手动修改数据、模拟异常情况等方式来测试报警规则的触发情况,并对规则作出优化和调整
作用
数据可视化:可以将各种数据源 的监控数据进行可视化展示,让用户可以一目了然地了解监控指标的状态和变化趋势。
多种数据源支持:支持多种数据源的监控,包括时序数据、日志数据、关系型数据库等,可以满足不同业务的监控需求。
灵活的报警设置:报警设置非常灵活,可以根据各种条件和规则进行设置,例如设置阈值、时间段、数据聚合等,还可以根据不同的报警级别进行不同的处理操作。
集成方便:可以集成多种报警工具和服务,方便用户选择适合自己的报警方式。
自动化处理:报警可以自动触发一些处理操作,例如自动重启服务、发送消息通知等,减轻人工干预的负担,提高故障处理的效率。
使用手册
设置报警规则
-
设置查询和告警条件,选择数据源,可以添加多种查询条件和表达式,通过预览或运行来查看结果。
-
警报评估行为,适用于组内的每条规则,可以覆盖现有报警规则的时间间隔。配置无数据和和错误处理的警报状态。
-
为警告添加详细信息,编写摘要并添加标签,帮助用户更好管理警报。
-
通过添加一些自定义标签来处理警报通知,这些标签将警报连接到具有匹配标签的接触点和静默警报实例。