通过Amazon EventBridge监控AWS资源发送告警至钉钉
背景介绍
在使用AWS时偶尔会在管理员邮箱中收到AWS发的通知邮件,比如关于EC2维护信息,这些邮件很容易淹没在收件箱中,没有得到及时处理。另外对于重要的应用我们可能会在CloudWatch设置一些指标告警并进行邮件通知。如果这些都可以发到微信或钉钉等即时通信软件,就比邮件通知好多了,毕竟很多人都习惯在微信等即时通信软件上查看消息。为此,我们提供了AWS告警通知发送到企业微信和钉钉的解决方案。
**说明:**此方案仅目前仅支持AWS Global Regions,在AWS 北京和宁夏区暂时不支持事件的跨区传输。
架构图介绍
一、LogHub负责日志收集和可视化分析:
- 收集托管服务Cloufront日志、ALB来自不同国家区域的请求日志、服务器日志等,以及业务系统的Java应用日志数据;
- 通过OpenSearch存储与Dashboard可视化查看与分析,并设定OpenSearch告警当在指定时间范围内关键字出现多少次将触发SNS发送告警【接入无服务告警通知方案中】,将告警信息与办公沟通工具关联,如消息推送至钉钉和邮箱等。
二、AMP+AMG 指标监控:主要的作用是用于监控数仓的SQL慢查询
- AMP用于clickhouse集群监控、监听并存储clickhouse各节点clickhouse_exporter和node_exporter的实时状态数据。
- AMG 用于clickhouse SQL Tools和Prometheus监控可视化
三、无服务告警通知方案:云上资源的运维监控,接收告警推送至客户办公沟通工具
- 监控各项托管服务的health事件触发告警
- 监控各项托管服务的状态变化,例如 EC2的Stop、Restart、Terminate等
通过cloudwatch监控业务系统多项指标 CPU、利用率、磁盘IO等;EKS集群的指标Container Insights 每个节点运行数量、Pod重启次数等;为这些指标创建告警规则触发Eventbridge 将告警发送至钉钉。
AWS服务介绍:
- Event Bridge – 用于事件的监听及转发;
- SNS – 用于服务间的解耦合;
- Lambda – 发送事件到钉钉的的代码;
- CloudFormation – 用于部署所需资源;
架构介绍
- 发送消息到钉钉的代码全部采用无服务器架构,可以有效的节约企业成本。
- 在账号中创建专门的事件总线(Target Event Bus),该Event Bus配置规则发送事件到SNS;Lambda用于接收SNS的事件,从Secrets Manager获取钉钉的账号信息,调用钉钉的接口,发送信息。
- 账号的默认事件总线(Default Event Bus)配置规则,用于对事件进行筛选并发送事件到Target Event Bus。
配置钉钉
- 参考钉钉官方网站文档来配置:[自定义机器人接入](https://open.dingtalk.com/document/robots/custom-robot-access)。
- **自定义关键词:需要根据告警信息进行添加**
AWS配置
- 配置发往钉钉的SNS Topic
- 登陆AWS Console,选择Serverless Application Repository服务
- 点击“Available applications”->“Public applications”
- 在搜索框里输入“dingtalk”
- 勾选上“Show apps that create custom IAM roles or resource policies”
- 点击“DingTalk-Notifier”。
- 在应用程序设置填入之前拿到的钉钉 Webhook URl,之后点击部署
- 点击部署查看“Status”变为“Create complete”,等待部署完成
- 部署完成后,进入Amazon Event Bridge 可以看到已经创建了两个针对EC2状态变化,Health事件的规则
测试
打开EC2控制台-启动实例如下图
参考文档:
集中整合EventBridge事件通知发送到钉钉和企业微信:
https://aws.amazon.com/cn/blogs/china/centralized-integration-of-eventbridge-event-notifications-sent-to-ding-talk-and-enterprise-wechat/
企业微信、钉钉接收 Amazon CloudWatch 告警
https://aws.amazon.com/cn/blogs/china/enterprise-wechat-and-dingtalk-receiving-amazon-cloudwatch-alarms/
无服务器告警推送方案部署文档
https://aws-gcr-solutions.s3.amazonaws.com/serverless-alert-notifier/v1.0.1/docs.pdf
转换器参考:
输入路径:
{"instance-id":"$.detail.instanceid","region":"$.region","state":"$.detail.state","time":"$.time"}
输入模板:
"EC2状态变化告警: n时间: <time> n区域: <region> n实例id:<instance-id> n状态: <state>"