技术文档收录
ASCII
Tcpdump
IPV4保留地址段
深入理解以太网网线原理 - 三帛的世界
Linux
WireGuard 一键安装脚本 | 秋水逸冰
SSH Config 那些你所知道和不知道的事 | Deepzz's Blog
Linux 让终端走代理的几种方法
ubuntu 20.04 server 版设置静态 IP 地址 - 链滴
Linux 挂载 Windows 共享磁盘的方法 - 技术学堂
将 SMB/CIFS 网络硬盘永久的挂载到 Ubuntu 上 - 简书
linux 获取当前脚本的绝对路径 | aimuke
[Linux] Linux 使用 / dev/urandom 生成随机数 - piaohua's blog
Linux 生成随机数的多种方法 | Just Do It
Linux 的 Centos7 版本下忘记 root 或者普通用户密码怎么办?
Git 强制拉取覆盖本地
SSH 安全加固指南 - FreeBuf 网络安全行业门户
Linux 系统安全强化指南 - FreeBuf 网络安全行业门户
Linux 入侵排查 - FreeBuf 网络安全行业门户
sshd_config 配置详解 - 简书
SSH 权限详解 - SegmentFault 思否
CentOS 安装 node.js 环境 - SegmentFault 思否
如何在 CentOS 7 上安装 Node.js 和 npm | myfreax
几款 ping tcping 工具总结
OpenVpn 搭建教程 | Jesse's home
openvpn 一键安装脚本 - 那片云
OpenVPN 解决 每小时断线一次 - 爱开源
OpenVPN 路由设置 – 凤曦的小窝
OpenVPN 设置非全局代理 - 镜子的记录簿
TinyProxy 使用帮助 - 简书
Ubuntu 下使用 TinyProxy 搭建代理 HTTP 服务器_Linux_运维开发网_运维开发技术经验分享
Linux 软件包管理工具 Snap 常用命令 - 简书
linux systemd 参数详解
Systemd 入门教程:命令篇 - 阮一峰的网络日志
记一次 Linux 木马清除过程
rtty:在任何地方通过 Web 访问您的终端
02 . Ansible 高级用法 (运维开发篇)
终于搞懂了服务器为啥产生大量的 TIME_WAIT!
巧妙的 Linux 命令,再来 6 个!
77% 的 Linux 运维都不懂的内核问题,这篇全告诉你了
运维工程师必备:请收好 Linux 网络命令集锦
一份阿里员工的 Java 问题排查工具单
肝了 15000 字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收
作业调度算法(FCFS,SJF,优先级调度,时间片轮转,多级反馈队列) | The Blog Of WaiterXiaoYY
看了这篇还不会 Linux 性能分析和优化,你来打我
2019 运维技能风向标
更安全的 rm 命令,保护重要数据
求你了,别再纠结线程池大小了!
Linux sudo 详解 | 失落的乐章
重启大法好!线上常见问题排查手册
sudo 使用 - 笨鸟教程的博客 | BY BenderFly
shell 在手分析服务器日志不愁? - SegmentFault 思否
sudo 与 visudo 的超细用法说明_陈发哥 007 的技术博客_51CTO 博客
ESXI 下无损扩展 Linux 硬盘空间 | Naonao Blog
Linux 学习记录:su 和 sudo | Juntao Tan 的个人博客
使用者身份切换 | Linux 系统教程(笔记)
你会使用 Linux 编辑器 vim 吗?
在 Windows、Linux 和 Mac 上查看 Wi-Fi 密码
linux 隐藏你的 crontab 后门 - 简书
Linux 定时任务详解 - Tr0y's Blog
linux 的 TCP 连接数量最大不能超过 65535 个吗,那服务器是如何应对百万千万的并发的?_一口 Linux 的博客 - CSDN 博客_tcp 连接数多少正常
万字长文 + 28 张图,一次性说清楚 TCP,运维必藏
为什么 p2p 模式的 tunnel 底层通常用 udp 而不是 tcp?
记一次服务器被入侵挖矿 - tlanyan
shell 判断一个变量是否为空方法总结 - 腾讯云开发者社区 - 腾讯云
系统安装包管理工具 | Escape
编译代码时动态地链接库 - 51CTO.COM
甲骨文 Oracle Cloud 添加新端口开放的方法 - WirelessLink 社区
腾讯云 Ubuntu 添加 swap 分区的方法_弓弧名家_玄真君的博客 - CSDN 博客
Oracle 开放全部端口并关闭防火墙 - 清~ 幽殇
谁再说不熟悉 Linux 命令, 就把这个给他扔过去!
即插即用,运维工程师必会正则表达式大全
Shell脚本编写及常见面试题
Samba 文件共享服务器
到底一台服务器上最多能创建多少个 TCP 连接 | plantegg
SSH 密钥登录 - SSH 教程 - 网道
在 Bash 中进行 encodeURIComponent/decodeURIComponent | Harttle Land
使用 Shell 脚本来处理 JSON - Tom CzHen's Blog
Docker
「Docker」 - 保存镜像 - 知乎
终于可以像使用 Docker 一样丝滑地使用 Containerd 了!
私有镜像仓库选型:Harbor VS Quay - 乐金明的博客 | Robin Blog
exec 与 entrypoint 使用脚本 | Mr.Cheng
Dockerfile 中的 CMD 与 ENTRYPOINT
使用 Docker 配置 MySQL 主从数据库 - 墨天轮
Alpine vs Distroless vs Busybox – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
再见,Docker!
docker save 与 docker export 的区别 - jingsam
如何优雅的关闭容器
docker 储存之 tmpfs 、bind-mounts、volume | 陌小路的个人博客
Dockerfile 中 VOLUME 与 docker -v 的区别是什么 - 开发技术 - 亿速云
理解 docker 容器的退出码 | Vermouth | 博客 | docker | k8s | python | go | 开发
【Docker 那些事儿】容器监控系统,来自 Docker 的暴击_飞向星的客机的博客 - CSDN 博客
【云原生】Docker 镜像详细讲解_微枫 Micromaple 的博客 - CSDN 博客_registry-mirrors
【云原生】Helm 架构和基础语法详解
CMD 和 Entrypoint 命令使用变量的用法
实时查看容器日志 - 苏洋博客
Traefik 2 使用指南,愉悦的开发体验 - 苏洋博客
为你的 Python 应用选择一个最好的 Docker 映像 | 亚马逊 AWS 官方博客
【云原生】镜像构建实战操作(Dockerfile)
Docker Compose 中的 links 和 depends_on 的区别 - 编程知识 - 白鹭情
Python
Pipenv:新一代Python项目环境与依赖管理工具 - 知乎
Python list 列表实现栈和队列
Python 各种排序 | Lesley's blog
Python 中使用 dateutil 模块解析时间 - SegmentFault 思否
一个小破网站,居然比 Python 官网还牛逼
Python 打包 exe 的王炸 - Nuitka
Django - - 基础 - - Django ORM 常用查询语法及进阶
[Python] 小知識:== 和 is 的差異 - Clay-Technology World
Window
批处理中分割字符串 | 网络进行时
Windows 批处理基础命令学习 - 简书
在Windows上设置WireGuard
Windows LTSC、LTSB、Server 安装 Windows Store 应用商店
windows 重启 rdpclip.exe 的脚本
中间件
Nginx 中的 Rewrite 的重定向配置与实践
RabbitMQ 的监控
RabbitMq 最全的性能调优笔记 - SegmentFault 思否
为什么不建议生产用 Redis 主从模式?
高性能消息中间件——NATS
详解:Nginx 反代实现 Kibana 登录认证功能
分布式系统关注点:仅需这一篇,吃透 “负载均衡” 妥妥的
仅需这一篇,妥妥的吃透” 负载均衡”
基于 nginx 实现上游服务器动态自动上下线——不需 reload
Nginx 学习书单整理
最常见的日志收集架构(ELK Stack)
分布式之 elk 日志架构的演进
CAT 3.0 开源发布,支持多语言客户端及多项性能提升
Kafka 如何做到 1 秒处理 1500 万条消息?
Grafana 与 Kibana
ELK 日志系统之通用应用程序日志接入方案
ELK 简易 Nginx 日志系统搭建: ElasticSearch+Kibana+Filebeat
记一次 Redis 连接池问题引发的 RST
把 Redis 当作队列来用,你好大的胆子……
Redis 最佳实践:业务层面和运维层面优化
Redis 为什么变慢了?常见延迟问题定位与分析
好饭不怕晚,扒一下 Redis 配置文件的底 Ku
rabbitmq 集群搭建以及万级并发下的性能调优
别再问我 Redis 内存满了该怎么办了
Nginx 状态监控及日志分析
uWSGI 的安装及配置详解
uwsgi 异常服务器内存 cpu 爆满优化思路
Uwsgi 内存占用过多 - 简书
Nginx 的 limit 模块
Nginx 内置模块简介
Redis 忽然变慢了如何排查并解决?_redis_码哥字节_InfoQ 写作社区
领导:谁再用 redis 过期监听实现关闭订单,立马滚蛋!
Nginx 限制 IP 访问频率以及白名单配置_问轩博客
Nginx $remote_addr 和 $proxy_add_x_forwarded_for 变量详解
Caddy 部署实践
一文搞定 Nginx 限流
数据库
SqlServer 将数据库中的表复制到另一个数据库_MsSql_脚本之家
SQL Server 数据库同步,订阅、发布、复制、跨服务器
sql server 无法删除本地发布 | 辉克's Blog
SQLite全文检索
SQL 重复记录查询的几种方法 - 简书
SQL SERVER 使用订阅发布同步数据库(转)
Mysql 查看用户连接数配置及每个 IP 的请求情况 - 墨天轮
优化 SQL 的 21 条方案
SQL Server 连接时好时坏的奇怪问题
MS SQL 执行大脚本文件时,提示 “内存不足” 的解决办法 - 阿里云开发者社区
防火墙-iptables
iptables 常用规则:屏蔽 IP 地址、禁用 ping、协议设置、NAT 与转发、负载平衡、自定义链
防火墙 iptables 企业防火墙之 iptables
Linux 防火墙 ufw 简介
在 Ubuntu 中用 UFW 配置防火墙
在 Ubuntu20.04 上怎样使用 UFW 配置防火墙 - 技术库存网
监控类
开箱即用的 Prometheus 告警规则集
prometheus☞搭建 | zyh
docker 部署 Prometheus 监控服务器及容器并发送告警 | chris'wang
PromQL 常用命令 | LRF 成长记
prometheus 中使用 python 手写 webhook 完成告警
持续集成CI/CD
GitHub Actions 的应用场景 | 记录干杯
GithubActions · Mr.li's Blog
工具类
GitHub 中的开源网络广告杀手,十分钟快速提升网络性能
SSH-Auditor:一款 SHH 弱密码探测工具
别再找了,Github 热门开源富文本编辑器,最实用的都在这里了 - srcmini
我最喜欢的 CLI 工具
推荐几款 Redis 可视化工具
内网代理工具与检测方法研究
环境篇:数据同步工具 DataX
全能系统监控工具 dstat
常用 Web 安全扫描工具合集
给你一款利器!轻松生成 Nginx 配置文件
教程类
Centos7 搭建神器 openvpn | 运维随笔
搭建 umami 收集个人网站统计数据 | Reorx’s Forge
openvpn安装教程
基于 gitea+drone 完成小团队的 CI/CD - 德国粗茶淡饭
将颜色应用于交替行或列
VMware Workstation 全系列合集 精简安装注册版 支持 SLIC2.6、MSDM、OSX 更新 16.2.3_虚拟机讨论区_安全区 卡饭论坛 - 互助分享 - 大气谦和!
在 OpenVPN 上启用 AD+Google Authenticator 认证 | 运维烂笔头
Github 进行 fork 后如何与原仓库同步:重新 fork 很省事,但不如反复练习版本合并 · Issue #67 · selfteaching/the-craft-of-selfteaching
卧槽,VPN 又断开了!!- 阿里云开发者社区
Grafana Loki 学习之踩坑记
zerotier 的 planet 服务器(根服务器)的搭建踩坑记。无需 zerotier 官网账号。
阿里云 qcow2 镜像转 vmdk,导入 ESXi - 唐际忠的博客
Caddy 入门 – 又见杜梨树
【Caddy2】最新 Caddy2 配置文件解析 - Billyme 的博客
Web 服务器 Caddy 2 | Haven200
手把手教你打造高效的 Kubernetes 命令行终端
Keras 作者:给软件开发者的 33 条黄金法则
超详细的网络抓包神器 Tcpdump 使用指南
使用 fail2ban 和 FirewallD 黑名单保护你的系统
linux 下 mysql 数据库单向同步配置方法分享 (Mysql)
MySQL 快速删除大量数据(千万级别)的几种实践方案
GitHub 上的优质 Linux 开源项目,真滴牛逼!
WireGuard 教程:使用 Netmaker 来管理 WireGuard 的配置 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Tailscale 基础教程:Headscale 的部署方法和使用教程 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Nebula Graph 的 Ansible 实践
改进你的 Ansible 剧本的 4 行代码
Caddy 2 快速简单安装配置教程 – 高玩梁的博客
切换至 Caddy2 | 某不科学的博客
Caddy2 简明教程 - bleem
树莓派安装 OpenWrt 突破校园网限制 | Asttear's Blog
OpenVPN 路由设置 – 凤曦的小窝
个性化编译 LEDE 固件
盘点各种 Windows/Office 激活工具
[VirtualBox] 1、NAT 模式下端口映射
VirtualBox 虚拟机安装 openwrt 供本机使用
NUC 折腾笔记 - 安装 ESXi 7 - 苏洋博客
锐捷、赛尔认证 MentoHUST - Ubuntu 中文
How Do I Use A Client Certificate And Private Key From The IOS Keychain? | OpenVPN
比特记事簿: 笔记: 使用电信 TR069 内网架设 WireGuard 隧道异地组网
利用 GitHub API 获取最新 Releases 的版本号 | 这是只兔子
docsify - 生成文档网站简单使用教程 - SegmentFault 思否
【干货】Chrome 插件 (扩展) 开发全攻略 - 好记的博客
一看就会的 GitHub 骚操作,让你看上去像一位开源大佬
【计算机网络】了解内网、外网、宽带、带宽、流量、网速_墩墩分墩 - CSDN 博客
mac-ssh 配置 | Sail
如何科学管理你的密码
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信 | Shao Guoliang 的博客
CentOS7 配置网卡为静态 IP,如果你还学不会那真的没有办法了!
laisky-blog: 近期折腾 tailscale 的一些心得
使用 acme.sh 给 Nginx 安装 Let’ s Encrypt 提供的免费 SSL 证书 · Ruby China
acme 申请 Let’s Encrypt 泛域名 SSL 证书
从 nginx 迁移到 caddy
使用 Caddy 替代 Nginx,全站升级 https,配置更加简单 - Diamond-Blog
http.proxy - Caddy 中文文档
动手撸个 Caddy(二)| Caddy 命令行参数最全教程 | 飞雪无情的总结
Caddy | 学习笔记 - ijayer
Caddy 代理 SpringBoot Fatjar 应用上传静态资源
使用 graylog3.0 收集 open××× 日志进行审计_年轻人,少吐槽,多搬砖的技术博客_51CTO 博客
提高国内访问 github 速度的 9 种方法! - SegmentFault 思否
VM16 安装 macOS 全网最详细
2022 目前三种有效加速国内 Github
How to install MariaDB on Alpine Linux | LibreByte
局域网内电脑 - ipad 文件共享的三种方法 | 岚
多机共享键鼠软件横向测评 - 尚弟的小笔记
VLOG | ESXI 如何升级到最新版,无论是 6.5 还是 6.7 版本都可以顺滑升级。 – Vedio Talk - VLOG、科技、生活、乐分享
远程修改 ESXi 6.7 管理 IP 地址 - 腾讯云开发者社区 - 腾讯云
几乎不要钱自制远程 PLC 路由器方案
traefik 简易入门 | 个人服务器运维指南 | 山月行
更完善的 Docker + Traefik 使用方案 - 苏洋博客
MicroSD·TF 卡终极探秘 ·MLC 颗粒之谜 1 三星篇_microSD 存储卡_什么值得买
macOS 绕过公证和应用签名方法 - 走客
MiscSecNotes / 内网端口转发及穿透. md at master · JnuSimba/MiscSecNotes
我有特别的 DNS 配置和使用技巧 | Sukka's Blog
SEO:初学者完整指南
通过 OpenVPN 实现流量审计
OpenVPN-HOWTO
OpenVPN Server · Devops Roadmap
Linux 运维必备的 13 款实用工具, 拿好了~
linux 平台下 Tomcat 的安装与优化
Linux 运维跳槽必备的 40 道面试精华题
Bash 脚本进阶,经典用法及其案例 - alonghub - 博客园
推荐几个非常不错的富文本编辑器 - 走看看
在 JS 文件中加载 JS 文件的方法 - 月光博客
#JavaScript 根据需要动态加载脚本并设置自定义参数
笔记本电脑 BIOS 修改及刷写教程
跨平台加密 DNS 和广告过滤 personalDNSfilter · LinuxTOY
AdGuard Home 安装及使用指北
通过 Amazon S3 协议挂载 OSS
记一次云主机如何挂载对象存储
本文档发布于https://mrdoc.fun
-
+
首页
prometheus 中使用 python 手写 webhook 完成告警
> 本文由 [简悦 SimpRead](http://ksria.com/simpread/) 转码, 原文地址 [juejin.cn](https://juejin.cn/post/6923558840285790215) prometheus 的几种告警方式 ------------------ prometheus 我们都知道它是最近几年特别火的一个开源的监控工具,原生支持 kubernetes,如果你使用的是 kubernetes 集群,那么使用 prometheus 将会是非常方便的,而且 prometheus 也提供了报警工具`alertmanager`,实际上在 prometheus 的架构中,告警能力是单独的一部分,主要是通过自定义一堆的`rule`即告警规则,来周期性的对告警规则进行计算,并且会根据设置的报警触发条件,如果满足,就会进行告警,也就是会向`alertmanager`发送告警信息,进而由`alertmanager`进行告警。 那么,`alertmanager`告警又是通过何种途径呢?其实有很多种方式,例如: * 邮件告警 * 企业微信告警 * 钉钉告警 * slack 告警 * webhook 接口方式告警 其实还有一些,但这些都不重要,这些只是工具,重要的是如何运用,下面就介绍下使用 webhook 的方式来让 alertmanager 调用接口,发送`POST`请求完成告警消息的推送,而这个推送可以是邮件,也可以是微信,钉钉等。 调用接口以邮件形式告警 ----------- 大体流程是这样的,首先在我们定义好一堆告警规则之后,如果触发条件,alertmanager 会将报警信息推送给接口,然后我们的这个接口会做一些类似与聚合、汇总、优化的一些操作,然后将处理过的报警信息再以邮件的形式发送给指定的人或者组。也就是下面这个图: ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/d86958409f654ad6a485cbe491dc2dd5~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image) 我们这里的重点主要是如何写这个 webhook,以及写 webhook 的时候需要注意什么?下面将一一讲解 **假设你有一个 prometheus 监控系统,并且告警规则都已配置完成** ### 配置 alertmanager 首先得先配置 alertmanager,让其可以调用接口,配置方式很简单,只需要指定一下接口地址即可,如下: ``` receivers: - webhook_configs: url: http://10.127.34.107:5000/webhook send_resolved: true 复制代码 ``` 这就完了!当然可以指定多种告警方式 这样配置完成后,alertmanger 就会把告警信息以 POST (后) 请求方式调用接口 ### 编写一个最简单的接口 既然是用 python 来编写一个接口,那么肯定是用 flask 的,代码也非常简单,如下: ``` import json from flask import Flask, request from gevent.pywsgi import WSGIServer app = Flask(__name__) @app.route('/webhook', methods=['POST']) def webhook(): prometheus_data = json.loads(request.data) print(prometheus_data) return "test" if __name__ == '__main__': WSGIServer(('0.0.0.0', 5000), app).serve_forever() 复制代码 ``` 上面导入的一些模块,记得要去下载哦 ``` pip install flask pip install gevent 复制代码 ``` 这样的话,我们直接运行此段代码,此时机器上会监听 5000 端口,如果此时 prometheus 有告警,那么我们就会看到 prometheus 传过来的数据格式是什么样的了,这里我贴一个示例: ``` { 'receiver': 'webhook', 'status': 'firing', 'alerts': [{ 'status': 'firing', 'labels': { 'alertname': '内存使用率', 'instance': '10.127.92.100', 'job': 'sentry', 'severity': 'warning', 'team': 'ops' }, 'annotations': { 'description': '内存使用率已超过55%,内存使用率:58%', 'summary': '内存使用率' }, 'startsAt': '2020-12-30T07:20:08.775177336Z', 'endsAt': '0001-01-01T00:00:00Z', 'generatorURL': 'http://prometheus-server:9090/graph?g0.expr=round%28%281+-+%28node_memory_MemAvailable_bytes%7Bjob%3D%22sentry%22%7D+%2F+%28node_memory_MemTotal_bytes%7Bjob%3D%22sentry%22%7D%29%29%29+%2A+100%29+%3E+55&g0.tab=1', 'fingerprint': '09f94bd1aa7da54f' }, { 'status': 'firing', 'labels': { 'alertname': '内存使用率', 'instance': '10.127.92.101', 'job': 'sentry', 'severity': 'warning', 'team': 'ops' }, 'annotations': { 'description': '内存使用率已超过55%,内存使用率:58%', 'summary': '内存使用率' }, 'startsAt': '2020-12-30T07:20:08.775177336Z', 'endsAt': '0001-01-01T00:00:00Z', 'generatorURL': 'http://prometheus-server:9090/graph?g0.expr=round%28%281+-+%28node_memory_MemAvailable_bytes%7Bjob%3D%22sentry%22%7D+%2F+%28node_memory_MemTotal_bytes%7Bjob%3D%22sentry%22%7D%29%29%29+%2A+100%29+%3E+55&g0.tab=1', 'fingerprint': '8a972e4907cf2c60' }], 'groupLabels': { 'alertname': '内存使用率' }, 'commonLabels': { 'alertname': '内存使用率', 'job': 'sentry', 'severity': 'warning', 'team': 'ops' }, 'commonAnnotations': { 'summary': '内存使用率' }, 'externalURL': 'http://alertmanager-server:9093', 'version': '4', 'groupKey': '{}:{alertname="内存使用率"}', 'truncatedAlerts': 0 } 复制代码 ``` 通过 prometheus 传过来的告警信息,可以看到是一个标准的`json`,我们在使用`python`在做处理时,需要先将`json`字符串转换成`python`的字典,可以用`json`这个模块来实现,通过这个`json`我们可以得到以下信息 (非常重要): * 每次发出的`json`数据流中的报警信息是同一个类型的报警,比如这里都是关于内存的 * `status`:表示告警的状态,两种:`firing`和`resolved` * `alerts`:是一个列表,里面的元素是由字典组成,每一个元素都是一条具体的告警信息 * `commonLabels`:这里面就是一些公共的信息 剩下的几个 key 都比较好理解,就不一一说了,下面结合 prometheus 的一些 rule (规则) 来看下这个告警是凭什么这样发的。 ``` # cat system-rule.yaml #文件名随意设置,因为prometheus的配置里配置的是: *.yaml groups: - name: sentry rules: - alert: "Memory Usage" expr: round((1-(node_memory_MemAvailable_bytes{job='sentry'} / (node_memory_MemTotal_bytes{job='sentry'})))* 100) > 85 for: 5m labels: team: ops severity: warning cloud: yizhuang annotations: summary: "Memory usage is too high and over 85% for 5min" description: "The current host {{$labels.instance}}' memory usage is {{ $value }}%" 复制代码 ``` 这里就是配置的告警规则,告诉 prometheus 应该按照什么方式进行告警,配置完成后,要在 prometheus 的配置里引用下,如下所示: ``` # cat prometheus.yml global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: ['10.10.10.111:9093'] # 就是这里,看这里 rule_files: - "/alertmanager/rule/*.yaml" #文件目录随意设置 ... ... ... 此处省略一堆配置 复制代码 ``` 到这里应该就知道告警规则是什么发出来的了吧,然后也应该知道告警内容为什么是这样的了吧,嗯,下面看下最关键的地方 ### 处理原始告警信息并进行邮件告警 原始的告警信息看起来还挺规则的,只需要拼接下就可以了,但是有一个问题就是`alerts`里面的`startsAt`和`endsAt`这俩时间格式有些问题,是 UTC 时区的时间,需要转换下。还有一个地方需要注意的,最外层的`status`如果是`firing`状态,就不代表`alerts`中的`status`就一定都是`firing`,还有可能是`resolved`, 如下`json`所示: ``` { 'receiver': 'webhook', 'status': 'firing', 'alerts': [{ 'status': 'resolved', # 这里就是resolved状态,所以处理时需要注意下 'labels': { 'alertname': 'CPU使用率', 'instance': '10.127.91.26', 'severity': 'warning', 'team': 'ops' }, 'annotations': { 'description': 'CPU使用率已超过35%,CPU使用率:38%', 'summary': 'CPU使用率' }, 'startsAt': '2020-12-30T07:38:38.775177336Z', 'endsAt': '2020-12-30T07:38:53.775177336Z', 'generatorURL': 'http://prometheus-server:9090/graph?g0.expr=round%28100+-+%28avg+by%28instance%29+%28irate%28node_cpu_seconds_total%7Bjob%3D%22sentry%22%2Cmode%3D%22idle%22%7D%5B5m%5D%29%29+%2A+100%29%29+%3E+35&g0.tab=1', 'fingerprint': '58393b2abd2c6987' }, { 'status': 'resolved', 'labels': { 'alertname': 'CPU使用率', 'instance': '10.127.92.101', 'severity': 'warning', 'team': 'ops' }, 'annotations': { 'description': 'CPU使用率已超过35%,CPU使用率:38%', 'summary': 'CPU使用率' }, 'startsAt': '2020-12-30T07:42:08.775177336Z', 'endsAt': '2020-12-30T07:42:38.775177336Z', 'generatorURL': 'http://prometheus-server:9090/graph?g0.expr=round%28100+-+%28avg+by%28instance%29+%28irate%28node_cpu_seconds_total%7Bjob%3D%22sentry%22%2Cmode%3D%22idle%22%7D%5B5m%5D%29%29+%2A+100%29%29+%3E+35&g0.tab=1', 'fingerprint': 'eaca600142f9716c' }], 'groupLabels': { 'alertname': 'CPU使用率' }, 'commonLabels': { 'alertname': 'CPU使用率', 'severity': 'warning', 'team': 'ops' }, 'commonAnnotations': { 'summary': 'CPU使用率' }, 'externalURL': 'http://alertmanager-server:9093', 'version': '4', 'groupKey': '{}:{alertname="CPU使用率"}', 'truncatedAlerts': 0 } 复制代码 ``` 那既然该注意的都注意了,就开始干吧,首先说下我要实现的一个最终结果: * 时区转换 * 不同类型的告警信息推送给不同的人 * 告警内容以表格的形式展示,通过 html 实现 ### 时区转换 先看下时区转换,这个比较好解决,代码如下: ``` import datetime from dateutil import parser def time_zone_conversion(utctime): format_time = parser.parse(utctime).strftime('%Y-%m-%dT%H:%M:%SZ') time_format = datetime.datetime.strptime(format_time, "%Y-%m-%dT%H:%M:%SZ") return str(time_format + datetime.timedelta(hours=8)) 复制代码 ``` ### 发送邮件 再来看下邮件发送,也很简单,代码如下: ``` import smtplib from email.mime.text import MIMEText def sendEmail(title, content, receivers=None): if receivers is None: receivers = ['chenf-o@glodon.com'] mail_host = "xxx" mail_user = "xxx" mail_pass = "xxx" sender = "xxx" msg = MIMEText(content, 'html', 'utf-8') msg['From'] = "{}".format(sender) msg['To'] = ",".join(receivers) msg['Subject'] = title try: smtpObj = smtplib.SMTP_SSL(mail_host, 465) smtpObj.login(mail_user, mail_pass) smtpObj.sendmail(sender, receivers, msg.as_string()) print('mail send successful.') except smtplib.SMTPException as e: print(e) 复制代码 ``` ### 告警模板生成 下面就是告警推送的形式了,上面说了,使用表格的形式,如果用 html 来生成表格,还是比较简单的,但是这个表格是不停的变化的,所以为了支持这个动态变化,肯定是得用到`模板语言:jinja`了,如果是搞运维的肯定知道`ansible`,ansible 里的 template 用的也是`jinja`模板语言,所以比较好理解,这里就不再单独说了,后面会详细说一下 python 中如何使用这个`jinja`模板语言,不明白的可以先看下官方文档,比较简单: `http://docs.jinkan.org/docs/jinja2/` 那么我这个 html 就长成了这个样子,由于本人对前端一点都不懂,所以能实现我的需求就行了。 ``` <meta http-equiv="Content-Type"content="text/html;charset=utf-8"> <html align='left'> <body> <h2 style="font-size: x-large;">{{ prometheus_monitor_info['commonLabels']['cloud'] }}--监控告警通知</h2><br/> <br> <table border="1" width = "70%" cellspacing='0' cellpadding='0' align='left'> <tr> <!--监控类型:系统层级,业务层级,服务层级等等--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">监控类别</th> <!--状态:报警通知还是恢复通知--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">状态</th> <!--状态:级别:报警级别--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">级别</th> <!--状态:实例:机器地址--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">实例</th> <!--状态:描述:报警描述--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">描述</th> <!--状态:详细描述:报警详细描述--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">详细描述</th> <!--状态:开始时间:报警开始时间--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">开始时间</th> <!--状态:开始时间:报警结束时间--> <th style="font-size: 20px; padding: 5px; background-color: #F3AE60">结束时间</th> </tr> {% for items in prometheus_monitor_info['alerts'] %} <tr align='center'> {% if loop.first %} <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #F3AE60" rowspan="{{ loop.length }}">{{ prometheus_monitor_info['commonLabels']['alertname'] }}</td> {% endif %} {% if items['status'] == 'firing' %} <td style="font-size: 16px; padding: 3px; background-color: red; word-wrap: break-word">告警</td> {% else %} <td style="font-size: 16px; padding: 3px; background-color: green; word-wrap: break-word">恢复</td> {% endif %} <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">{{ items['labels']['severity'] }}</td> <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">{{ items['labels']['instance'] }}</td> <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">{{ items['annotations']['summary'] }}</td> <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">{{ items['annotations']['description'] }}</td> <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">{{ items['startsAt'] }}</td> {% if items['endsAt'] == '0001-01-01T00:00:00Z' %} <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #EBE4D3">00:00:00:00</td> {% else %} <td style="font-size: 16px; padding: 3px; word-wrap: break-word; background-color: #3DE869">{{ items['endsAt'] }}</td> {% endif %} </tr> {% endfor %} </table> </body> </html> 复制代码 ``` en。。。。仔细一看好像也挺简单的,就是一堆 for 循环, if (如果) 判断啥的,比较不好弄的就是这个表格的合并单元格,对我来说有点费劲,我就简单把**监控类别**给合并成一个单元格了,其他的就没再归类了 `<tr>...</tr>`这里设置的是表格的表头信息,我这里都有详细的注释,就不介绍了。 `<td>...</td>`里是一行一行的告警信息,里面有一个判断,是判断这一条告警信息里到底是报警还是已恢复,然后根据不同来设置一个不同的颜色展示,这样的话领导看了肯定会觉着真贴心。 然后我就说一个比较重要的地方 ``` {% for items in prometheus_monitor_info['alerts'] %} 这里面是最关键的告警信息,其中prometheus_monitor_info这个是一个变量吧,代表的是把prometheus推过来的json字符串转换成python的一个字典,注意这是一个字典,然后这个字典做了一个时区转换的操作。 嗯,那prometheus_monitor_info['alerts']这里就是取得alerts这个列表了,然后用for循环迭代这个列表,items这里就是每一条具体的告警信息,它是一个字典,嗯,然后就是把字典里的value取出来了,嗯。仔细想想也很简单。 {% endfor %} 复制代码 ``` 这样的话,我这个 html 的模板就写好了,然后我怎么使用这个模板呢?这里我又写了一个方法来解析这个模板,并传入对应的参数 ``` from jinja2 import Environment, FileSystemLoader class ParseingTemplate: def __init__(self, templatefile): self.templatefile = templatefile def template(self, **kwargs): try: env = Environment(loader=FileSystemLoader('templates')) template = env.get_template(self.templatefile) template_content = template.render(kwargs) return template_content except Exception as error: raise error 复制代码 ``` 简单说下这个类的作用,就是为了传入告警信息,然后再读取 html 模板,最后把解析好的 html 内容返回出来,最后通过邮件,把这个内容发出去,就完事了。 ### 精准告警,对应到具体的人 这里其实比较简单,只需要解析原始 json 里的`commonLabels`下的`team`,如果你仔细看我上面贴的那个 rule (规则) 报警规则的话,你肯定注意到里面有一个自定义的 key-value: ``` groups: - name: sentry # 这个名字可以理解为一个分类,做一个区分 rules: - alert: "Memory Usage" expr: round((1-(node_memory_MemAvailable_bytes{job='sentry'} / (node_memory_MemTotal_bytes{job='sentry'})))* 100) > 85 for: 5m labels: team: ops # 就是这里,我定义了一个组,用来给这个组发消息 severity: warning cloud: yizhuang ...... ...... 复制代码 ``` 然后我再解析原始 json 的时候,我把这个`team`的值获取出来,根据这个值,去取这个组里的具体邮件地址,最后发给这些人就好了。 具体的邮件地址,我是取出来了,但是我怎么知道区分这些人应该对应哪个环境或者哪个应用呢,那就是下面这个: ``` groups: - name: sentry ...... ...... 复制代码 ``` 这里的 name 肯定和 prometheus 中指定的 job_name 对应,那么 prometheus 中相应的配置就是: ``` # cat prometheus.yml global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute. # scrape_timeout is set to the global default (10s). # Alertmanager configuration alerting: alertmanagers: - static_configs: - targets: ['10.127.92.105:9093'] # Load rules once and periodically evaluate them according to the global 'evaluation_interval'. rule_files: - "/alertmanager/rule/*.yaml" # A scrape configuration containing exactly one endpoint to scrape: # Here it's Prometheus itself. scrape_configs: # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config. - job_name: 'prometheus' static_configs: - targets: ['10.127.92.105:9090'] - job_name: 'cadvisor-app' file_sd_configs: - refresh_interval: 1m files: - /etc/prometheus/file-sd-configs/cadvisor-metrics.json - job_name: 'sentry' file_sd_configs: - refresh_interval: 1m files: - /etc/prometheus/file-sd-configs/system-metrics.json - job_name: 'kafka-monitor' file_sd_configs: - refresh_interval: 1m files: - /etc/prometheus/file-sd-configs/kafka-metrics.json 复制代码 ``` 是不是串起来了呢?可以回想下,然后再参考我最终完整的代码 ### 完整代码参考 代码参考 ``` from flask import Flask, request from dateutil import parser import json import yaml import datetime import smtplib from email.mime.text import MIMEText from jinja2 import Environment, FileSystemLoader from gevent.pywsgi import WSGIServer def time_zone_conversion(utctime): format_time = parser.parse(utctime).strftime('%Y-%m-%dT%H:%M:%SZ') time_format = datetime.datetime.strptime(format_time, "%Y-%m-%dT%H:%M:%SZ") return str(time_format + datetime.timedelta(hours=8)) def get_email_conf(file, email_name=None, action=0): """ :param file: yaml格式的文件类型 :param email_name: 发送的邮件列表名 :param action: 操作类型,0: 查询收件人的邮件地址列表, 1: 查询收件人的列表名称, 2: 获取邮件账号信息 :return: 根据action的值,返回不通的数据结构 """ try: with open(file, 'r', encoding='utf-8') as fr: read_conf = yaml.safe_load(fr) if action == 0: for email in read_conf['email']: if email['name'] == email_name: return email['receive_addr'] else: print("%s does not match for %s" % (email_name, file)) else: print("No recipient address configured") elif action == 1: return [items['name'] for items in read_conf['email']] elif action == 2: return read_conf['send'] except KeyError: print("%s not exist" % email_name) exit(-1) except FileNotFoundError: print("%s file not found" % file) exit(-2) except Exception as e: raise e def sendEmail(title, content, receivers=None): if receivers is None: receivers = ['chenf-o@glodon.com'] send_dict = get_email_conf('email.yaml', action=2) mail_host = send_dict['smtp_host'] mail_user = send_dict['send_user'] mail_pass = send_dict['send_pass'] sender = send_dict['send_addr'] msg = MIMEText(content, 'html', 'utf-8') msg['From'] = "{}".format(sender) msg['To'] = ",".join(receivers) msg['Subject'] = title try: smtpObj = smtplib.SMTP_SSL(mail_host, 465) smtpObj.login(mail_user, mail_pass) smtpObj.sendmail(sender, receivers, msg.as_string()) print('mail send successful.') except smtplib.SMTPException as e: print(e) class ParseingTemplate: def __init__(self, templatefile): self.templatefile = templatefile def template(self, **kwargs): try: env = Environment(loader=FileSystemLoader('templates')) template = env.get_template(self.templatefile) template_content = template.render(kwargs) return template_content except Exception as error: raise error app = Flask(__name__) @app.route('/webhook', methods=['POST']) def webhook(): try: prometheus_data = json.loads(request.data) # 时间转换,转换成东八区时间 for k, v in prometheus_data.items(): if k == 'alerts': for items in v: if items['status'] == 'firing': items['startsAt'] = time_zone_conversion(items['startsAt']) else: items['startsAt'] = time_zone_conversion(items['startsAt']) items['endsAt'] = time_zone_conversion(items['endsAt']) team_name = prometheus_data["commonLabels"]["team"] generate_html_template_subj = ParseingTemplate('email_template_firing.html') html_template_content = generate_html_template_subj.template( prometheus_monitor_info=prometheus_data ) # 获取收件人邮件列表 email_list = get_email_conf('email.yaml', email_name=team_name, action=0) sendEmail( 'Prometheus Monitor', html_template_content, receivers=email_list ) return "prometheus monitor" except Exception as e: raise e if __name__ == '__main__': WSGIServer(('0.0.0.0', 5000), app).serve_forever() 复制代码 ``` 配置文件参考 ``` send: smtp_host: smtp.163.com send_user: warxxxxgs@163.com send_addr: warxxxs@163.com send_pass: BRxxxxxxxZPUZEK email: - name: kafka-monitor # 要和team对应 receive_addr: - 邮件地址1 - 邮件地址2 - 邮件地址3 - name: ops receive_addr: - 邮件地址1 - 邮件地址2 复制代码 ``` 最终效果图 ----- 1)全是告警的 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/e8361acbdd034bd595776b83b5e51e15~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image) ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/13ab0015b0af4051834dfe606e6deb28~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image) 2)既有告警又有恢复的 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/9eadde09e9d04c538d16aa939ddbe474~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image) 3)都是恢复的 ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/6c20e83ef3d5401b98f04fafa5aa2f43~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image) ![](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/ecfb807900ff454bb2a82aa48f992e8f~tplv-k3u1fbpfcp-zoom-in-crop-mark:4536:0:0:0.image)
Jonny
2022年12月2日 18:21
291
0 条评论
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
如遇文档失效,可评论告知,便后续更新!
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期