技术文档收录
ASCII
Tcpdump
IPV4保留地址段
深入理解以太网网线原理 - 三帛的世界
Linux
WireGuard 一键安装脚本 | 秋水逸冰
SSH Config 那些你所知道和不知道的事 | Deepzz's Blog
Linux 让终端走代理的几种方法
ubuntu 20.04 server 版设置静态 IP 地址 - 链滴
Linux 挂载 Windows 共享磁盘的方法 - 技术学堂
将 SMB/CIFS 网络硬盘永久的挂载到 Ubuntu 上 - 简书
linux 获取当前脚本的绝对路径 | aimuke
[Linux] Linux 使用 / dev/urandom 生成随机数 - piaohua's blog
Linux 生成随机数的多种方法 | Just Do It
Linux 的 Centos7 版本下忘记 root 或者普通用户密码怎么办?
Git 强制拉取覆盖本地
SSH 安全加固指南 - FreeBuf 网络安全行业门户
Linux 系统安全强化指南 - FreeBuf 网络安全行业门户
Linux 入侵排查 - FreeBuf 网络安全行业门户
sshd_config 配置详解 - 简书
SSH 权限详解 - SegmentFault 思否
CentOS 安装 node.js 环境 - SegmentFault 思否
如何在 CentOS 7 上安装 Node.js 和 npm | myfreax
几款 ping tcping 工具总结
OpenVpn 搭建教程 | Jesse's home
openvpn 一键安装脚本 - 那片云
OpenVPN 解决 每小时断线一次 - 爱开源
OpenVPN 路由设置 – 凤曦的小窝
OpenVPN 设置非全局代理 - 镜子的记录簿
TinyProxy 使用帮助 - 简书
Ubuntu 下使用 TinyProxy 搭建代理 HTTP 服务器_Linux_运维开发网_运维开发技术经验分享
Linux 软件包管理工具 Snap 常用命令 - 简书
linux systemd 参数详解
Systemd 入门教程:命令篇 - 阮一峰的网络日志
记一次 Linux 木马清除过程
rtty:在任何地方通过 Web 访问您的终端
02 . Ansible 高级用法 (运维开发篇)
终于搞懂了服务器为啥产生大量的 TIME_WAIT!
巧妙的 Linux 命令,再来 6 个!
77% 的 Linux 运维都不懂的内核问题,这篇全告诉你了
运维工程师必备:请收好 Linux 网络命令集锦
一份阿里员工的 Java 问题排查工具单
肝了 15000 字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收
作业调度算法(FCFS,SJF,优先级调度,时间片轮转,多级反馈队列) | The Blog Of WaiterXiaoYY
看了这篇还不会 Linux 性能分析和优化,你来打我
2019 运维技能风向标
更安全的 rm 命令,保护重要数据
求你了,别再纠结线程池大小了!
Linux sudo 详解 | 失落的乐章
重启大法好!线上常见问题排查手册
sudo 使用 - 笨鸟教程的博客 | BY BenderFly
shell 在手分析服务器日志不愁? - SegmentFault 思否
sudo 与 visudo 的超细用法说明_陈发哥 007 的技术博客_51CTO 博客
ESXI 下无损扩展 Linux 硬盘空间 | Naonao Blog
Linux 学习记录:su 和 sudo | Juntao Tan 的个人博客
使用者身份切换 | Linux 系统教程(笔记)
你会使用 Linux 编辑器 vim 吗?
在 Windows、Linux 和 Mac 上查看 Wi-Fi 密码
linux 隐藏你的 crontab 后门 - 简书
Linux 定时任务详解 - Tr0y's Blog
linux 的 TCP 连接数量最大不能超过 65535 个吗,那服务器是如何应对百万千万的并发的?_一口 Linux 的博客 - CSDN 博客_tcp 连接数多少正常
万字长文 + 28 张图,一次性说清楚 TCP,运维必藏
为什么 p2p 模式的 tunnel 底层通常用 udp 而不是 tcp?
记一次服务器被入侵挖矿 - tlanyan
shell 判断一个变量是否为空方法总结 - 腾讯云开发者社区 - 腾讯云
系统安装包管理工具 | Escape
编译代码时动态地链接库 - 51CTO.COM
甲骨文 Oracle Cloud 添加新端口开放的方法 - WirelessLink 社区
腾讯云 Ubuntu 添加 swap 分区的方法_弓弧名家_玄真君的博客 - CSDN 博客
Oracle 开放全部端口并关闭防火墙 - 清~ 幽殇
谁再说不熟悉 Linux 命令, 就把这个给他扔过去!
即插即用,运维工程师必会正则表达式大全
Shell脚本编写及常见面试题
Samba 文件共享服务器
到底一台服务器上最多能创建多少个 TCP 连接 | plantegg
SSH 密钥登录 - SSH 教程 - 网道
在 Bash 中进行 encodeURIComponent/decodeURIComponent | Harttle Land
使用 Shell 脚本来处理 JSON - Tom CzHen's Blog
Docker
「Docker」 - 保存镜像 - 知乎
终于可以像使用 Docker 一样丝滑地使用 Containerd 了!
私有镜像仓库选型:Harbor VS Quay - 乐金明的博客 | Robin Blog
exec 与 entrypoint 使用脚本 | Mr.Cheng
Dockerfile 中的 CMD 与 ENTRYPOINT
使用 Docker 配置 MySQL 主从数据库 - 墨天轮
Alpine vs Distroless vs Busybox – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
再见,Docker!
docker save 与 docker export 的区别 - jingsam
如何优雅的关闭容器
docker 储存之 tmpfs 、bind-mounts、volume | 陌小路的个人博客
Dockerfile 中 VOLUME 与 docker -v 的区别是什么 - 开发技术 - 亿速云
理解 docker 容器的退出码 | Vermouth | 博客 | docker | k8s | python | go | 开发
【Docker 那些事儿】容器监控系统,来自 Docker 的暴击_飞向星的客机的博客 - CSDN 博客
【云原生】Docker 镜像详细讲解_微枫 Micromaple 的博客 - CSDN 博客_registry-mirrors
【云原生】Helm 架构和基础语法详解
CMD 和 Entrypoint 命令使用变量的用法
实时查看容器日志 - 苏洋博客
Traefik 2 使用指南,愉悦的开发体验 - 苏洋博客
为你的 Python 应用选择一个最好的 Docker 映像 | 亚马逊 AWS 官方博客
【云原生】镜像构建实战操作(Dockerfile)
Docker Compose 中的 links 和 depends_on 的区别 - 编程知识 - 白鹭情
Python
Pipenv:新一代Python项目环境与依赖管理工具 - 知乎
Python list 列表实现栈和队列
Python 各种排序 | Lesley's blog
Python 中使用 dateutil 模块解析时间 - SegmentFault 思否
一个小破网站,居然比 Python 官网还牛逼
Python 打包 exe 的王炸 - Nuitka
Django - - 基础 - - Django ORM 常用查询语法及进阶
[Python] 小知識:== 和 is 的差異 - Clay-Technology World
Window
批处理中分割字符串 | 网络进行时
Windows 批处理基础命令学习 - 简书
在Windows上设置WireGuard
Windows LTSC、LTSB、Server 安装 Windows Store 应用商店
windows 重启 rdpclip.exe 的脚本
中间件
Nginx 中的 Rewrite 的重定向配置与实践
RabbitMQ 的监控
RabbitMq 最全的性能调优笔记 - SegmentFault 思否
为什么不建议生产用 Redis 主从模式?
高性能消息中间件——NATS
详解:Nginx 反代实现 Kibana 登录认证功能
分布式系统关注点:仅需这一篇,吃透 “负载均衡” 妥妥的
仅需这一篇,妥妥的吃透” 负载均衡”
基于 nginx 实现上游服务器动态自动上下线——不需 reload
Nginx 学习书单整理
最常见的日志收集架构(ELK Stack)
分布式之 elk 日志架构的演进
CAT 3.0 开源发布,支持多语言客户端及多项性能提升
Kafka 如何做到 1 秒处理 1500 万条消息?
Grafana 与 Kibana
ELK 日志系统之通用应用程序日志接入方案
ELK 简易 Nginx 日志系统搭建: ElasticSearch+Kibana+Filebeat
记一次 Redis 连接池问题引发的 RST
把 Redis 当作队列来用,你好大的胆子……
Redis 最佳实践:业务层面和运维层面优化
Redis 为什么变慢了?常见延迟问题定位与分析
好饭不怕晚,扒一下 Redis 配置文件的底 Ku
rabbitmq 集群搭建以及万级并发下的性能调优
别再问我 Redis 内存满了该怎么办了
Nginx 状态监控及日志分析
uWSGI 的安装及配置详解
uwsgi 异常服务器内存 cpu 爆满优化思路
Uwsgi 内存占用过多 - 简书
Nginx 的 limit 模块
Nginx 内置模块简介
Redis 忽然变慢了如何排查并解决?_redis_码哥字节_InfoQ 写作社区
领导:谁再用 redis 过期监听实现关闭订单,立马滚蛋!
Nginx 限制 IP 访问频率以及白名单配置_问轩博客
Nginx $remote_addr 和 $proxy_add_x_forwarded_for 变量详解
Caddy 部署实践
一文搞定 Nginx 限流
数据库
SqlServer 将数据库中的表复制到另一个数据库_MsSql_脚本之家
SQL Server 数据库同步,订阅、发布、复制、跨服务器
sql server 无法删除本地发布 | 辉克's Blog
SQLite全文检索
SQL 重复记录查询的几种方法 - 简书
SQL SERVER 使用订阅发布同步数据库(转)
Mysql 查看用户连接数配置及每个 IP 的请求情况 - 墨天轮
优化 SQL 的 21 条方案
SQL Server 连接时好时坏的奇怪问题
MS SQL 执行大脚本文件时,提示 “内存不足” 的解决办法 - 阿里云开发者社区
防火墙-iptables
iptables 常用规则:屏蔽 IP 地址、禁用 ping、协议设置、NAT 与转发、负载平衡、自定义链
防火墙 iptables 企业防火墙之 iptables
Linux 防火墙 ufw 简介
在 Ubuntu 中用 UFW 配置防火墙
在 Ubuntu20.04 上怎样使用 UFW 配置防火墙 - 技术库存网
监控类
开箱即用的 Prometheus 告警规则集
prometheus☞搭建 | zyh
docker 部署 Prometheus 监控服务器及容器并发送告警 | chris'wang
PromQL 常用命令 | LRF 成长记
prometheus 中使用 python 手写 webhook 完成告警
持续集成CI/CD
GitHub Actions 的应用场景 | 记录干杯
GithubActions · Mr.li's Blog
工具类
GitHub 中的开源网络广告杀手,十分钟快速提升网络性能
SSH-Auditor:一款 SHH 弱密码探测工具
别再找了,Github 热门开源富文本编辑器,最实用的都在这里了 - srcmini
我最喜欢的 CLI 工具
推荐几款 Redis 可视化工具
内网代理工具与检测方法研究
环境篇:数据同步工具 DataX
全能系统监控工具 dstat
常用 Web 安全扫描工具合集
给你一款利器!轻松生成 Nginx 配置文件
教程类
Centos7 搭建神器 openvpn | 运维随笔
搭建 umami 收集个人网站统计数据 | Reorx’s Forge
openvpn安装教程
基于 gitea+drone 完成小团队的 CI/CD - 德国粗茶淡饭
将颜色应用于交替行或列
VMware Workstation 全系列合集 精简安装注册版 支持 SLIC2.6、MSDM、OSX 更新 16.2.3_虚拟机讨论区_安全区 卡饭论坛 - 互助分享 - 大气谦和!
在 OpenVPN 上启用 AD+Google Authenticator 认证 | 运维烂笔头
Github 进行 fork 后如何与原仓库同步:重新 fork 很省事,但不如反复练习版本合并 · Issue #67 · selfteaching/the-craft-of-selfteaching
卧槽,VPN 又断开了!!- 阿里云开发者社区
Grafana Loki 学习之踩坑记
zerotier 的 planet 服务器(根服务器)的搭建踩坑记。无需 zerotier 官网账号。
阿里云 qcow2 镜像转 vmdk,导入 ESXi - 唐际忠的博客
Caddy 入门 – 又见杜梨树
【Caddy2】最新 Caddy2 配置文件解析 - Billyme 的博客
Web 服务器 Caddy 2 | Haven200
手把手教你打造高效的 Kubernetes 命令行终端
Keras 作者:给软件开发者的 33 条黄金法则
超详细的网络抓包神器 Tcpdump 使用指南
使用 fail2ban 和 FirewallD 黑名单保护你的系统
linux 下 mysql 数据库单向同步配置方法分享 (Mysql)
MySQL 快速删除大量数据(千万级别)的几种实践方案
GitHub 上的优质 Linux 开源项目,真滴牛逼!
WireGuard 教程:使用 Netmaker 来管理 WireGuard 的配置 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Tailscale 基础教程:Headscale 的部署方法和使用教程 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Nebula Graph 的 Ansible 实践
改进你的 Ansible 剧本的 4 行代码
Caddy 2 快速简单安装配置教程 – 高玩梁的博客
切换至 Caddy2 | 某不科学的博客
Caddy2 简明教程 - bleem
树莓派安装 OpenWrt 突破校园网限制 | Asttear's Blog
OpenVPN 路由设置 – 凤曦的小窝
个性化编译 LEDE 固件
盘点各种 Windows/Office 激活工具
[VirtualBox] 1、NAT 模式下端口映射
VirtualBox 虚拟机安装 openwrt 供本机使用
NUC 折腾笔记 - 安装 ESXi 7 - 苏洋博客
锐捷、赛尔认证 MentoHUST - Ubuntu 中文
How Do I Use A Client Certificate And Private Key From The IOS Keychain? | OpenVPN
比特记事簿: 笔记: 使用电信 TR069 内网架设 WireGuard 隧道异地组网
利用 GitHub API 获取最新 Releases 的版本号 | 这是只兔子
docsify - 生成文档网站简单使用教程 - SegmentFault 思否
【干货】Chrome 插件 (扩展) 开发全攻略 - 好记的博客
一看就会的 GitHub 骚操作,让你看上去像一位开源大佬
【计算机网络】了解内网、外网、宽带、带宽、流量、网速_墩墩分墩 - CSDN 博客
mac-ssh 配置 | Sail
如何科学管理你的密码
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信 | Shao Guoliang 的博客
CentOS7 配置网卡为静态 IP,如果你还学不会那真的没有办法了!
laisky-blog: 近期折腾 tailscale 的一些心得
使用 acme.sh 给 Nginx 安装 Let’ s Encrypt 提供的免费 SSL 证书 · Ruby China
acme 申请 Let’s Encrypt 泛域名 SSL 证书
从 nginx 迁移到 caddy
使用 Caddy 替代 Nginx,全站升级 https,配置更加简单 - Diamond-Blog
http.proxy - Caddy 中文文档
动手撸个 Caddy(二)| Caddy 命令行参数最全教程 | 飞雪无情的总结
Caddy | 学习笔记 - ijayer
Caddy 代理 SpringBoot Fatjar 应用上传静态资源
使用 graylog3.0 收集 open××× 日志进行审计_年轻人,少吐槽,多搬砖的技术博客_51CTO 博客
提高国内访问 github 速度的 9 种方法! - SegmentFault 思否
VM16 安装 macOS 全网最详细
2022 目前三种有效加速国内 Github
How to install MariaDB on Alpine Linux | LibreByte
局域网内电脑 - ipad 文件共享的三种方法 | 岚
多机共享键鼠软件横向测评 - 尚弟的小笔记
VLOG | ESXI 如何升级到最新版,无论是 6.5 还是 6.7 版本都可以顺滑升级。 – Vedio Talk - VLOG、科技、生活、乐分享
远程修改 ESXi 6.7 管理 IP 地址 - 腾讯云开发者社区 - 腾讯云
几乎不要钱自制远程 PLC 路由器方案
traefik 简易入门 | 个人服务器运维指南 | 山月行
更完善的 Docker + Traefik 使用方案 - 苏洋博客
MicroSD·TF 卡终极探秘 ·MLC 颗粒之谜 1 三星篇_microSD 存储卡_什么值得买
macOS 绕过公证和应用签名方法 - 走客
MiscSecNotes / 内网端口转发及穿透. md at master · JnuSimba/MiscSecNotes
我有特别的 DNS 配置和使用技巧 | Sukka's Blog
SEO:初学者完整指南
通过 OpenVPN 实现流量审计
OpenVPN-HOWTO
OpenVPN Server · Devops Roadmap
Linux 运维必备的 13 款实用工具, 拿好了~
linux 平台下 Tomcat 的安装与优化
Linux 运维跳槽必备的 40 道面试精华题
Bash 脚本进阶,经典用法及其案例 - alonghub - 博客园
推荐几个非常不错的富文本编辑器 - 走看看
在 JS 文件中加载 JS 文件的方法 - 月光博客
#JavaScript 根据需要动态加载脚本并设置自定义参数
笔记本电脑 BIOS 修改及刷写教程
跨平台加密 DNS 和广告过滤 personalDNSfilter · LinuxTOY
AdGuard Home 安装及使用指北
通过 Amazon S3 协议挂载 OSS
记一次云主机如何挂载对象存储
本文档发布于https://mrdoc.fun
-
+
首页
Redis 忽然变慢了如何排查并解决?_redis_码哥字节_InfoQ 写作社区
> 本文由 [简悦 SimpRead](http://ksria.com/simpread/) 转码, 原文地址 [xie.infoq.cn](https://xie.infoq.cn/article/d8205a4f3277ecd2089a78227?utm_source=tuicool&utm_medium=referral) Redis 通常是我们业务系统中一个重要的组件,比如:缓存、账号登录信息、排行榜等。 一旦 Redis 请求延迟增加,可能就会导致业务系统 “雪崩”。 我在单身红娘婚恋类型互联网公司工作,在双十一推出下单就送女朋友的活动。 谁曾想,凌晨 12 点之后,用户量暴增,出现了一个技术故障,用户无法下单,当时老大火冒三丈! 经过查找发现 [Redis](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fmp%2Fappmsgalbum%3F__biz%3DMzkzMDI1NjcyOQ%3D%3D%26action%3Dgetalbum%26album_id%3D1918295695426404359%26scene%3D173%26from_msgid%3D2247487752%26from_itemidx%3D1%26count%3D3%26nolastread%3D1%23wechat_redirect) 报 `Could not get a resource from the pool`。 获取不到连接资源,并且集群中的单台 Redis 连接量很高。 大量的流量没了 Redis 的缓存响应,直接打到了 MySQL,最后数据库也宕机了…… 于是各种更改最大连接数、连接等待数,虽然报错信息频率有所缓解,但还是**持续报错**。 后来经过线下测试,发现存放 [Redis](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fmp%2Fappmsgalbum%3F__biz%3DMzkzMDI1NjcyOQ%3D%3D%26action%3Dgetalbum%26album_id%3D1918295695426404359%26scene%3D173%26from_msgid%3D2247487752%26from_itemidx%3D1%26count%3D3%26nolastread%3D1%23wechat_redirect) 中的**字符数据很大,平均 1s 返回数据**。 可以发现,一旦 Redis 延迟过高,会引发各种问题。 今天「码哥」跟大家一起来分析下如何确定 Redis 有性能问题和解决方案。 Redis 性能出问题了么? ============== 最大延迟是客户端发出命令到客户端收到命令的响应的时间,正常情况下 Redis 处理的时间极短,在微秒级别。 当 Redis 出现性能波动的时候,比如达到几秒到十几秒,这个很明显我们可以认定 Redis 性能变慢了。 有的硬件配置比较高,当延迟 0.6ms,我们可能就认定变慢了。硬件比较差的可能 3 ms 我们才认为出现问题。 那我们该如何定义 Redis 真的变慢了呢? 所以,我们需要对当前环境的 **Redis 基线性能**做测量,也就是在一个系统在低压力、无干扰情况下的基本性能。 **当你发现 Redis 运行时时的延迟是基线性能的 2 倍以上,就可以判定 Redis 性能变慢了。** 延迟基线测量 ------ redis-cli 命令提供了`–intrinsic-latency` 选项,用来监测和统计测试期间内的最大延迟(以毫秒为单位),这个延迟可以作为 Redis 的基线性能。 ``` redis-cli --latency -h `host` -p `port` ``` 复制代码 比如执行如下指令: ``` redis-cli --intrinsic-latency 100Max latency so far: 4 microseconds.Max latency so far: 18 microseconds.Max latency so far: 41 microseconds.Max latency so far: 57 microseconds.Max latency so far: 78 microseconds.Max latency so far: 170 microseconds.Max latency so far: 342 microseconds.Max latency so far: 3079 microseconds.45026981 total runs (avg latency: 2.2209 microseconds / 2220.89 nanoseconds per run).Worst run took 1386x longer than the average latency. ``` 复制代码 注意:参数`100`是测试将执行的秒数。我们运行测试的时间越长,我们就越有可能发现延迟峰值。 通常运行 100 秒通常是合适的,足以发现延迟问题了,当然我们可以选择不同时间运行几次,避免误差。 「码哥」运行的最大延迟是 3079 微秒,所以基线性能是 3079 (3 毫秒)微秒。 需要注意的是,我们要在 Redis 的服务端运行,而不是客户端。这样,可以**避免网络对基线性能的影响**。 可以通过 `-h host -p port` 来连接服务端,如果想监测网络对 Redis 的性能影响,可以使用 Iperf 测量客户端到服务端的网络延迟。 如果网络延迟几百毫秒,说明网络可能有其他大流量的程序在运行导致网络拥塞,需要找运维协调网络的流量分配。 慢指令监控 ----- 如何判断是否是慢指令呢? 看操作复杂度是否是`O(N)`。[官方文档](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2F)对每个命令的复杂度都有介绍,尽可能使用`O(1) 和 O(log N)`命令。 涉及到集合操作的复杂度一般为`O(N)`,比如集合**全量查询**`HGETALL、SMEMBERS`,以及集合的**聚合操作:**[SORT](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fsort)、[LREM](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Flrem)、 [SUNION](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fsunion) 等。 有监控数据可以观测呢?代码不是我写的,不知道有没有人用了慢指令。 有两种方式可以排查到: * 使用 Redis [慢日志功能](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fslowlog)查出慢命令; * latency-monitor(延迟监控)工具。 此外,可以使用自己(top、htop、prstat 等)快速检查 Redis 主进程的 CPU 消耗。如果 CPU 使用率很高而流量不高,通常表明使用了慢速命令。 ### 慢日志功能 Redis 中的 slowlog 命令可以让我们快速定位到那些超出指定执行时间的慢命令,默认情况下命令若是执行时间超过 10ms 就会被记录到日志。 slowlog 只会记录其命令执行的时间,不包含 io 往返操作,也不记录单由网络延迟引起的响应慢。 我们可以**根据基线性能来自定义慢命令的标准(配置成基线性能最大延迟的 2 倍)**,调整触发记录慢命令的阈值。 可以在 redis-cli 中输入以下命令配置记录 6 毫秒以上的指令: ``` redis-cli CONFIG SET slowlog-log-slower-than 6000 ``` 复制代码 也可以在 Redis.config 配置文件中设置,以微秒为单位。 想要查看所有执行时间比较慢的命令,可以通过使用 Redis-cli 工具,输入 slowlog get 命令查看,返回结果的第三个字段以微秒位单位显示命令的执行时间。 假如只需要查看最后 2 个慢命令,输入 slowlog get 2 即可。 ``` 示例:获取最近2个慢查询命令127.0.0.1:6381> SLOWLOG get 21) 1) (integer) 6 2) (integer) 1458734263 3) (integer) 74372 4) 1) "hgetall" 2) "max.dsp.blacklist"2) 1) (integer) 5 2) (integer) 1458734258 3) (integer) 5411075 4) 1) "keys" 2) "max.dsp.blacklist" ``` 复制代码 以第一个 HGET 命令为例分析,每个 slowlog 实体共 4 个字段: * 字段 1:1 个整数,表示这个 slowlog 出现的序号,server 启动后递增,当前为 6。 * 字段 2:表示查询执行时的 Unix 时间戳。 * 字段 3:表示查询执行微秒数, 当前是 74372 微秒, 约 74ms。 * 字段 4: 表示查询的命令和参数, 如果参数很多或很大, 只会显示部分并给数参数个数。当前命令是`hgetall max.dsp.blacklist`。 ### Latency Monitoring Redis 在 2.8.13 版本引入了 Latency Monitoring 功能,用于以秒为粒度监控各种事件的发生频率。 启用延迟监视器的第一步是**设置延迟阈值 (单位毫秒)**。只有超过该阈值的时间才会被记录,比如我们根据基线性能(3ms)的 3 倍设置阈值为 9 ms。 可以用 redis-cli 设置也可以在 Redis.config 中设置; ``` CONFIG SET latency-monitor-threshold 9 ``` 复制代码 工具记录的相关事件的详情可查看官方文档:[https://redis.io/topics/latency-monitor](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Ftopics%2Flatency-monitor) 如获取最近的 latency ``` 127.0.0.1:6379> debug sleep 2OK(2.00s)127.0.0.1:6379> latency latest1) 1) "command" 2) (integer) 1645330616 3) (integer) 2003 4) (integer) 2003 ``` 复制代码 1. 事件的名称; 2. 事件发生的最新延迟的 Unix 时间戳; 3. 毫秒为单位的时间延迟; 4. 该事件的最大延迟。 如何解决 Redis 变慢? ============== Redis 的数据读写由单线程执行,如果主线程执行的操作时间太长,就会导致主线程阻塞。 一起分析下都有哪些操作会阻塞主线程,我们又该如何解决? 网络通信导致的延迟 --------- 客户端使用 TCP/IP 连接或 Unix 域连接连接到 Redis。1 Gbit/s 网络的典型延迟约为 200 us。 redis 客户端执行一条命令分 4 个过程: 发送命令-〉 命令排队 -〉 命令执行-〉 返回结果 这个过程称为 Round trip time(简称 RTT, 往返时间),mget mset 有效节约了 RTT,但大部分命令(如 hgetall,并没有 mhgetall)不支持批量操作,需要消耗 N 次 RTT ,这个时候需要 pipeline 来解决这个问题。 Redis pipeline 将多个命令连接在一起来减少网络响应往返次数。 ![](https://static001.geekbang.org/infoq/18/18d188f7e8ecfe05aef47b07a806b472.png) 慢指令导致的延迟 -------- 根据上文的慢指令监控查询文档,查询到慢查询指令。可以通过以下两种方式解决: * 比如在 Cluster 集群中,将聚合运算等 O(N) 操作运行在 slave 上,或者在客户端完成。 * 使用高效的命令代替。使用增量迭代的方式,避免一次查询大量数据,具体请查看 [SCAN](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fscan)、[SSCAN](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fsscan)、[HSCAN](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fhscan) 和 [ZSCAN](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fzscan) 命令。 除此之外,生产中禁用 [KEYS 命令,它只适用于调试。](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fkeys)因为它会遍历所有的键值对,所以操作延时高。 Fork 生成 RDB 导致的延迟 ----------------- [生成 RDB 快照](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FvpuMsen_s5Ye3Giz-59C3w),Redis 必须 fork 后台进程。**fork 操作(在主线程中运行)本身会导致延迟。** Redis 使用操作系统的多进程**写时复制技术 COW(Copy On Write)** 来实现快照持久化,减少内存占用。 ![](https://static001.geekbang.org/infoq/bc/bc6855bc42aba4fe28618fd61f9382f0.png) 但 fork 会涉及到复制大量链接对象,一个 24 GB 的大型 Redis 实例需要 24 GB / 4 kB * 8 = 48 MB 的页表。 执行 bgsave 时,这将涉及分配和复制 48 MB 内存。 此外,**从库加载 RDB 期间无法提供读写服务,所以主库的数据量大小控制在 2~4G 左右,让从库快速的加载完成**。 内存大页(transparent huge pages) ---------------------------- 常规的内存页是按照 4 KB 来分配,Linux 内核从 2.6.38 开始支持内存大页机制,该机制支持 2MB 大小的内存页分配。 Redis 使用了 fork 生成 [RDB 做持久化提供了数据可靠性保证](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FvpuMsen_s5Ye3Giz-59C3w)。 当生成 RDB 快照的过程中,Redis 采用 ** [写时复制](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FvpuMsen_s5Ye3Giz-59C3w) ** 技术使得主线程依然可以接收客户端的写请求。 也就是当数据被修改的时候,Redis 会复制一份这个数据,再进行修改。 采用了内存大页,生成 RDB 期间,即使客户端修改的数据只有 50B 的数据,Redis 需要复制 2MB 的大页。当写的指令比较多的时候就会导致大量的拷贝,导致性能变慢。 使用以下指令禁用 Linux 内存大页即可: ``` echo never > /sys/kernel/mm/transparent_hugepage/enabled ``` 复制代码 swap:操作系统分页 ----------- 当物理内存(内存条)不够用的时候,将部分内存上的数据交换到 swap 空间上,以便让系统不会因内存不够用而导致 oom 或者更致命的情况出现。 当某进程向 OS 请求内存发现不足时,OS 会把内存中暂时不用的数据交换出去,放在 SWAP 分区中,这个过程称为 SWAP OUT。 当某进程又需要这些数据且 OS 发现还有空闲物理内存时,又会把 SWAP 分区中的数据交换回物理内存中,这个过程称为 SWAP IN。 **内存 swap 是操作系统里将内存数据在内存和磁盘间来回换入和换出的机制,涉及到磁盘的读写。** 触发 swap 的情况有哪些呢? 对于 Redis 而言,有两种常见的情况: * Redis 使用了比可用内存更多的内存; * 与 Redis 在同一机器运行的其他进程在执行大量的文件读写 I/O 操作(包括生成大文件的 RDB 文件和 AOF 后台线程),文件读写占用内存,导致 Redis 获得的内存减少,触发了 swap。 码哥,我要如何排查是否因为 swap 导致的性能变慢呢? Linux 提供了很好的工具来排查这个问题,所以当怀疑由于交换导致的延迟时,只需按照以下步骤排查。 ### 获取 Redis 实例 pid ``` $ redis-cli info | grep process_idprocess_id:13160 ``` 复制代码 进入此进程的 /proc 文件系统目录: ``` cd /proc/13160 ``` 复制代码 在这里有一个 smaps 的文件,该文件描述了 Redis 进程的内存布局,运行以下指令,用 grep 查找所有文件中的 Swap 字段。 ``` $ cat smaps | egrep '^(Swap|Size)'Size: 316 kBSwap: 0 kBSize: 4 kBSwap: 0 kBSize: 8 kBSwap: 0 kBSize: 40 kBSwap: 0 kBSize: 132 kBSwap: 0 kBSize: 720896 kBSwap: 12 kB ``` 复制代码 **每行 Size 表示 Redis 实例所用的一块内存大小,和 Size 下方的 Swap 对应这块 Size 大小的内存区域有多少数据已经被换出到磁盘上了。** **如果 Size == Swap 则说明数据被完全换出了。** 可以看到有一个 720896 kB 的内存大小有 12 kb 被换出到了磁盘上(仅交换了 12 kB),这就没什么问题。 Redis 本身会使用很多大小不一的内存块,所以,你可以看到有很多 Size 行,有的很小,就是 4KB,而有的很大,例如 720896KB。不同内存块被换出到磁盘上的大小也不一样。 **敲重点了** **如果 Swap 一切都是 0 kb,或者零星的 4k ,那么一切正常。** **当出现百 MB,甚至 GB 级别的 swap 大小时,就表明,此时,Redis 实例的内存压力很大,很有可能会变慢。** ### 解决方案 1. 增加机器内存; 2. 将 Redis 放在单独的机器上运行,避免在同一机器上运行需要大量内存的进程,从而满足 Redis 的内存需求; 3. 增加 Cluster 集群的数量分担数据量,减少每个实例所需的内存。 AOF 和磁盘 I/O 导致的延迟 ----------------- 为了保证数据可靠性,[Redis 使用 AOF 和 RDB 快照实现当即快速恢复和持久化](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FvpuMsen_s5Ye3Giz-59C3w)。 ** 可以使用 appendfsync ** 配置将 AOF 配置为以三种不同的方式在磁盘上执行 write 或者 fsync (可以在运行时使用 **CONFIG SET** 命令修改此设置,比如:`redis-cli CONFIG SET appendfsync no`)。 * **no**:Redis 不执行 fsync,唯一的延迟来自于 write 调用,write 只需要把日志记录写到内核缓冲区就可以返回。 * **everysec**:Redis 每秒执行一次 fsync。使用后台子线程异步完成 fsync 操作。最多丢失 1s 的数据。 * **always**:每次写入操作都会执行 fsync,然后用 OK 代码回复客户端(实际上 Redis 会尝试将同时执行的许多命令聚集到单个 fsync 中),没有数据丢失。在这种模式下,性能通常非常低,强烈建议使用快速磁盘和可以在短时间内执行 fsync 的文件系统实现。 **我们通常将 Redis 用于缓存,数据丢失完全恶意从数据获取,并不需要很高的数据可靠性,建议设置成 no 或者 everysec。** 除此之外,避免 AOF 文件过大, Redis 会进行 AOF 重写,生成缩小的 AOF 文件。 可以把配置项 `no-appendfsync-on-rewrite`设置为 yes,表示在 AOF 重写时,不进行 fsync 操作。 也就是说,Redis 实例把写命令写到内存后,不调用后台线程进行 fsync 操作,就直接返回了。 expires 淘汰过期数据 -------------- Redis 有两种方式淘汰过期数据: * 惰性删除:当接收请求的时候发现 key 已经过期,才执行删除; * 定时删除:每 100 毫秒删除一些过期的 key。 定时删除的算法如下: 1. 随机采样 A`CTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP`个数的 key,删除所有过期的 key; 2. 如果发现还有超过 25% 的 key 已过期,则执行步骤一。 `ACTIVE_EXPIRE_CYCLE_LOOKUPS_PER_LOOP`默认设置为 20,每秒执行 10 次,删除 200 个 key 问题不大主。 如果触发了第二条,就会导致 Redis 一致在删除过期数据取释放内存。**而删除是阻塞的。** 码哥,触发条件是什么呀? 也就是大量的 key 设置了相同的时间参数。同一秒内,大量 key 过期,需要重复删除多次才能降低到 25% 以下。 **简而言之:大量同时到期的 key 可能会导致性能波动。** ### 解决方案 如果一批 key 的确是同时过期,可以在 `EXPIREAT` 和 `EXPIRE` 的过期时间参数上,**加上一个一定大小范围内的随机数**,这样,既保证了 key 在一个邻近时间范围内被删除,又避免了同时过期造成的压力。 bigkey ------ 通常我们会将含有较大数据或含有大量成员、列表数的 Key 称之为大 Key,下面我们将用几个实际的例子对大 Key 的特征进行描述: * 一个 STRING 类型的 Key,它的值为 5MB(数据过大) * 一个 LIST 类型的 Key,它的列表数量为 10000 个(列表数量过多) * 一个 ZSET 类型的 Key,它的成员数量为 10000 个(成员数量过多) * 一个 HASH 格式的 Key,它的成员数量虽然只有 1000 个但这些成员的 value 总大小为 10MB(成员体积过大) bigkey 带来一问题如下: 1. Redis 内存不断变大引发 OOM,或者达到 maxmemory 设 置值引发写阻塞或重要 Key 被逐出; 2. Redis Cluster 中的某个 node 内存远超其余 node,但因 Redis Cluster 的数据迁移最小粒度为 Key 而无法将 node 上的内存均衡化; 3. bigkey 的读请求占用过大带宽,自身变慢的同时影响到该服务器上的其它服务; 4. 删除一个 bigkey 造成主库较长时间的阻塞并引发同步中断或主从切换; ### 查找 bigkey 使用 redis-rdb-tools 工具以定制化方式找出大 Key。 ### 解决方案 #### 对大 key 拆分 如将一个含有数万成员的 HASH Key 拆分为多个 HASH Key,并确保每个 Key 的成员数量在合理范围,在 Redis Cluster 结构中,大 Key 的拆分对 node 间的内存平衡能够起到显著作用。 #### 异步清理大 key Redis 自 4.0 起提供了 UNLINK 命令,该命令能够以非阻塞的方式缓慢逐步的清理传入的 Key,通过 UNLINK,你可以安全的删除大 Key 甚至特大 Key。 总结 == 如下检查清单,帮助你在遇到 Redis 性能变慢的时候能高效解决问题。 1. 获取当前 Redis 的基线性能; 2. 开启慢指令监控,定位慢指令导致的问题; 3. 找到慢指令,使用 scan 的方式; 4. 将实例的数据大小控制在 2-4GB,避免主从复制加载过大 RDB 文件而阻塞; 5. 禁用内存大页,采用了内存大页,生成 RDB 期间,即使客户端修改的数据只有 50B 的数据,Redis 需要复制 2MB 的大页。当写的指令比较多的时候就会导致大量的拷贝,导致性能变慢。 6. Redis 使用的内存是否过大导致 swap; 7. AOF 配置是否合理,可以将配置项 no-appendfsync-on-rewrite 设置为 yes,避免 AOF 重写和 fsync 竞争磁盘 IO 资源,导致 Redis 延迟增加。 8. bigkey 会带来一些列问题,我们需要进行拆分防止出现 bigkey,并通过 UNLINK 异步删除。 参考资料 _**[**_1_**]:**_ [https://redis.io/topics/latency](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Ftopics%2Flatency) [**2**] [https://redis.io/topics/latency-monitor](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Ftopics%2Flatency-monitor) [**3**] [https://redis.io/topics/benchmarks](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Ftopics%2Fbenchmarks) [**4**] [https://redis.io/commands/slowlog](https://xie.infoq.cn/link?target=https%3A%2F%2Fredis.io%2Fcommands%2Fslowlog) [**5**] [https://cloud.tencent.com/developer/article/1131890](https://xie.infoq.cn/link?target=https%3A%2F%2Fcloud.tencent.com%2Fdeveloper%2Farticle%2F1131890) [**6**] [https://mp.weixin.qq.com/s/FPYE1B839_8Yk1-YSiW-1Q](https://xie.infoq.cn/link?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FFPYE1B839_8Yk1-YSiW-1Q)
Jonny
June 9, 2022, 2:27 p.m.
188
0 条评论
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
如遇文档失效,可评论告知,便后续更新!
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期