技术文档收录
ASCII
Tcpdump
IPV4保留地址段
深入理解以太网网线原理 - 三帛的世界
Linux
WireGuard 一键安装脚本 | 秋水逸冰
SSH Config 那些你所知道和不知道的事 | Deepzz's Blog
Linux 让终端走代理的几种方法
ubuntu 20.04 server 版设置静态 IP 地址 - 链滴
Linux 挂载 Windows 共享磁盘的方法 - 技术学堂
将 SMB/CIFS 网络硬盘永久的挂载到 Ubuntu 上 - 简书
linux 获取当前脚本的绝对路径 | aimuke
[Linux] Linux 使用 / dev/urandom 生成随机数 - piaohua's blog
Linux 生成随机数的多种方法 | Just Do It
Linux 的 Centos7 版本下忘记 root 或者普通用户密码怎么办?
Git 强制拉取覆盖本地
SSH 安全加固指南 - FreeBuf 网络安全行业门户
Linux 系统安全强化指南 - FreeBuf 网络安全行业门户
Linux 入侵排查 - FreeBuf 网络安全行业门户
sshd_config 配置详解 - 简书
SSH 权限详解 - SegmentFault 思否
CentOS 安装 node.js 环境 - SegmentFault 思否
如何在 CentOS 7 上安装 Node.js 和 npm | myfreax
几款 ping tcping 工具总结
OpenVpn 搭建教程 | Jesse's home
openvpn 一键安装脚本 - 那片云
OpenVPN 解决 每小时断线一次 - 爱开源
OpenVPN 路由设置 – 凤曦的小窝
OpenVPN 设置非全局代理 - 镜子的记录簿
TinyProxy 使用帮助 - 简书
Ubuntu 下使用 TinyProxy 搭建代理 HTTP 服务器_Linux_运维开发网_运维开发技术经验分享
Linux 软件包管理工具 Snap 常用命令 - 简书
linux systemd 参数详解
Systemd 入门教程:命令篇 - 阮一峰的网络日志
记一次 Linux 木马清除过程
rtty:在任何地方通过 Web 访问您的终端
02 . Ansible 高级用法 (运维开发篇)
终于搞懂了服务器为啥产生大量的 TIME_WAIT!
巧妙的 Linux 命令,再来 6 个!
77% 的 Linux 运维都不懂的内核问题,这篇全告诉你了
运维工程师必备:请收好 Linux 网络命令集锦
一份阿里员工的 Java 问题排查工具单
肝了 15000 字性能调优系列专题(JVM、MySQL、Nginx and Tomcat),看不完先收
作业调度算法(FCFS,SJF,优先级调度,时间片轮转,多级反馈队列) | The Blog Of WaiterXiaoYY
看了这篇还不会 Linux 性能分析和优化,你来打我
2019 运维技能风向标
更安全的 rm 命令,保护重要数据
求你了,别再纠结线程池大小了!
Linux sudo 详解 | 失落的乐章
重启大法好!线上常见问题排查手册
sudo 使用 - 笨鸟教程的博客 | BY BenderFly
shell 在手分析服务器日志不愁? - SegmentFault 思否
sudo 与 visudo 的超细用法说明_陈发哥 007 的技术博客_51CTO 博客
ESXI 下无损扩展 Linux 硬盘空间 | Naonao Blog
Linux 学习记录:su 和 sudo | Juntao Tan 的个人博客
使用者身份切换 | Linux 系统教程(笔记)
你会使用 Linux 编辑器 vim 吗?
在 Windows、Linux 和 Mac 上查看 Wi-Fi 密码
linux 隐藏你的 crontab 后门 - 简书
Linux 定时任务详解 - Tr0y's Blog
linux 的 TCP 连接数量最大不能超过 65535 个吗,那服务器是如何应对百万千万的并发的?_一口 Linux 的博客 - CSDN 博客_tcp 连接数多少正常
万字长文 + 28 张图,一次性说清楚 TCP,运维必藏
为什么 p2p 模式的 tunnel 底层通常用 udp 而不是 tcp?
记一次服务器被入侵挖矿 - tlanyan
shell 判断一个变量是否为空方法总结 - 腾讯云开发者社区 - 腾讯云
系统安装包管理工具 | Escape
编译代码时动态地链接库 - 51CTO.COM
甲骨文 Oracle Cloud 添加新端口开放的方法 - WirelessLink 社区
腾讯云 Ubuntu 添加 swap 分区的方法_弓弧名家_玄真君的博客 - CSDN 博客
Oracle 开放全部端口并关闭防火墙 - 清~ 幽殇
谁再说不熟悉 Linux 命令, 就把这个给他扔过去!
即插即用,运维工程师必会正则表达式大全
Shell脚本编写及常见面试题
Samba 文件共享服务器
到底一台服务器上最多能创建多少个 TCP 连接 | plantegg
SSH 密钥登录 - SSH 教程 - 网道
在 Bash 中进行 encodeURIComponent/decodeURIComponent | Harttle Land
使用 Shell 脚本来处理 JSON - Tom CzHen's Blog
Docker
「Docker」 - 保存镜像 - 知乎
终于可以像使用 Docker 一样丝滑地使用 Containerd 了!
私有镜像仓库选型:Harbor VS Quay - 乐金明的博客 | Robin Blog
exec 与 entrypoint 使用脚本 | Mr.Cheng
Dockerfile 中的 CMD 与 ENTRYPOINT
使用 Docker 配置 MySQL 主从数据库 - 墨天轮
Alpine vs Distroless vs Busybox – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
再见,Docker!
docker save 与 docker export 的区别 - jingsam
如何优雅的关闭容器
docker 储存之 tmpfs 、bind-mounts、volume | 陌小路的个人博客
Dockerfile 中 VOLUME 与 docker -v 的区别是什么 - 开发技术 - 亿速云
理解 docker 容器的退出码 | Vermouth | 博客 | docker | k8s | python | go | 开发
【Docker 那些事儿】容器监控系统,来自 Docker 的暴击_飞向星的客机的博客 - CSDN 博客
【云原生】Docker 镜像详细讲解_微枫 Micromaple 的博客 - CSDN 博客_registry-mirrors
【云原生】Helm 架构和基础语法详解
CMD 和 Entrypoint 命令使用变量的用法
实时查看容器日志 - 苏洋博客
Traefik 2 使用指南,愉悦的开发体验 - 苏洋博客
为你的 Python 应用选择一个最好的 Docker 映像 | 亚马逊 AWS 官方博客
【云原生】镜像构建实战操作(Dockerfile)
Docker Compose 中的 links 和 depends_on 的区别 - 编程知识 - 白鹭情
Python
Pipenv:新一代Python项目环境与依赖管理工具 - 知乎
Python list 列表实现栈和队列
Python 各种排序 | Lesley's blog
Python 中使用 dateutil 模块解析时间 - SegmentFault 思否
一个小破网站,居然比 Python 官网还牛逼
Python 打包 exe 的王炸 - Nuitka
Django - - 基础 - - Django ORM 常用查询语法及进阶
[Python] 小知識:== 和 is 的差異 - Clay-Technology World
Window
批处理中分割字符串 | 网络进行时
Windows 批处理基础命令学习 - 简书
在Windows上设置WireGuard
Windows LTSC、LTSB、Server 安装 Windows Store 应用商店
windows 重启 rdpclip.exe 的脚本
中间件
Nginx 中的 Rewrite 的重定向配置与实践
RabbitMQ 的监控
RabbitMq 最全的性能调优笔记 - SegmentFault 思否
为什么不建议生产用 Redis 主从模式?
高性能消息中间件——NATS
详解:Nginx 反代实现 Kibana 登录认证功能
分布式系统关注点:仅需这一篇,吃透 “负载均衡” 妥妥的
仅需这一篇,妥妥的吃透” 负载均衡”
基于 nginx 实现上游服务器动态自动上下线——不需 reload
Nginx 学习书单整理
最常见的日志收集架构(ELK Stack)
分布式之 elk 日志架构的演进
CAT 3.0 开源发布,支持多语言客户端及多项性能提升
Kafka 如何做到 1 秒处理 1500 万条消息?
Grafana 与 Kibana
ELK 日志系统之通用应用程序日志接入方案
ELK 简易 Nginx 日志系统搭建: ElasticSearch+Kibana+Filebeat
记一次 Redis 连接池问题引发的 RST
把 Redis 当作队列来用,你好大的胆子……
Redis 最佳实践:业务层面和运维层面优化
Redis 为什么变慢了?常见延迟问题定位与分析
好饭不怕晚,扒一下 Redis 配置文件的底 Ku
rabbitmq 集群搭建以及万级并发下的性能调优
别再问我 Redis 内存满了该怎么办了
Nginx 状态监控及日志分析
uWSGI 的安装及配置详解
uwsgi 异常服务器内存 cpu 爆满优化思路
Uwsgi 内存占用过多 - 简书
Nginx 的 limit 模块
Nginx 内置模块简介
Redis 忽然变慢了如何排查并解决?_redis_码哥字节_InfoQ 写作社区
领导:谁再用 redis 过期监听实现关闭订单,立马滚蛋!
Nginx 限制 IP 访问频率以及白名单配置_问轩博客
Nginx $remote_addr 和 $proxy_add_x_forwarded_for 变量详解
Caddy 部署实践
一文搞定 Nginx 限流
数据库
SqlServer 将数据库中的表复制到另一个数据库_MsSql_脚本之家
SQL Server 数据库同步,订阅、发布、复制、跨服务器
sql server 无法删除本地发布 | 辉克's Blog
SQLite全文检索
SQL 重复记录查询的几种方法 - 简书
SQL SERVER 使用订阅发布同步数据库(转)
Mysql 查看用户连接数配置及每个 IP 的请求情况 - 墨天轮
优化 SQL 的 21 条方案
SQL Server 连接时好时坏的奇怪问题
MS SQL 执行大脚本文件时,提示 “内存不足” 的解决办法 - 阿里云开发者社区
防火墙-iptables
iptables 常用规则:屏蔽 IP 地址、禁用 ping、协议设置、NAT 与转发、负载平衡、自定义链
防火墙 iptables 企业防火墙之 iptables
Linux 防火墙 ufw 简介
在 Ubuntu 中用 UFW 配置防火墙
在 Ubuntu20.04 上怎样使用 UFW 配置防火墙 - 技术库存网
监控类
开箱即用的 Prometheus 告警规则集
prometheus☞搭建 | zyh
docker 部署 Prometheus 监控服务器及容器并发送告警 | chris'wang
PromQL 常用命令 | LRF 成长记
prometheus 中使用 python 手写 webhook 完成告警
持续集成CI/CD
GitHub Actions 的应用场景 | 记录干杯
GithubActions · Mr.li's Blog
工具类
GitHub 中的开源网络广告杀手,十分钟快速提升网络性能
SSH-Auditor:一款 SHH 弱密码探测工具
别再找了,Github 热门开源富文本编辑器,最实用的都在这里了 - srcmini
我最喜欢的 CLI 工具
推荐几款 Redis 可视化工具
内网代理工具与检测方法研究
环境篇:数据同步工具 DataX
全能系统监控工具 dstat
常用 Web 安全扫描工具合集
给你一款利器!轻松生成 Nginx 配置文件
教程类
Centos7 搭建神器 openvpn | 运维随笔
搭建 umami 收集个人网站统计数据 | Reorx’s Forge
openvpn安装教程
基于 gitea+drone 完成小团队的 CI/CD - 德国粗茶淡饭
将颜色应用于交替行或列
VMware Workstation 全系列合集 精简安装注册版 支持 SLIC2.6、MSDM、OSX 更新 16.2.3_虚拟机讨论区_安全区 卡饭论坛 - 互助分享 - 大气谦和!
在 OpenVPN 上启用 AD+Google Authenticator 认证 | 运维烂笔头
Github 进行 fork 后如何与原仓库同步:重新 fork 很省事,但不如反复练习版本合并 · Issue #67 · selfteaching/the-craft-of-selfteaching
卧槽,VPN 又断开了!!- 阿里云开发者社区
Grafana Loki 学习之踩坑记
zerotier 的 planet 服务器(根服务器)的搭建踩坑记。无需 zerotier 官网账号。
阿里云 qcow2 镜像转 vmdk,导入 ESXi - 唐际忠的博客
Caddy 入门 – 又见杜梨树
【Caddy2】最新 Caddy2 配置文件解析 - Billyme 的博客
Web 服务器 Caddy 2 | Haven200
手把手教你打造高效的 Kubernetes 命令行终端
Keras 作者:给软件开发者的 33 条黄金法则
超详细的网络抓包神器 Tcpdump 使用指南
使用 fail2ban 和 FirewallD 黑名单保护你的系统
linux 下 mysql 数据库单向同步配置方法分享 (Mysql)
MySQL 快速删除大量数据(千万级别)的几种实践方案
GitHub 上的优质 Linux 开源项目,真滴牛逼!
WireGuard 教程:使用 Netmaker 来管理 WireGuard 的配置 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Tailscale 基础教程:Headscale 的部署方法和使用教程 – 云原生实验室 - Kubernetes|Docker|Istio|Envoy|Hugo|Golang | 云原生
Nebula Graph 的 Ansible 实践
改进你的 Ansible 剧本的 4 行代码
Caddy 2 快速简单安装配置教程 – 高玩梁的博客
切换至 Caddy2 | 某不科学的博客
Caddy2 简明教程 - bleem
树莓派安装 OpenWrt 突破校园网限制 | Asttear's Blog
OpenVPN 路由设置 – 凤曦的小窝
个性化编译 LEDE 固件
盘点各种 Windows/Office 激活工具
[VirtualBox] 1、NAT 模式下端口映射
VirtualBox 虚拟机安装 openwrt 供本机使用
NUC 折腾笔记 - 安装 ESXi 7 - 苏洋博客
锐捷、赛尔认证 MentoHUST - Ubuntu 中文
How Do I Use A Client Certificate And Private Key From The IOS Keychain? | OpenVPN
比特记事簿: 笔记: 使用电信 TR069 内网架设 WireGuard 隧道异地组网
利用 GitHub API 获取最新 Releases 的版本号 | 这是只兔子
docsify - 生成文档网站简单使用教程 - SegmentFault 思否
【干货】Chrome 插件 (扩展) 开发全攻略 - 好记的博客
一看就会的 GitHub 骚操作,让你看上去像一位开源大佬
【计算机网络】了解内网、外网、宽带、带宽、流量、网速_墩墩分墩 - CSDN 博客
mac-ssh 配置 | Sail
如何科学管理你的密码
VirtualBox NAT 端口映射实现宿主机与虚拟机相互通信 | Shao Guoliang 的博客
CentOS7 配置网卡为静态 IP,如果你还学不会那真的没有办法了!
laisky-blog: 近期折腾 tailscale 的一些心得
使用 acme.sh 给 Nginx 安装 Let’ s Encrypt 提供的免费 SSL 证书 · Ruby China
acme 申请 Let’s Encrypt 泛域名 SSL 证书
从 nginx 迁移到 caddy
使用 Caddy 替代 Nginx,全站升级 https,配置更加简单 - Diamond-Blog
http.proxy - Caddy 中文文档
动手撸个 Caddy(二)| Caddy 命令行参数最全教程 | 飞雪无情的总结
Caddy | 学习笔记 - ijayer
Caddy 代理 SpringBoot Fatjar 应用上传静态资源
使用 graylog3.0 收集 open××× 日志进行审计_年轻人,少吐槽,多搬砖的技术博客_51CTO 博客
提高国内访问 github 速度的 9 种方法! - SegmentFault 思否
VM16 安装 macOS 全网最详细
2022 目前三种有效加速国内 Github
How to install MariaDB on Alpine Linux | LibreByte
局域网内电脑 - ipad 文件共享的三种方法 | 岚
多机共享键鼠软件横向测评 - 尚弟的小笔记
VLOG | ESXI 如何升级到最新版,无论是 6.5 还是 6.7 版本都可以顺滑升级。 – Vedio Talk - VLOG、科技、生活、乐分享
远程修改 ESXi 6.7 管理 IP 地址 - 腾讯云开发者社区 - 腾讯云
几乎不要钱自制远程 PLC 路由器方案
traefik 简易入门 | 个人服务器运维指南 | 山月行
更完善的 Docker + Traefik 使用方案 - 苏洋博客
MicroSD·TF 卡终极探秘 ·MLC 颗粒之谜 1 三星篇_microSD 存储卡_什么值得买
macOS 绕过公证和应用签名方法 - 走客
MiscSecNotes / 内网端口转发及穿透. md at master · JnuSimba/MiscSecNotes
我有特别的 DNS 配置和使用技巧 | Sukka's Blog
SEO:初学者完整指南
通过 OpenVPN 实现流量审计
OpenVPN-HOWTO
OpenVPN Server · Devops Roadmap
Linux 运维必备的 13 款实用工具, 拿好了~
linux 平台下 Tomcat 的安装与优化
Linux 运维跳槽必备的 40 道面试精华题
Bash 脚本进阶,经典用法及其案例 - alonghub - 博客园
推荐几个非常不错的富文本编辑器 - 走看看
在 JS 文件中加载 JS 文件的方法 - 月光博客
#JavaScript 根据需要动态加载脚本并设置自定义参数
笔记本电脑 BIOS 修改及刷写教程
跨平台加密 DNS 和广告过滤 personalDNSfilter · LinuxTOY
AdGuard Home 安装及使用指北
通过 Amazon S3 协议挂载 OSS
记一次云主机如何挂载对象存储
本文档发布于https://mrdoc.fun
-
+
首页
Redis 为什么变慢了?常见延迟问题定位与分析
> 本文由 [简悦 SimpRead](http://ksria.com/simpread/) 转码, 原文地址 [www.tuicool.com](https://www.tuicool.com/articles/NbENfqe) 推荐好友的一篇文章,分析的太棒了,反正我是竖着大拇指看完的! 作者:Kaito 来源:http://kaito-kidd.com/2020/07/03/redis-latency-analysis/ Redis 作为内存数据库,拥有非常高的性能,单个实例的 QPS 能够达到 10W 左右。但我们在使用 Redis 时,经常时不时会出现访问延迟很大的情况,如果你不知道 Redis 的内部实现原理,在排查问题时就会一头雾水。 很多时候,Redis 出现访问延迟变大,都与我们的使用不当或运维不合理导致的。 这篇文章我们就来分析一下 Redis 在使用过程中,经常会遇到的延迟问题以及如何定位和分析。 使用复杂度高的命令 --------- 如果在使用 Redis 时,发现访问延迟突然增大,如何进行排查? 首先,第一步,建议你去查看一下 Redis 的慢日志。Redis 提供了慢日志命令的统计功能,我们通过以下设置,就可以查看有哪些命令在执行时延迟比较大。 首先设置 Redis 的 **慢日志阈值** ,只有超过阈值的命令才会被记录,这里的单位是微秒,例如设置慢日志的阈值为 5 毫秒,同时设置只保留最近 1000 条慢日志记录: ``` # 命令执行超过5毫秒记录慢日志 CONFIG SET slowlog-log-slower-than 5000 # 只保留最近1000条慢日志 CONFIG SET slowlog-max-len 1000 ``` 设置完成之后,所有执行的命令如果延迟大于 5 毫秒,都会被 Redis 记录下来,我们执行 `SLOWLOG get 5` 查询最近 5 条慢日志 ``` 127.0.0.1:6379> SLOWLOG get 5 1) 1) (integer) 32693 # 慢日志ID 2) (integer) 1593763337 # 执行时间 3) (integer) 5299 # 执行耗时(微秒) 4) 1) "LRANGE" # 具体执行的命令和参数 2) "user_list_2000" 3) "0" 4) "-1" 2) 1) (integer) 32692 2) (integer) 1593763337 3) (integer) 5044 4) 1) "GET" 2) "book_price_1000" ... ``` 通过查看慢日志记录,我们就可以知道在什么时间执行哪些命令比较耗时,如果你的业务经常使用 `O(n)` 以上复杂度的命令,例如 **sort、sunion、zunionstore** ,或者在执行 O(n) 命令时操作的数据量比较大,这些情况下 Redis 处理数据时就会很耗时。 如果你的服务请求量并不大,但 Redis 实例的 CPU 使用率很高,很有可能是使用了复杂度高的命令导致的。 解决方案就是, 不使用这些复杂度较高的命令,并且一次不要获取太多的数据,每次尽量操作少量的数据,让 Redis 可以及时处理返回 。 存储大 key ------- 如果查询慢日志发现,并不是复杂度较高的命令导致的,例如都是 SET、DELETE 操作出现在慢日志记录中,那么你就要怀疑是否存在 Redis 写入了大 key 的情况。 Redis 在写入数据时,需要为新的数据分配内存,当从 Redis 中删除数据时,它会释放对应的内存空间。 如果一个 key 写入的数据非常大,Redis 在 `分配内存时也会比较耗时` 。同样的,当删除这个 key 的数据时, `释放内存也会耗时比较久` 。 你需要检查你的业务代码,是否存在写入大 key 的情况,需要评估写入数据量的大小, **业务层应该避免一个 key 存入过大的数据量** 。 那么有没有什么办法可以扫描现在 Redis 中是否存在大 key 的数据吗? Redis 也提供了扫描大 key 的方法: ``` redis-cli -h $host -p $port --bigkeys -i 0.01 ``` 使用上面的命令就可以扫描出整个实例 key 大小的分布情况,它是以类型维度来展示的。 需要注意的是当我们 **在线上实例进行大 key 扫描时,Redis 的 QPS 会突增** ,为了降低扫描过程中对 Redis 的影响,我们需要 **控制扫描的频率** ,使用 `-i` 参数控制即可,它表示扫描过程中每次扫描的时间间隔,单位是秒。 使用这个命令的原理,其实就是 Redis 在内部执行 `scan` 命令,遍历所有 key,然后针对不同类型的 key 执行 strlen、llen、hlen、scard、zcard 来获取字符串的长度以及容器类型 (list/dict/set/zset) 的元素个数。 而对于容器类型的 key,只能扫描出元素最多的 key,但元素最多的 key 不一定占用内存最多,这一点需要我们注意下。不过使用这个命令一般我们是可以对整个实例中 key 的分布情况有比较清晰的了解。 针对大 key 的问题,Redis 官方在 4.0 版本推出了 **lazy-free** 的机制,用于异步释放大 key 的内存,降低对 Redis 性能的影响。即使这样,我们也不建议使用大 key,大 key 在集群的迁移过程中,也会影响到迁移的性能,这个后面在介绍集群相关的文章时,会再详细介绍到。 集中过期 ---- 有时你会发现,平时在使用 Redis 时没有延时比较大的情况,但在某个时间点突然出现一波延时,而且报慢的时间点很有规律,例如某个整点,或者间隔多久就会发生一次。 如果出现这种情况,就需要考虑是否存在大量 key 集中过期的情况。 如果有大量的 key 在某个固定时间点集中过期,在这个时间点访问 Redis 时,就有可能导致延迟增加。 Redis 的过期策略采用 **主动过期 + 懒惰过期** 两种策略: • 主动过期:Redis 内部维护一个定时任务,默认每隔 100 毫秒会从过期字典中随机取出 20 个 key,删除过期的 key,如果过期 key 的比例超过了 25%,则继续获取 20 个 key,删除过期的 key,循环往复,直到过期 key 的比例下降到 25% 或者这次任务的执行耗时超过了 25 毫秒,才会退出循环 • 懒惰过期:只有当访问某个 key 时,才判断这个 key 是否已过期,如果已经过期,则从实例中删除 注意, `Redis的主动过期的定时任务,也是在Redis**主线程**中执行的` ,也就是说如果在执行主动过期的过程中,出现了需要大量删除过期 key 的情况,那么在业务访问时,必须等这个过期任务执行结束,才可以处理业务请求。此时就会出现,业务访问延时增大的问题,最大延迟为 25 毫秒。 而且 **这个访问延迟的情况, `不会记录在慢日志里`** 。慢日志中 `只记录真正执行某个命令的耗时` ,Redis 主动过期策略执行在操作命令之前,如果操作命令耗时达不到慢日志阈值,它是不会计算在慢日志统计中的,但我们的业务却感到了延迟增大。 此时你需要检查你的业务,是否真的存在集中过期的代码,一般集中过期使用的命令是 `expireat` 或 `pexpireat` 命令,在代码中搜索这个关键字就可以了。 如果你的业务确实需要集中过期掉某些 key,又不想导致 Redis 发生抖动,有什么优化方案? 解决方案是, `在集中过期时增加一个` `**随机时间**` `,把这些需要过期的key的时间打散即可` 。 伪代码可以这么写: ``` # 在过期时间点之后的5分钟内随机过期掉 redis.expireat(key, expire_time + random(300)) ``` 这样 Redis 在处理过期时,不会因为集中删除 key 导致压力过大,阻塞主线程。 另外,除了业务使用需要注意此问题之外,还可以通过运维手段来及时发现这种情况。 做法是我们需要把 Redis 的各项运行数据监控起来,执行 `info` 可以拿到所有的运行数据,在这里我们需要重点关注 **`expired_keys`** 这一项,它代表整个实例到目前为止,累计删除过期 key 的数量。 我们需要对这个指标监控,当在 `很短时间内这个指标出现突增` 时,需要及时报警出来,然后与业务报慢的时间点对比分析,确认时间是否一致,如果一致,则可以认为确实是因为这个原因导致的延迟增大。 实例内存达到上限 -------- 有时我们把 Redis 当做纯缓存使用,就会给实例设置一个内存上限 `maxmemory` ,然后开启 LRU 淘汰策略。 当实例的内存达到了 `maxmemory` 后,你会发现之后的每次写入新的数据,有可能变慢了。 导致变慢的原因是,当 Redis 内存达到 `maxmemory` 后,每次写入新的数据之前,必须先踢出一部分数据,让内存维持在 maxmemory 之下。 这个踢出旧数据的逻辑也是需要消耗时间的,而具体耗时的长短,要取决于配置的淘汰策略: • allkeys-lru:不管 key 是否设置了过期,淘汰最近最少访问的 key • volatile-lru:只淘汰最近最少访问并设置过期的 key • allkeys-random:不管 key 是否设置了过期,随机淘汰 • volatile-random:只随机淘汰有设置过期的 key • allkeys-ttl:不管 key 是否设置了过期,淘汰即将过期的 key • noeviction:不淘汰任何 key,满容后再写入直接报错 • allkeys-lfu:不管 key 是否设置了过期,淘汰访问频率最低的 key(4.0 + 支持) • volatile-lfu:只淘汰访问频率最低的过期 key(4.0 + 支持) 备注: **allkeys-xxx** 表示从 **所有的键值** 中淘汰数据,而 **volatile-xxx** 表示从设置了 **过期键的键值** 中淘汰数据。 具体使用哪种策略,需要根据业务场景来决定。 我们最常使用的一般是 `allkeys-lru` 或 `volatile-lru` 策略,它们的处理逻辑是,每次从实例中随机取出一批 key(可配置),然后淘汰一个最少访问的 key,之后把剩下的 key 暂存到一个池子中,继续随机取出一批 key,并与之前池子中的 key 比较,再淘汰一个最少访问的 key。以此循环,直到内存降到 maxmemory 之下。 如果使用的是 `allkeys-random` 或 `volatile-random` 策略,那么就会快很多,因为是随机淘汰,那么就少了比较 key 访问频率时间的消耗了,随机拿出一批 key 后直接淘汰即可,因此这个策略要比上面的 LRU 策略执行快一些。 但以上这些逻辑都是在访问 Redis 时, `真正命令执行之前执行的` ,也就是它会影响我们访问 Redis 时执行的命令。 另外,如果此时 Redis 实例中有存储大 key,那么 **`在淘汰大key释放内存时,这个耗时会更加久,延迟更大`** ,这需要我们格外注意。 如果你的业务访问量非常大,并且必须设置 maxmemory 限制实例的内存上限,同时面临淘汰 key 导致延迟增大的的情况,要想缓解这种情况,除了上面说的避免存储大 key、使用随机淘汰策略之外,也可以考虑拆分实例的方法来缓解,拆分实例可以把一个实例淘汰 key 的压力 `分摊到多个实例` 上,可以在一定程度降低延迟。 fork 耗时严重 --------- 如果你的 Redis 开启了自动生成 RDB 和 AOF 重写功能,那么有可能在后台生成 RDB 和 AOF 重写时导致 Redis 的访问延迟增大,而等这些任务执行完毕后,延迟情况消失。 遇到这种情况,一般就是执行生成 RDB 和 AOF 重写任务导致的。 生成 RDB 和 AOF 都需要父进程 `fork` 出一个子进程进行数据的持久化, `在fork执行过程中,父进程需要拷贝**内存页表**给子进程,如果整个实例内存占用很大,那么需要拷贝的内存页表会比较耗时,此过程会消耗大量的CPU资源,在完成fork之前,整个实例会被阻塞住,无法处理任何请求,如果此时CPU资源紧张,那么fork的时间会更长,甚至达到秒级。这会严重影响Redis的性能` 。 我们可以执行 info 命令,查看最后一次 fork 执行的耗时 **latest_fork_usec** ,单位 **微秒** 。这个时间就是整个实例阻塞无法处理请求的时间。 除了因为备份的原因生成 RDB 之外, `在主从节点第一次建立数据同步时` ,主节点也会生成 RDB 文件给从节点进行一次全量同步,这时也会对 Redis 产生性能影响。 要想避免这种情况,我们需要规划好数据备份的周期,建议在 **`从节点`** `上执行备份,而且最好放在**低峰期**执行` 。 如果对于丢失数据不敏感的业务,那么不建议开启 AOF 和 AOF 重写功能。 另外,fork 的耗时也与系统有关,如果把 Redis 部署在虚拟机上,那么这个时间也会增大。所以使用 Redis 时建议部署在物理机上,降低 fork 的影响。 绑定 CPU ------ 很多时候,我们在部署服务时,为了提高性能,降低程序在使用多个 CPU 时上下文切换的性能损耗,一般会采用进程绑定 CPU 的操作。 但在使用 Redis 时,我们不建议这么干,原因如下: 绑定 CPU 的 Redis,在进行数据持久化时,fork 出的子进程,子进程会继承父进程的 CPU 使用偏好,而此时子进程会消耗大量的 CPU 资源进行数据持久化, **子进程会与主进程发生 CPU 争抢** ,这也会导致主进程的 CPU 资源不足访问延迟增大。 所以在部署 Redis 进程时, `如果需要开启RDB和AOF重写机制,一定不能进行CPU绑定操作!` 开启 AOF ------ 上面提到了, 当执行 AOF 文件重写时会因为 fork 执行耗时导致 Redis 延迟增大 ,除了这个之外,如果开启 AOF 机制,设置的策略不合理,也会导致性能问题。 开启 AOF 后,Redis 会把写入的命令实时写入到文件中,但 写入文件的过程是先写入内存,等内存中的数据超过一定阈值或达到一定时间后,内存中的内容才会被真正写入到磁盘中。 AOF 为了保证文件写入磁盘的安全性,提供了 3 种刷盘机制: • appendfsync always:每次写入都刷盘,对性能影响最大,占用磁盘 IO 比较高,数据安全性最高 • appendfsync everysec:1 秒刷一次盘,对性能影响相对较小,节点宕机时最多丢失 1 秒的数据 • appendfsync no:按照操作系统的机制刷盘,对性能影响最小,数据安全性低,节点宕机丢失数据取决于操作系统刷盘机制 当使用第一种机制 appendfsync always 时,Redis 每处理一次写命令,都会把这个命令写入磁盘,而且 `这个操作是在主线程中执行的` 。 内存中的的数据写入磁盘,这个会加重磁盘的 IO 负担,操作磁盘成本要比操作内存的代价大得多。如果写入量很大,那么每次更新都会写入磁盘,此时机器的磁盘 IO 就会非常高,拖慢 Redis 的性能,因此我们不建议使用这种机制。 与第一种机制对比,appendfsync everysec 会每隔 1 秒刷盘,而 appendfsync no 取决于操作系统的刷盘时间,安全性不高。因此我们推荐使用 appendfsync everysec 这种方式,在最坏的情况下,只会丢失 1 秒的数据,但它能保持较好的访问性能。 当然,对于有些业务场景,对丢失数据并不敏感,也可以不开启 AOF。 使用 Swap ------- 如果你发现 Redis 突然变得非常慢, **每次访问的耗时都达到了几百毫秒甚至秒级** ,那此时就检查 Redis 是否使用到了 Swap,这种情况下 Redis 基本上已经无法提供高性能的服务。 我们知道,操作系统提供了 Swap 机制,目的是为了当内存不足时,可以把一部分内存中的数据换到磁盘上,以达到对内存使用的缓冲。 但当内存中的数据被换到磁盘上后,访问这些数据就需要从磁盘中读取,这个速度要比内存慢太多! #### 尤其是针对 Redis 这种高性能的内存数据库来说,如果 Redis 中的内存被换到磁盘上,对于 Redis 这种性能极其敏感的数据库,这个操作时间是无法接受的。 #### 我们需要检查机器的内存使用情况,确认是否确实是因为内存不足导致使用到了 Swap。 如果确实使用到了 Swap,要及时整理内存空间,释放出足够的内存供 Redis 使用,然后释放 Redis 的 Swap,让 Redis 重新使用内存。 释放 Redis 的 Swap 过程通常要重启实例,为了避免重启实例对业务的影响,一般先进行主从切换,然后释放旧主节点的 Swap,重新启动服务,待数据同步完成后,再切换回主节点即可。 可见,当 Redis 使用到 Swap 后,此时的 Redis 的高性能基本被废掉,所以我们需要提前预防这种情况。 #### 我们需要对 Redis 机器的内存和 Swap 使用情况进行监控,在内存不足和使用到 Swap 时及时报警出来,及时进行相应的处理。 网卡负载过高 ------ 如果以上产生性能问题的场景,你都规避掉了,而且 Redis 也稳定运行了很长时间,但在某个时间点之后开始,访问 Redis 开始变慢了,而且一直持续到现在,这种情况是什么原因导致的? 之前我们就遇到这种问题, **特点就是从某个时间点之后就开始变慢,并且一直持续** 。这时你需要检查一下机器的网卡流量,是否存在网卡流量被跑满的情况。 网卡负载过高,在网络层和 TCP 层就会出现数据 **发送延迟、数据丢包** 等情况。Redis 的高性能除了内存之外,就在于网络 IO,请求量突增会导致网卡负载变高。 如果出现这种情况,你需要排查这个机器上的哪个 Redis 实例的流量过大占满了网络带宽,然后确认流量突增是否属于业务正常情况,如果属于那就需要 **及时扩容或迁移实例** ,避免这个机器的其他实例受到影响。 运维层面,我们需要对机器的各项指标增加监控,包括网络流量,在达到阈值时提前报警,及时与业务确认并扩容。 总结 -- 以上我们总结了 Redis 中常见的可能导致延迟增大甚至阻塞的场景,这其中既涉及到了业务的使用问题,也涉及到 Redis 的运维问题。 可见,要想保证 Redis 高性能的运行,其中涉及到 CPU、内存、网络,甚至磁盘的方方面面,其中还包括操作系统的相关特性的使用。 作为开发人员,我们需要了解 Redis 的运行机制,例如各个命令的执行时间复杂度、数据过期策略、数据淘汰策略等,使用合理的命令,并结合业务场景进行优化。 作为 DBA 运维人员,需要了解数据持久化、操作系统 fork 原理、Swap 机制等,并对 Redis 的容量进行合理规划,预留足够的机器资源,对机器做好完善的监控,才能保证 Redis 的稳定运行。 ![](https://img1.tuicool.com/eq2mYn7.gif!web)
Jonny
2022年5月3日 11:54
147
0 条评论
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
如遇文档失效,可评论告知,便后续更新!
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
【腾讯云】2核2G云服务器新老同享 99元/年,续费同价
【阿里云】2核2G云服务器新老同享 99元/年,续费同价(不要✓自动续费)
Markdown文件
Word文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码
有效期