【原】16）缓存雪崩、缓存击穿、缓存穿透

古明地觉O_o 2022-12-08 发布于北京

展开全文

楔子

在使用 Redis 时，会面临缓存雪崩、缓存穿透、缓存击穿等问题，无论哪一个发生，都会导致大量请求打到数据库。如果数据库宕机，那就是很严重的事故了。

下面我们就来分析一下，这几个问题产生的原因以及解决办法。

缓存雪崩

缓存雪崩是指在短时间内，有大量缓存同时过期，导致大量请求直接查询数据库，从而对数据库造成了巨大的压力，严重情况下可能会导致数据库宕机。这种情况就叫做缓存雪崩。

以上对比图可以看出缓存雪崩对系统造成的影响，那么问题来了，缓存雪崩是如何产生的呢？

缓存中有大量 key 同时过期，导致相应的请求会打到数据库；
Redis 实例宕机了；

而问题的解决方式也很简单，首先来看第一种情况。

1）当大量 key 同时过期时。

为了避免缓存同时过期，可在设置缓存时额外添加一个随机时间，这样一来数据的过期时间会有所差别，但差别又不会太大。即避免了大量的缓存同时失效，又能满足业务功能。

除了微调过期时间之外，还可以通过服务降级。而所谓的服务降级就是指，在服务器资源不够、或者说压力过大时，将一些非核心服务暂停，优先保证核心服务的运行。比如：

当业务应用访问的是非核心数据（例如电商商品属性）时，暂时停止从缓存中查询这些数据，而是直接返回预定义信息、空值或是错误信息；
当业务应用访问的是核心数据（例如电商商品库存）时，仍然允许查询缓存，如果缓存缺失，也可以继续通过数据库读取；

这样一来，只有部分过期数据的请求会发送到数据库，数据库的压力就没有那么大了。

另外还设计二级缓存，也就是除了 Redis 之外，再设置一层缓存，当缓存失效之后，先去查询二级缓存。

2）Redis 实例宕机。

实例宕机相比缓存雪崩要更加严重，一般来说一个 Redis 实例可以支持数万级别的请求处理吞吐量，而单个数据库可能只支持数千级别的请求处理吞吐量，它们两个的处理能力至少相差了近十倍。由于 Redis 缓存失效，所以数据库就可能要承受近十倍的请求压力，从而因为压力过大而崩溃。

这个时候，可以进行服务熔断。服务熔断指的是在发生缓存雪崩时，为了防止引发数据库雪崩，甚至是整个系统的崩溃，我们暂停业务应用对缓存系统的接口访问。再具体点说，就是业务应用调用缓存接口时，缓存客户端并不把请求发给 Redis 缓存实例，而是直接返回，等到 Redis 缓存实例重新恢复服务后，再允许应用请求发送到缓存系统。

这样一来，我们就避免了大量请求因缓存缺失，而积压到数据库系统，保证了数据库系统的正常运行。

在业务系统运行时，我们可以监测 Redis 缓存所在机器和数据库所在机器的负载指标，例如每秒请求数、CPU 利用率、内存利用率等。如果我们发现 Redis 缓存实例宕机了，而数据库所在机器的负载压力突然增加（例如每秒请求数激增），说明就发生缓存雪崩了，大量请求被发送到数据库进行处理。我们可以启动服务熔断机制，暂停业务应用对缓存服务的访问，从而降低对数据库的访问压力。

因此服务熔断虽然可以保证数据库的正常运行，但是暂停了整个缓存系统的访问，对业务应用的影响范围大。为了尽可能减少这种影响，我们也可以进行请求限流。也就是在业务系统的请求入口前端，通过加锁排队的方式控制每秒进入系统的请求数，避免过多的请求被发送到数据库。

假设业务系统正常运行时，请求入口前端允许每秒进入系统的请求是 1 万个，其中 9000 个请求都能在缓存系统中进行处理，只有 1000 个请求会被应用发送到数据库进行处理。

然而一旦 Redis 宕机，数据库的每秒请求数会突然增加到每秒 1 万个，此时我们就可以启动请求限流机制，在请求入口前端只允许每秒进入系统的请求数为 1000 个，再多的请求就会在入口前端被直接拒绝服务。所以使用了请求限流，就可以避免大量并发请求压力传递到数据库层。

所以使用服务熔断或是请求限流机制，来应对 Redis 实例宕机导致的缓存雪崩问题，是属于事后诸葛亮。也就是已经发生非常严重的缓存雪崩了（实例宕机了），我们使用这两个机制，来降低雪崩对数据库和整个业务系统的影响。而我们也可以提前预防，也就是通过主从复制的方式，搭建 Redis 高可用集群，主节点挂了就切换到从节点。

所以当发生缓存雪崩时，解决方案如下：