Redis面试题2：缓存与数据库一致性问题

摘要：在分布式架构中，引入缓存（Redis）是提升性能的银弹，但也是破坏数据一致性的恶魔。本文将跳出“先删缓存还是先更库”的初级讨论，从架构模式、竞态条件、业务场景三个维度，系统性拆解缓存一致性难题的工程化解决方案。

在构建高并发系统时，我们常说：“Consistency, Availability, Partition tolerance (CAP)，三者不可兼得”。当我们在 MySQL 之上引入 Redis 时，本质上是选择了 AP（可用性+分区容错性），而牺牲了 C（强一致性），转而追求 最终一致性。

但是，“最终”是多久？1毫秒还是1分钟？如何保证在并发乱序、网络抖动、主从延迟的恶劣环境下，数据依然可靠？本文将深入剖析。

一、必考架构模式：权衡与取舍

没有最好的模式，只有最适合业务的模式。以下是四种主流策略的深度对比。

1. Cache-Aside Pattern (旁路缓存) —— 行业标准

这是最通用、最推荐的模式。

读逻辑：先读缓存，Hit 返回；Miss 则读 DB ，回填缓存，返回。
写逻辑：先更新 DB ，后删除缓存 (Delete)。
优点：
- Lazy Loading：只有被读取的数据才进入缓存，节省内存。
- 强壮性：即使缓存挂了，直接查库即可，系统依然可用。
缺点：存在短暂的不一致窗口（DB 刚改完，缓存还没删）。
核心争议：为什么是删不是更？
- 性能：写多读少的场景下，频繁更新缓存是无效计算。
- 安全：并发写会导致脏数据。线程A更库，线程B更库，线程B更缓存，线程A更缓存。此时 DB 是 B 的新值，缓存是 A 的旧值。删除动作天然规避了这种乱序。

2. Read-Through / Write-Through (读写穿透)

这种模式下，应用层不感知 DB，只和 Cache 交互。Cache 组件负责“穿透”到 DB。

Read-Through：查 Cache，Miss 时由 Cache 组件自动去 DB 加载。
Write-Through：写 Cache，Cache 组件自动同步写入 DB（通常在一个事务中）。
优缺点：代码极其整洁，业务逻辑解耦。但 Redis 原生不支持，通常需要 Guava Cache 这种本地缓存或特定的 Redis 客户端封装。
适用：本地缓存场景，或中间件高度封装的系统。

3. Write-Behind (异步回写 / Write-Back)

Linux 文件系统的 Page Cache 就是这个原理。

逻辑：只更新缓存，立即返回成功。缓存组件异步（定时/批量）将数据刷入 DB。
优点：写性能爆炸，IO 损耗降到最低。
缺点：一致性最差，且有数据丢失风险（缓存宕机，数据未落盘）。
适用：点赞数、浏览量、日志收集等“丢了也不心疼”的业务。

二、进阶策略：解决“不一致”的补丁

1. 延时双删策略

针对问题：解决“读写并发”产生的极端脏数据。
- 场景：线程A查(Miss) -> 读旧DB->卡顿；线程B更DB ->删缓存；线程A恢复 ->把旧值写入缓存。
逻辑：Update DB ->Delete Cache -> Sleep(N ms) -> Delete Cache Again。
缺陷：N 很难定（取决于读请求耗时+主从同步耗时），且由于 Sleep 存在，严重拖慢写接口响应。不推荐作为高并发系统的首选。

2. 基于 Binlog 的异步补偿 (Canal + MQ)

针对问题：解决“缓存删除失败”及“解耦业务”。
逻辑：业务只更 DB。Canal 伪装成 Slave 监听 Binlog $\to$ 投递到 MQ $\to$ 消费者重试删除缓存。
优点：最终一致性的终极保障，即使删除失败，MQ 的重试机制也能保证它终究会被删掉。
缺点：架构变重，链路变长，存在由于 MQ 延迟导致的脏读时间延长。

3. 分布式锁 / 单线程队列

针对问题：解决“强一致性”需求。
逻辑：更新数据时，对 Key 加分布式锁（Redisson），或者是将同一 ID 的请求路由到同一个内存队列串行处理。
代价：将并行转串行，吞吐量断崖式下跌。仅适用于库存扣减、支付结算等对并发要求不高但对准确性要求极高的场景。

三、深度技术难点解析

1. 缓存回源风暴 (Thundering Herd)

现象：Key 突然过期（或被删除），此时 10000 个并发请求同时 Miss，同时发起 DB 查询，瞬间把 DB 打挂。
根因：Cache-Aside 模式在 Miss 时缺乏“并发控制”。

解法：互斥锁 (Mutex)。

2. 延迟同步引发的“主从不一致”

现象：Canal 监听到主库 Binlog 删了缓存。用户 Miss 后去查从库，从库还没同步完（Seconds delay），用户把从库的旧值又回填到了缓存。
解法：
- 强制读主：关键业务（如订单状态）缓存Miss 后走主库。
- 延迟消息：监听到 Binlog 后，发一条延迟 1s 的 MQ 消息再执行删除，等待从库同步。

3. 分布式系统中的时钟漂移与乱序

现象：MQ 中两条消息，Msg1(Update v=1) 先发，Msg2(Update v=2) 后发。但因为网络原因或 kafka Partition 不同，Msg2 先被消费，Msg1 后被消费。结果缓存停留在了 v=1。
解法：
- 逻辑删除：Cache-Aside 通常只做删除，不更新。对于删除操作，乱序无所谓（多删一次而已）。
- 版本号机制：如果必须更新缓存，消息体带上 update_time，消费时比对：if (msg.time > cache.time) update()。

四、场景化分析：什么场景用什么招？

1. 高频读、低频更新 (Hot Data)

案例：首页广告、商品详情、配置信息。
痛点：高并发读，缓存一旦失效压力巨大。
方案：Cache-Aside + 本地缓存 (Guava) + 较长 TTL。
利用本地缓存抗第一波流量，Redis 抗第二波，DB 兜底。

2. 高并发更新 (Inventory)

案例：秒杀库存、直播间点赞。
痛点：DB 根本扛不住高频写。
方案：Redis 为主，DB 为辅 (Write-Behind / 异步)。
扣减库存直接在 Redis 执行 (Lua 脚本保证原子性)，成功后发送 MQ 异步扣减 DB 库存。以 Redis 数据为准。

3. 强一致性需求 (Money)

案例：用户余额、支付状态。
痛点：绝对不能出错，不能容忍脏读。
方案：不走缓存, 强制走主库，或者读写加分布式锁。
金融数据通常读写比不高，直接查主库是最稳妥的。

4. 最终一致即可 (Leaderboard)

案例：排行榜、粉丝数、文章阅读数。
痛点：数据更新极其频繁，但实时性要求不高。
方案：Write-Behind (定时刷盘)。
Redis 中 INCR 计数，每分钟同步一次到 MySQL。

五、典型问题 QA 与工程实践

Q1: 如何避免并发写导致的数据乱序？

不要在并发场景下做“更新缓存”的操作。坚持使用 “删除缓存”。
因为“删除”是幂等的，且不依赖值的时序。无论谁先删谁后删，最终结果都是 Cache 为空，下次读取重新加载最新值。

Q2: 如何避免缓存回源雪崩？

雪崩 (Avalanche)：大量 Key 同时失效。
- 解法：TTL + Random Jitter (随机数)。
击穿 (Breakdown)：热点 Key 失效。
- 解法：逻辑过期 (Logical Expiry)。Value 中包含一个过期时间戳，应用层发现快过期了，异步起线程、消息队列去刷新，当前请求直接返回旧值（即 Soft TTL）。

Q3: 如何在最终一致模型下降低脏读影响？

缩短 TTL：设置 60秒甚至更短的过期时间。脏数据最多存在 60秒。
监控与报警：编写脚本随机抽取 Key，对比 Redis 与 DB，一旦不一致率超过 1%，触发报警。

六、总结：架构师的权衡法则

CAP 定律的制约：要想高性能（AP），就必须接受暂时的不一致。
兜底思维：所有缓存必须设置 TTL。这是防止代码 Bug、中间件故障导致永久不一致的最后一道防线。
做减法：如果业务量没那么大，不要引入 Binlog、MQ、延时双删。简单的 Cache-Aside 配合 5分钟的 TTL，足够支撑 90% 的中型互联网业务。

记住：技术的复杂度是守恒的，你解决了一致性问题，往往引入了系统复杂性和维护成本

一、 必考架构模式：权衡与取舍