数据结构 - Gloary Lei

布隆过滤器：如何用一点点“误判”换取海量空间？

By Gloary Lei in 数据结构 on 07 May 2022

摘要：布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构。它有一条唯一的铁律：它说不存在，就一定不存在；它说存在，那可能是误判。本文将深入探讨其背后的数学原理、误判成因以及设计哲学。在海量数据处理的场景中，我们经常面临一个难题：如何判断一个元素是否在一个巨大的集合中？如果你使用传统的 HashMap 或 Set，当数据量达到上亿级别时，内存消耗将是惊人的。这时候，一位“空间魔术师”登场了——布隆过滤器（Bloom Filter）。它不存储原始数据，只占用极小的内存，就能完成高效的查询。虽然它有一点点“不靠谱”（存在误判），但在 Redis 缓存穿透保护、网页爬虫去重等场景下，它却是无可替代的神器。什么是布隆过滤器？简单来说，布隆过滤器是一个极其节省内存的“存在性检测器”。它由两部分组成： 1. 一个很长的二进制位数组（Bit Array），初始全为 0。…