Gloary Lei - Gloary Lei (Page 5)

深入搜索引擎1：搜索架构概览

By Gloary Lei in SearchEngine on 25 Aug 2022

1. 引言在当今的软件开发领域，搜索功能几乎成为了所有应用的标准配置。无论是电商平台的商品检索、内容社区的笔记发现，还是企业内部的文档管理，搜索框背后承载的不仅仅是数据的查询，更是用户意图的理解与满足。很多开发者在初次接触搜索时，往往认为这只是简单的 SELECT * FROM table WHERE content LIKE '%keyword%' 的升级版，或者认为部署一个 Elasticsearch 集群就能万事大吉。然而，当我们深入到海量数据和高并发场景时，会发现真正的挑战在于：如何从数亿文档中毫秒级地捞出用户真正想要的那几条？这是一个涉及自然语言处理（NLP）、分布式系统、机器学习排序（LTR）以及复杂的评估体系的系统工程。在本文中，我们将跳出枯燥的教科书定义，以架构师的视角拆解现代搜索引擎的核心链路。我们将探讨决定搜索质量的关键因子，剖析从查询理解到最终排序的全流程，并重点聊聊那些容易被忽视但至关重要的评价指标。 2. 现代搜索链路的解构与重组传统的搜索往往过分依赖倒排索引（Inverted Index），这解决了"找得到"的问题，…

Redis面试题4：性能杀手Big Key 与 Hot Key的生产实践与底层原理

By Gloary Lei in Redis on 18 Jun 2022

在后端面试和生产环境中，Redis 始终是绕不开的话题。作为高性能缓存的代名词，Redis 的速度非常快，但它也有“软肋”——单线程模型。正是因为这个核心特性，大 Key（Big Key）和热 Key（Hot Key）成为了导致 Redis 阻塞、超时甚至引发雪崩的头号杀手。本文将从原理到实战，系统性地梳理这两个核心概念。一、核心概念定义在讨论解决方案之前，我们需要先对问题进行量化。多大才算“大”？多热才算“热”？ 1. 大 Key (Big Key) 大 Key 通常指 Value 占用内存过大，或者集合元素数量过多。 * String 类型：单个 Value 超过 10KB（…

布隆过滤器：如何用一点点“误判”换取海量空间？

By Gloary Lei in 数据结构 on 07 May 2022

摘要：布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构。它有一条唯一的铁律：它说不存在，就一定不存在；它说存在，那可能是误判。本文将深入探讨其背后的数学原理、误判成因以及设计哲学。在海量数据处理的场景中，我们经常面临一个难题：如何判断一个元素是否在一个巨大的集合中？如果你使用传统的 HashMap 或 Set，当数据量达到上亿级别时，内存消耗将是惊人的。这时候，一位“空间魔术师”登场了——布隆过滤器（Bloom Filter）。它不存储原始数据，只占用极小的内存，就能完成高效的查询。虽然它有一点点“不靠谱”（存在误判），但在 Redis 缓存穿透保护、网页爬虫去重等场景下，它却是无可替代的神器。什么是布隆过滤器？简单来说，布隆过滤器是一个极其节省内存的“存在性检测器”。它由两部分组成： 1. 一个很长的二进制位数组（Bit Array），初始全为 0。…

Redis面试题3：解析缓存穿透、击穿与雪崩

By Gloary Lei in Redis on 06 May 2022

在千万级 QPS 的高并发系统中，缓存（Cache）是提升性能的银弹。然而，当流量洪峰真正到来时，缓存系统的任何一个微小漏洞都可能导致数据库瞬间崩溃。作为后端工程师，我们不仅要会用 Redis，更要懂得如何设计一个“打不穿”的缓存架构。本文将系统讲解“缓存穿透、击穿、雪崩”的本质区别，并从工程落地角度给出解决方案。一、概念辨析：三座大山很多开发者容易混淆这三个概念，我们用一个“防弹衣”的生动比喻来区分它们：数据库（DB）是人，缓存（Cache）是穿在人身上的防弹衣。 1. 缓存穿透 * 现象：子弹打在了防弹衣没有覆盖的地方，直接伤到了人。 * 定义：请求的数据在缓存中不存在，在数据库中也不存在。 * 后果：流量直接打穿缓存和 DB，通常由恶意攻击（如查询 ID=-1）或代码…

Redis面试题2：缓存与数据库一致性问题

By Gloary Lei in Redis on 03 May 2022

摘要：在分布式架构中，引入缓存（Redis）是提升性能的银弹，但也是破坏数据一致性的恶魔。本文将跳出“先删缓存还是先更库”的初级讨论，从架构模式、竞态条件、业务场景三个维度，系统性拆解缓存一致性难题的工程化解决方案。在构建高并发系统时，我们常说：“Consistency, Availability, Partition tolerance (CAP)，三者不可兼得”。当我们在 MySQL 之上引入 Redis 时，本质上是选择了 AP（可用性+分区容错性），而牺牲了 C（强一致性），转而追求最终一致性。但是，“最终”是多久？1毫秒还是1分钟？如何保证在并发乱序、网络抖动、主从延迟的恶劣环境下，数据依然可靠？本文将深入剖析。一、必考架构模式：权衡与取舍没有最好的模式，只有最适合业务的模式。以下是四种主流策略的深度对比。…

Redis面试题1：Redis 数据类型、跳表

By Gloary Lei in Redis on 01 May 2022

摘要：本文将从面试题切入，盘点 Redis 全系数据类型，并深入剖析“跳表”这一核心数据结构，探讨它在 Lucene、Java中的应用，以及它与B+树的异曲同工。一、 Redis 数据类型全景在面试中，如果只回答 "String, Hash, List, Set, ZSet"，只能算刚及格。作为高级工程师，我们需要展示对业务场景的深度理解。 1. 基础类型（必知必会） * String: 最基本类型，不仅存字符串，还能做计数器（INCR）、分布式锁（SETNX）。 * Hash: 适合存储对象，如用户信息。 * List: 双向链表，常用于简单的消息队列（LPUSH/RPOP）或最新列表。 * Set: 无序集合，用于去重、…

Ghost 完美渲染 Mermaid 图表与国内 CDN 加速

By Gloary Lei in Ghost on 24 Sep 2021

Ghost 是一款极简且优雅的博客平台，但对于开发者而言，默认配置往往缺少两个关键能力：原生图表渲染能力以及国内网络环境下的静态资源访问稳定性。本文将分享我们在实战中总结的两个终极解决方案。一、让 Ghost 完美支持 Mermaid 流程图 Ghost 的编辑器默认将 mermaid 代码块视为普通文本。虽然可以通过 Code Injection 引入库，但往往会遇到**“文字截断”、“溢出边框”或“排版错乱”**的问题。这是因为 Ghost 主题的 CSS（特别是行高和字体设置）经常与 Mermaid 的计算逻辑冲突。解决方案：强力修正版代码注入我们需要在引入 Mermaid 的同时，强制关闭 HTML 标签渲染（改用纯 SVG 文本），并重置相关 CSS。操作步骤： 1. 进入…

LeetCode 22. 括号生成：深度优先搜索 (DFS)、递归

By Gloary Lei in 算法 on 02 May 2021

1. 题目大意数字 n 代表生成括号的对数，请你设计一个函数，用于能够生成所有可能的并且有效的括号组合。示例 1：输入：n = 3 输出：["((()))","(()())","(())()","()(())","()()()"] 示例 2：输入：n = 1 输出：["()"] 2. 直观理解：存钱 vs 花钱要生成有效的括号，我们可以把 ( 看作存钱，把 ) 看作花钱。假设 n=3，意味着你总共有 3 枚金币的额度。要完成这个游戏，必须遵守两条极其简单的规则： 1.…