LLM - Gloary Lei

RAG 进阶之路7：REFRAG 机制应对长上下文挑战

By Gloary Lei in RAG on 10 Sep 2025

之前的文章中，我们从基础设施（Milvus）、语义核心（BGE）、到代码落地（LangChain）以及应用层优化（Small-to-Big/HyDE），构建了一套完整的 RAG 知识体系。然而，AI 领域的变化是指数级的。随着 Claude 3 支持 200k 上下文，Gemini 1.5 Pro 甚至支持到 1M token，一种论调开始流行：“RAG 已死，Long Context (长上下文) 才是未来。” 毕竟，如果能把整本《红楼梦》或整个公司的知识库直接塞进 Prompt 里，还需要费劲地做切片、建索引、搞检索吗？但现实是骨感的。“能放进去”不代表“能跑得动”。把海量文本直接喂给…

在 RTX 4060 Ti 16GB 上基于 docker + vLLM部署 Qwen3-8B

By Gloary Lei in LLM on 01 Jun 2025

1. 硬件背景与选型逻辑在当前的本地 LLM（大语言模型）生态中，NVIDIA GeForce RTX 4060 Ti 16GB 是一张极具争议但也极具战略价值的显卡。 * 争议点：128-bit 的显存位宽限制了其在大吞吐量下的带宽上限。 * 战略价值：16GB 的大显存是运行大参数模型或超长上下文（Long Context）的硬门槛。对于 Qwen3 系列模型，我们在 16GB 显存下主要面临三个选择： 1. Qwen3-30B-A3B MoE (Int3/Int4)：极高的智力上限，但显存占用极限，几乎没有空间留给上下文（KV Cache），适合短对话和难题攻克。 2. Qwen3-14B Dense (Int4/Int6)：平衡之选，但在 16GB 卡上略显平庸。 3. Qwen3-8B…