RAG 进阶之路7:REFRAG 机制应对长上下文挑战

之前的文章中,我们从基础设施(Milvus)、语义核心(BGE)、到代码落地(LangChain)以及应用层优化(Small-to-Big/HyDE),构建了一套完整的 RAG 知识体系。 然而,AI 领域的变化是指数级的。随着 Claude 3 支持 200k 上下文,Gemini 1.5 Pro 甚至支持到 1M token,一种论调开始流行:“RAG 已死,Long Context (长上下文) 才是未来。” 毕竟,如果能把整本《红楼梦》或整个公司的知识库直接塞进 Prompt 里,还需要费劲地做切片、建索引、搞检索吗? 但现实是骨感的。“能放进去”不代表“能跑得动”。 把海量文本直接喂给…

在 RTX 4060 Ti 16GB 上基于 docker + vLLM部署 Qwen3-8B

1. 硬件背景与选型逻辑 在当前的本地 LLM(大语言模型)生态中,NVIDIA GeForce RTX 4060 Ti 16GB 是一张极具争议但也极具战略价值的显卡。 * 争议点:128-bit 的显存位宽限制了其在大吞吐量下的带宽上限。 * 战略价值:16GB 的大显存是运行大参数模型或超长上下文(Long Context)的硬门槛。 对于 Qwen3 系列模型,我们在 16GB 显存下主要面临三个选择: 1. Qwen3-30B-A3B MoE (Int3/Int4):极高的智力上限,但显存占用极限,几乎没有空间留给上下文(KV Cache),适合短对话和难题攻克。 2. Qwen3-14B Dense (Int4/Int6):平衡之选,但在 16GB 卡上略显平庸。 3. Qwen3-8B…