在 RTX 4060 Ti 16GB 上基于 docker + vLLM部署 Qwen3-8B

1. 硬件背景与选型逻辑

在当前的本地 LLM（大语言模型）生态中，NVIDIA GeForce RTX 4060 Ti 16GB 是一张极具争议但也极具战略价值的显卡。

争议点：128-bit 的显存位宽限制了其在大吞吐量下的带宽上限。
战略价值：16GB 的大显存是运行大参数模型或超长上下文（Long Context）的硬门槛。

对于 Qwen3 系列模型，我们在 16GB 显存下主要面临三个选择：

Qwen3-30B-A3B MoE (Int3/Int4)：极高的智力上限，但显存占用极限，几乎没有空间留给上下文（KV Cache），适合短对话和难题攻克。
Qwen3-14B Dense (Int4/Int6)：平衡之选，但在 16GB 卡上略显平庸。
Qwen3-8B AWQ (Int4)：本次部署的最终选择。
- 显存优势：模型仅占约 5.2GB。这意味着我们在 16GB 显存中，还有 10GB+ 的空间用于 KV Cache。
- 性能优势：配合 vLLM 引擎，可以跑满 32k 甚至更长的上下文，且保持极高的 Token 生成速度。
- 能力优势：Qwen3-8B 引入了原生“思维链（Thinking Mode）”，在逻辑推理上远超前代同尺寸模型。

2. 推理引擎之争：为什么放弃 llama.cpp 选择 vLLM？

在 Windows 环境下，通常有两种主流方案：

特性	llama.cpp (GGUF)	vLLM (AWQ/GPTQ)
部署难度	极低 (exe 直运)	高 (需 WSL2/Docker)
显存管理	灵活 (CPU/GPU 混合)	激进 (预占 90% 显存)
并发吞吐	低 (串行处理)	极高 (PagedAttention)
推理速度	中等	极快 (针对 AWQ 优化)

为了将这张 4060 Ti 变成一个高性能的本地 API 服务器（供应用调用），我们选择了 vLLM。它在显存充足（针对 8B 模型而言）的情况下，能够提供远超 llama.cpp 的并发处理能力。

3. 环境搭建：穿越 Windows 的限制

由于 vLLM 对 Windows 的原生支持尚不完美，我们采用 WSL2 + Docker 方案。

3.1 基础环境

宿主机：Windows 11 + 最新 NVIDIA 驱动。
子系统：Ubuntu 22.04 on WSL2。

执行部署

在 WSL2 终端中执行：

Bash

docker run --runtime nvidia --gpus all \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env HF_TOKEN=XXXXXXXXXXX \
  --env LANG=C.UTF-8 \
  --env LC_ALL=C.UTF-8 \
  -p 8095:8000 \
  --ipc=host \
  vllm/vllm-openai:latest \
  --model Qwen/Qwen3-8B-AWQ \
  --dtype auto \
  --quantization awq \
  --max-model-len 32768 \
  --trust-remote-code

关键参数解析

--model Qwen/Qwen3-8B-AWQ：修正后的官方 AWQ 量化版 ID。
--quantization awq：显式指定量化后端，利用 4060 Ti 的 Tensor Cores 加速。
--max-model-len 32768：Qwen3 支持极长上下文，但在 16GB 显存下，限制在 32k 是最安全的甜点设置，既能处理长文档，又不会 OOM。
--gpu-memory-utilization 0.9：vLLM 默认占用 90% 显存。对于 8B 模型（5GB 权重），这留下了约 9GB 给 KV Cache，非常充裕。

部署成功后，服务暴露在 http://localhost:8095。

启用 Thinking Mode (思维链)

Qwen3 的核心卖点是思维能力。在调用 API 时，可以这么测试：

JSON

{
  "model": "Qwen/Qwen3-8B-AWQ",
  "messages": [{"role": "user", "content": "解释量子纠缠"}],
  "temperature": 0.6,  // 略低温度以保持逻辑稳定
  "top_p": 0.95,
  "max_tokens": 2048
}