GPU 显存不足怎么办？本地大模型优化实战

背景

上周五晚上十一点，我正准备用 vLLM 0.6.3 跑通 Qwen2-7B-Instruct 做个本地 RAG demo，结果 vllm-entrypoint 启动瞬间崩了——不是模型加载失败，是直接被 CUDA OOM 杀掉进程。我的机器是单卡 RTX 4090（24GB），但 nvidia-smi 显示启动前已占 11.2GB（PyTorch Lightning 日志服务 + 一个没关的 Jupyter kernel），留给 vLLM 的只剩 12.8GB。而官方文档说 Qwen2-7B FP16 至少要 14.2GB 显存……我盯着终端里那行红字，叹了口气：

OOM when allocating tensor with shape (1, 32, 4096, 4096) and dtype float16
CUDA out of memory. Tried to allocate 2.00 GiB (GPU 0; 24.00 GiB total capacity)

这不是理论值不够，是现实里每一分显存都被嚼得渣都不剩。我决定不换卡，就在这台 4090 上，把 Qwen2-7B 挤进去。

三步榨干显存：量化 + PagedAttention 调优 + GPUStack 隔离

我的做法是分层拆解：先砍模型体积（量化），再压调度开销（vLLM 参数），最后锁死环境干扰（GPUStack）。不是堆参数，而是让每个字节都干活。

第一步：用 AWQ 量化到 4-bit，但不用 HuggingFace Transformers 加载
很多人直接 model = AutoModelForCausalLM.from_pretrained(..., load_in_4bit=True)，这在 vLLM 里反而更费显存——因为 vLLM 会把量化权重反解成 float16 中间态做 kernel dispatch。我改用 vLLM 原生支持的 AWQ 格式：

git clone https://github.com/mit-han-lab/llm-awq
cd llm-awq
pip install -e .

# 量化 Qwen2-7B（需原始 HF 格式）
python examples/quantize.py \
  --model_name_or_path /models/Qwen2-7B-Instruct \
  --weight_bits 4 \
  --group_size 128 \
  --zero_point \
  --output_dir /models/Qwen2-7B-Instruct-AWQ

量化后模型目录下生成 quant_config.json 和 model.safetensors，大小从 13.8GB → 3.9GB。关键来了：启动 vLLM 时必须指定 --quantization awq，否则它会当普通模型加载！

第二步：vLLM 启动参数精准调优
默认 --max-model-len 4096 和 --block-size 16 是为 A100 设计的，对我这台 4090 完全冗余。我做了三组测试（见下文实测），最终定稿命令：

vllm-entrypoint api --model /models/Qwen2-7B-Instruct-AWQ \
  --quantization awq \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.92 \
  --max-model-len 2048 \
  --block-size 8 \
  --swap-space 4 \
  --enforce-eager \
  --port 8000

重点解释：--gpu-memory-utilization 0.92 不是拍脑袋——vLLM 默认 0.9，但 4090 的 L2 cache 更大，多挤 2% 安全；--block-size 8 把 PagedAttention 的 block 从默认 16 减半，显存峰值降 1.3GB（实测）；--enforce-eager 关闭 CUDA Graph，避免首次推理时显存 spike；--swap-space 4 开启 CPU swap 缓冲区，防突发长上下文 OOM（虽然慢，但比崩好）。

第三步：用 GPUStack 隔离干扰进程
之前 11.2GB 占用里，有 3.1GB 是 python -m torch.distributed.run 启的 dummy 进程（忘了 kill）。我用 GPUStack 管理后：

# 启动 GPUStack（已配置 NVIDIA Container Toolkit）
docker run -d --gpus all \
  -v /var/run/docker.sock:/var/run/docker.sock \
  -v /etc/gpustack:/etc/gpustack \
  -p 3000:3000 \
  ghcr.io/gpustack/gpustack:latest

# 在 Web UI 创建「vLLM-Qwen2」资源池，绑定 1 个 GPU，限制 max_memory=12G

所有 vLLM 容器从此只能看到 12GB 显存，且其他容器无法抢占——相当于给 vLLM 划了块“显存特区”。

实测记录

我用 curl 发送 50 个并发请求（每个 prompt 256 token，output_max_tokens=128），用 nvidia-smi dmon -s u 每秒采样显存占用：
• 未优化前：启动即 OOM，根本进不了 inference loop
• 仅 AWQ 量化：峰值显存 13.1GB，能跑但 batch_size=1 时延迟 1200ms（time curl ...）
• 量化 + vLLM 参数调优：峰值显存 11.4GB，batch_size=4 时 P95 延迟 480ms，TPS 达 6.2
• 全套方案（含 GPUStack 隔离）：峰值稳定在 11.2±0.3GB，且连续压测 2 小时无抖动。最惊喜的是：nvtop 显示 GPU 利用率从 68% 提升到 89%，说明显存瓶颈解除后，计算单元真正跑起来了。另外，我故意在另一个终端启动 python -c "import torch; torch.randn(5000,5000).cuda()"，GPUStack 立刻拒绝分配并报错：

[ERROR] Resource allocation failed: GPU memory limit (12.0 GB) exceeded for model 'vLLM-Qwen2'

——这才是我要的确定性。

踩坑备忘

这些坑我都亲手趟过，列出来省得你重蹈覆辙：

• 坑1：AWQ 量化后漏掉 --quantization awq —— vLLM 默认按 HF 模式加载，会把 4-bit 权重解成 float16 张量，显存反而比 FP16 还高！我第一次就是栽这儿，nvidia-smi 看到显存飙到 15.6GB 直接 panic。

• 坑2：--block-size 改小后引发 context length 错误 —— 当 --max-model-len 2048 但 --block-size 8 时，实际最大 context 是 2048 / 8 * 8 = 2048，看似没问题。但若 prompt 长度为 2049，vLLM 会报 Context length too long。解决方案：要么严格校验输入长度，要么用 --max-model-len 2040（向下对齐 block-size）。

• 坑3：GPUStack 的 max_memory 单位是 GB，不是 MiB —— 文档写得模糊，我填了 12288（以为是 MiB），结果容器启动失败，日志里只有 OOMKilled。改成 12 才正常。

• 坑4：RTX 4090 的 --enforce-eager 必须加 —— 不加的话，vLLM 会尝试构建 CUDA Graph，但在 4090 的 Ada 架构上首次推理显存 spike 达 3.2GB，直接触发 OOM。A100 用户可不加，但消费级卡建议默认开启。

• 坑5：swap-space 路径权限问题 —— --swap-space 4 默认用 /dev/shm，但 Docker 容器里可能没写权限。我改成 --swap-space 4 --swap-space-dir /tmp/vllm-swap 并提前 chmod 1777 /tmp/vllm-swap。

我的结论

这套组合拳，本质是「用确定性换性能」：放弃理论峰值，换取稳定可用。我的判断很明确：
✅ 推荐给：预算有限的个人开发者、边缘部署场景（如 Jetson AGX Orin 32GB）、需要多模型共存的实验室服务器。特别是当你有 RTX 4090/3090/4080 这类 16–24GB 卡，又想跑 7B–13B 模型时，AWQ+调参+GPUStack 是目前最稳的路径。
❌ 不推荐给：生产级高吞吐 API（比如日均百万请求）、需要满血 FP16 精度的金融/医疗微调场景、或者连 apt update 都要找 IT 部门批的公司内网——因为 AWQ 会损失约 0.8% 的 MMLU 分数（我测过 Qwen2-7B：FP16 72.3 → AWQ 71.5），而 GPUStack 增加了一层容器抽象，运维链路变长。
最后说句实在话：别迷信“一卡跑 70B”。我试过 Qwen2-72B-AWQ，在 4090 上启动要 18.7GB 显存，哪怕调参也悬。真要跑大模型？要么上双卡（NVLink 互联），要么老老实实用 vLLM 的 --tensor-parallel-size 2。显存不是魔法，是物理。我们工程师的本事，是在物理定律里，找出那条最窄却最通的缝。