最低门槛是 8GB 显存的显卡（如 RTX 3060 Ti），可以跑 7B 参数的量化模型（AWQ/GPTQ 4bit）。如果想流畅运行 13B 模型或同时加载多个模型，建议 24GB 显存（RTX 3090/4090）。我目前的主力环境是双卡 RTX 4090，可以并行跑 Qwen3-7B + Qwen3-Coder-7B。

vLLM 和 Ollama 有什么区别？

vLLM 是生产级推理引擎，支持高并发、连续批处理、PagedAttention，适合 API 服务场景。Ollama 是开发者体验优先的本地沙盒，安装简单、命令直观，适合个人实验。一句话：要跑服务选 vLLM，要快速尝鲜选 Ollama。更详细的对比可以看这篇深度对比。

显存不足怎么办？

五个降显存手段：① 用 AWQ/GPTQ 4bit 量化模型（省 50-60% 显存）；② 减小 max-model-len（如从 8192 降到 4096）；③ 开启 FlashAttention-2（省 10-15%）；④ 降低 gpu-memory-utilization（如从 0.9 降到 0.8）；⑤ 用多卡张量并行（tensor-parallel-size）。详细步骤参考GPU 显存优化实战。

没有公网 IP 怎么让外网访问本地模型？

推荐 Cloudflare Tunnel（免费、安全、带 HTTPS）。不需要公网 IP、不改路由器、不暴露端口。我写了一篇完整教程在这里。替代方案包括 frp、ngrok、花生壳等，但 Cloudflare Tunnel 在稳定性和安全性上更优。

自建本地模型比买 API 便宜吗？

取决于使用量。我算过一笔账：自建双卡 RTX 4090 服务器一次性投入约 3.5 万，但按每天 5000 次请求算，比调用 OpenAI API 每月省 2000-3000 元，一年回本。如果每月请求少于 10 万次，买 API 更划算。详细对比看本地 vs 云端全面对比。

查看全部常见问题

本地大模型部署工具箱

按部署阶段选择工具

显存估算器

成本计算器

vLLM 命令生成器

常见部署错误及修复

部署选型助手

最新部署记录

vLLM + Qwen3 完整部署指南：从零到 API 服务

本地模型 vs 云端模型：成本、性能、体验全面对比

Qwen 上下文爆满问题解决方案

快速解答

订阅更新通知

本地大模型
部署工具箱