本地大模型部署第一站

本地大模型
部署工具箱

从选型到上线,5 个工具帮你搞定 vLLM、GPUStack、Qwen 部署。全部在浏览器本地运行,无需注册。

5 核心工具
20+ 实战文章
本地 浏览器计算
AdSense 广告位(内容流中间)— 部署完成后替换为真实广告代码

最新部署记录

5 核心工具
20+ 实战文章
0 后端依赖
本地 浏览器计算

快速解答

本地部署大模型需要什么显卡?

最低门槛是 8GB 显存的显卡(如 RTX 3060 Ti),可以跑 7B 参数的量化模型(AWQ/GPTQ 4bit)。如果想流畅运行 13B 模型或同时加载多个模型,建议 24GB 显存(RTX 3090/4090)。我目前的主力环境是双卡 RTX 4090,可以并行跑 Qwen3-7B + Qwen3-Coder-7B。

vLLM 和 Ollama 有什么区别?

vLLM 是生产级推理引擎,支持高并发、连续批处理、PagedAttention,适合 API 服务场景。Ollama 是开发者体验优先的本地沙盒,安装简单、命令直观,适合个人实验。一句话:要跑服务选 vLLM,要快速尝鲜选 Ollama。更详细的对比可以看这篇深度对比

显存不足怎么办?

五个降显存手段:① 用 AWQ/GPTQ 4bit 量化模型(省 50-60% 显存);② 减小 max-model-len(如从 8192 降到 4096);③ 开启 FlashAttention-2(省 10-15%);④ 降低 gpu-memory-utilization(如从 0.9 降到 0.8);⑤ 用多卡张量并行(tensor-parallel-size)。详细步骤参考GPU 显存优化实战

没有公网 IP 怎么让外网访问本地模型?

推荐 Cloudflare Tunnel(免费、安全、带 HTTPS)。不需要公网 IP、不改路由器、不暴露端口。我写了一篇完整教程在这里。替代方案包括 frp、ngrok、花生壳等,但 Cloudflare Tunnel 在稳定性和安全性上更优。

自建本地模型比买 API 便宜吗?

取决于使用量。我算过一笔账:自建双卡 RTX 4090 服务器一次性投入约 3.5 万,但按每天 5000 次请求算,比调用 OpenAI API 每月省 2000-3000 元,一年回本。如果每月请求少于 10 万次,买 API 更划算。详细对比看本地 vs 云端全面对比

订阅更新通知

新文章发布时第一时间收到通知,不发广告,只发文章。