AI DEPLOYMENT TOOLKIT

本地大模型部署工具箱

把 vLLM 命令、显存、成本、错误排查和选型这些反复查的问题，变成可直接操作的工具。适合部署 Qwen、Llama、DeepSeek、Ollama、GPUStack 和自建 API 服务时使用。

开始生成命令查看常见错误修复

核心工具

后端依赖

1 分钟

得到部署建议

工具导航

选择你当前要解决的问题

vLLM 启动命令生成器 按模型、显卡、上下文和量化方式生成可复制命令。 大模型显存估算器 估算权重、KV Cache、运行开销和显存余量。 本地 vs API 成本计算器 对比自建 GPU 与云端 API 的月成本和回本周期。 常见部署错误及修复方式 浏览/搜索常见部署错误，含根因分析和可执行的修复方案。 模型部署选型助手 根据使用场景推荐 Ollama、vLLM、GPUStack 或云 API。

使用说明

为什么估算结果和真实运行可能不完全一致？

显存和吞吐会受到模型结构、注意力实现、batch 策略、量化格式、驱动版本和 vLLM 参数影响。工具给的是部署前的保守判断，真正上线前仍建议用目标并发做压测。

报错诊断器会上传我的日志吗？

不会。当前工具全部在浏览器本地运行，不需要后端接口，也不会把日志发送到服务器。

什么时候应该选云端 API？

如果调用量不稳定、没有 GPU 运维经验、对模型效果要求经常变化，云端 API 通常更省事。自建更适合调用量稳定、重视隐私、已有硬件或长期成本压力明显的场景。