Posts — AI Deployment Notes

Comparison

本地模型 vs 云端模型：成本、性能、体验全面对比

基于我自建4×RTX 4090服务器（vLLM+Qwen2-7B-Instruct+GPUStack）与阿里百炼、OpenRouter的6个月实测，从每千token成本、...

April 23, 2026 · 8 min read

Comparison

vLLM vs Ollama：性能与易用性深度对比

基于实测数据（Qwen2-7B、A100 80G、吞吐+延迟+内存占用），对比vLLM与Ollama在生产部署中的真实表现，给出明确选型建议：高并发API服务选vLLM...

April 23, 2026 · 8 min read

Comparison

Qwen3.6 vs Qwen3-Coder：哪个更适合日常使用？

基于自建 GPU 服务器实测，对比 Qwen3.6 和 Qwen3-Coder 在代码生成、推理速度、显存占用和通用对话场景的真实表现，给出明确的选型建议。

April 23, 2026 · 8 min read

Troubleshooting

Qwen 模型上下文爆满（context overflow）问题解决方案

亲身踩坑实录：vLLM部署Qwen-7B时因max_model_len配置不当触发context overflow，导致API直接500。本文详解报错定位、三步修复（co...

April 23, 2026 · 6 min read

Troubleshooting

内网穿透失败？Cloudflare Tunnel 常见问题汇总

汇总 Cloudflare Tunnel 内网穿透部署中的 6 个高频报错和诡异现象，包括 502 Bad Gateway、隧道断开、证书错误、DNS 不生效等，附带排查命令和完整解决步骤。

April 23, 2026 · 8 min read

Troubleshooting

Docker 拉取镜像失败的 5 个常见原因（附解决方法）

亲历自建GPU服务器部署Qwen/vLLM时反复卡在docker pull环节，总结5类真实报错：网络超时、认证失效、镜像名拼写错误、私有仓库403、镜像层校验失败，并附...

April 23, 2026 · 8 min read

Troubleshooting

为什么你的本地模型又慢又卡？性能瓶颈分析

亲身踩坑实录：从 Qwen2-7B 在 vLLM 上吞吐仅 3.2 tok/s 到 28.7 tok/s 的全链路排查。聚焦显存带宽、PCIe 瓶颈、CUDA Graph...

April 23, 2026 · 8 min read

Troubleshooting

GPU 显存不足怎么办？本地大模型优化实战

亲身踩坑实录：从 vLLM 启动报 OOM 到 Qwen2-7B 成功跑在 12GB 显存的 RTX 4090 上。详解量化、PagedAttention 调优、GPUS...

April 23, 2026 · 8 min read

Troubleshooting

vLLM 启动失败常见原因 + 解决方案（完整排查指南）

亲身踩坑总结：vLLM 启动报错 'CUDA out of memory'、'Failed to load model'、'No module named vllm.en...

April 23, 2026 · 8 min read

Tutorial

如何关闭 Qwen 模型的思考模式（提升响应速度）

生产环境中 Qwen 的思考机制会显著增加首字延迟与端到端耗时。本文基于 vLLM 与 GPUStack 实战，提供完整禁用参数、API 透传方式及压测对比数据，帮你快速...

April 23, 2026 · 5 min read

Tutorial

本地大模型上下文长度（max-model-len）怎么设置最合理？

基于Qwen2-7B、vLLM 0.6.3和RTX 4090实测：不盲目拉高max-model-len，而是按显存余量+推理模式动态设值——附完整CLI命令、config...

April 23, 2026 · 8 min read

Tutorial

如何使用 Cloudflare Tunnel 暴露本地 AI 服务

手把手教你用 cloudflared tunnel 将本地 vLLM 或 Ollama 的 /v1/chat/completions 接口安全暴露到公网，无需公网 IP、...

April 23, 2026 · 8 min read

Tutorial

本地模型如何开放 API 给外网（内网穿透实战）

手把手教你用 frp 实现 Qwen2-7B + vLLM 的安全外网 API 暴露，含完整配置、实测吞吐、HTTPS 自动证书及 3 个真实踩坑点...

April 23, 2026 · 8 min read

Tutorial

使用 Docker 部署 AI 服务：新手也能看懂

一篇基于真实GPU服务器（RTX 4090 ×2）的Docker部署教程，手把手用vLLM跑通Qwen2-7B-Instruct，含完整命令、实测吞吐、显存占用和5个血泪...

April 23, 2026 · 8 min read

Tutorial

LobeChat 使用教程：接入本地模型的正确方式

手把手教你用 vLLM 跑通本地 Qwen 模型，并完美对接 LobeChat。包含完整 Docker 启动命令、环境变量配置、CORS 与超时参数调优，本地部署实测首字...

April 23, 2026 · 12 min read

Tutorial

如何在本地搭建一个类似 ChatGPT 的聊天系统（完整实战）

基于 Qwen2-7B-Instruct + vLLM + FastAPI + Gradio，全程在 Ubuntu 24.04 + RTX 4090 单卡上实测部署，含完...

April 23, 2026 · 12 min read

Tutorial

GPUStack 入门教程：如何管理多个模型实例

一篇基于真实自建 GPU 服务器（RTX 4090 ×2）的 GPUStack 实战指南，手把手演示部署 Qwen2-7B、Qwen2-1.5B 和 Phi-3-mini...

April 23, 2026 · 12 min read

Tutorial

使用 vLLM 部署大模型：详细步骤 + 参数说明

基于真实自建GPU服务器（RTX 4090 ×2）的vLLM部署全流程：从环境搭建、模型加载、API服务到压测调优，附完整命令、关键参数解释及5个实操踩坑点...

April 23, 2026 · 12 min read

Tutorial

本地部署 Qwen3.6 全流程指南（从 0 到可用）

基于真实自建 GPU 服务器（RTX 4090 ×2）的 Qwen3.6 本地部署实录：vLLM + GPUStack 一键托管，含完整命令、量化配置、推理延迟实测与 7...

April 23, 2026 · 12 min read