本地模型 vs 云端模型:成本、性能、体验全面对比
基于我自建4×RTX 4090服务器(vLLM+Qwen2-7B-Instruct+GPUStack)与阿里百炼、OpenRouter的6个月实测,从每千token成本、...
All hands-on articles — tutorials, troubleshooting, and comparisons, updated regularly
基于我自建4×RTX 4090服务器(vLLM+Qwen2-7B-Instruct+GPUStack)与阿里百炼、OpenRouter的6个月实测,从每千token成本、...
基于实测数据(Qwen2-7B、A100 80G、吞吐+延迟+内存占用),对比vLLM与Ollama在生产部署中的真实表现,给出明确选型建议:高并发API服务选vLLM...
基于自建 GPU 服务器实测,对比 Qwen3.6 和 Qwen3-Coder 在代码生成、推理速度、显存占用和通用对话场景的真实表现,给出明确的选型建议。
亲身踩坑实录:vLLM部署Qwen-7B时因max_model_len配置不当触发context overflow,导致API直接500。本文详解报错定位、三步修复(co...
汇总 Cloudflare Tunnel 内网穿透部署中的 6 个高频报错和诡异现象,包括 502 Bad Gateway、隧道断开、证书错误、DNS 不生效等,附带排查命令和完整解决步骤。
亲历自建GPU服务器部署Qwen/vLLM时反复卡在docker pull环节,总结5类真实报错:网络超时、认证失效、镜像名拼写错误、私有仓库403、镜像层校验失败,并附...
亲身踩坑实录:从 Qwen2-7B 在 vLLM 上吞吐仅 3.2 tok/s 到 28.7 tok/s 的全链路排查。聚焦显存带宽、PCIe 瓶颈、CUDA Graph...
亲身踩坑实录:从 vLLM 启动报 OOM 到 Qwen2-7B 成功跑在 12GB 显存的 RTX 4090 上。详解量化、PagedAttention 调优、GPUS...
亲身踩坑总结:vLLM 启动报错 'CUDA out of memory'、'Failed to load model'、'No module named vllm.en...
生产环境中 Qwen 的思考机制会显著增加首字延迟与端到端耗时。本文基于 vLLM 与 GPUStack 实战,提供完整禁用参数、API 透传方式及压测对比数据,帮你快速...
基于Qwen2-7B、vLLM 0.6.3和RTX 4090实测:不盲目拉高max-model-len,而是按显存余量+推理模式动态设值——附完整CLI命令、config...
手把手教你用 cloudflared tunnel 将本地 vLLM 或 Ollama 的 /v1/chat/completions 接口安全暴露到公网,无需公网 IP、...
手把手教你用 frp 实现 Qwen2-7B + vLLM 的安全外网 API 暴露,含完整配置、实测吞吐、HTTPS 自动证书及 3 个真实踩坑点...
一篇基于真实GPU服务器(RTX 4090 ×2)的Docker部署教程,手把手用vLLM跑通Qwen2-7B-Instruct,含完整命令、实测吞吐、显存占用和5个血泪...
手把手教你用 vLLM 跑通本地 Qwen 模型,并完美对接 LobeChat。包含完整 Docker 启动命令、环境变量配置、CORS 与超时参数调优,本地部署实测首字...
基于 Qwen2-7B-Instruct + vLLM + FastAPI + Gradio,全程在 Ubuntu 24.04 + RTX 4090 单卡上实测部署,含完...
一篇基于真实自建 GPU 服务器(RTX 4090 ×2)的 GPUStack 实战指南,手把手演示部署 Qwen2-7B、Qwen2-1.5B 和 Phi-3-mini...
基于真实自建GPU服务器(RTX 4090 ×2)的vLLM部署全流程:从环境搭建、模型加载、API服务到压测调优,附完整命令、关键参数解释及5个实操踩坑点...
基于真实自建 GPU 服务器(RTX 4090 ×2)的 Qwen3.6 本地部署实录:vLLM + GPUStack 一键托管,含完整命令、量化配置、推理延迟实测与 7...