我是谁

我是 jackyrwj,是一名软件工程师,日常工作涉及自动化测试和基础设施运维。从 2023 年底开始,我开始在自己的 GPU 服务器上折腾本地大模型,先是为了省 API 费用,后来慢慢变成了一件很上头的事。

目前我主要在跑 Qwen 系列模型,推理框架用 vLLM,模型管理用 GPUStack,前端用 LobeChat。说白了就是自己攒了一套"私有 ChatGPT",日常当编程助手和文档助理用。

为什么写这个博客

刚开始搞本地部署的时候,走了很多弯路。网上的教程要么太旧(跑不通),要么太浅(遇到报错完全不知道怎么排查),要么就是 AI 生成的废话。

我踩过的坑包括但不限于:

  • vLLM 因为 CUDA 版本不对启动失败,找了两天才发现
  • 显存算错了,模型加载一半 OOM,重启了好几次
  • Cloudflare Tunnel 配置不对,外网访问一直 502
  • 上下文长度设太大,推理速度慢到怀疑人生

这些问题现在看来都是小事,但当时真的花了很多时间。所以我想把这些经历记录下来,希望能帮到同样在折腾这些东西的人。

这个博客写什么

主要三类内容:

  • 教程:从零开始的操作指南,带完整命令和配置,照着做能跑通
  • 踩坑:我遇到的真实报错和解决过程,重点在排查思路
  • 对比:工具之间的横向对比,给出明确的选型建议

我会尽量避免只是搬运官方文档或者大而全的"介绍文章"。每篇文章都应该解决一个具体的问题,或者让你对某个工具的选择有更清晰的判断。

技术栈

目前在用的工具和环境:

  • 硬件:自建 GPU 服务器(NVIDIA)
  • 推理框架:vLLM、GPUStack
  • 模型:Qwen 系列(Qwen3.6、Qwen3-Coder 等)
  • 前端:LobeChat
  • 网络:Cloudflare Tunnel 内网穿透
  • 容器:Docker

这些工具组合在一起,基本能覆盖日常的个人 AI 使用需求,成本比买云 API 低很多,数据也在自己手里。

联系我

如果你在部署过程中遇到了问题,或者有什么想讨论的,可以通过联系页面给我发消息。我不一定能很快回复,但我会看的。

如果这里的文章对你有帮助,把它分享给有需要的人就是最好的支持。