关于这个博客
一个工程师的 AI 部署实战记录
我是谁
我是 jackyrwj,是一名软件工程师,日常工作涉及自动化测试和基础设施运维。从 2023 年底开始,我开始在自己的 GPU 服务器上折腾本地大模型,先是为了省 API 费用,后来慢慢变成了一件很上头的事。
目前我主要在跑 Qwen 系列模型,推理框架用 vLLM,模型管理用 GPUStack,前端用 LobeChat。说白了就是自己攒了一套"私有 ChatGPT",日常当编程助手和文档助理用。
为什么写这个博客
刚开始搞本地部署的时候,走了很多弯路。网上的教程要么太旧(跑不通),要么太浅(遇到报错完全不知道怎么排查),要么就是 AI 生成的废话。
我踩过的坑包括但不限于:
- vLLM 因为 CUDA 版本不对启动失败,找了两天才发现
- 显存算错了,模型加载一半 OOM,重启了好几次
- Cloudflare Tunnel 配置不对,外网访问一直 502
- 上下文长度设太大,推理速度慢到怀疑人生
这些问题现在看来都是小事,但当时真的花了很多时间。所以我想把这些经历记录下来,希望能帮到同样在折腾这些东西的人。
这个博客写什么
主要三类内容:
- 教程:从零开始的操作指南,带完整命令和配置,照着做能跑通
- 踩坑:我遇到的真实报错和解决过程,重点在排查思路
- 对比:工具之间的横向对比,给出明确的选型建议
我会尽量避免只是搬运官方文档或者大而全的"介绍文章"。每篇文章都应该解决一个具体的问题,或者让你对某个工具的选择有更清晰的判断。
技术栈
目前在用的工具和环境:
- 硬件:自建 GPU 服务器(NVIDIA)
- 推理框架:vLLM、GPUStack
- 模型:Qwen 系列(Qwen3.6、Qwen3-Coder 等)
- 前端:LobeChat
- 网络:Cloudflare Tunnel 内网穿透
- 容器:Docker
这些工具组合在一起,基本能覆盖日常的个人 AI 使用需求,成本比买云 API 低很多,数据也在自己手里。
联系我
如果你在部署过程中遇到了问题,或者有什么想讨论的,可以通过联系页面给我发消息。我不一定能很快回复,但我会看的。
如果这里的文章对你有帮助,把它分享给有需要的人就是最好的支持。