怎么用单张 GPU 自架一套 LLM stack(2026)

2026 年自架 LLM 真的可行。一张 4090 跑量化过的 70B。一张 H100 跑同一个未量化版。硬件是简单的部分 — 你挑的软件 stack 决定自架是好玩、生产力工具、还是全职工作。

Hobby 等级:Ollama

晚上玩跟学习,Ollama 是对的起点。一个指令(ollama run llama3.1)就下载并跑任何热门模型。GGUF 量化、GPU 检测、模型存储、OpenAI 兼容 API 全部自动处理。DX 真的好。

什么时候用 Ollama:在学习、做原型、side project 不需要超出自己机器的 scale、想试多个模型不想 commit。

弱点:不是为高吞吐建的。并发请求会序列化、没有 batching、OpenAI 兼容 API 不完整。不要放在真实用户前面。

LM Studio 是 Ollama 的 GUI 表亲 — Mac/Windows/Linux 桌面 app,Ollama 能做的它都能做,加上模型搜索、chat UI、可以给 script 打的 server。对非工程师更好用,工程师会觉得比 Ollama 略不可骇一点。

什么时候用 LM Studio:想在本地模型上有 chat UI、想下模型不用跟 Hugging Face 角力、想让朋友或非工程师协作者用本地模型。

比 Ollama 多控制,没那么精致。text-generation-webui(oobabooga)是杂货店 — 支持更多模型格式、更细采样控制、roleplay 优化。KoboldCpp 是著重故事 / RP 的分支。llama.cpp 自己就是这些东西包的核心。

什么时候用这些:想调采样参数、把 RP 角色聊天当兴趣、特别需要 GGUF 支援、想找项目学习。

认真部署都用 vLLM。连续 batching、paged attention、跨多 GPU 的 tensor 并行、FP16 / INT8 / INT4 量化、OpenAI 兼容 API。吞吐量比 Ollama 或 text-gen-webui 高很多。

什么时候用 vLLM:把模型放在真产品后面、有多并发用户、需要可预期延迟、至少一个能仔细读文件的工程师。

弱点:不是即插即用。第一次会跟 GPU 内存配置、模型载入、config 角力。回报是一个 server 能轻松处理 100+ 并发请求。

HuggingFace TGI — vLLM 主要对手,也好。优化选择略不同。看你用的特定模型谁支援得好就选谁。
llama.cpp server — CPU only 或中等 GPU 部署。比 vLLM 慢,但能在 vLLM 拒绝的硬件上 work。
Modal / RunPod / Together — 受管自架。你不跑 GPU,你跑 code,在他们的 GPU 上执行。想要自架灵活但不拥有硬件的中庸选项。
SGLang — vLLM 较新对手,某些 workload 上有时更快。如果你被吞吐量绑住,值得比较。

2026 年单机配置:

RTX 4090(24GB) — 跑 70B Q4 量化舒服、13B 未量化、所有 7B 都自由。二手约 $1800。
RTX 5090(32GB) — 比 4090 好,70B Q5/Q6 量化能跑。零售约 $2500-3000。
2× RTX 4090 — 两张卡用 tensor 并行跑 70B 更高品质。二手约 $3600 + 不错的 PSU。
A100 / H100 — 个人用过头,小团队有意义。二手 A100 80GB 约 $8-12k。
Mac Studio M3 Ultra — 因为统一内存出乎意料能打。192GB 共享内存能跑 70B 未量化。每 token 慢,但没有其他 2026 桌面消费级硬件能跑这 size 的模型。

云端 GPU(不买硬件):Lambda Labs、RunPod、Together、Modal 都稳。按小时付费代表你只在用的时候付,但 24/7 server 大概 6 个月后自有硬件比较划算。

GGUF 格式(Q4_K_M、Q5_K_M、Q6_K、Q8_0)用品质换 size。粗略法则:

Production 自架,Q5_K_M 或 Q6_K 是甜蜜点。AWQ 跟 GPTQ 是 vLLM 支持的替代量化格式 — trade-off 不同但结果类似。

每月在 Anthropic API 上花 $300,在考虑自架?不要。硬件 $2000+、电费是真的、你的时间是真的。留在 API。

你有 ops 能力吗?团队只有一个工程师同时对产品负责,不要再加自架 GPU server。半夜两点挂掉的那天,不是学 vLLM 内部的时候。

模型适合你的场景吗?先在 API 上跑实验。如果 Claude 或 GPT 在产品上 work,换自架 Llama 代表接受一些品质下降,常常超过你预期。不要把自架当第一个成本优化。

小型 production 部署:

这个 stack 在典型聊天 workload 下能轻松处理 50-100 并发用户。