跳到内容

LLM Deploy

vllm-project/vllm

vllm-project/vllm· Python

高吞吐 LLM 推理引擎,兼容 OpenAI API

GitHub 数据

Stars
78,604
Forks
16,254
Watchers
535
Open issues
4,648

meta

License
Apache-2.0
主要语言
Python
最后 commit
2026-04-29
数据抓取时间
2026-04-29

vLLM 是面向开源 LLM 的生产级推理引擎,核心是 PagedAttention 高效管理 KV cache,配合 continuous batching 把 GPU 利用率拉满。提供 OpenAI 兼容 HTTP server,现有 client SDK 可直接接入。支持 Llama、Qwen、DeepSeek、MoE,含 multi-LoRA、tensor/pipeline parallel、AWQ/GPTQ/FP8 量化,兼容 NVIDIA、AMD ROCm、TPU。`pip install vllm` 或官方 Docker 即可。

编辑试用心得

自托管开源 LLM 的默认选择——要吞吐量、多租户 batching、又要广泛模型支持,vLLM 很难被打败。深度绑 HuggingFace 生态可选 TGI;复杂结构化输出或 agent 场景 SGLang 的 prefix caching 更强;只跑 NVIDIA 还想榨干每个 token/sec 就上 TensorRT-LLM。单机本地玩或 CPU 跑小模型请改用 llama.cpp/Ollama。版本迭代飞快,生产环境务必锁版本。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

vllm-project/vllm · BuilderWorld