LLM Deploy
vllm-project/vllm
vllm-project/vllm· Python
高吞吐 LLM 推理引擎,兼容 OpenAI API
GitHub 数据
- Stars
- 78,604
- Forks
- 16,254
- Watchers
- 535
- Open issues
- 4,648
meta
- License
- Apache-2.0
- 主要语言
- Python
- 最后 commit
- 2026-04-29
- 数据抓取时间
- 2026-04-29
vLLM 是面向开源 LLM 的生产级推理引擎,核心是 PagedAttention 高效管理 KV cache,配合 continuous batching 把 GPU 利用率拉满。提供 OpenAI 兼容 HTTP server,现有 client SDK 可直接接入。支持 Llama、Qwen、DeepSeek、MoE,含 multi-LoRA、tensor/pipeline parallel、AWQ/GPTQ/FP8 量化,兼容 NVIDIA、AMD ROCm、TPU。`pip install vllm` 或官方 Docker 即可。
编辑试用心得
自托管开源 LLM 的默认选择——要吞吐量、多租户 batching、又要广泛模型支持,vLLM 很难被打败。深度绑 HuggingFace 生态可选 TGI;复杂结构化输出或 agent 场景 SGLang 的 prefix caching 更强;只跑 NVIDIA 还想榨干每个 token/sec 就上 TensorRT-LLM。单机本地玩或 CPU 跑小模型请改用 llama.cpp/Ollama。版本迭代飞快,生产环境务必锁版本。