LLM Deploy

vllm-project/vllm

vllm-project/vllm· Python

高吞吐 LLM 推理引擎，兼容 OpenAI API

在 GitHub 上看 →

登入以收藏

GitHub 数据

Stars: 78,604
Forks: 16,254
Watchers: 535
Open issues: 4,648

meta

License: Apache-2.0
主要语言: Python
最后 commit: 2026-04-29
数据抓取时间: 2026-04-29

vLLM 是面向开源 LLM 的生产级推理引擎，核心是 PagedAttention 高效管理 KV cache，配合 continuous batching 把 GPU 利用率拉满。提供 OpenAI 兼容 HTTP server，现有 client SDK 可直接接入。支持 Llama、Qwen、DeepSeek、MoE，含 multi-LoRA、tensor/pipeline parallel、AWQ/GPTQ/FP8 量化，兼容 NVIDIA、AMD ROCm、TPU。`pip install vllm` 或官方 Docker 即可。

编辑试用心得

自托管开源 LLM 的默认选择——要吞吐量、多租户 batching、又要广泛模型支持，vLLM 很难被打败。深度绑 HuggingFace 生态可选 TGI；复杂结构化输出或 agent 场景 SGLang 的 prefix caching 更强；只跑 NVIDIA 还想榨干每个 token/sec 就上 TensorRT-LLM。单机本地玩或 CPU 跑小模型请改用 llama.cpp/Ollama。版本迭代飞快，生产环境务必锁版本。