LLM Deploy

vllm-project/vllm

vllm-project/vllm· Python

高吞吐 LLM 推論引擎，OpenAI API 相容

在 GitHub 上看 →

登入以收藏

GitHub 數據

Stars: 78,604
Forks: 16,254
Watchers: 535
Open issues: 4,648

meta

License: Apache-2.0
主要語言: Python
最後 commit: 2026-04-29
數據抓取時間: 2026-04-29

vLLM 是為開源 LLM 打造的生產級推論引擎，核心是 PagedAttention 高效管理 KV cache，搭配 continuous batching 把 GPU 使用率拉滿。提供 OpenAI 相容 HTTP server，現有 client SDK 可直接接上。支援 Llama、Qwen、DeepSeek、MoE，含 multi-LoRA、tensor/pipeline parallel、AWQ/GPTQ/FP8 量化，相容 NVIDIA、AMD ROCm、TPU。`pip install vllm` 或官方 Docker 即可上手。

編輯試用心得

自架開源 LLM 的預設選擇——要吞吐量、多租戶 batching、又要廣泛模型支援，vLLM 很難被打敗。深度綁 HuggingFace 生態可選 TGI；複雜結構化輸出或 agent 場景 SGLang 的 prefix caching 更強；只跑 NVIDIA 又要榨乾每一個 token/sec 就上 TensorRT-LLM。單機本地玩或 CPU 跑小模型請改用 llama.cpp/Ollama。版本迭代很快，生產環境記得鎖版本。