跳到內容

LLM Deploy

vllm-project/vllm

vllm-project/vllm· Python

高吞吐 LLM 推論引擎,OpenAI API 相容

GitHub 數據

Stars
78,604
Forks
16,254
Watchers
535
Open issues
4,648

meta

License
Apache-2.0
主要語言
Python
最後 commit
2026-04-29
數據抓取時間
2026-04-29

vLLM 是為開源 LLM 打造的生產級推論引擎,核心是 PagedAttention 高效管理 KV cache,搭配 continuous batching 把 GPU 使用率拉滿。提供 OpenAI 相容 HTTP server,現有 client SDK 可直接接上。支援 Llama、Qwen、DeepSeek、MoE,含 multi-LoRA、tensor/pipeline parallel、AWQ/GPTQ/FP8 量化,相容 NVIDIA、AMD ROCm、TPU。`pip install vllm` 或官方 Docker 即可上手。

編輯試用心得

自架開源 LLM 的預設選擇——要吞吐量、多租戶 batching、又要廣泛模型支援,vLLM 很難被打敗。深度綁 HuggingFace 生態可選 TGI;複雜結構化輸出或 agent 場景 SGLang 的 prefix caching 更強;只跑 NVIDIA 又要榨乾每一個 token/sec 就上 TensorRT-LLM。單機本地玩或 CPU 跑小模型請改用 llama.cpp/Ollama。版本迭代很快,生產環境記得鎖版本。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more