LLM Deploy
ollama/ollama
ollama/ollama· Go
一行指令在本機跑開源 LLM,內建 OpenAI 相容 API
GitHub 數據
- Stars
- 170,328
- Forks
- 15,878
- Watchers
- 959
- Open issues
- 3,105
meta
- License
- MIT
- 主要語言
- Go
- 最後 commit
- 2026-04-29
- 數據抓取時間
- 2026-04-29
Ollama 把 llama.cpp 包成類似 Docker 的 CLI:`ollama pull qwen3` 接著 `ollama run` 就能對話。自動處理 GGUF 下載、GPU/CPU 卸載和量化版本,並在 11434 埠開出 REST 與 OpenAI 相容 API。透過 Modelfile 可把系統提示、參數、LoRA 打包成可重用的標籤。macOS(Metal)、Linux、Windows 都能跑。
編輯試用心得
想從「我有一台 Mac/PC」最快走到「我有可用的本機 LLM endpoint」就選 Ollama,本機開發、Demo、以及 Cursor/Continue/Open WebUI 後端幾乎都預設用它。但別拿去做正式的多租戶服務:吞吐量和 batching 跟 vLLM、SGLang 差一截,而且綁死 GGUF 生態。要榨 H100 性能就上 vLLM;要可攜性和零設定就留在這。