LLM Deploy

ollama/ollama

ollama/ollama· Go

一行指令在本機跑開源 LLM，內建 OpenAI 相容 API

在 GitHub 上看 →

登入以收藏

GitHub 數據

Stars: 170,328
Forks: 15,878
Watchers: 959
Open issues: 3,105

meta

License: MIT
主要語言: Go
最後 commit: 2026-04-29
數據抓取時間: 2026-04-29

Ollama 把 llama.cpp 包成類似 Docker 的 CLI：`ollama pull qwen3` 接著 `ollama run` 就能對話。自動處理 GGUF 下載、GPU/CPU 卸載和量化版本，並在 11434 埠開出 REST 與 OpenAI 相容 API。透過 Modelfile 可把系統提示、參數、LoRA 打包成可重用的標籤。macOS（Metal）、Linux、Windows 都能跑。

編輯試用心得

想從「我有一台 Mac/PC」最快走到「我有可用的本機 LLM endpoint」就選 Ollama，本機開發、Demo、以及 Cursor/Continue/Open WebUI 後端幾乎都預設用它。但別拿去做正式的多租戶服務：吞吐量和 batching 跟 vLLM、SGLang 差一截，而且綁死 GGUF 生態。要榨 H100 性能就上 vLLM；要可攜性和零設定就留在這。