LLM Deploy
ollama/ollama
ollama/ollama· Go
一行命令在本地跑开源 LLM,自带 OpenAI 兼容 API
GitHub 数据
- Stars
- 170,328
- Forks
- 15,878
- Watchers
- 959
- Open issues
- 3,105
meta
- License
- MIT
- 主要语言
- Go
- 最后 commit
- 2026-04-29
- 数据抓取时间
- 2026-04-29
Ollama 把 llama.cpp 包成类似 Docker 的 CLI:`ollama pull qwen3` 然后 `ollama run` 就能对话。自动处理 GGUF 下载、GPU/CPU 卸载和量化版本,并在 11434 端口开出 REST 与 OpenAI 兼容 API。通过 Modelfile 可以把系统提示、参数、LoRA 打包成可复用的 tag。macOS(Metal)、Linux、Windows 都能跑。
编辑试用心得
想从「我有台 Mac/PC」最快走到「我有可用的本地 LLM endpoint」就选 Ollama,本地开发、Demo 以及 Cursor/Continue/Open WebUI 后端几乎都默认用它。但别拿去做正式的多租户服务:吞吐和 batching 跟 vLLM、SGLang 差一截,而且绑死 GGUF 生态。要榨 H100 性能就上 vLLM;要可移植性和零配置就留这儿。