LLM Deploy

ollama/ollama

ollama/ollama· Go

一行命令在本地跑开源 LLM，自带 OpenAI 兼容 API

在 GitHub 上看 →

登入以收藏

GitHub 数据

Stars: 170,328
Forks: 15,878
Watchers: 959
Open issues: 3,105

meta

License: MIT
主要语言: Go
最后 commit: 2026-04-29
数据抓取时间: 2026-04-29

Ollama 把 llama.cpp 包成类似 Docker 的 CLI：`ollama pull qwen3` 然后 `ollama run` 就能对话。自动处理 GGUF 下载、GPU/CPU 卸载和量化版本，并在 11434 端口开出 REST 与 OpenAI 兼容 API。通过 Modelfile 可以把系统提示、参数、LoRA 打包成可复用的 tag。macOS（Metal）、Linux、Windows 都能跑。

编辑试用心得

想从「我有台 Mac/PC」最快走到「我有可用的本地 LLM endpoint」就选 Ollama，本地开发、Demo 以及 Cursor/Continue/Open WebUI 后端几乎都默认用它。但别拿去做正式的多租户服务：吞吐和 batching 跟 vLLM、SGLang 差一截，而且绑死 GGUF 生态。要榨 H100 性能就上 vLLM；要可移植性和零配置就留这儿。