规格
- Context window
- 77
- 模态
- text, image
- Tool use
- —
- 视觉
- ✓
- Streaming
- —
- License
- mit
- 释出
- 2021-01-05
价格
CLIP(2021 年 1 月)是 OpenAI 对比式语言-图像预训练模型——文字 + 图像联合编码器,把两者嵌进共享的 768 维空间(ViT-Large)。Stable Diffusion、早期 DALL-E、无数多模态检索流程、图像分类、NSFW 检测都建在它上面。MIT 许可、权重公开、单张 GPU 跑得动。ViT-Large/14 用最多;ViT-G/14(OpenCLIP)最大。
编辑试用心得
到 2026 年算老了(五年),但还是无所不在——做计算机视觉 builder 工作,你的栈里多半有 CLIP 不论你知不知道。新的图文检索选 SigLIP 或 BGE-M3(多模态版)更强;中文检索用专门做的 Chinese-CLIP。CLIP 当历史地基知道就好;正式上线挑符合你语言跟场景的后继。
评论
还没有人留评论。当第一个。
最后更新: 2026-04-29