規格
- Context window
- 77
- 模態
- text, image
- Tool use
- —
- 視覺
- ✓
- Streaming
- —
- License
- mit
- 釋出
- 2021-01-05
價格
CLIP(2021 年 1 月)是 OpenAI 對比式語言-圖像預訓練模型——文字 + 圖像聯合編碼器,把兩者嵌進共享的 768 維空間(ViT-Large)。Stable Diffusion、早期 DALL-E、無數多模態檢索流程、圖像分類、NSFW 偵測都建在它上面。MIT 授權、權重公開、單張 GPU 跑得動。ViT-Large/14 用最多;ViT-G/14(OpenCLIP)最大。
編輯試用心得
到 2026 年算老了(五年),但還是無所不在——做電腦視覺 builder 工作,你的棧裡多半有 CLIP 不論你知不知道。新的圖文檢索選 SigLIP 或 BGE-M3(多模態版)更強;中文檢索用專門做的 Chinese-CLIP。CLIP 當歷史地基知道就好;正式上線挑符合你語言跟場景的後繼。
評論
還沒有人留評論。當第一個。
最後更新: 2026-04-29