跳到內容
CLIP ViT-Large logo

MODELS · 模型目錄

CLIP ViT-Large

OpenAI 基礎文字-圖像 embedding,所有擴散模型的地基

openaiclipopen source

規格

Context window
77
模態
text, image
Tool use
視覺
Streaming
License
mit
釋出
2021-01-05

價格

CLIP(2021 年 1 月)是 OpenAI 對比式語言-圖像預訓練模型——文字 + 圖像聯合編碼器,把兩者嵌進共享的 768 維空間(ViT-Large)。Stable Diffusion、早期 DALL-E、無數多模態檢索流程、圖像分類、NSFW 偵測都建在它上面。MIT 授權、權重公開、單張 GPU 跑得動。ViT-Large/14 用最多;ViT-G/14(OpenCLIP)最大。

編輯試用心得

到 2026 年算老了(五年),但還是無所不在——做電腦視覺 builder 工作,你的棧裡多半有 CLIP 不論你知不知道。新的圖文檢索選 SigLIP 或 BGE-M3(多模態版)更強;中文檢索用專門做的 Chinese-CLIP。CLIP 當歷史地基知道就好;正式上線挑符合你語言跟場景的後繼。

評論

還沒有人留評論。當第一個。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more