MODELS · 模型目錄

CLIP ViT-Large

Name: CLIP ViT-Large
Brand: openai

OpenAI 基礎文字-圖像 embedding,所有擴散模型的地基

openaiclipopen source

前往官網 →API 文件 →

登入以收藏

規格

Context window: 77
模態: text, image
Tool use: —
視覺: ✓
Streaming: —
License: mit
釋出: 2021-01-05

價格

CLIP(2021 年 1 月)是 OpenAI 對比式語言-圖像預訓練模型——文字 + 圖像聯合編碼器,把兩者嵌進共享的 768 維空間(ViT-Large)。Stable Diffusion、早期 DALL-E、無數多模態檢索流程、圖像分類、NSFW 偵測都建在它上面。MIT 授權、權重公開、單張 GPU 跑得動。ViT-Large/14 用最多;ViT-G/14(OpenCLIP)最大。

編輯試用心得

到 2026 年算老了(五年),但還是無所不在——做電腦視覺 builder 工作,你的棧裡多半有 CLIP 不論你知不知道。新的圖文檢索選 SigLIP 或 BGE-M3(多模態版)更強;中文檢索用專門做的 Chinese-CLIP。CLIP 當歷史地基知道就好;正式上線挑符合你語言跟場景的後繼。