跳到內容

技術

嵌入向量 (Embedding)

Embedding

一串數字(向量)用來表示文字、圖片或音訊的語意,意思相近的內容在向量空間裡會靠近。

登入以收藏
Embedding(嵌入向量)是一串固定長度的數字——通常 384、768、1536 或 3072 維——用來編碼輸入的語意。「貓」和「小貓」產生的向量會靠近;「貓」和「微積分」會離很遠。產生 embedding 的模型經過訓練,讓語意相似 = 向量距離近。 它重要的原因是:embedding 是機器做語意搜尋的基礎。把每篇說明文章、商品、圖片、code 片段都轉成向量後,你就能用 cosine similarity 在毫秒內找出最相關的——即使資料庫有上百萬筆。RAG、語意搜尋、推薦、去重、分群全靠它。 舉個例子:你有 5 萬筆客服 ticket。每筆做 embedding(OpenAI text-embedding-3-small 或 BGE),存進向量資料庫,現在「我的密碼重設信沒收到」就能找到「驗證信沒寄達」這類 ticket,不需要任何關鍵字重疊。沒有 embedding 之前,這需要關鍵字精準搜尋或標註資料訓練分類器。 Embedding 也是跨模態連結的方式——CLIP 把圖片和文字 embed 到同一空間,所以「一台紅色跑車」可以找到對應照片。延伸閱讀:vector database、RAG、semantic search、cosine similarity、CLIP。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

嵌入向量 (Embedding) · BuilderWorld