Embedding(嵌入向量)是一串固定長度的數字——通常 384、768、1536 或 3072 維——用來編碼輸入的語意。「貓」和「小貓」產生的向量會靠近;「貓」和「微積分」會離很遠。產生 embedding 的模型經過訓練,讓語意相似 = 向量距離近。 它重要的原因是:embedding 是機器做語意搜尋的基礎。把每篇說明文章、商品、圖片、code 片段都轉成向量後,你就能用 cosine similarity 在毫秒內找出最相關的——即使資料庫有上百萬筆。RAG、語意搜尋、推薦、去重、分群全靠它。 舉個例子:你有 5 萬筆客服 ticket。每筆做 embedding(OpenAI text-embedding-3-small 或 BGE),存進向量資料庫,現在「我的密碼重設信沒收到」就能找到「驗證信沒寄達」這類 ticket,不需要任何關鍵字重疊。沒有 embedding 之前,這需要關鍵字精準搜尋或標註資料訓練分類器。 Embedding 也是跨模態連結的方式——CLIP 把圖片和文字 embed 到同一空間,所以「一台紅色跑車」可以找到對應照片。延伸閱讀:vector database、RAG、semantic search、cosine similarity、CLIP。