嵌入向量 (Embedding)

一串數字（向量）用來表示文字、圖片或音訊的語意，意思相近的內容在向量空間裡會靠近。

Embedding（嵌入向量）是一串固定長度的數字——通常 384、768、1536 或 3072 維——用來編碼輸入的語意。「貓」和「小貓」產生的向量會靠近；「貓」和「微積分」會離很遠。產生 embedding 的模型經過訓練，讓語意相似 = 向量距離近。它重要的原因是：embedding 是機器做語意搜尋的基礎。把每篇說明文章、商品、圖片、code 片段都轉成向量後，你就能用 cosine similarity 在毫秒內找出最相關的——即使資料庫有上百萬筆。RAG、語意搜尋、推薦、去重、分群全靠它。舉個例子：你有 5 萬筆客服 ticket。每筆做 embedding（OpenAI text-embedding-3-small 或 BGE），存進向量資料庫，現在「我的密碼重設信沒收到」就能找到「驗證信沒寄達」這類 ticket，不需要任何關鍵字重疊。沒有 embedding 之前，這需要關鍵字精準搜尋或標註資料訓練分類器。 Embedding 也是跨模態連結的方式——CLIP 把圖片和文字 embed 到同一空間，所以「一台紅色跑車」可以找到對應照片。延伸閱讀：vector database、RAG、semantic search、cosine similarity、CLIP。