嵌入向量 (Embedding)

一串数字（向量）用来表示文字、图片或音频的语义，意思相近的内容在向量空间里会靠近。

Embedding（嵌入向量）是一串固定长度的数字——通常 384、768、1536 或 3072 维——用来编码输入的语义。「猫」和「小猫」产生的向量会靠近；「猫」和「微积分」会离很远。产生 embedding 的模型经过训练，让语义相似 = 向量距离近。它重要的原因是：embedding 是机器做语义搜索的基础。把每篇帮助文章、商品、图片、code 片段都转成向量后，你就能用 cosine similarity 在毫秒内找出最相关的——即使数据库有上百万条。RAG、语义搜索、推荐、去重、聚类全靠它。举个例子：你有 5 万条客服 ticket。每条做 embedding（OpenAI text-embedding-3-small 或 BGE），存进向量数据库，现在「我的密码重置邮件没收到」就能找到「验证邮件没送达」这类 ticket，不需要任何关键字重叠。没有 embedding 之前，这需要关键字精确搜索或标注数据训练分类器。 Embedding 也是跨模态连接的方式——CLIP 把图片和文字 embed 到同一空间，所以「一台红色跑车」可以找到对应照片。延伸阅读：vector database、RAG、semantic search、cosine similarity、CLIP。