跳到内容

技术

嵌入向量 (Embedding)

Embedding

一串数字(向量)用来表示文字、图片或音频的语义,意思相近的内容在向量空间里会靠近。

登入以收藏
Embedding(嵌入向量)是一串固定长度的数字——通常 384、768、1536 或 3072 维——用来编码输入的语义。「猫」和「小猫」产生的向量会靠近;「猫」和「微积分」会离很远。产生 embedding 的模型经过训练,让语义相似 = 向量距离近。 它重要的原因是:embedding 是机器做语义搜索的基础。把每篇帮助文章、商品、图片、code 片段都转成向量后,你就能用 cosine similarity 在毫秒内找出最相关的——即使数据库有上百万条。RAG、语义搜索、推荐、去重、聚类全靠它。 举个例子:你有 5 万条客服 ticket。每条做 embedding(OpenAI text-embedding-3-small 或 BGE),存进向量数据库,现在「我的密码重置邮件没收到」就能找到「验证邮件没送达」这类 ticket,不需要任何关键字重叠。没有 embedding 之前,这需要关键字精确搜索或标注数据训练分类器。 Embedding 也是跨模态连接的方式——CLIP 把图片和文字 embed 到同一空间,所以「一台红色跑车」可以找到对应照片。延伸阅读:vector database、RAG、semantic search、cosine similarity、CLIP。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more