跳到内容

架构

Encoder-Decoder(编码器-解码器)

Encoder-Decoder

一种神经网络架构:编码器将输入压缩成中间表示,解码器再据此生成输出,常用于翻译与摘要。

登入以收藏
Encoder-Decoder 是一种两段式的神经网络架构。**编码器(Encoder)** 负责读取输入(一段文字、一张图片、一段语音),把它压缩成内部表示——通常是一串能捕捉语义的向量。**解码器(Decoder)** 再根据这个表示,一步一步生成输出,输出形式或语言往往与输入不同。 这个架构几乎是所有"序列到序列(seq2seq)"任务的标配。最早的代表应用是机器翻译:编码器读英文句子,解码器写出法文。同样的模式也用在摘要(长文进、短文出)、语音识别(音频进、文字出)、图像描述(像素进、句子出)。2017 年 Transformer 原始论文《Attention Is All You Need》就是 encoder-decoder 设计,T5 与 BART 也沿用至今。 可以这样理解:一位口译员先把整段话听懂(编码),然后把原文放一边,用另一种语言重新讲出来(解码)。中间那份"听懂"就是传给解码器的中间表示。 但现在主流大模型不一定两半都用。**Encoder-only** 模型(如 BERT)擅长分类和生成嵌入向量,只理解不生成;**Decoder-only** 模型(如 GPT、Claude)以自回归方式生成文本,已经成为通用 LLM 的主流,因为大多数任务都能改写成"续写文本"。当输入输出明显不同时(比如翻译),encoder-decoder 仍然有优势。 延伸阅读:Transformer、注意力机制、seq2seq、BERT、T5、自回归生成。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more