Encoder-Decoder 是一種兩段式的神經網路架構。**編碼器(Encoder)** 負責讀取輸入(一段文字、一張圖片、一段語音),把它壓縮成內部表示——通常是一串能捕捉語意的向量。**解碼器(Decoder)** 再根據這個表示,一步一步生成輸出,輸出形式或語言往往跟輸入不同。 這個架構幾乎是所有「序列對序列(seq2seq)」任務的標配。最早的代表應用是機器翻譯:編碼器讀英文句子,解碼器寫出法文。同樣的模式也用在摘要(長文進、短文出)、語音辨識(音訊進、文字出)、圖像描述(像素進、句子出)。2017 年 Transformer 原始論文《Attention Is All You Need》就是 encoder-decoder 設計,T5 與 BART 也沿用至今。 可以這樣想:一位口譯員先把整段話聽懂(編碼),然後把原文放一邊,用另一種語言重新講出來(解碼)。中間那份「聽懂」就是傳遞給解碼器的中間表示。 但現在的主流大模型不一定兩半都用。**Encoder-only** 模型(如 BERT)擅長分類與生成嵌入向量,只理解不生成;**Decoder-only** 模型(如 GPT、Claude)以自迴歸方式生成文字,已經成為通用 LLM 的主流,因為大多數任務都能改寫成「續寫文字」。當輸入輸出明顯不同時(例如翻譯),encoder-decoder 仍然有優勢。 延伸閱讀:Transformer、注意力機制、seq2seq、BERT、T5、自迴歸生成。