跳到內容

架構

LSTM(長短期記憶網路)

LSTM (Long Short-Term Memory)

一種能記住長序列資訊的循環神經網路,是 Transformer 出現前處理序列資料的主流架構。

登入以收藏
LSTM(Long Short-Term Memory,長短期記憶網路)是一種循環神經網路(RNN),由 Hochreiter 和 Schmidhuber 在 1997 年提出,目的是解決傳統 RNN 在處理長序列時會出現的「梯度消失」問題。 LSTM 的核心是一條貫穿整個網路的「cell state」(細胞狀態),加上三個閘門:輸入閘、遺忘閘、輸出閘。這些閘門決定每一步要記住什麼、忘掉什麼、輸出什麼,讓網路可以選擇性地保留很久以前的資訊,例如一個句子開頭的主詞。 在 2018 年 Transformer 崛起之前,LSTM 幾乎主導了機器翻譯、語音辨識、手寫辨識、早期語言模型等領域。Google 翻譯早期就是用 LSTM 架構,後來才換成 Transformer。 可以這樣想像:讀一本長篇小說時,一般 RNN 就像只靠腦袋硬記,讀到後面就忘了前面;LSTM 則會帶一本筆記本,每翻一頁就決定哪些要寫下來、哪些要劃掉、哪些要唸出來,所以讀到第 300 頁還記得主角名字。 現在在 NLP 領域 LSTM 已經比較少用,但在時間序列預測、嵌入式裝置、教學範例中仍然常見。延伸閱讀:RNN、GRU、Transformer、attention、seq2seq、梯度消失。

最後更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

LSTM(長短期記憶網路) · BuilderWorld