LSTM（長短期記憶網路）

一種能記住長序列資訊的循環神經網路，是 Transformer 出現前處理序列資料的主流架構。

LSTM（Long Short-Term Memory，長短期記憶網路）是一種循環神經網路（RNN），由 Hochreiter 和 Schmidhuber 在 1997 年提出，目的是解決傳統 RNN 在處理長序列時會出現的「梯度消失」問題。 LSTM 的核心是一條貫穿整個網路的「cell state」（細胞狀態），加上三個閘門：輸入閘、遺忘閘、輸出閘。這些閘門決定每一步要記住什麼、忘掉什麼、輸出什麼，讓網路可以選擇性地保留很久以前的資訊，例如一個句子開頭的主詞。在 2018 年 Transformer 崛起之前，LSTM 幾乎主導了機器翻譯、語音辨識、手寫辨識、早期語言模型等領域。Google 翻譯早期就是用 LSTM 架構，後來才換成 Transformer。可以這樣想像：讀一本長篇小說時，一般 RNN 就像只靠腦袋硬記，讀到後面就忘了前面；LSTM 則會帶一本筆記本，每翻一頁就決定哪些要寫下來、哪些要劃掉、哪些要唸出來，所以讀到第 300 頁還記得主角名字。現在在 NLP 領域 LSTM 已經比較少用，但在時間序列預測、嵌入式裝置、教學範例中仍然常見。延伸閱讀：RNN、GRU、Transformer、attention、seq2seq、梯度消失。