遞迴神經網路 (RNN)

一種逐步處理序列資料的神經網路,透過隱藏狀態將先前的資訊傳遞下去,用來記住上下文。

遞迴神經網路 (RNN) 是一種專門處理序列資料的神經網路,適用於文字、語音、時間序列等「順序很重要」的資料。它不是一次看完整段序列,而是一個一個元素讀,並維護一個會隨著每一步更新的「隱藏狀態」,當作對先前內容的記憶。在 2010 年代中期之前,RNN 是語言模型、機器翻譯、語音辨識的主流架構。你今天還是可能在舊的 NLP 系統、某些裝置端語音模型,或時間序列預測中遇到它。但在大規模語言任務上,它已經幾乎被 Transformer 取代——後者可以平行處理整段序列,也不會有同樣的記憶瓶頸。一個常見比喻:RNN 像是一個字一個字讀小說,腦中只保留一份簡短的摘要。讀到第十章時,第一章的細節早就模糊了——這就是有名的「梯度消失」問題。後來提出的 LSTM 與 GRU 就是為了改善這點,加入「閘門」讓網路自己決定該記住或忘掉什麼。訓練 RNN 還有一個痛點:每一步都要等前一步算完,沒辦法在序列方向上平行運算,在 GPU 上效率很差。這也是 Transformer 勝出的關鍵原因之一。延伸概念:LSTM、GRU、Seq2Seq 模型、注意力機制 (Attention)、Transformer。