LSTM（长短期记忆网络）

一种能记住长序列信息的循环神经网络，是 Transformer 出现前处理序列数据的主流架构。

LSTM（Long Short-Term Memory，长短期记忆网络）是一种循环神经网络（RNN），由 Hochreiter 和 Schmidhuber 在 1997 年提出，目的是解决传统 RNN 处理长序列时会出现的「梯度消失」问题。 LSTM 的核心是一条贯穿整个网络的「cell state」（细胞状态），加上三个门：输入门、遗忘门、输出门。这些门决定每一步要记住什么、忘掉什么、输出什么，让网络可以有选择地保留很久以前的信息，例如一个句子开头的主语。在 2018 年 Transformer 崛起之前，LSTM 几乎主导了机器翻译、语音识别、手写识别、早期语言模型等领域。Google 翻译早期就是用 LSTM 架构，后来才换成 Transformer。可以这样想象：读一本长篇小说时，普通 RNN 就像只靠脑袋硬记，读到后面就忘了前面；LSTM 则会带一本笔记本，每翻一页就决定哪些要写下来、哪些要划掉、哪些要念出来，所以读到第 300 页还记得主角名字。现在在 NLP 领域 LSTM 已经比较少用，但在时间序列预测、嵌入式设备、教学示例中仍然常见。延伸阅读：RNN、GRU、Transformer、attention、seq2seq、梯度消失。