跳到内容

架构

LSTM(长短期记忆网络)

LSTM (Long Short-Term Memory)

一种能记住长序列信息的循环神经网络,是 Transformer 出现前处理序列数据的主流架构。

登入以收藏
LSTM(Long Short-Term Memory,长短期记忆网络)是一种循环神经网络(RNN),由 Hochreiter 和 Schmidhuber 在 1997 年提出,目的是解决传统 RNN 处理长序列时会出现的「梯度消失」问题。 LSTM 的核心是一条贯穿整个网络的「cell state」(细胞状态),加上三个门:输入门、遗忘门、输出门。这些门决定每一步要记住什么、忘掉什么、输出什么,让网络可以有选择地保留很久以前的信息,例如一个句子开头的主语。 在 2018 年 Transformer 崛起之前,LSTM 几乎主导了机器翻译、语音识别、手写识别、早期语言模型等领域。Google 翻译早期就是用 LSTM 架构,后来才换成 Transformer。 可以这样想象:读一本长篇小说时,普通 RNN 就像只靠脑袋硬记,读到后面就忘了前面;LSTM 则会带一本笔记本,每翻一页就决定哪些要写下来、哪些要划掉、哪些要念出来,所以读到第 300 页还记得主角名字。 现在在 NLP 领域 LSTM 已经比较少用,但在时间序列预测、嵌入式设备、教学示例中仍然常见。延伸阅读:RNN、GRU、Transformer、attention、seq2seq、梯度消失。

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more