昔日王者RNN模型卷土重来，欲与Transformer一较高下

北茗的AI笔记

2024-10-15 15:04发布于黑龙江

全文1209字，阅读约需4分钟，帮我划重点

划重点

01Borealis AI的研究人员尝试重拾RNN，探索其能否解决当前LLM的局限性。

02通过消除输入中的隐状态依赖，研究人员提出了无需反向传播且可以并行训练的新方式。

03简化版的LSTM和GRU（minLSTM和minGRU）大幅削减了参数量，训练速度比传统RNN快了175倍和235倍。

04尽管如此，minRNN在小规模实验中的竞争力令人欣慰，但在大规模实验中能否超越Transformer仍需验证。

05未来序列建模可能采用RNN和Transformer的混合方式，以最大化二者的优势。

以上内容由腾讯混元大模型生成，仅供参考

当年Jürgen Schmidhuber那句“循环神经网络（RNN）是我们所需要的一切”，如今似乎又有了新的佐证。尽管Transformer模型已在自然语言处理领域占据主导地位，尤其在大语言模型领域表现亮眼，但它们仍然在处理长序列时面临挑战。

为了弥补这个短板，研究人员尝试了多种架构，比如Mamba等。不过，Borealis AI的研究人员决定重拾RNN，探索其能否解决当前LLM的局限性。

深度学习之父之一Yoshua Bengio领导的研究团队指出，早期的RNN（如LSTM和GRU）因需经过繁琐的反向传播（BPTT）过程，导致训练速度缓慢。Schmidhuber对此常引以为豪。研究人员则反思道：“难道RNN才是我们需要的吗？” 他们通过消除输入中的隐状态依赖，提出了一种无需反向传播且可以并行训练的新方式。

RNN为何卷土重来？

研究团队推出了简化版的LSTM和GRU，分别命名为minLSTM和minGRU。这些“极简版”模型较传统RNN大幅削减了参数量，并且可以通过并行扫描算法训练，大幅提升了训练速度。数据显示，在处理长度为512的序列时，minGRU和minLSTM每步训练速度比传统GRU和LSTM快了175倍和235倍。

有开发者表达了对minGRU架构的喜爱，他提到新提议的隐状态和混合因子仅依赖当前token，若在训练时已知整个序列，便能并行计算所有状态，并线性时间内通过并行扫描合并结果。

尽管如此，这位开发者也指出，minRNN在小规模实验中的竞争力令人欣慰，但是否能在大规模实验中超越Transformer，还需进一步验证。

Transformer的不可替代性？

Transformer在处理长序列时可以随时检索过去的信息，这在类似ChatGPT的交互场景中极具优势。它可以实时从上下文中提取重要信息，而RNN则是逐步更新和覆盖其记忆，因此它们需要更好地预测哪些信息将来可能重要，并将其保留。

虽然一些混合模型，如Jamba，将Transformer与RNN的优势结合，但Transformer在上下文处理中的优势依然不容忽视。

早在2019年，研究人员就曾在《Single-Headed Attention RNN: Stop Thinking With Your Head》一文中提出LSTM可以达到接近SOTA的水平，暗示Transformer的风头或许有些“过度吹嘘”。

RNN或许能大放异彩

某位Reddit用户早些时候预测，RNN将在找到更好的训练方法和自适应计算时间方案后回归。他指出，随着模型变得多模态并开始处理大量图像、视频、声音等信息时，Transformer将因存储整个序列的需求而面临内存瓶颈，而RNN则天生无需存储所有数据，更适合应对这些挑战。

最终，minLSTM和minGRU的提出，似乎验证了这一观点：极简版RNN通过削减参数量和训练时间，在可扩展性上超过了传统RNN，并有望在与Transformer的竞争中取得更大优势。

或许，未来的序列建模将采用RNN和Transformer的混合方式，以最大化二者的优势。这种效率和简洁兼具的新方法，可能正是我们在大数据时代所需要的答案。

查看原图 43K