RNN,注意力

如何让RNN神经元拥有基础通用的注意力能力

Submitted by huzhenda on Sat, 09/22/2018 - 14:34

循环神经网络(RNNs)是序列建模中被广泛使用的网络结构,它通过控制当前信息以及历史信息的贡献大小来实现序列信息的积累。RNN神经元将当前时刻的输入向量作为一个整体,通过门设计控制其信息载入到模型的信息量。然而,输入向量中的不同元素通常具有不同的重要性,RNNs忽略了对此重要属性的探索及利用以加强网络能力。

为此,微软亚洲研究院和西安交通大学合作,提出了通过对RNN层加入一个简单有效的元素注意力门,使得RNN神经元自身拥有基础通用的注意力能力,对不同的元素自适应地赋予不同的重要性来更加细粒度地控制输入信息流。该注意力门设计简单,并且通用于不同的RNN结构以及不同的任务。

RNN的网络结构

循环神经网络(Recurrent Neural Networks, 缩写RNNs),例如标准RNN、LSTM、GRU等,已经被广泛用于对时间序列数据的处理和建模,来解决许多应用问题,例如行为识别、机器翻译、手写识别等。RNN在对时域动态特性建模以及特征学习上具有强大的能力。如图1所示,在每个时间步,RNN神经元通过当前时刻的输入x_t和前一时刻的隐状态信息h_(t-1)来更新当前时刻的隐状态h_t,从而具有对历史信息的记忆性。