前言
说明:讲解时会对相关文章资料进行思想、结构、优缺点,内容进行提炼和记录,相关引用会标明出处,引用之处如有侵权,烦请告知删除。
转载请注明:DengBoCong
本篇文章主要总结我在学习过程中遇到的RNN、其相关变种,并对相关结构进行说明和结构图展示。内容包括RNN、RecNN、多层、双向、RNNCell等等,同时包括在计算框架(TensorFlow及PyTorch)API层面的一些理解记录。本篇文章不进行深入推导和底层原理介绍,仅做总结记录,感兴趣者可自行根据内容详细查阅资料。
RNN(递归神经网络)包括Recurrent Neural Network和Recursive Neural Network两种,分别为时间递归神经网络和结构递归神经网络。
计算框架版本:
- TensorFlow2.3
- PyTorch1.7.0
相关知识
在进行后面内容的陈述之前,先来简单结合计算框架说明一下vanilla RNN、LSTM、GRU之间的区别。虽然将vanilla RNN、LSTM、GRU这个三个分开讲进行对比,但是不要忘记它们都是RNN,所以在宏观角度都是如下结构:
而它们区别在于中间的那个隐藏状态计算单元,这里贴出它们的计算单元的细节,从左到右分别是vanilla RNN、LSTM、GRU。
看了隐藏单元之后,你有没有发现LSTM和其他两个的输入多了一个cell state,LSTM的门道就在这,cell state 就是实现LSTM的关键(ps:GRU其实也有分hidden state和cell state,不过在GRU中它们两个是相同的)。细节我不去深究,感兴趣的自行查看论文: - RNN
- LSTM
- GRU
我这里就简单的结合TensorFlow和PyTorch说明一下cell state和hidden state,首先看下面两个计算框架的调用(详细参数自行查阅文档,这里只是为了说明state):
1 | # TensorFlow中的LSTM调用 |
以TensorFlow举例(PyTorch默认都返回),当return_state参数设置为True时,将会返回隐藏层状态,即cell_state。在LSTM 的网络结构中,直接根据当前input 数据,得到的输出称为 hidden state,还有一种数据是不仅仅依赖于当前输入数据,而是一种伴随整个网络过程中用来记忆,遗忘,选择并最终影响hidden state结果的东西,称为 cell state。cell state默认是不输出的,它仅对输出 hidden state 产生影响。通常情况,我们不需要访问cell state,但当需要对 cell state 的初始值进行设定时,就需要将其返回。所以在上面的TensorFlow对LSTM的调用中,final_memory_state是最后一个timestep的状态,final_carry_state是最后一个timestep的cell state。既然见到LSTM和GRU,那下面就贴一张它们的状态更新公式图以作记录:
后面简要阐述的所有RNN及其变种,都是代指vanilla RNN、LSTM、GRU三个,只不过为了方便描述,以RNN作为总称进行说明。
TensorFlow中,RNN类是作为如第一张结构图那些的宏观结构,所以它有一个cell参数,你可以根据实际需要传入SimpleRNNCell、LSTMCell和GRUCell(这三个你就可以理解成上面讲的计算单元),它们三个可以单独使用,在一些地方特别管用。
PyTorch中大致是一样的,不过RNN类则是标准的RNN实现的,而不是像Tensorflow那样的架构,PyTorch同样有RNNCell、LSTMCell和GRUCell
标准RNN
RNN忽略单元细节的具体结构图如下。从图中就能够很清楚的看到,上一时刻的隐藏层是如何影响当前时刻的隐藏层的(注意这里Output的数量画少了,看起来不够形象,应该是 $X=[x_1,x_2,…,x_m]$和 $O=[o_1,o_2,…,o_m]$)。这里的Output是对应时间步的状态,而 $s$ 是隐藏状态,一般在实践中用它来初始化RNN。
当然,可以换一种方式画结构图,如下图所示,按照RNN时间线展开。注意了,隐藏层 $s_t$ 不仅取决于 $x_t$ 还取决与 $s_{t-1}$。
从上面总结公式如下:
$$o_t=g(V_{s_t}) \quad\quad (1)$$ $$s_t=f(U_{x_t}+W_{s_{t-1}}) \quad\quad (2)$$
式(1)是输出层的计算公式,输出层是一个全连接层,也就是它的每个节点都和隐藏层的每个节点相连。$V$是输出层的权重矩阵,$g$是激活函数。式(2)是隐藏层的计算公式,它是循环层。$U$ 是输入 $x$ 的权重矩阵,$W$ 是上一次的值作为这一次的输入的权重矩阵,$f$ 是激活函数。从宏观意义上来说,循环层和全连接层的区别就是循环层多了一个权重矩阵 $W$。通过循环带入得下式:
$$o_t=Vf(U_{x_t}+Wf(U_{x_{t-1}}+Wf(U_{x_{t-2}}+Wf(U_{x_{t-3}}+…))))$$
从上面可以看出,循环神经网络的输出值 $o_t$,是受前面历次输入值$x_t$、$x_{t-1}$、$x_{t-2}$、$x_{t-3}$、…影响的,这就是为什么循环神经网络可以往前看任意多个输入值的原因。
双向RNN
论文:Link
从上图可以看出,双向RNN的隐藏层要保存两个值,一个 $A$ 参与正向计算,另一个值 $A’$ 参与反向计算(注意了,正向计算和反向计算不共享权重),最终的输出值取决于 $A$ 和 $A’$ 的计算方式。其计算方法有很多种,这里结合TensorFlow和PyTorch说明:
1 | # TensorFlow中,需要使用Bidirectional来实现双向RNN,如下所示 |
Multi-layer(stacked) RNN
将多个RNN堆叠成多层RNN,每层RNN的输入为上一层RNN的输出,如下图所示。多层 (Multi-layer) RNN 效果很好,但可能会常用到 skip connections 的方式
深度循环神经网络
前面我们介绍的循环神经网络只有一个隐藏层,我们当然也可以堆叠两个以上的隐藏层,这样就得到了深度循环神经网络,如下图所示:
我们把第 $i$ 个隐藏层的值表示为 $s_t^{(i)}$、$s_t^{‘(i)}$,则深度循环神经网络的计算方式可以表示为:
$$o_t=g(V^{(i)}s_t^{(i)}+V^{‘(i)}s_t^{‘(i)})$$ $$s_t^{(i)}=f(U^{(i)}s_t^{(i-1)}+W^{(i)}s_{t-1})$$ $$s_t^{‘(i)}=f(U^{‘(i)}s_t^{‘(i-1)}+W^{‘(i)}s_{t+1}^{‘})$$ $$s_t^{(1)}=f(U^{(1)}x_t+W^{(1)}s_{t-1})$$ $$s_t^{‘(1)}=f(U^{‘(1)}x_t+W^{‘(1)}s_{t+1}^{‘})$$
Recursive Neural Network
RNN适用于序列建模,而许多NLP问题需要处理树状结构,因此提出了RecNN的概念。与RNN将前序句子编码成状态向量类似,RecNN将每个树节点编码成状态向量。RecNN中的每棵子树都由一个向量表示,其值由其子节点的向量表示递归确定。
RecNN接受的输入为一个有n个单词的句子的语法分析树,每个单词都表示为一个向量,语法分析树表示为一系列的生成式规则。举个例子,The boy saw her duck的分析树如下图:
对应的生成式规则(无标签+有标签)如下图:
RecNN的输出为句子的内部状态向量(inside state vectors),每一个状态向量都对应一个树节点。具体RecNN细节自行详细查阅资料。
补充
普遍来看, 神经网络都会有梯度消失和梯度爆炸的问题,其根源在于现在的神经网络在训练的时候,大多都是基于BP算法,这种误差向后传递的方式,即多元函数求偏导中,链式法则会产生 vanishing,而 RNN 产生梯度消失的根源是权值矩阵复用。
循环神经网络的训练算法:BPTT
BPTT算法是针对循环层的训练算法,它的基本原理和BP算法是一样的,也包含同样的三个步骤:
- 前向计算每个神经元的输出值
- 反向计算每个神经元的误差项 $\delta_j$ 值,它是误差函数 $E$ 对神经元 $j$ 的加权输入 $net_j$ 的偏导数
- 计算每个权重的梯度
- 最后再用随机梯度下降算法更新权重。
RNN的梯度爆炸和消失问题
不幸的是,实践中前面介绍的几种RNNs并不能很好的处理较长的序列。一个主要的原因是,RNN在训练中很容易发生梯度爆炸和梯度消失,这导致训练时梯度不能在较长序列中一直传递下去,从而使RNN无法捕捉到长距离的影响。通常来说,梯度爆炸更容易处理一些。因为梯度爆炸的时候,我们的程序会收到NaN错误。我们也可以设置一个梯度阈值,当梯度超过这个阈值的时候可以直接截取。梯度消失更难检测,而且也更难处理一些。总的来说,我们有三种方法应对梯度消失问题:
- 合理的初始化权重值。初始化权重,使每个神经元尽可能不要取极大或极小值,以躲开梯度消失的区域。
- 使用 $relu$ 代替 $sigmoid$ 和 $tanh$ 作为激活函数。
- 使用其他结构的RNNs,比如长短时记忆网络(LTSM)和Gated Recurrent Unit(GRU),这是最流行的做法。
参考资料: