TensorFlow2 RNN 模型

lijingle 深度学习框架 2022-1-28 14:19 2016人围观

Keras 有 3 个内置的 RNN 层：SimpleRNN、LSTM 和 GRU。

LSTM

从 1000 的词汇量开始，一个词可以用 0 到 999 之间的词索引来表示。例如，单词“side”可以编码为整数 3。

在下面的代码示例中，嵌入层的输入是表示文本的单词索引序列。该层将文本转换为一系列 64 维向量——每个单词一个向量。

接下来，LSTM 层将此向量序列转换为 128 维向量。最后，使用密集层将其转换为 10 维向量。它对每个类进行一个分类预测。

这是模型的摘要。

作为参考，下面的圆角矩形是一个 LSTM 单元。在上面的代码示例中，LSTM 返回最后一个timestep的隐藏状态（一个 128 维向量）作为输出。

GRU

让我们用 GRU 替换 LSTM 模块，并将 return_sequences 设置为 True，它返回每个时间步的所有隐藏状态，而不是最后一个。在下图中，GRU 的每个隐藏状态都被输入到 SimpleRNN 层的相应输入中。我们采用 SimpleRNN 的最后一个隐藏起点，然后将其输入密集层进行分类。

下面是对应的代码：

和模型摘要。

return_sequences

如前所示，我们将 GRU 层的 return_sequences 设置为 True 以返回所有隐藏状态。事实上，LSTM 和 SimpleRNN 也支持这个参数。

return_state

通过将 return_state 设置为 True，LSTM/GRU/SimpleRNN 层会返回输出以及最后一个时间步的隐藏状态。对于 LSTM，它还返回最后一个时间步的单元状态。在下面的示例中，“输出”与最后一个隐藏状态 state_h 具有相同的值。这是多余的。但是如果 return_sequences 等于 True，“输出”包含所有隐藏状态，而不仅仅是最后一个时间步的 state_h。

initial_state

initial_state 张量是第一个时间步的输入隐藏状态和单元状态。默认情况下，LSTM 和 GRU 中的初始状态张量是零填充的。但是在编码器-解码器架构中，我们可以使用编码器的最后一个隐藏状态和单元状态（state_h 和 state_c）来初始化解码器。

Cross-batch statefulness

默认情况下，每批样本都会重置 RNN 单元的初始状态。但是，在某些情况下，我们希望保持batch之间的状态。例如，在元学习中，我们不断地从以前的经验中学习，我们不想重置经验。在其他情况下，输入序列可能太长，因此，我们可能会在训练期间将其分解为子序列。在这种情况下，我们不会重置子序列之间的状态。为了保持样本之间的细胞状态，我们设置 stateful=True。要重置，我们调用 lstm_layer.reset_states。

这是一个示例，其中我们将 3 个段落视为单个样本。我们将单元状态保留在进程中，并仅在完成后将其重置。

双向 RNN

下图显示了一个双向 RNN，其中包含一个前向 LSTM 和一个后向 LSTM。对于每个时间步，我们将前向传播和后向传播的结果合并在一起以生成输出。关于合并的完成方式有不同的选择，例如连接、加法、乘法等……

这是使用双向层构建分类器的代码。

第一个双向 LSTM 的输入形状为 (None, 5, 10)。当 return_sequences=True 时，它输出 5 个隐藏状态。默认情况下，双向 LSTM 将前向和后向传播结果连接在一起（merge_mode='concat'）。因此，第一层的输出是 (None, 5, 128)，它是前向 LSTM 层输出维度的两倍。