【DL】1 RNN入门——李宏毅机器学习课程RNN笔记

阅读量：3917 次

发布时间：2019-05-23

本文共 2292 字，大约阅读时间需要 7 分钟。

Recurrent Neural Network

1. 应用实例（为什么需要RNN？）

槽位填充

通过Feedforward网络解决槽位填充问题？

输入：一个单词(每一个词都用一个向量表示)

输出：属于槽的输入字的概率分布情况

注：如何将每个单词表示为一个向量？

1-of-N encoding
矢量是词库大小，每一个维度都对应着词典中的一个词，该词的维度为1，其他维度为0。

Beyond 1-of-N encoding
Dimension for “Other”

Word hashing

前向网络问题：

arrive Taipei on November 2nd

leave Taipei on November 2nd

希望神经网络在输入Taipei 的时候记住前一个词’leave’或者’arrive’，这就是RNN

2. RNN基本概念

隐藏层的输出存储在存储器中，记忆可以被认为是另一种输入

假设所有的权重都是 “1”，没有bias，所有激活函数都是线性的，结果如下图所示：

在这里插入图片描述

改变序列顺序将改变输出！

对于以上填充槽问题，同样的网络一用再用：

在这里插入图片描述

当然，它可以深…

在这里插入图片描述

艾尔曼(Elman)网络和约旦(Jordan)网络(有更好的表现)

在这里插入图片描述

双向(Bidirectional)RNN

3. Long Short-term Memory (LSTM)

在这里插入图片描述

仔细来看，LSTM形式如下：

在这里插入图片描述

激活函数f通常是一个sigmoid函数，在0和1之间，模仿开关门(注：forget gate打开是记得，关上是遗忘)

有一个LSTM的例子，如下：

在这里插入图片描述

当x2=1时，将x1的数字加到存储器中

当x2=-1时，重置内存

当x3=1时，输出存储器中的数字

更具体的例子在的28：16，如下：

在这里插入图片描述

LSTM和以前学的神经网络有什么关系呢？

原网络：

只需将神经元替换为LSTM即可：

在这里插入图片描述

LSTM和RNN关系是什么呢？

把一排LSTM接起来，组成vector：

多层LSTM，这是相当标准的了：

不要担心，如果你不能理解这一点，Keras可以处理。Keras支持"LSTM"、“GRU”(LSTM的简化版本)、"SimpleRNN "Layers

4. RNN使用

4.1 Loss function

在这里插入图片描述

4.2 训练方法

时间回溯传播（BPTT）

不幸的是（问题）：基于RNN的网络并不总是容易学习的

误差面(error surface)很粗糙，误差面要么很平，要么很陡

在这里插入图片描述

为什么RNN会有这种奇怪的特性？

并不是因为使用sigmoid function导致梯度消失导致误差变化很小，下面举例说明为什么

在这里插入图片描述

假设：

w = 1， $y^{1000} = 1$

w = 1.01， $y^{1000} = 20000$ → large $\partial L / \partial w$ → 调小学习率

w = 0.99， $y^{1000} = 0$

w = 0.01， $y^{1000} = 0$ → small $\partial L / \partial w$ → 调大学习率

怎么解决？

Long Short-term Memory (LSTM)可以处理梯度消失(不是梯度爆炸)，为什么能解决？（门控循环单元（Gated Recurrent Unit, GRU）：比LSTM简单）
- 内存和输入是增加的
- 影响力永远不会消失，除非忘记门被关闭（无梯度消失(如果忘记门被打开)）

Clockwise RNN

Structurally Constrained Recurrent Network (SCRN)

Vanilla RNN初始化，Identity matrix + ReLU激活函数

5. RNN的应用前景

之前，输入和输出都是相同长度的序列，RNN可以做得更多!

多对一
输入是一个向量序列，但输出只有一个向量

多对多
输入和输出都是序列，但输出较短，例如：语音识别

解决办法：Connectionist Temporal Classification (CTC) ，增加一个代表 "空 "的符号 “φ”。

CTC训练，穷举所有的结果：

多对多（无限制）
输入和输出都是长度不同的序列→ 序列到序列的学习，如：机器翻译（machine learning→机器学习）

所以需要增加一个符号"==="（断）

在这里插入图片描述

超越序列
句法解析

序列到序列
自动编码器 - 文本
要理解词序的含义，不能忽视词的顺序，例如一字不差却含义不同的例子：
- white blood cells destroying an infection(positive)
- an infection destroying white blood cells(negative)