stone

soft-engineering

Linxia Yao

personal site

welcome to my home ~

Nlp 07 如何处理时序问题 Rnn

2020-02-26 | 阅读：次

RNN概览

LSTM

使用加法，解决梯度消失

加入选择门

一个点乘操作

加入遗忘门

如果信息不停加，最后会导致进入饱和区，训练不了

名字来源

GRU

LSTM简化版GRU

RNN训练

teacher forcing

在训练的时候，用上了正确的标签结果，见图片中序号1

好处：第一个预测错了，不影响第二个
在训练时，用上了预测的结果，见图片中序号2
区别：序号1的训练更快，一般训练用的是第一种方式，计算一样，只是decoder，输入不一样
推理的时候，只能使用第二种

迁移学习

任务A数据很少，任务B数据多
最早用在图像上，因为图像的底层学习到的是局部信息，可以认为B因为数据多，能够很好的学习到底层的信息。其他图像，底层也是由点，线组成的，所以把B底层的参数直接拿过来用。

微调

一般参数更新：w=w+*w
使得*w在一个小的范围内

打赏一个呗

感谢您的支持，我会继续努力的!

扫码支持

扫码支持

扫码打赏，你说多少就多少

支付宝

打开支付宝扫一扫，即可进行扫码打赏哦