快捷搜索:  汽车  科技

深度学习模型参数计算:深度学习之Attention模型详解

深度学习模型参数计算:深度学习之Attention模型详解并且文中考虑了四种应用场景:1. Neural Machine Translation ;2. Image Caption Generation ;3. Video Description Generation ;4. End-to-End Neural Speech Recognition。本文同样涉及了soft attention,hard attention。求解形式与上一篇并无差异。结果:Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation本文可以算是第一篇在seq2seq中引入的Attention的论文(2015.07)


用N次蒙特卡洛采用(抛银币)来近似:

深度学习模型参数计算:深度学习之Attention模型详解(1)

在用蒙特卡洛方法估计梯度时可以用滑动平均来减小梯度的方差。在第k个mini-batch时,滑动平均被估计为先前对数似然伴随指数衰减的累加和:

深度学习模型参数计算:深度学习之Attention模型详解(2)

总结

总的来说,这里率先引入了soft attention与hard attention,通过在每一时刻给图片各个区域分配attention权重,来提升语句与特定图块的相关性。

结果:

深度学习模型参数计算:深度学习之Attention模型详解(3)

Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

本文可以算是第一篇在seq2seq中引入的Attention的论文(2015.07)

深度学习模型参数计算:深度学习之Attention模型详解(4)

本文同样涉及了soft attention,hard attention。求解形式与上一篇并无差异。

并且文中考虑了四种应用场景:1. Neural Machine Translation ;2. Image Caption Generation ;3. Video Description Generation ;4. End-to-End Neural Speech Recognition。

Effective Approaches to Attention-based Neural Machine Translation

本文比上一篇晚发表了2个月。。。

文章提出了两种attention的改进版本,即global attention和local attention。

  1. global attention

global attention 在计算context vector 的时候会考虑encoder所产生的全部hidden state。其实就是第一篇文章的attetion方法。

深度学习模型参数计算:深度学习之Attention模型详解(5)

猜您喜欢: