深度学习模型参数计算:深度学习之Attention模型详解
深度学习模型参数计算:深度学习之Attention模型详解并且文中考虑了四种应用场景:1. Neural Machine Translation ;2. Image Caption Generation ;3. Video Description Generation ;4. End-to-End Neural Speech Recognition。本文同样涉及了soft attention,hard attention。求解形式与上一篇并无差异。结果:Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation本文可以算是第一篇在seq2seq中引入的Attention的论文(2015.07)
用N次蒙特卡洛采用(抛银币)来近似:
在用蒙特卡洛方法估计梯度时可以用滑动平均来减小梯度的方差。在第k个mini-batch时,滑动平均被估计为先前对数似然伴随指数衰减的累加和:
总结
总的来说,这里率先引入了soft attention与hard attention,通过在每一时刻给图片各个区域分配attention权重,来提升语句与特定图块的相关性。
结果:
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
本文可以算是第一篇在seq2seq中引入的Attention的论文(2015.07)
本文同样涉及了soft attention,hard attention。求解形式与上一篇并无差异。
并且文中考虑了四种应用场景:1. Neural Machine Translation ;2. Image Caption Generation ;3. Video Description Generation ;4. End-to-End Neural Speech Recognition。
Effective Approaches to Attention-based Neural Machine Translation
本文比上一篇晚发表了2个月。。。
文章提出了两种attention的改进版本,即global attention和local attention。
- global attention
global attention 在计算context vector 的时候会考虑encoder所产生的全部hidden state。其实就是第一篇文章的attetion方法。