深度学习模型参数计算:深度学习之Attention模型详解
深度学习模型参数计算:深度学习之Attention模型详解Show attend and tell: Neural image caption generation with visual attentionAttention的发展Attention的产生起因:《Sequence to Sequence Learning with Neural Networks》Attention模型的引入原因:
转载自:Datawhale(ID:Datawhale)
作者:yif
本文8434字41图,建议阅读22分钟。
本文介绍深度学习中的Attention模型。
Attention的产生
起因:《Sequence to Sequence Learning with Neural Networks》
Attention模型的引入原因:
- seq2seq将输入序列都压缩成一个固定大小的隐变量,就像我们的压缩文件一样,这个过程是有损压缩的,会迫使丢失许多输入序列中的信息;
- 存在着难以对齐的问题。比如中译音“我爱你”“I love you” 输入序列中的“我”应该与“I”对齐(贡献最大),然而在seq2seq模型中,“我”对"I","love","you"的贡献都是一致的。
Attention的发展
Show attend and tell: Neural image caption generation with visual attention
本文可以算是第一篇Attention论文。
该任务是实现图文转换。与前面讲述的seq2seq的问题一样,在之前的图文转换任务中也是存在着难以对齐的问题。所谓难以对齐就是毫无重点。
本文提出了两种attention:
- sort Attention
- hard Attention
本文的模型结构:
将图片通过一个CNN转换成的LD.这里称L个向量为L个注释向量(annotation vector),D为特征维度,可以认为提取了图片中L个区域的特征。对这L个区域向量加权相加来表示这张图片。由于不同时刻的关注点是不同的,annotation vector还要与decoder中的隐状态进行交互,以便知道下一时刻的关注区域。