快捷搜索:  汽车  科技

深度学习模型参数计算:深度学习之Attention模型详解

深度学习模型参数计算:深度学习之Attention模型详解Show attend and tell: Neural image caption generation with visual attentionAttention的发展Attention的产生起因:《Sequence to Sequence Learning with Neural Networks》Attention模型的引入原因:

深度学习模型参数计算:深度学习之Attention模型详解(1)

转载自:Datawhale(ID:Datawhale)

作者:yif

本文8434字41图,建议阅读22分钟

本文介绍深度学习中的Attention模型。

Attention的产生

起因:《Sequence to Sequence Learning with Neural Networks》

Attention模型的引入原因:

  1. seq2seq将输入序列都压缩成一个固定大小的隐变量,就像我们的压缩文件一样,这个过程是有损压缩的,会迫使丢失许多输入序列中的信息;
  2. 存在着难以对齐的问题。比如中译音“我爱你”“I love you” 输入序列中的“我”应该与“I”对齐(贡献最大),然而在seq2seq模型中,“我”对"I","love","you"的贡献都是一致的。

深度学习模型参数计算:深度学习之Attention模型详解(2)

Attention的发展

Show attend and tell: Neural image caption generation with visual attention

本文可以算是第一篇Attention论文。

深度学习模型参数计算:深度学习之Attention模型详解(3)

该任务是实现图文转换。与前面讲述的seq2seq的问题一样,在之前的图文转换任务中也是存在着难以对齐的问题。所谓难以对齐就是毫无重点。

本文提出了两种attention:

  1. sort Attention
  2. hard Attention

本文的模型结构:

深度学习模型参数计算:深度学习之Attention模型详解(4)

将图片通过一个CNN转换成的LD.这里称L个向量为L个注释向量(annotation vector),D为特征维度,可以认为提取了图片中L个区域的特征。对这L个区域向量加权相加来表示这张图片。由于不同时刻的关注点是不同的,annotation vector还要与decoder中的隐状态进行交互,以便知道下一时刻的关注区域。

深度学习模型参数计算:深度学习之Attention模型详解(5)

猜您喜欢: