深度学习模型参数计算：深度学习之Attention模型详解

逗爷 2022-11-05 12:25:23 670

深度学习模型参数计算：深度学习之Attention模型详解Show attend and tell: Neural image caption generation with visual attentionAttention的发展Attention的产生起因：《Sequence to Sequence Learning with Neural Networks》Attention模型的引入原因：

深度学习模型参数计算：深度学习之Attention模型详解(1)

转载自：Datawhale（ID：Datawhale）

作者：yif

本文8434字41图，建议阅读22分钟。

本文介绍深度学习中的Attention模型。

Attention的产生

起因：《Sequence to Sequence Learning with Neural Networks》

Attention模型的引入原因：

seq2seq将输入序列都压缩成一个固定大小的隐变量，就像我们的压缩文件一样，这个过程是有损压缩的，会迫使丢失许多输入序列中的信息；
存在着难以对齐的问题。比如中译音“我爱你”“I love you” 输入序列中的“我”应该与“I”对齐(贡献最大)，然而在seq2seq模型中，“我”对"I"，"love"，"you"的贡献都是一致的。

深度学习模型参数计算：深度学习之Attention模型详解(2)

Attention的发展

Show attend and tell: Neural image caption generation with visual attention

本文可以算是第一篇Attention论文。

深度学习模型参数计算：深度学习之Attention模型详解(3)

该任务是实现图文转换。与前面讲述的seq2seq的问题一样，在之前的图文转换任务中也是存在着难以对齐的问题。所谓难以对齐就是毫无重点。

本文提出了两种attention：

sort Attention
hard Attention

本文的模型结构：

深度学习模型参数计算：深度学习之Attention模型详解(4)

将图片通过一个CNN转换成的LD.这里称L个向量为L个注释向量(annotation vector)，D为特征维度，可以认为提取了图片中L个区域的特征。对这L个区域向量加权相加来表示这张图片。由于不同时刻的关注点是不同的，annotation vector还要与decoder中的隐状态进行交互，以便知道下一时刻的关注区域。

深度学习模型参数计算：深度学习之Attention模型详解(5)

第一页 1 2 3 4 5 下一页

网站首页

返回栏目

深度学习模型参数计算：深度学习之Attention模型详解

猜您喜欢：

相关文章