深度学习模型参数计算:深度学习之Attention模型详解
深度学习模型参数计算:深度学习之Attention模型详解权重的计算为:其中和是模型的参数,S是source sentence的长度,易知.关于的计算,文章给出了两种计算方案:1) Monotonic alignment(local-m)2)predictive alignment(local-p)
2.local attention
本文认为local attention为hard attention和soft attention的混合体(优势上的混合),因为他的计算复杂度要低于global attention,soft attention,而且与hard attention 不同的是,local attention 几乎处处可微,易于训练。
local attention克服了每个source hidden state都要扫描的缺点,计算开销大,而且对于长句不利,为了提升效率,提出了 local attention。每次只focus 一部分的source position。
这里 context vector 的计算只focus窗口内的2D 1个source hidden state。设是一个source position index,可以理解为 attention的“焦点”,作为模型的参数,D根据经验来选择。
关于的计算,文章给出了两种计算方案:
1) Monotonic alignment(local-m)
2)predictive alignment(local-p)
其中和是模型的参数,S是source sentence的长度,易知.
权重的计算为:
可以看出,距离中心越远的位置,其位置上的source hidden state 对应的权重就会被压缩地越厉害。这里设置为D/2。
这里的,
其中score函数其实就是第一篇里介绍的对齐函数,存在三种dot product,general,concat。
实验对比:
Attention-Based Multi-Perspective Convolutional Neural Networks for Textual Similarity Measurement
本文的任务是STS(semantic textual similarity)指给定一个检索句子和比较的句子,计算他们的相似度得分。