深度学习模型参数计算：深度学习之Attention模型详解

逗爷 2022-11-05 12:25:23 670

深度学习模型参数计算：深度学习之Attention模型详解权重的计算为：其中和是模型的参数，S是source sentence的长度，易知.关于的计算，文章给出了两种计算方案：1） Monotonic alignment(local-m)2)predictive alignment(local-p)

2.local attention

本文认为local attention为hard attention和soft attention的混合体(优势上的混合)，因为他的计算复杂度要低于global attention，soft attention，而且与hard attention 不同的是，local attention 几乎处处可微，易于训练。

local attention克服了每个source hidden state都要扫描的缺点，计算开销大，而且对于长句不利，为了提升效率，提出了 local attention。每次只focus 一部分的source position。

这里 context vector 的计算只focus窗口内的2D 1个source hidden state。设是一个source position index，可以理解为 attention的“焦点”，作为模型的参数，D根据经验来选择。

关于的计算，文章给出了两种计算方案：

1） Monotonic alignment(local-m)

2)predictive alignment(local-p)

深度学习模型参数计算：深度学习之Attention模型详解(1)