bert模型大小，我们替你总结了BERT模型压缩的所有方法

小君 2023-01-18 22:45:21 460

bert模型大小，我们替你总结了BERT模型压缩的所有方法然而目前最大的BERT模型具备3.4亿个参数，这个拥有12层神经网络的“多头怪”（这里指BERT-Base，BERT-Large有24层），在4个 Cloud TPU 上需要训练 4 天（BERT-Large需要16个Cloud TPU），如此高的训练成本让许多想尝试的同学望而却步，并且很难和现在的智能手机兼容。2018年10月，Google AI团队推出了Bert，可以说Bert一出生就自带光环。在斯坦福大学机器阅读理解水平测试SQuAD1.1中，Bert在全部两个衡量指标上，全面超越人类表现。并且在另外11种不同NLP测试中均创造了历史以来最好成绩，将GLUE基准提升7.6%，将MultiNLI的准确率提提升5.6%。

bert模型大小，我们替你总结了BERT模型压缩的所有方法(1)

大数据文摘出品

来源：mitchgordon

编译：大萌、楚阳、钱天培

2018年10月，Google AI团队推出了Bert，可以说Bert一出生就自带光环。

在斯坦福大学机器阅读理解水平测试SQuAD1.1中，Bert在全部两个衡量指标上，全面超越人类表现。并且在另外11种不同NLP测试中均创造了历史以来最好成绩，将GLUE基准提升7.6%，将MultiNLI的准确率提提升5.6%。

然而目前最大的BERT模型具备3.4亿个参数，这个拥有12层神经网络的“多头怪”（这里指BERT-Base，BERT-Large有24层），在4个 Cloud TPU 上需要训练 4 天（BERT-Large需要16个Cloud TPU），如此高的训练成本让许多想尝试的同学望而却步，并且很难和现在的智能手机兼容。

于是，BERT压缩模型的研究就显得很有前瞻性。

本文将介绍目前有关BERT模型压缩的六大有效方法，以及相关论文。

BERT六大瘦身大法

网络剪枝：包括从模型中删除一部分不太重要的权重从而产生稀疏的权重矩阵，或者直接去掉与注意力头相对应的整个矩阵等方法来实现模型的剪枝，还有一些模型通过正则化方法实现剪枝。

低秩分解：即将原来大的权重矩阵分解多个低秩的小矩阵从而减少了运算量。这种方法既可以用于标记嵌入以节省磁盘内存，也可以用到前馈层或自注意力层的参数矩阵中以加快模型训练速度。

知识蒸馏：通过引入教师网络用以诱导学生网络的训练，实现知识迁移。教师网络拥有复杂的结构用以训练出推理性能优越的概率分布，是把概率分布这部分精华从复杂结构中“蒸馏”出来，再用其指导精简的学生网络的训练，从而实现模型压缩，即所谓知识蒸馏。另外，从BERT模型中蒸馏出不同的网络结构如LSTMs等，以及对教师网络结构的进一步挖掘都有望实现知识蒸馏这一方法的不断优化。

参数共享：ALBERT是谷歌提出的BERT改进版，其改进之一就是参数共享。全连接层与自注意力层都实现参数共享，即共享了编码器中的所有参数，这样一来，不仅减少了参数量还提升了训练速度。

量化：即通过减少每个参数所需的比特数来压缩原始网络，可以显著降低内存。

预训练和Downstream：模型压缩可以在模型训练时进行也可以在模型训练好之后进行。后期压缩使得训练更快，通常不需要训练数据，而训练期间压缩可以保持更高的准确性并导致更高的压缩率。

论文列表和结果对比

还有针对论文的贴心分类，下图拿好不谢

bert模型大小，我们替你总结了BERT模型压缩的所有方法(2)