多源感知数据预处理:用于视觉变换器的BERT预训练的感知编码本
多源感知数据预处理:用于视觉变换器的BERT预训练的感知编码本
本文探讨了一个更好的编码本,用于视觉变换器的BERT预训练。最近的工作BEiT成功地将BERT预训练从NLP转移到视觉领域。它直接采用了一个简单的离散VAE作为视觉标记器,但没有考虑所产生的视觉标记的语义层面。相比之下,NLP领域的离散标记自然是高度语义的。这种差异促使我们学习一个感知密码本。我们出人意料地发现了一个简单而有效的想法:在dVAE训练中强制执行感知相似性。我们证明了由拟议的感知编码本产生的视觉标记确实表现出更好的语义,并随后帮助预训练在各种下游任务中取得了卓越的转移性能。例如,我们用ViT-B骨干在ImageNet-1K上取得了84.5的Top-1准确率,在相同的预训练epochs下,比竞争方法BEiT高出了 1.3。它还可以将COCO val上的物体检测和分割任务的性能提高 1.3箱AP和 1.0掩码AP,将ADE20k上的语义分割提高 1.0mIoU,代码和模型将在url{https://github.com/microsoft/PeCo}上提供。
《PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers》
论文地址:http://arxiv.org/abs/2111.12710v1