工作学习方法推荐(精选10篇对比学习推荐新工作)
工作学习方法推荐(精选10篇对比学习推荐新工作)链接:Learning Contrastive Representation for Semantic Correspondence - AMiner框架预览链接:M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining - AMiner2、Learning Contrastive Representation for Semantic Correspondence(语义一致性的对比表征学习)摘要:语义相关图像之间的密集对应已经得到了广泛的研究,但仍然面临两个挑战:1)即使是来自同一类别的对象,外观、比例和姿势也存在很大的差异;2)标签像素级密集对应是劳动密集型的,无法进行缩放。现有的大多数方法都集中在设计各种具有完全监督的ImageNet预训练网络的匹配方法上。另一方面
文章来源|ReadPapers
1、M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining(M5Product:电商多模态预训练的自协调对比学习)
摘要:尽管多模态预训练有可能从补充数据模式中学习高度区分性的特征表示,但由于缺乏大规模模态分集,目前的进展正在放缓。通过利用电子商务的自然适用性,不同模式捕获互补的语义信息,我们提供了一个大规模的多模式培训前数据集产品。该数据集由5个模式(图像、文本、表格、视频和音频)组成,涵盖6000多个类别和5000多个属性,比具有类似模式数量的最大公共可用数据集大500个。此外,M5Product包含完整的模态对和噪声,同时也具有长尾分布,类似于大多数现实世界的问题。我们进一步提出了自协调对比学习(SCALE),这是一种新的预培训框架,通过自适应特征融合机制将不同的模式整合到一个统一的模型中,多模态学习和多模态学习直接影响到多模态学习的重要性。我们评估了当前的多模式培训前最先进的方法,并对它们在面对产品数据集中大量模式时从未标记数据中学习的能力进行了基准测试。我们在四个下游任务上进行了扩展性实验,展示了我们的规模模型的优越性,深入了解了数据集规模和多样性的重要性。
M5Product dataset
链接:M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining - AMiner
2、Learning Contrastive Representation for Semantic Correspondence(语义一致性的对比表征学习)
摘要:语义相关图像之间的密集对应已经得到了广泛的研究,但仍然面临两个挑战:1)即使是来自同一类别的对象,外观、比例和姿势也存在很大的差异;2)标签像素级密集对应是劳动密集型的,无法进行缩放。现有的大多数方法都集中在设计各种具有完全监督的ImageNet预训练网络的匹配方法上。另一方面,虽然提出了各种自监督方法来明确测量图像级的相似性,但仍在探索匹配像素级的对应关系。在这项工作中,我们提出了一种语义匹配的多层次对比学习方法,它不依赖于任何ImageNet pretrainedmodel。我们发现,图像级对比学习是鼓励卷积特征在相似对象之间找到对应关系的关键组成部分,而在中间特征级调整跨实例周期一致性可以进一步提高性能。在PF-PASCAL、PF-WILLOW和SPair-71k基准数据集上的实验结果表明,我们的方法与现有方法相比表现良好。源代码和经过培训的模型将向公众提供。
框架预览
链接:Learning Contrastive Representation for Semantic Correspondence - AMiner
3、Predictive and Contrastive: Dual-Auxiliary Learning for Recommendation(预测基于聚类的对比解耦模型在通用零样本学习中的应用与对比:推荐系统的双辅助学习)
摘要:自我监督学习(SSL)最近在推荐方面取得了显著的成功。通过设置辅助任务(预测或控制),SSL可以从原始数据中发现监控信号,而无需人工注释,这大大缓解了稀疏用户项交互的问题。然而,大多数基于SSL的推荐模型依赖于一般用途的辅助任务,例如,最大化从原始交互图和扰动交互图中学习到的节点表示之间的对应关系,这与推荐任务明显无关。因此,在基于推荐数据的异构图中,社会关系和项目类别所反映的语义没有得到充分利用。为了探索特定于推荐的辅助任务,我们首先对异构交互数据进行量化分析,并发现交互与元路径诱导的用户项路径数量之间存在很强的正相关关系。基于这一发现,我们设计了两个与目标任务紧密耦合的辅助任务(一个是预测性的,另一个是对照性的),将推荐与隐藏在正相关中的自我监督信号联系起来。最后,开发了一个模型不可知的双重辅助学习(DUAL)框架,该框架将SSL和推荐任务统一起来。在三个真实数据集上进行的大量实验表明,DUAL可以显著改善推荐,达到最先进的性能。
用户-项目交互与通过元路径 UUM 诱导的路径数之间的正相关
链接:Predictive and Contrastive: Dual-Auxiliary Learning for Recommendation - AMiner
4、Multi-Scale Self-Contrastive Learning with Hard Negative Mining for Weakly-Supervised Query-based Video Grounding(基于困难负样本挖掘的多尺度自监督对比学习在弱监督查询的视频检索中的应用)
摘要:基于查询的视频接地是视频理解中一项重要而富有挑战性的任务,其目的是根据句子查询对未经剪辑的视频中的目标片段进行定位。以前的大多数工作都通过使用段级标签以完全监督的方式完成这项任务,从而取得了重大进展,这需要较高的标签成本。尽管最近的一些研究开发了只需要视频级知识的弱监督方法,但它们通常使用查询匹配多个预定义的片段建议,并选择最佳的片段建议,这缺乏细粒度的帧级细节来区分整个视频中具有高重复性和相似性的帧。为了克服上述局限性,我们提出了一个自对比学习框架来解决在完全监督环境下基于查询的视频接地任务。首先,我们提出了一种新的接地方案,该方案不使用冗余的分段建议,而是根据查询语义学习帧匹配核心,仅使用视频级别的注释来预测可能的前接地帧。其次,由于一些预测帧(即边界帧)相对粗糙,并且与相邻帧的外观相似,因此我们提出了一种从粗到精的对比学习范式,以学习更具辨别力的帧表示来区分假阳性帧。特别是,Weiterative探索多尺度硬负样本,这些样本是表示空间中的接近正拓扑样本,用于区分细粒度的帧细节,从而实现更精确的分段接地。在两个具有挑战性的基准上进行的扩展实验表明,与最先进的方法相比,我们提出的方法具有优越性。
为弱监督的、基于查询的视频接地所提出的多尺度自对比学习的图示
链接:Multi-Scale Self-Contrastive Learning with Hard Negative Mining for
Weakly-Supervised Query-based Video Grounding - AMiner
5、TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning(TCGL:用于自监督视频表征学习的时序对比图模型)
摘要:视频自监督学习是一项具有挑战性的任务,它需要模型具有强大的表达能力,以利用丰富的空间时间知识,并从大量未标记的视频中生成有效的监督信号。然而,现有的方法无法增加未标记视频的时间多样性,并且忽略了以显式方式精心建模多尺度时间依赖关系。为了克服这些局限性,我们利用视频中的多尺度时间依赖性,提出了一种新的视频自监督学习框架,称为时间对比图学习(TCGL),采用混合图对比学习策略,对时间表征学习中的片段间和片段内的时间依赖关系进行联合建模。具体来说,首先引入了时空认知发现(STKD)模块,基于离散余弦变换的频域分析,从视频中提取运动增强的时空表示。为了明确地建模未标记视频的多尺度时间依赖关系,我们的TCGL将帧和片段顺序的先验知识集成到图结构中,即片段内/片段间时间对比图(TCG)。然后,设计了特定的对比学习模块,以最大限度地提高不同图形视图中节点之间的一致性。为了为未标记的视频生成监控信号,我们引入了自适应片段顺序预测(ASOP)模块,该模块利用视频片段之间的关系知识来学习全局上下文表示,并自适应地重新校准通道特征。实验结果表明,我们的TCGL在大规模动作识别和视频检索基准上优于现有的方法。代码是公开的athttps://github.com/YangLiu9208/TCGL.
TCGL 框架预览
链接:TCGL: Temporal Contrastive Graph for Self-Supervised Video Representation Learning. - AMiner
6、Cluster-based Contrastive Disentangling for Generalized Zero-Shot Learning(基于聚类的对比解耦模型在通用零样本学习中的应用)
摘要:通用零样本学习(GZSL)的目的是通过只训练被看见的类来识别被看见的类和未被看见的类,其中未被看见的类的实例往往偏向于被看见的类。在本文中,我们提出了一种基于聚类的对比解纠缠(CCD)方法,通过缓解语义鸿沟和领域转移问题来改进GZSL。具体来说,我们首先对批处理数据进行聚类,形成包含类似类的多个集合。然后,我们将视觉特征分解为语义非特定变量和语义匹配变量,并根据聚类结果将语义匹配变量进一步分解为类共享变量和类唯一变量。随机交换和语义视觉对齐的分离学习模块填补了语义鸿沟。此外,我们还引入了语义匹配变量和类唯一变量的对比学习来学习高集内和类内相似性,以及集间和类间可辨别性。然后,生成的视觉特征符合一般图像的基本特征,具有较强的鉴别信息,很好地缓解了域转移问题。我们在四个数据集上评估了我们提出的方法,并在常规和通用环境下取得了最先进的结果。
CCD方法概览
链接:Cluster-based Contrastive Disentangling for Generalized Zero-Shot
Learning - AMiner
7、Dual Space Graph Contrastive Learning(双空间图对比学习)
摘要:无监督图表示学习已成为解决现实问题的有力工具,并在图学习领域取得了巨大成功。图形对比学习是一种无监督的图形呈现学习方法,近年来受到研究者的关注,并在各种任务中取得了最先进的成绩。图形对比学习成功的关键是构造属性对比对来获取图形的底层结构语义。然而,这一关键部分目前还没有得到充分的探索,大多数生成对比对的方法都集中于增强或扰动图形结构,以获得输入图形的不同视图。但这种策略会通过在图形中加入噪声来降低性能,这可能会缩小图形对比学习的应用范围。本文提出了一种新的图形对比学习方法,即\textbf{D}ual\textbf{S}space\textbf{G}graph\textbf{C}contrastive(DSGC)学习,用于在不同空间(包括双曲空间和欧几里德空间)生成的视图之间进行图形对比学习。由于这两个空间在嵌入空间中表示图形数据都有各自的优势,我们希望利用图形对比学习来架起空间的桥梁,并利用双方的优势。对比实验结果表明,DSGC在所有数据集中都取得了有竞争力或更好的性能。此外,我们还进行了大量实验,分析了不同图形编码器对DSGC的影响,深入了解了如何更好地利用不同空间之间对比学习的优势。
DSGC方法概览
链接:Dual Space Graph Contrastive Learning - AMiner
8、Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning(理解多模态对比表征学习中的模态差异)
摘要:我们介绍了模态间隙,这是一种有趣的多模态模型呈现空间的几何现象。具体来说,我们展示了不同的数据模式(如图像和文本)在arm的长度上嵌入,它们在多模式模型(如CLIP)中的共享表示。我们的系统分析表明,这种差距是由模型初始化和对比学习优化相结合造成的。在模型初始化中,我们从经验和理论上证明,一个普通的深层神经网络的表示仅限于一个窄锥。作为序列,在带有两个编码器的多模态模型中,当模型初始化时,两种模态的表示明显分开。在优化过程中,对比学习通过一定的距离将不同的模式分开,这受损失函数中的温度参数的影响。我们的实验进一步证明,改变模态间隔距离对提高模型的下游零分类性能和公平性有显著影响。我们的代码和数据可用athttps://modalitygap.readthedocs.io/
多模态对比表示学习中普遍存在的模态差距
链接:Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive
Representation Learning - AMiner
9、On Learning Contrastive Representations for Learning with Noisy Labels(带噪声标签的对比表征研究)
摘要:深度神经网络能够很容易地记忆有噪声的标签,并且具有软最大交叉熵(CE)损失。以前的研究试图解决这个问题,重点是将噪声鲁棒损失函数纳入CE损失。然而,由于非健壮的CEloss,表情化问题得到了缓解,但仍然存在。为了解决这个问题,我们重点研究了在CE损失下分类器难以记忆labelnoise的数据的鲁棒对比表示。我们提出了一种新的对比正则化函数来学习含噪数据中的这种表示,其中标签噪声并不主导表示学习。通过对正则化函数的理论研究,我们发现学习到的表示保留了与真实标签相关的信息,丢弃了与损坏标签相关的信息。此外,我们的理论结果还表明,学习到的表示对标签噪声具有鲁棒性。在基准数据集上的实验证明了该方法的有效性。
带有噪声标签的建议方法的说明
链接:On Learning Contrastive Representations for Learning with Noisy Labels - AMiner
10、MetAug: Contrastive Learning via Meta Feature Augmentation(MetAug:通过元特征增强进行对比学习)
摘要:什么对对比学习很重要?我们认为对比学习在很大程度上依赖于信息特征,或“硬”(积极或消极)特征。早期的工作包括通过应用复杂的数据扩充和大批量或内存库来提供更多的信息特征,最近的工作设计了详细的采样方法来探索信息特征。探索这些特征的关键挑战在于,源多视图数据是通过应用随机数据增强生成的,因此不可能总是在增强的数据中添加有用的信息。因此,从这些增强数据中获得的特征信息是有限的。作为回应,我们建议直接增强潜在空间中的特征,从而在不需要大量输入数据的情况下学习区分性表示。我们使用元学习技术来构建增广生成器,该增广生成器通过考虑编码器的性能来更新其网络参数。然而,输入数据不足可能会导致编码器学习到崩溃的特征,从而使增强生成器发生故障。为了避免编码器学习退化映射,在目标函数中增加了一个新的边界注入正则化。为了在一个梯度反向传播步骤中对比所有特征,我们采用了所提出的优化驱动的统一对比损耗,而不是传统的对比损耗。根据经验,我们的方法在几个基准数据集上获得了最先进的结果。
MetAug框架
链接:MetAug: Contrastive Learning via Meta Feature Augmentation - AMiner
AMiner平台收录超过 1.3 亿学者、3.2 亿篇论文、4 千多万个专利、将近 1 万个数据集、超过 100 个开放算法供科技工作者免费检索使用,助力科技创新。戳首页「链接」