面向多模态预训练的子图匹配式对比学习方法研究

      计算机学报

      面向多模态预训练的子图匹配式对比学习方法研究

      陈公冠1),2) 刘慧1),2) 李恒泰1),2) 郭强1),2) 张彩明2),3)

      1)(山东财经大学计算机与人工智能学院 济南250014)

      2)(山东省数字经济轻量智算与可视化重点实验室 济南250014))

      3)(山东大学软件学院 济南250101)

      论文简介

      本文引入交叉注意力机制对单一模态内部的各个重要对象进行差异化处理,从而促使模型在局部匹配过程中能够正确表达关键特征的语义信息。最后,为了避免模型对不同样本对之间相同语义的表达产生分歧,进而出现假阴性的情况。本文基于图卷积网络设计了内部与外部学习核函数,分别实现同一样本对的高维度融合以及不同样本对之间的高维空间聚类分析,使得模型更加贴近人类对于现实世界的理解方式。

      模型的整体架构:

      视觉编码器输出特征的可视化:

      参数K的敏感性分析: