[新闻动态] 山东大学聂礼强组获SIGIR 2021最佳学生论文!


  山东大学智能媒体研究中心2019级硕士生曲磊钢撰写的《Dynamic Modality Interaction Modeling for Image-Text Retrieval》获得SIGIR 2021最佳学生论文,导师为山东大学计算机与科学系教授聂礼强。

  图像-文本双向检索是信息检索和多媒体计算领域的基础性和关键性任务,有效地解决该问题不仅能打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展,如:视觉问答和图像字幕生成,故具有广泛而深刻的研究意义。当前,图文检索的发展主要面临两大挑战:模态内关系推理和模态间语义对齐


   

图文检索任务面临的两个挑战:模态内关系推理(红色单向箭头)和模态间语义对齐(蓝色双向箭头)


  针对这两个挑战,本文提出了一种基于动态模态交互建模的图文检索方法,该方法能够自适应地选择依赖于特定数据的模态交互路径。具体地,本文首先提出了四种不同类型的交互模块:修正恒等模块、模态内推理模块、整体-局部引导模块、模态间精炼模块,为模型提供基础的模态内关系推理和模态间语义对齐的能力。为充分发挥上述模块间的协作能力,本文进一步提出一种稠密连接策略对这些模块在宽度和深度两个维度进行连接,构成一个完整的路径空间,用以自适应地生成依赖于数据的交互路径。此外,为了提升路径学习效率,本文提出了一种语义一致性正则化方法。


 

基于动态模态交互的图文检索模型架构图


  在图文检索两个公开数据集Flickr30K和MS-COCO上的大量实验表明,本方法的检索性能显著优于现有方法;对模态交互路径的可视化实验进一步表明本方法学习路径的合理性。


  相关链接:https://mp.weixin.qq.com/s/HpkUs_aAFHpRkkgp_IULvg

Scroll to Top