[新闻动态] iLearn在跨模态检索、目标检测、视觉问答领域发表代表性研究工作

    2023年度,山东大学智能媒体研究中心(iLearn)研究团队,在跨模态检索、目标检测、视觉问答领域取得代表性原创成果,分别发表在顶级学术期刊:ACM TOISIEEE TIPIEEE TGRS上。参与本研究工作的研究生、本科生已推免至哈尔滨工业大学(深圳)、南京大学、山东大学。


论文题目:《Semantic Collaborative Learning for Cross-Modal Moment Localization》

作者:胡宇鹏、王锟、刘萌、唐昊煜、聂礼强

录用期刊:ACM Transactions on Information Systems (ACM TOIS 2023)

成果简介:在未经剪辑的视频中,通过自然语言查询来定位特定视频片段的任务,即跨模态视频片段定位,近年来引起了学者们的广泛关注。这项任务的挑战性在于,它不仅要准确理解视频内的模态语义信息,还要明确捕捉跨模态的语义相关性,包括一致性和互补性。现有的研究主要集中在视频内模态语义的理解和跨模态语义的对齐上,它们通常忽略了语义补充的重要性。因此,我们提出了一个新颖的跨模态语义感知网络,旨在更有效地理解视频内模态的语义信息,并实现跨模态的语义协作。具体而言,我们设计了一个双路径表示网络,用于模态内语义的建模。同时,我们还开发了一个语义协作网络,以实现多粒度的语义对齐和层次化的语义补充。基于这种全面的语义协作学习,我们的模型能够有效地定位视频片段。广泛的实验研究表明,与当前最先进的基线模型相比,我们的模型具有明显的性能优势。


论文题目:《Semantic-aware Modular Capsule Routing for Visual Question Answering》

作者:韩昱东、尹建华、吴建龙、尉寅玮、聂礼强

录用期刊:IEEE TRANSACTIONS ON IMAGE PROCESSING (IEEE TIP 2023)

成果简介: 本文提出了一种基于语义感知的路由框架实现动态的视觉推理,以SUPER为基础层为迭代结构,将路由感知,门控协议,记忆重激活三个相辅相成的组件串联在一起实现精细化的灵活推理路径选择和可解释性表征学习。


论文题目:《Adaptive Edge-Aware Semantic Interaction Network for Salient Object Detection in Optical Remote Sensing Images》

作者:曾祥宇, 徐明珠, 胡艺君, 唐昊煜, 胡宇鹏, 聂礼强

录用期刊:IEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS 2023

成果简介:近年来,光学遥感图像显著目标检测(RSI-SOD)任务受到了广泛的关注。得益于深度学习的发展,RSI-SOD领域取得了很大进展。然而,现有的方法在解决光学遥感图像中存在的各种问题方面仍然面临挑战,包括显著性目标物体数量的不确定、杂乱的背景和阴影的干扰等。为了应对这些挑战,我们提出了一种新颖的自适应边缘感知语义交互网络(AESINet),如下图所示,用于有效的光学遥感图像显著对象检测(SOD)。具体来说,为了改善复杂边缘信息的提取,我们设计了一个局部细节聚合模块(LDAM),该模块可以利用我们提出的差异感知机制,自适应地增强显著性目标的边缘信息。值得注意的是,我们的差异感知机制是一种新的边缘增强方法,其学习过程不需要边缘真值信息的监督。此外,为了准确定位不同数量和尺寸的显著性目标,我们设计了一个多尺度特征提取模块(MFEM),该模块可以有效地捕获和利用多尺度信息。进一步,我们设计了深度语义交互模块(DSIM)来识别杂乱背景中的显著性目标,并有效地减轻阴影的干扰。我们在三个常用的光学遥感图像数据集上进行了广泛的实验,结果表明我们提出的模型优于目前最先进的14种基线方法。


应用价值:遥感图像显著性目标检测是一种视觉基础任务,该检测方法可以为多种下游高层级遥感图像智能解析任务(如,特定舰船飞机等目标检测、图像超分辨、遥感图像场景分类等)提供重要目标信息,提升各种遥感图像智能解析任务性能,并广泛应用于军事侦察、国土资源监测等国计民生领域,服务科技强国发展之路。




Scroll to Top