[新闻动态] 本科生第一作者彰显梯队培养优势, iLearn团队创新成果登顶国际顶会


2024-2025年度,山东大学智能媒体研究中心(iLearn)研究团队,在多模态组合检索和数据集蒸馏领域产出多篇代表性原创成果,分别发表在计算机视觉和模式识别领域国际顶级会议CVPR(CCF-A)、语音和信号处理领域国际顶级会议ICASSP(CCF-B)上。论文第一作者均为iLearn本科科研助理,通讯作者为团队老师。上述成果的取得标志着iLearn构建的导师-研究生-本科生三级联动培养机制取得显著成效。“跨代际协同创新”不仅加速了科研突破,更实现了学术火种的接续传递。

论文题目:《Towards Stable and Storage-efficient Dataset Distillation: Matching Convexified Trajectory》

作者:钟文亮(大四本科生), 唐昊煜, 郑清海, 徐明珠, 胡宇鹏, 关惟俐

录用会议:CVPR 2025 - IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)

成果简介:随着深度学习和大规模语言模型的快速发展,训练数据的需求急剧增加,这促使了数据集蒸馏方法的研究,以应对大规模数据集管理的挑战。其中,匹配训练轨迹(MTT)方法因其能够通过合成数据集复制专家网络在真实数据上的训练轨迹而成为一种重要的方法。然而,我们的研究发现,MTT方法存在三个主要的局限性:1. 由随机梯度下降(SGD)生成的专家轨迹不稳定;2. 蒸馏过程的收敛速度较慢;3. 专家轨迹的存储消耗较高。为了解决这些问题,我们提出了一种新的视角,通过简单地转换目标函数来更好地理解数据集蒸馏和MTT的本质,并引入了一种新的方法——匹配凸化轨迹(MCT)。MCT通过选择少数专家模型,创建专家轨迹的凸组合,从而为学生网络提供更好的指导,帮助其快速且稳定地收敛。该方法不仅在存储上更为高效,还能够在蒸馏过程中采用持续采样策略,确保专家轨迹的充分学习和拟合。通过在三个公开数据集上的综合实验,验证了MCT方法在性能上优于传统的MTT方法。

论文题目:《PAIR: Complementarity-guided Disentanglement for Composed Image Retrieval

作者:付志恒(大三本科生)、李子旭(研二)、陈智伟(研一)、王春晓、宋雪萌、胡宇鹏、聂礼强

录用会议:ICASSP 2025 - IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

成果简介:组合图像检索(Composed Image Retrieval,CIR)是一种新型图像检索范式,旨在通过包括参考图像和修改文本在内的多模态查询搜索目标图像。尽管现有研究已取得重大进展,但它们忽视了模态间的一致性和不一致性关系建模,从而阻碍了 CIR 模型的检索准确性。这一局限性是由以下两个挑战造成的: 1) 模态间不一致和 2) 模态内纠缠。为了应对上述挑战,我们提出了一种以语义一致性为导向的纠缠网络(comPlementArity-guided dIsentanglement netwoRk (PAIR)),它可以从语义一致性的角度对多模态查询的特征进行分解,从而有助于识别互补的一致性特征和非一致性特征。此外,PAIR 还能在分离特征的基础上开发非对称特征合成模块,以提高模型的检索性能。在三个基准数据集上进行的广泛实验证明了 PAIR 的优越性。

论文题目:《MEDIAN: Adaptive Intermediate-grained Aggregation Network for Composed Image Retrieval

作者:黄钦磊(大三本科生)、陈智伟(研一)、李子旭(研二)、王春晓、宋雪萌、胡宇鹏、聂礼强

录用会议:ICASSP 2025 - IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

成果简介:组合图像检索(CIR)任务旨在根据给定的多模态查询(包括参考图像和修改文本)检索符合要求的目标图像。大多数现有研究都在局部和全局粒度上对多模态语义进行了调整。但是,它们没有考虑挖掘中间粒度的语义对应关系,从而导致模型性能未达到最佳。在本文中,我们提出了一种自适应中间粒度聚合网络(interMEDiate-graIned Aggregation Network,MEDIAN)。与传统的 CIR 模型相比,MEDIAN 能够生成中间粒度特征聚合监督信号,并构建图注意网络以提取中间粒度特征。同时,MEDIAN 还能在目标图像的引导下设计跨模态语义对应对齐,从而实现精确的多粒度特征组合。在三个基准数据集上进行的大量实验证明了 MEDIAN 的优越性。


Scroll to Top