[新闻动态] “导师-研究生-本科生”三级联动培养机制取得成效, iLearn团队创新成果登顶国际顶会

2024-2025年度,山东大学智能媒体研究中心(iLearn)研究团队,在多模态组合检索,视觉预训练和时间序列领域取得代表性原创成果,分别发表在人工智能领域国际顶级会议AAAI (CCF-A) 、语音和信号处理领域国际顶级会议ICASSP(CCF-B)上。论文第一作者均为研究生一年级或二年级学生通讯作者为团队老师。iLearn团队注重构建学术基因传承链,已形成“指导教师担纲-研究生主攻-本科生跟学”的培养梯队。近两年培养的研究生本科生中,已有10人次在顶级期刊会议上发表论文。标志着导师-研究生-本科生三级联动培养机制已取得初步成效。

论文题目:《ENCODER: Entity Mining and Modification Relation Binding for Composed Image Retrieval》

作者:李子旭(硕士二年级)、陈智伟(硕士一年级)、温皓琨、付志恒(大三本科生)、胡宇鹏、关惟俐

录用会议:AAAI 2025 - The Association for the Advancement of Artificial Intelligence (AAAI)

成果简介:组合图像检索(Composed Image Retrieval,CIR)的目标是根据用户给定的多模态查询(包括参考图像和修改文本)检索符合要求的目标图像。尽管已有的方法取得了显著的成功,但他们忽略了对视觉实体和修改行为之间的修改关系建模,这一局限性是由三个挑战造成的: 1) 无关因素扰动;2) 语义边界模糊;3) 隐式修改关系。为了应对上述挑战,我们提出了一个实体挖掘和修改关系绑定框架(ENCODER),旨在挖掘视觉实体和修改行为并绑定修改关系。其中,我们首先设计了一个潜在因子过滤器(LFF),根据阈值门控机制,过滤与修改语义相关的视觉和文本潜在因子。其次,我们提出了实体-动作绑定模块(EAB),它包含模态共享的可学习关系查询(LRQ),能够挖掘视觉实体和修改行为,并学习隐式修改关系,实现实体-行为绑定。最后,我们引入多尺度合成模块(MSC),在实体-行为的引导下完成多尺度特征融合。在四个基准数据集上进行的广泛实验证明了我们提出的ENCODER的优越性。

作者:韩昱东(博士一年级)、王浩聪(硕士一年级,共同一作)、胡宇鹏、宫永顺、宋雪萌、关惟俐

录用会议:AAAI 2025 - The Association for the Advancement of Artificial Intelligence (AAAI)

成果简介:本文针对基于Transformer的掩码时间序列建模(MTM)方法在时间序列分类任务中存在的两个关键问题展开研究:(1)现有方法通过长依赖集成平均进行特征编码,容易导致深层网络出现秩崩溃和特征同质化;(2)模型对不同频率成分的拟合存在偏好,导致编码特征的频谱能量失衡。为此,我们提出了一种内容感知的平衡解码器(CBD),通过在掩码建模框架内优化频谱空间的编码质量。该方法通过一系列基础模块的迭代,利用两个定制化单元分别基于时间序列局部内容变化调整交互模式,以及学习重新校准不同频率成分的能量分布,从而逐步优化掩码表示。此外,我们设计了双约束损失函数来促进原始解码器与CBD的协同优化。在10个时间序列分类数据集上的实验表明,该方法显著超越了一系列基线模型,并通过可解释性分析深入揭示了模型的工作原理。这项研究为解决Transformer类模型在时间序列建模中的频谱失衡问题提供了新的技术思路。。


论文题目:《CurMIM: Curriculum Masked Image Modeling》

作者:刘皓(硕士一年级)、王锟(博士一年级)、韩昱东、王浩聪、胡宇鹏、王春晓、聂礼强

录用会议:ICASSP 2025 - IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)

成果简介:掩码图像建模(MIM)采用 “掩码-重构”方案,是学习可扩展视觉表征的一种有前途的自监督方法。研究表明,选择有效的掩码策略对 MIM 至关重要。然而,现有方法通常依赖于静态的预定义先验,这限制了其动态调整掩码策略以优化网络的能力。在本文中,我们将重点放在网络的学习过程上,并在 MIM 中引入课程学习以实现动态表征完善,并提出了端到端框架 Curriculum Masked Image Modeling(CurMIM)。CurMIM 由两个部分组成:掩码优先级测量器作为课程学习器,利用网络的内在状态信息确定掩码优先级值;双自适应选择器作为课程调度器,根据这些值创建有效的掩码。CurMIM 能在不同规模的模型和基准中持续实现明显改善,显示出有效性和通用性。



Scroll to Top