iLearn创新成果登顶国际顶会、斩获国家级赛事大奖-山东大学智能媒体研究中心

2025-2026年度，山东大学智能媒体研究中心（iLearn）研究团队的“本硕博”梯队协同培养机制结出累累硕果。在团队老师的悉心指导下，由博士生引路、硕士生协同、本科生深度参与的联合科研小组，不仅在国际顶级会议（如CVPR等）上接连发表多篇高质量原创论文，更将理论创新推向工程实践，在全国人工智能应用场景创新挑战赛中脱颖而出，勇夺省级专项赛特等奖和全国二等奖。学术顶会与国家级科创赛事的全面开花，标志着iLearn构建的“本硕博联动”拔尖创新人才培养体系已逐步成熟。“跨代际协同创新”不仅打破了科研壁垒，更实现了学术火种与工程实践能力的接续传递。

成果一：基于多模态大语言模型，助力跨媒体信息检索

论文题目：《Air-Know: Arbiter-Calibrated Knowledge-Internalizing Robust Network for Composed Image Retrieval》

作者：付志恒(本科四年级)，胡宇鹏，杨茜云，张诗棋(本科三年级)，陈智伟，李子旭

指导教师：胡宇鹏

录用会议：IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026)

成果简介：现有的组合图像检索（CIR）模型，在训练时往往既当裁判员，又当运动员，这种不可靠的自我评判会使模型陷入自我依赖的恶性循环，最终导致灾难性的表征污染。为了打破这一僵局，我们提出了一种名为Air-Know的“专家-代理-分流”解耦范式。该架构首先利用多模态大语言模型（MLLM）作为离线专家，构建高精度的锚点数据集，在避免高昂在线推理成本的同时引入了专家级先验；随后，通过专家知识内化训练一个轻量级代理来提供可靠的匹配置信度；最后利用该置信度对动态训练数据进行双流协调，实现干净数据的对齐和噪声数据的反馈校准。实验表明，该解耦范式在各种NTC场景下实现了当前最优的检索性能。

成果二：基于几何空间与靶向遗忘的去噪机制，助力跨媒体信息检索

论文题目：《ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval》

作者：李子旭(博士一年级)，胡宇鹏，陈智伟，张明宇(本科三年级)，付志恒(本科四年级)等

指导教师：胡宇鹏

录用会议：IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026)

成果简介：组合图像检索（CIR）任务高度依赖精准的三元组标注，而现有处理标注噪声的方法通常依赖于“小损失假设” 。我们发现，CIR任务中独特的硬噪声（即图像视觉高度相似但修改文本错误）会使该假设完全失效，并引发三个长期被忽视的核心挑战：模态抑制、负锚点缺陷以及遗忘反噬现象。为此，我们从几何空间分离与机器遗忘的全新视角出发，提出了基于锥体空间的鲁棒网络并通过几何保真度量化从理论上界定并估计了噪声边界；其次，通过负边界学习在嵌入空间中为每个查询构建一个显式的“对角负组合”作为反向锚点；最后，创新性地提出了基于边界的靶向遗忘机制，将噪声纠正转化为一个最优传输问题，精准剥离噪声特征的同时，优雅地保护了周围干净样本免受反噬破坏。在FashionIQ和CIRR基准上的广泛实验充分验证了ConeSep卓越的鲁棒性与理论价值。

成果三：基于双路径组合上下文的跨媒体信息检索

论文题目：《HINT: Composed Image Retrieval with Dual-Path Compositional Contextualized Network》

作者：张明宇(本科三年级)，李子旭，陈智伟，付志恒(本科四年级)，祝小炜(本科三年级)，聂佳佳，尉寅玮，胡宇鹏

指导教师：胡宇鹏

录用会议：IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026)

成果简介：组合图像检索（CIR）旨在基于参考图像和修改文本的组合查询来检索目标图像。尽管现有方法在跨模态对齐与特征融合方面取得了显著进展，但普遍存在一个关键缺陷：忽略了用于区分匹配样本的上下文信息。解决这一局限面临两大挑战：隐式依赖问题以及缺乏差异放大机制。为此，我们提出了双路径组合上下文网络（HINT）。该方法首先进行上下文编码以捕捉深层语义依赖；其次，通过放大匹配与非匹配样本之间的相似度差异，有效提升了模型在复杂场景下的检索上限。在两个CIR基准数据集上的广泛实验表明，HINT模型在各项指标上均取得了最优性能，充分证明了其卓越的优越性。

成果四：基于最小冗余与层次协同的视频检索机制

论文题目：《RELATE: Enhance Composed Video Retrieval via Minimal-Redundancy Hierarchical Collaboration》

作者：张诗棋(本科三年级)，陈智伟，李子旭，付志恒(本科四年级)，王文博(本科三年级)，聂佳佳，尉寅玮，胡宇鹏

指导教师：胡宇鹏

录用会议：IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2026)

成果简介：组合视频检索（CVR）任务旨在基于参考视频和修改文本从视频库中定位目标视频。然而，现有方法通常忽略了修改文本内部的层次结构，并且对视频中时间冗余的抑制严重不足。这引发了三个核心挑战：层次化语义建模、时间稀疏化以及修改驱动的特征聚合。为此，我们提出了最小冗余层次协同网络（RELATE）。该方法首先通过层次化语义建模实现对修改意图的逐层深入理解；其次，执行时间稀疏化策略以有效抑制视频中的冗余语义信息；最后，网络会学习受修改语义精准调制的组合特征。在包括CVR和CIR任务的四个基准数据集上的广泛实验，充分验证了RELATE模型的优越性能与强大泛化能力。

成果五：以赛促学，科创舞台尽展“本硕博”联动风采

在中国人工智能学会主办的第三届全国人工智能应用场景创新挑战赛（CICAS）中，iLearn大放异彩。团队将理论推向实践，紧扣国家“西电东送”与“双碳”战略，聚焦中西部山区电网长期面临的覆冰与森林山火灾害监测瓶颈，创新性地提出了“多源异构感知+边缘智能+云边协同”的技术路线。凭借《基于多源异构感知与边缘智能的电网灾害智能监测与预警平台》，团队先后斩获省级专项赛特等奖与全国总决赛二等奖。

在这一国家级赛事的备战与角逐中，团队充分践行了“跨代际协同”的理念。在指导老师的统筹带领下，多名本科生作为核心成员深度参与了项目的全生命周期。从底层逻辑的扎实构建、自研轻量化AI算法的部署验证，到总决赛现场的出色发挥，本科生同学在实战中淬炼了扎实的工程实践能力与专业素养，为团队最终斩获国家级大奖提供了关键支撑。这一佳绩不仅是对团队技术突破的权威认可，更是对团队“本硕博联动”拔尖创新人才培养成效的最有力印证。

山东大学智能媒体研究中心

[新闻动态] iLearn创新成果登顶国际顶会、斩获国家级赛事大奖

成果一：基于多模态大语言模型，助力跨媒体信息检索

成果三：基于双路径组合上下文的跨媒体信息检索

成果四：基于最小冗余与层次协同的视频检索机制

成果五：以赛促学，科创舞台尽展“本硕博”联动风采

友情链接

联系我们

访客地图