[研究方向] 基于自然语言描述的时序动作片段定位

相机和社交网络的普及增加了人们生成和分享视频的数量,随着这些视频数量的高速增长,视频分析成为计算机视觉和多媒体分析的基本问题之一,涵盖的研究方向包括动作识别、目标追踪、视频检索和目标分割等。随着深度学习技术的发展,促使视频分析方面的研究由单一的视觉理解转向了视觉-语言理解。其中,基于自然语言描述的时序视频动作片段定位作为一个重要的研究分支,受到了学术界和工业界的广泛关注。如图所示,即给定一个未修剪的长视频和一个自然语言查询描述“一个穿橙色衣服的女孩从摄像机前走过”,该任务目标是从视频中定位出与查询描述一致的动作行为的开始时间(24s)和结束时间(30s)。与传统的时序动作定位任务相比,它不仅将固定的动作行为集合变为了开放的集合,而且还允许对要定位的动作片段添加约束信息,比如:属性信息和实体之间的关系信息。由此可见,使用自然语言查询来定位动作片段,是一种更灵活的定位方式,也更符合实际需求,例如:智能监视、机器人或自动驾驶等。

Scroll to Top