多媒体问答指的是给定一张图片和一个关于此图片的文本问题,输出一个文本形式的准确答案。其应用主要包括协助弱视群体和提供人机交互等。近年来,随着深度学习技术的长足发展,基于深度神经网络的多媒体问答领域也取得了巨大的进步。多媒体问答的通用解决方法如下:对图片输入来说,采用预训练的卷积神经网络抽取视觉特征;对问题输入来说,采用循环神经网络抽取文本特征;之后对这两类特征进行融合与交互,分类得到正确的答案。组内目前关注的问题主要包括语言先验问题与结合外部知识辅助多媒体问答等。多媒体对话可以理解为多轮的多媒体问答,但是后面的问答与之前的问答具有逻辑相关性。不同于传统的多媒体问答,多媒体对话需要将问答历史充分理解,从而要求模型充分捕捉序列间的关系。因此在提取图片中的视觉特征和问题中的文本特征基础上,还要加入对历史问答信息的建模与推理。