[实习交流] 阿里巴巴集团科研实习 | 焦方锴

2020年9月至2021年2月,实验室成员焦方锴在阿里巴巴达摩院机器智能服务事业群小蜜团队进行了为期七个月的科研实习。小蜜团队负责多语言各类型小蜜、基于多模态的直播小蜜、质培小蜜等多种新型客服产品。

近年来随着自监督学习的快速发展,基于Transformer的各种预训练语言模型,如BERT,RoBERTa等,在各种任务上都取得了优秀的表现,同样也被广泛应用于各种实际场景中。然而,由于预训练语言模型旨在获得通用的语义表示,对于特定任务仍然有所欠缺,因此在解决低资源、长尾问题等方面仍然存在一定的提升空间。此外由于自监督学习并不依赖于标注数据,通常只需要大量的文本即可训练,因此面向特定任务的预训练技术是一个值得探索的方向。

针对小蜜机器人在实际应用中大量的问答场景,焦方锴提出了一种全新的面向机器阅读理解及问答的预训练技术。当前的基于语言建模的预训练方法存在两个问题,一是超大规模的预训练容易使得模型对预训练的任务过拟合,影响在下游任务上的泛化性;二是基于语言建模旨在帮助模型获得语义知识,而不同的任务在此之上往往也需要其他更重要的能力,比如机器阅读理解问题更加考验模型在单篇或多篇文档中检索于问题相关的证据片段,并推理出结果的能力。为了解决这两个问题,焦方锴设计了两个新的预训练任务,将证据检索引入到模型求解问题的过程中,在构造训练数据时也巧妙地屏蔽掉了信息短路,防止模型仅学习到浅层的统计信息,从而帮助模型缓解过拟合现象,并学习到更强的证据抽取的能力。最终的模型在多个需要多句推理的阅读理解公开数据集上相比基准模型取得了明显的提升,同时进一步的分析发现该预训练方法确实能够在不依靠标注数据的情况下帮助模型提高证据抽取的能力。此外,在低资源场景下,我们的方法也能够帮助模型在仅使用原有标注数据的70%的情况下取得超过未经预训练的模型的结果。

该方法最终形成了一篇学术论文,并已投稿至ACL 2021同行评审。

Scroll to Top