炼数成金 门户 商业智能 自然语言处理 查看内容

HFL技术分享 #10 | 选择型阅读理解技术简介及进展

2019-6-5 14:02| 发布者: 炼数成金_小数| 查看: 27089| 评论: 0|来自: 哈工大讯飞联合实验室

摘要: 阅读理解任务是根据对文本的理解来回答与文本相关的问题。阅读理解任务不论对人还是对机器都是一个比较难的问题,不同的人与人之间的阅读理解水平也存在较大的差异。因此如何让机器具有阅读理解能力,或者说如何能够 ...

网络 工具 模型 大数据 RAC

阅读理解任务简介
阅读理解任务是根据对文本的理解来回答与文本相关的问题。阅读理解任务不论对人还是对机器都是一个比较难的问题,不同的人与人之间的阅读理解水平也存在较大的差异。因此如何让机器具有阅读理解能力,或者说如何能够让机器根据文本的信息来解决问题是一个非常具有挑战性的工作。机器阅读理解技术也越来越受到众多研究机构的重视。人工智能在不断发展的过程中,必然要去理解语言,因为人类语言和文字中蕴含着非常多的知识和信息。

机器阅读理解数据集简介
机器阅读理解技术发展是伴随着阅读理解相关数据的构建而发展的。下面列出了目前针对不同阅读理解问题而产生的阅读理解数据集。
填空型阅读理解数据:问题以填空的形式出现,答案一般为篇章出现的一个词。典型数据有CNN / Daily Mail,由Google DeepMind提出。Children 's Book Test(CBT),由Facebook提出。

片段型阅读理解数据:问题为疑问句,答案为篇章中的一个片段(一般比较短,一句话以内),典型数据Stanford Question Answering Dataset(SQuAD),由Stanford 提出。

选择型阅读理解数据:问题为疑问句,选项字面上与篇章无关,一般都需要一定概括和推理才能从选项中选出正确答案,典型数据为RACE,由CMU提出。
下面是每个数据集的样例:

图1 填空型阅读理解数据
 
图2 片段型阅读理解数据


图3 选择型阅读理解数据

填空型阅读理解典型模型
Attentive Reader:在2015年Hermann等人第一次大规模地构造了阅读理解数据集:CNN和DailyMail新闻数据集。该数据集的构造方式是从CNN/DailyMail的新闻网站爬取了大量的新闻原文后,将获取的新闻原文作为篇章,将摘要作为问题, 然后将问题中的一个实体去掉并作为答案。同时为了防止有些问题不需要阅读篇章,只根据问题的上下文就能回答,他们将篇章和问题中的所有实体全部匿名化,并将所有的实体重新排列。

针对这种类型的问题,他们提出了Attentive Reader模型。具体的模型结构如图1所示。这里问题和篇章都用Bi-LSTM进行建模,问题是将两个方向上最后时刻的隐层状态拼接在一起,获得问题的上下文表示,也就是图1中的u。而篇章部分则是将所有时刻的隐层结果输出,即图1中的y(i)。然后计算对于给定的问题u与篇章中的每个词的关联程度(即attention),得到s(i)。通过将所有词的s(i)*y(i)累加起来获得篇章的一个attended表示。最后将问题和篇章的加权表示经过非线性变换(g函数)后得到预测分值,从而得到答案的概率。该文章第一次提出了一种用于构建大规模阅读理解语料的方法,也提出了一个用于解决阅读理解任务的神经网络模型,说这是阅读理解领域的奠基之作,一点也不为过。

图4 Attentive Reader 模型结构

Attention Sum Reader:由IBM提出,填空型阅读理解任务上最具有代表性的模型。这是Kadlec等人发表在ACL 2016上的工作,其模型结构如图5所示。这里提出了一个比较巧妙方法来解决填空型阅读理解任务。他们对问题和篇章的处理和Attentive Reader的处理方法类似,在文本的建模上都使用的是Bi-LSTM,其中篇章是取所有时刻的隐层输出,问题是取最后时刻的隐层状态拼接在一起。但是在计算attention时,AS Reader使用的是点乘(dot)运算得到篇章和问题之间相似程度,然后使用softmax进行归一化操作。他们最终将相同词的attention相加,然后将概率较大的词作为答案。这种处理方法在Attentive Reader model的基础上单模型提高了7%.,最终效果为68.6%,提升效果很显著。文中提出的Attention Sum机制被后续填空型阅读理解模型广泛采用。


图5 Attention Sum Reader模型结构

Attention-over-Attention Reader:由哈工大讯飞联合实验室(HFL)提出,提出了篇章到问题以及问题到篇章的双向Attention机制,在后续阅读理解任务上被多次借鉴和应用,具体结构如图6所示。

图6 Attention-over-Attention Reader

以上模型在填空型的阅读理解数据上的效果都可圈可点。特别是IBM提出的Attention Sum Reader 在填空型的阅读理解数据上获得显著的效果提升以及由哈工大讯飞联合实验室提出的Attention-over-Attention Reader 模型中的双向Attention的机制,在填空型阅读理解数据上证明了方法的有效性。截止到2017年6月,在填空型阅读理解数据上的效果如表1所示,红框表示的上述介绍的几个模型。

表1 填空型阅读理解模型效果对比

片段型阅读理解数据上的典型模型
Bi-Directional Attention Flow(BiDAF):由艾伦研究院(AI2)提出,图7为BiDAF的模型结构。BiDAF模型结构广泛被后续工作所采用,成为SQuAD任务中的经典模型。

图7 BiDAF模型结构

Fusion-Net:由微软提出,具体的模型结构如图8所示。该模型主要的亮点:
1、引入文本的多种不同级别的表示,然后进行融合,得到新的表示
2、Fully-Aware Attention,提出一种新的计算attention方式
Fusion-Net首先通过多层的LSTM分别对context和question建模,然后使用question进步计算attended context表示。最终将不同的级别的context表示拼接到一起,得到一个论文中所示的包含丰富信息的context表示。 

图8 Fusion-Net 模型结构

选择型阅读理解数据及模型
首先介绍一下选择型阅读理解的典型数据集RACE。RACE数据来自中国初高中生的英语阅读理解题,由卡内基梅隆大学发布。数据量共27,933个篇章,97687个问题。

数据特点:
1、篇章较长,显著长于SQuAD数据
2、问题刁钻,由命题专家出题,目的是检测初高中生的英语阅读理解水平
3、推理性较强,需要对问题和篇章进行综合推理才能做出正确的判断
RACE数据按照初中和高中划分了RACE-M和RACE-H两个子数据集,分别对应了两个不同的难度级别。RACE数据上的具体篇章、问题数如表2所示。

表2 RACE数据集的统计信息

另外RACE数据上的单句推理和多句推理问题占比远高于其它几个阅读理解数据集,这也是RACE数据不同于填空型和片段型的阅读理解问题的地方。表3是RACE数据上不同难度级别的问题数与其他几个数据集的对比。

表3 RACE数据集与其他阅读理解数据集的对比

由上表3可以看出,RACE数据集要明显的难于填空型和片段型阅读理解数据集。表4给出在RACE数据集上的baseline模型结果。可以看出,虽然Stanford AR 和GA(Gated-Attention Reader)是CNN/DailyMail及CBT上比较优秀的系统,但迁移到RACE数据上,准确率呈现显著下降。

表4 RACE数据集Baseline效果

在选择型阅读理解数据上,我们将介绍5个模型,分别是:Hierarchical Attention Flow(HIT&MSRA),Dynamic Fusion Networks(CMU&MSR),Hierarchical Co-Matching(SMU&IBM),BiAttention (MRU),Finetuned Transformer LM(OpenAI)。可以看到在选择型的阅读理解数据上也有越来越多的研究机构在投入研究力量。下面将逐一介绍这几个模型的结构。

Hierarchical Attention Flow
该模型来自论文《Hierarchical Attention Flow for Multiple-Choice Reading Comprehension》,作者为Haichao Zhu, Furu Wei, Bing Qin,Ting Liu。该模型主要特点是从词到句逐层计算Attention,并使用Attention信息从问题和文本中抽取每个选项作为答案的特征。模型结构如图9所示。

图9 HAF模型结构
Dynamic Fusion Networks
该模型来自论文《Dynamic Fusion Networks for Machine Reading Comprehension》,作者是Yichong Xu, Jingjing Liu, Jianfeng Gao, Yelong Shen and Xiaodong Liu。该模型特点是使用Attention机制在问题文本及选择之间进行多轮推理计算。针对不同问题设计不同的Attention机制,并且通过强化学习方式,决定不同问题使用哪一种Attention机制。模型结构如图10所示。 

图10 DFN模型结构

Hierarchical Co-Matching
该模型来自论文《A Co-Matching Model for Multi-choice Reading Comprehension》,作者是Shuohang Wang, Mo Yu, Shiyu Chang, Jing Jiang。模型的主要特点是提出一种Co-Match的计算问题文本以及选择之间match的方法。对文本进行Hierarchical的方式进行建模。模型结构如图11所示。

图11 Hierarchical Co-Matching模型结构

BiAttention (MRU)
该模型来自论文《Multi-range Reasoning for Machine Comprehension》,作者为Yi Tay, Luu Anh Tuan, and Siu Cheung Hui。该模型特点是使用MRU单元替代RNN结构,在问答和阅读理解多个数据集上获得显著效果提升。并且由于没有使用RNN结构,模型训练速度得到大幅提升。模型结构如图12所示。

图12 MRU模型结构

Finetuned Transformer LM
该模型来自论文《Improving Language Understanding by Generative Pre-Training》,作者为Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever。

主要特点:
1、借鉴了类似ELMo思想,使用大数据预训练模型的思路(使用大规模语料训练语言模型,得到base model),可以充分利用外部的语料资源(非监督学习)
2、非常容易迁移到其他NLP任务

具体的模型结构如图13:

图13 OpenAI Transformer LM

模型结构非常简单。首先使用一个大数据训练一个Transformer,然后在不同的任务上对Linear层做Fine-Tuning。由于使用了大数据训练,该模型在Classification,Entailment,Similarity及Multiple Choice的任务上都获得非常不错的效果。表5是该模型的在RACE以及Story Cloze上的效果图。

表5  OpenAI Transformer LM在RACE和SCT数据集上效果

RACE数据上的LeaderBoard

图14

图14是RACE数据上的排行榜。

地址:http://www.qizhexie.com//data/RACE_leaderboard

参考文献
[1]Yiming Cui, Zhipeng Chen, Si Wei, Shijin Wang,Ting Liu, and Guoping Hu. 2017. Attention-overattention neural networks for reading comprehension.In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 593–602. Association for Computational Linguistics.
[2]Haichao Zhu, Furu Wei, Bing Qin, and Ting Liu. 2018. Hierarchical attention flow
for multiple-choice reading comprehension.
[3]Karl Moritz Hermann, Tom Koisk, Edward Grefenstette, Lasse Espeholt,Will Kay, Mustafa Suleyman, and Phil Blunsom. 2015. Teaching machines to read and comprehend. In International Conference on Neural Information Processing Systems
[4]Felix Hill, Antoine Bordes, Sumit Chopra, and Jason Weston. 2015. The goldilocks principle: Reading children’s books with explicit memory representations. arXiv preprint arXiv:1511.02301
[5]Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. 2016. Squad: 100,000+ questions for machine comprehension of text. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2383–2392. Association for Computational Linguistics.
[6]Rudolf Kadlec, Martin Schmid, Ondˇrej Bajgar, and Jan Kleindienst. 2016. Text understanding with the attention sum reader network. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 908–918. Association for Computational Linguistics.
[7]Hsin-Yuan Huang, Chenguang Zhu, Yelong Shen, and Weizhu Chen. 2017. Fusionnet: Fusing via fullyaware attention with application to machine comprehension. CoRR, abs/1711.07341.
[8]Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. 2017. Race: Large-scale reading comprehension dataset from examinations. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 785–794. Association for Computational Linguistics.
[9]Xu, Y.; Liu, J.; Gao, J.; Shen, Y.; and Liu, X. 2017. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. arXiv preprint arXiv:1711.04964.
[10]Wang, Shuohang and Yu, Mo and Chang, Shiyu and Jiang, Jing. A Co-Matching Model for Multi-choice Reading Comprehension,arXiv preprint arXiv:1806.04068.2018.
[11]Y. Tay, L. A. Tuan, and S. C. Hui. Multi-range reasoning for machine comprehension. arXiv preprint arXiv:1803.09074, 2018.
[12]Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever. Improving Language Understanding by Generative Pre-Training. 2018. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

声明:本文版权归原作者所有,文章收集于网络,为传播信息而发,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括:各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-9-17 10:14 , Processed in 0.178975 second(s), 24 queries .