基于深度學習的機器閱讀理解

2019-09-24 02:00:29王勇林景彥王瑛

電腦知識與技術 2019年19期

王勇林景彥王瑛

摘要：閱讀理解是考試中一個基本題型，其一般形式是給定一段文本，考生在閱讀完文本后根據文本內容解答題目。如果機器也有閱讀理解的能力，能幫助我們從眾多的文本中找到我們需要的答案。近年來，深度學習發展迅猛并應用到機器閱讀理解領域中，取得了很好的效果。本文首先闡述了機器閱讀理解的基本概況，基于深度學習機器閱讀理解模型的基本架構。然后介紹了基于深度學習的機器閱讀理解研究現狀，包括數據集和經典模型。

關鍵詞：機器閱讀理解;深度學習;自然語言處理

中圖分類號： TP391? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2019）19-0203-02

1 機器閱讀理解概要

機器閱讀理解就是讓機器像人一樣能閱讀文本，讓計算機閱讀一篇文章，隨后讓計算機解答與文中信息相關的問題，一般題型包括選擇題、填空題和分析題。機器閱讀理解，是當前自然語言處理研究的核心任務之一[1]。與傳統分詞、命名實體識別和句法分析等任務相比包含更長的篇章，更深層次的語義信息，需要綜合運用文本表示、檢索、指代消解和推理等方法，具有很強的挑戰性。機器閱讀理解無論是在工業界還是學術界都有著很高的研究價值。當前研究熱門主要在文本表示、相關片段檢索和答案生成三個方面。

機器閱讀理解能力的提高可輔助醫療診斷、閱卷、法官判決、智能客服、知識問答和搜索引擎等。傳統的機器閱讀理解做法是手工提取特征和設計規則需要大量的人工勞動力。基于深度神經網絡的機器閱讀理解可自動學習與任務相關的特征和規則，能捕獲更多特征信息，包括一些人工很難理解到的信息。取得與傳統方法相當甚至更好的效果，同時避免了傳統方法中需要人工提取特征以及一些預處理工具的問題。

2 基本模型架構

典型的基于深度學習機器閱讀理解模型包括詞向量層、表征層、交互層和輸出層。模型的輸入一般是一個三元組{P， Q， A}，其中P表示原文，Q代表問題，A表示答案。

詞向量層就是將原文、問題與答案的詞映射成低維詞向量。一般都是通過詞表查詞操作獲得詞向量。使用Word2vec、ELMo和BERT等詞向量工具大規模的文本上訓練，可以獲得含有豐富語義和文法信息的詞向量表。

表征層就是用CNN和LSTM等深度神經網絡對原文、問題和答案每個單詞及其上下文語義進行編碼。最常用的編碼器是雙向LSTM和雙向GRU，它們都有很強的語義序列建模能力。雙向LSTM和雙向GRU能從正向和反向兩個方向獲取整個句子的語義信息，并將這兩個方向的隱層狀態拼接起來表征句子的整體語義。

交互層主要是通過注意力機制實現文本信息的交互，得到交互后文本的表示。在基于深度學習機器閱讀理解任務中，主要運用自注意力和互注意力兩種機制。自注意力機制一般針對原文，原文間的詞交互得到原文中的關鍵信息。互注意力機制一般是原文與問題詞向量進行交互，得到基于原文問題的表示和基于問題原文的表示。

輸出層是模型的最后一層，輸出層一般是輸出答案在原文中的起始位置與終止位置。主要是通過sigmoid函數或指針網絡對答案起始位置和終止位置預測。

模型評價指標與題型相關。對于選擇題，評價標準是準確率。對于填空題和分析題，評價指標有EM、F1、BLEU和Rouge-L。

3 研究現狀

3.1 數據集

目前大部分大規模的機器閱讀理解數據集都是英文數據集，包括SQuAD、MS-MARCO和RACE。其中最流行的是SQuAD數據集[2]，它是由斯坦福大學于2016年發布的，被稱為是自然語言處理的“ImageNet”數據集。SQuAD通過眾包的方式，從wikipedia上的536篇文章切出了23215個自然段，每個段落提五個問題，貼近實際。數據集答案的類別包括日期、人名、地點、數字和名詞詞組等。文本片段及答案如圖1所示。2018年SQuAD發布了2.0版本[3]，增大了數據集的難度，新增了超過五萬個由人類眾包者設計的無法回答的問題，模型在回答問題時需要判斷哪些問題是在文本中沒有證據支持的，并拒絕回答這些問題。

3.2 經典模型

Seo[5]等提出了多層次、多粒度模型Bi-Directional Attention Flow（BiDAF），該模型在注意力層上同時計算問題與原文和原文與問題的相似度，通過數據流動保留更多信息，更好地實現原文和問題的交互。通過softmax函數和BiLSTM輸出答案的起始和結束位置。

Cui Y[6]等提出了Attention Over Attention模型（AOA），原文向量和問題向量后相乘得到原文-問題矩陣，然后分別從列和行兩個維度進行softmax操作得到原文注意力矩陣和問題注意力矩陣，其中問題注意力矩陣是每一列元素求均值，將兩個注意力矩陣相乘，得到每個詞作為答案的概率。

Wang[7]等模仿人類做閱讀理解過程，提出了R-Net。使用了詞和字兩種embedding使文本輸入特征更豐富。通過門機制與注意力機制實現了原文與問題交互，原文自身重要信息提取。最后通過指針網絡輸出答案起始和終止位置。

Shen[8]等提出了ReasoNet。模型在推理答案階段運用增強學習的方法，模擬人類閱讀的過程，帶著問題多次閱讀原文，當從已知信息得出答案后，可動態決定是否需要后續的推理或立刻停止閱讀把當前答案作為最終答案輸出。

4 總結

隨著深度學習的發展，機器的閱讀理解能力跟人類越來越接近，但仍存在較大的差距。當前很多機器閱讀理解的方法仍然基于文本匹配而不是真正通過理解原文與問題得出答案。下一步研究重點將包括外部知識（常識）的引入、基于多段落多文本的閱讀理解和可解析推理機制這三個方面。

參考文獻：

[1] 劉飛龍，郝文寧，陳剛，等. 基于雙線性函數注意力Bi-LSTM模型的機器閱讀理解[J]. 計算機科學， 2017（S1）：102-106，132.

[2] Rajpurkar P， Zhang J， Lopyrev K， et al. SQuAD： 100，000+? Questions? for Machine Comprehension of Text[C]// Conference on Empirical Methods in Natural Language Processing. 2016：2383-2392.

[3] Rajpurkar P， Jia R， Liang P. Know What You Don't Know： Unanswerable Questions for SQuAD[C]// Meeting of the Association for Computational Linguistics. 2018：784-789.

[4] He W ， Liu K ， Lyu Y ， et al. DuReader： a Chinese Machine Reading Comprehension Dataset from Real-world Applications[J]. arXiv preprint arXiv：1711.05073.

[5] Seo M， Kembhavi A， Farhadi A， et al. Bidirectional Attention Flow for Machine Comprehension[C]// International Conference on Learning Representations， 2017.

[6] Cui Y， Chen Z， Wei S， et al. Attention-over-Attention Neural Networks for Reading Comprehension[C]// Meeting of the Association for Computational Linguistics. 2017：593-602.

[7] Wang W， Yang N， Wei F， et al. Gated Self-Matching Networks for Reading Comprehension and Question Answering[C]// Meeting of the Association for Computational Linguistics. 2017：189-198.

[8] Shen Y， Huang P S， Gao J， et al. ReasoNet： Learning to Stop Reading in Machine Comprehension[C]// ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM， 2017：1047-1055.

【通聯編輯：唐一東】