D-Reader: 一種以全文預(yù)測的閱讀理解模型

2018-12-20 06:18:46賴郁婷曾俋穎林柏誠蕭瑞辰邵志杰

中文信息學(xué)報(bào) 2018年11期

賴郁婷，曾俋穎，林柏誠，蕭瑞辰，邵志杰

(1. 臺達(dá)電子股份有限公司臺達(dá)研究院，臺灣臺北；2. 臺達(dá)電子股份有限公司知識管理部，臺灣臺北)

0 引言

機(jī)器閱讀理解是近年來自然語言處理的重點(diǎn)研究項(xiàng)目之一，我們相信當(dāng)機(jī)器具備高水平的閱讀理解能力時(shí)，將能大幅提升數(shù)據(jù)及知識檢索的效率。近年來，多個(gè)機(jī)器閱讀理解數(shù)據(jù)集的發(fā)布使得機(jī)器閱讀理解的研究大幅增加，常見的任務(wù)形式包含填空題、選擇題與簡答題。其中，簡答題最為接近實(shí)際的應(yīng)用情境，相關(guān)的英文數(shù)據(jù)集有SQuAD[1]、MS MARCO[2]，中文數(shù)據(jù)集則有DRCD[3]和DuReader[4]。

本文描述為了2018年舉辦的機(jī)器閱讀理解技術(shù)競賽所建構(gòu)的模型，該競賽采用DuReader數(shù)據(jù)集，其題型為簡答題，每個(gè)問題提供最多五個(gè)文章段落，及人工整理的答案。本文基于經(jīng)典模型BiDAF[5]進(jìn)行數(shù)據(jù)分析與系統(tǒng)改良，提交機(jī)器閱讀理解模型D-Reader。我們的方法加入了預(yù)訓(xùn)練的詞向量，并組合多次訓(xùn)練的模型成為一個(gè)集成模型。也針對訓(xùn)練數(shù)據(jù)做了預(yù)處理及篩選，以確保訓(xùn)練數(shù)據(jù)質(zhì)量，并對預(yù)測結(jié)果進(jìn)行標(biāo)點(diǎn)符號正規(guī)化與是非題分類處理，以提高答案分?jǐn)?shù)。

本文結(jié)構(gòu)如下,第1節(jié)介紹數(shù)據(jù)與預(yù)處理方法，第2節(jié)介紹本文使用的模型及實(shí)現(xiàn)細(xì)節(jié)，第3節(jié)介紹實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)結(jié)果，第4節(jié)為分析與討論，第5節(jié)總結(jié)本文內(nèi)容與發(fā)現(xiàn)。

1 數(shù)據(jù)

1.1 數(shù)據(jù)集描述

本文的實(shí)驗(yàn)數(shù)據(jù)采用的是2018年舉辦的機(jī)器閱讀理解技術(shù)競賽中公開的DuReader數(shù)據(jù)集，此數(shù)據(jù)集包含30萬個(gè)問題，每個(gè)問題對應(yīng)5個(gè)候選文檔及人工整理的答案，所有的問題與內(nèi)文都來自于真實(shí)的數(shù)據(jù)——百度搜索引擎數(shù)據(jù)和百度知道問答社群。

百度數(shù)據(jù)集可以從兩個(gè)方面來分類: 問題類型與觀點(diǎn)。第一類是問題類型，DuReader將問題類型分成Entity(實(shí)體)、Description(描述)和YesNo(是非)。實(shí)體類問題，其答案都是單一確定的回答或是一連串的字詞，例如: “三國演義的作者有誰？”；對于描述類問題，其答案長度較長，是多個(gè)句子的總結(jié)，是一種典型的how/why的問題，例如: “如何在計(jì)算機(jī)安裝Linux系統(tǒng)？”；對于是非類問題，其問題比較簡單，通?；卮鹗腔蚍瘢热? “懷孕可以吃姜黃嗎？”

第二類是觀點(diǎn)，即回答是事實(shí)(Fact)還是觀點(diǎn)(Opinion)，通過兩個(gè)劃分方法，DuReader的問題類型總共可以分成六類，如表1所示。

表1 DuReader問題類型

續(xù)表

1.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理采用DuReader數(shù)據(jù)集提供的分詞。另外，在數(shù)據(jù)集中，每一個(gè)問題匹配到多個(gè)參考答案。因此，我們對每一個(gè)參考答案皆取文檔中最近似的區(qū)段，故一個(gè)問題會根據(jù)每一答案產(chǎn)生數(shù)筆訓(xùn)練數(shù)據(jù)。前述處理后，訓(xùn)練數(shù)據(jù)會比原先的30萬筆還要多，預(yù)期擴(kuò)充訓(xùn)練數(shù)據(jù)將會使準(zhǔn)確率提升。參考答案與文章段落的相似度計(jì)算使用F1-score，計(jì)算預(yù)測答案與參考答案的平均重疊次數(shù)。

由于DuReader數(shù)據(jù)集的答案為人工產(chǎn)生，可能無法在文檔中找到準(zhǔn)確對應(yīng)的句子，故濾除與標(biāo)準(zhǔn)答案之F1-score低于0.7的數(shù)據(jù)，以保持訓(xùn)練數(shù)據(jù)質(zhì)量。同時(shí)，由于時(shí)間與設(shè)備的限制，本文并未使用完整資料，而是使用347 723個(gè)問題作為訓(xùn)練數(shù)據(jù)。

2 方法

本文的系統(tǒng)架構(gòu)如圖1所示。首先訓(xùn)練詞向量，并基于詞向量訓(xùn)練BiDAF模型，組合6個(gè)單一模型為一個(gè)集成模型，最后進(jìn)行后處理，并對是非題的答案進(jìn)行分類。下面將介紹各步驟的細(xì)節(jié)。

圖1 模型架構(gòu)

2.1 詞向量

本文使用Joulin等于2016年提出的fastText[6]模型進(jìn)行詞向量訓(xùn)練。此模型基于Word2Vec[7]，通過上下文的信息來訓(xùn)練詞匯的語意表示，并同時(shí)考慮子詞的信息，將詞匯中N-gram的子詞向量加總作為該詞匯向量。此作法有別于過往，能獲取未登錄詞之詞向量。此外借助子詞的信息，也能有效提升低頻詞的詞向量質(zhì)量。fastText的訓(xùn)練也相當(dāng)快速，是當(dāng)前的主流方法。

我們選用其中的Continuous Bag-of-Word (CBOW) 算法，其以中心詞匯的前后文詞匯來預(yù)測中心詞匯，在優(yōu)化語言模型的同時(shí)更新詞向量。

2.2 BiDAF

Bi-Directional Attention Flow (BiDAF)[5]是由Minjoon Seo等發(fā)表于2017年的一個(gè)分層多階段的訓(xùn)練網(wǎng)絡(luò)。其引入不同級別的文章粒度，包含字符級及詞級，對段落上下文進(jìn)行模型的訓(xùn)練。并計(jì)算問題到內(nèi)文與內(nèi)文到問題之間兩種關(guān)注(Attentions)，來獲得query-aware的特征向量，最后使用雙向LSTM[8]進(jìn)行語義信息的聚合，得到答案的開始位置以及結(jié)束位置為預(yù)測結(jié)果。

BiDAF網(wǎng)絡(luò)包含六層:

①CharacterEmbeddingLayer: 使用CNN將問句和內(nèi)文的每個(gè)字符映像到一個(gè)多維向量空間。

②WordEmbeddingLayer: 將問句和內(nèi)文的每個(gè)詞映射到一個(gè)300維的向量空間，使用的是前面提到的預(yù)先訓(xùn)練好的fastText的CBOW詞向量模型。雙層 Highway Network會形成兩個(gè)一維矩陣，包含內(nèi)文的矩陣X和問句的矩陣Q。

③ContextualEmbeddingLayer: 將X和Q向量分別輸入一個(gè)雙向的長期短期記憶網(wǎng)絡(luò)(LSTM)[12]，并連接雙向LSTM的輸出，捕捉X和Q各自的特征來優(yōu)化向量。此層輸出為兩個(gè)二維的矩陣，內(nèi)文的矩陣H和問句矩陣U。

④AttentionFlowLayer: 將向量H和向量U鏈接，做 context-to-query 以及 query-to-context 兩個(gè)方向的關(guān)注 (Attention)，輸出為內(nèi)文中的每個(gè)單詞的查詢感知特征向量(query-aware vector)，以及前一層傳過來的內(nèi)文與問句向量。雙向關(guān)注做法是，先計(jì)算矩陣的相似性，利用內(nèi)文和問句的相似度矩陣S∈RT*J，相似度計(jì)算方法如式(1)所示。

Stj=α(H:t,U:j)∈R

(1)

其中，

(2)

Stj表內(nèi)文的第t個(gè)字和問句的第j個(gè)字的相似度，α是一個(gè)可訓(xùn)練的scalar function，H:t為H的第t列向量，U:j為U的第j列向量，w是一個(gè)可訓(xùn)練的權(quán)重向量，⊙為逐元素的乘積，“;”表示在向量上做拼接，計(jì)算后得到雙向的關(guān)注向量S。

(3)

at=softmax(St:)∈RJ

其中,at表示第t個(gè)內(nèi)文的詞對問句的詞的關(guān)注權(quán)重。

2)Query-to-contextAttention(Q2C): 計(jì)算對每一個(gè)內(nèi)文的詞而言，哪些問句詞與它最相關(guān)，當(dāng)作為此問句的關(guān)鍵回答。取得相似性矩陣每列的最大值，并做softmax得到關(guān)注權(quán)重b，即:

b=softmax(maxcol(S))∈RT

(4)

歸一化計(jì)算關(guān)注的內(nèi)文向量。

(5)

(6)

其中,G:t表第t個(gè)列向量，對應(yīng)于第t個(gè)內(nèi)文的詞，β為一個(gè)任意可訓(xùn)練的向量函數(shù)，dG是β的輸出維度。β采用的方法是如上面α所述的拼接方式。

(7)

⑤ModelingLayer: 建模層的輸入為G，對G做編碼，經(jīng)過雙向LSTM后得到M∈R2d×T，M的每個(gè)列向量包含關(guān)于整個(gè)內(nèi)文段落和問句的詞的交互信息。

⑥OutputLayer: 使用上一層的M做分類得到內(nèi)文每個(gè)位置為起始位置的機(jī)率p1，然后將M輸入雙向LSTM得到M2，再將M2分類得到結(jié)束位置的機(jī)率p2。

訓(xùn)練: 其中W是一個(gè)可訓(xùn)練的權(quán)重向量，定義訓(xùn)練損失函數(shù)為真實(shí)答案的開始和結(jié)束的負(fù)對數(shù)概率總和，并對所有例子取平均值。

(9)

本文以Wei He[4]等人實(shí)現(xiàn)的BiDAF作為基線系統(tǒng)。在該程序代碼中，在訓(xùn)練與測試階段，對每篇文章挑選出最具代表性的一個(gè)段落，以改良效能。其挑選的方法為，在訓(xùn)練階段，比較答案與段落的recall。而在測試階段，因答案不可取得，則是與問題進(jìn)行比較。然而，我們發(fā)現(xiàn)在測試階段若以段落與問題的recall來篩選，將會導(dǎo)致許多正確答案所在的段落落選，反而選擇復(fù)誦問題但無內(nèi)容的段落。另外也發(fā)現(xiàn)，有部分文章被切割為數(shù)個(gè)段落，若只取一個(gè)段落，將取到不完整的文章。因此，為了提升召回率，我們將文章段落以句號串接起來，以整篇來預(yù)測答案。

2.3 集成模型

本節(jié)將6個(gè)BiDAF單一模型的開始與結(jié)束位置的機(jī)率取平均值，再計(jì)算機(jī)率乘積最大的區(qū)間作為答案，如果候選答案區(qū)間為空或?yàn)閱我痪涮枺瑒t視為無效答案，將跳過并取下一個(gè)答案直至找到有效答案。

2.4 后處理

由于在2.2節(jié)中以句號串接段落文章，在此處將清除多余的標(biāo)點(diǎn)符號和移除換行符號“ ”和“ ”，并于句尾補(bǔ)上句號，使答案句更加完整。

2.5 是非題答案分類

因MRC 2018主辦方規(guī)范的評價(jià)指標(biāo)，增加了對正確識別是非題答案類別的得分獎勵。故我們對BiDAF模型預(yù)測過后的是非題結(jié)果進(jìn)行分類。是非題答案共有四個(gè)類別: Yes、No、Depends和No_Opinions。

本文的分類模型基于LSTM設(shè)計(jì)了兩種不同的模型架構(gòu): Attention Text Classifier和Deep Text Modeling Classifier，前者采用注意力機(jī)制，后者采用相似度機(jī)制。因兩種模型側(cè)重的特征不同，該分類模型采用集成的方式組合兩者，以提升模型的泛化能力。

兩個(gè)分類模型都采用相同的預(yù)處理動作，先對問題與答案進(jìn)行分詞，使用清華大學(xué)推出的中文詞法分析工具包THULAC[9]，其在簡體中文分詞中具有準(zhǔn)確率高及效能佳的特點(diǎn)。

2.5.1 Attention Text Classifier

此模型分成五個(gè)部分: Embedding Layer、Bi-LSTML Layer、Attention Layer、Merge Layer與Softmax Layer。模型的架構(gòu)如圖2所示。

圖2 Attention Text Classifier模型

①EmbeddingLayer: 使用fastText，以DuReader的數(shù)據(jù)集訓(xùn)練一個(gè)300維詞向量模型。

②BiLSTMLayer: 利用LSTM模型累加的線性形式，處理序列數(shù)據(jù)的信息，避免梯度消失的問題也能學(xué)習(xí)長周期的信息。將Question和Answer分開表示，透過雙向LSTM結(jié)合上下文信息，分別學(xué)習(xí)Question和Answer的表示向量，分別將兩個(gè)表示向量傳遞給后面。

③AttentionLayer: 透過注意力(Attention)機(jī)制，增強(qiáng)關(guān)聯(lián)性較強(qiáng)的詞權(quán)重并降低關(guān)聯(lián)性較低的詞權(quán)重，將Question和Answer的表示向量，采用點(diǎn)積(Dot)方式進(jìn)行計(jì)算，產(chǎn)生答案對于問題的注意力(Attention)的表示向量。

④MergeLayer: 保留問題的信息并加入特定詞匯的權(quán)重，把Attention及Question的表示向量進(jìn)行加總運(yùn)算，將結(jié)果傳遞給后面。

⑤FeedforwardLayer: 使用Softmax回歸模型，針對Merge Layer傳遞過來的信息進(jìn)行學(xué)習(xí)，計(jì)算待分類數(shù)據(jù)歸屬于各個(gè)類別的機(jī)率，Softmax 回歸模型是Logistic 回歸模型的一種形式，擁有良好的數(shù)學(xué)特性。

模型的參數(shù)設(shè)定為: 采用Adam 算法進(jìn)行優(yōu)化、詞向量維度為300，batch size設(shè)定為256，LSTM units設(shè)定為128，Hidden Layer Number設(shè)定為1，dropout rate設(shè)定為0.3。

此模型在開發(fā)集的正確率可達(dá)72.71%。

2.5.2 Deep Text Modeling Classifier

此模型參考Basant Agarwal[10]等人提出的分類模型修改而成，分為五個(gè)部分，依序?yàn)镋mbedding layer, CNN layer, RNN layer, Interaction layer, Feed forward layer,模型的架構(gòu)如圖3所示。

圖3 Deep Text Modeling Classifier模型

①Embeddinglayer: 使用Word2Vec，以DuReader的數(shù)據(jù)集訓(xùn)練一個(gè)300維詞向量模型。

②CNNlayer: CNN通過不同大小的filter擷取重要的特征，對于抽取局部特征有優(yōu)異的表現(xiàn)。使用不同長度的filter同步進(jìn)行卷積，視為不同長度的N元組語意信息，最后通過Max pooling將卷積后的重要信息擷取出來。

③RNNlayer: 上述CNN的輸出除了將重要信息擷取出來外，同時(shí)也保留文字的順序關(guān)系,因此將之作為LSTM的輸入，將序列數(shù)據(jù)基于文字順序迭加以獲取文字語意信息。兩個(gè)輸入字符串分別經(jīng)過CNN, RNN layer后相減，此方法可視為句對間語意的差異信息。

④Interactionlayer: 將句對的詞向量作內(nèi)積，內(nèi)積可作為向量在另一向量的投影，因此通過詞向量的內(nèi)積了解句對間詞匯的相似程度，視之為相似矩陣Similarity Matrix，最后將結(jié)果經(jīng)過CNN的特征擷取來表示句對間重要的語意信息。

⑤Feedforwardlayer: 將前述方法所得之結(jié)果串聯(lián)后通過Feed forward layer，通過Softmax來仿真各標(biāo)簽的機(jī)率，采用Cross Entropy作為損失函數(shù)，最后通過Adam進(jìn)行參數(shù)更新。

3 實(shí)驗(yàn)

3.1 系統(tǒng)運(yùn)行的環(huán)境及硬件條件

本節(jié)實(shí)驗(yàn)以Wei He[4]等人實(shí)現(xiàn)的BiDAF為基線，進(jìn)一步組合我們提出的改良方法。實(shí)驗(yàn)中BiDAF模型的超參數(shù)設(shè)置如下: batch_size設(shè)為64, dropout_keep_prob 設(shè)為1, embed_size設(shè)為300, epochs 次數(shù)為2, hidden_size為 150, learning_rate為0.001, max_a_len設(shè)定為250, max_p_len設(shè)定為500, max_p_num設(shè)定為5, max_q_len設(shè)定為60。

實(shí)驗(yàn)環(huán)境為: CPU Intel Core E5-2698; GPU NVIDIA DGX-1 搭載 Tesla V100; 顯存128GB; 操作系統(tǒng)為64 位元Ubuntu 16.04 LTS。

3.2 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)以MRC 2018主辦方規(guī)范的ROUGE-L[11]及BLUE-4[12]作為評價(jià)指標(biāo)，并以ROUGE-L為主要參考指標(biāo)。主辦方適當(dāng)增加了正確識別是非題的答案類型及匹配實(shí)體的得分獎勵，以彌補(bǔ)傳統(tǒng)ROUGE-L和BLEU-4指標(biāo)對是非題和實(shí)體類型問題評價(jià)不敏感的問題。

3.2.1 后處理實(shí)驗(yàn)

本節(jié)比較答案后處理，包含是非題答案分類及標(biāo)點(diǎn)正規(guī)化的效果，具體說明及參數(shù)設(shè)置見節(jié)2.4與2.5，實(shí)驗(yàn)結(jié)果如表2所示。加入了Yes/No標(biāo)簽(cls)后使ROUGE-L提高了0.42%，BLEU-4提升0.35%。標(biāo)點(diǎn)正規(guī)化(norm)則使ROUGE-L再提高了0.16%，BLEU-4的提升則更為顯著，有0.56%，這可能是源于BLEU-4在短答案上的波動較大的特性。在本節(jié)后續(xù)的實(shí)驗(yàn)中，都會加上cls+norm的后處理。

表2 后處理實(shí)驗(yàn)數(shù)據(jù)

3.2.2 詞向量比較

基于上一節(jié)最佳的后處理設(shè)置，我們進(jìn)一步實(shí)驗(yàn)不同的詞向量。訓(xùn)練語料使用DuReader的全部分詞文本。算法為CBOW，模型窗口設(shè)定為3，維度設(shè)定為300，學(xué)習(xí)速率設(shè)定為0.5，訓(xùn)練5輪。N-gram的最大值設(shè)定為2，最長子詞則設(shè)定為4字符，最小為1字符。損失函數(shù)選用hs。

結(jié)果如表3所示，可以看出使用fastText算法預(yù)訓(xùn)練詞向量較隨機(jī)詞向量效果有顯著提升，ROUGE-L提高了3.93%，BLEU-4提高了2.57%。

表3 詞向量實(shí)驗(yàn)數(shù)據(jù)

3.2.3 預(yù)測方式比較

基線系統(tǒng)為了提升效能，以先挑選文章中最具相關(guān)的段落來加速預(yù)測。而我們使用以句號串接的完整數(shù)據(jù)來預(yù)測，實(shí)驗(yàn)結(jié)果見表4，在ROUGE-L上提高了7.23%，BLEU-4提高了6.75%，進(jìn)步非常顯著，可見基線系統(tǒng)以問題與段落相似度來代表其相關(guān)度的假設(shè)并不合理。這也是本文模型分?jǐn)?shù)大幅提升的關(guān)鍵，雖然會使預(yù)測階段的運(yùn)算時(shí)間拉長，但通過平行處理，運(yùn)算時(shí)間約兩小時(shí)，并不至于太慢。

表4 預(yù)測方法實(shí)驗(yàn)數(shù)據(jù)

3.2.4 集成模型

表5是不同集成模型的實(shí)驗(yàn)結(jié)果，此實(shí)驗(yàn)中的每個(gè)單一模型所使用的參數(shù)設(shè)置皆相同。從實(shí)驗(yàn)數(shù)據(jù)可看出，集成模型確實(shí)能優(yōu)化結(jié)果，并且表現(xiàn)比單一模型穩(wěn)定，由7個(gè)模型的集成在ROUGE-L上較單一模型提高了0.96%，可推測越多的集成模型表現(xiàn)越佳。此實(shí)驗(yàn)中的模型以相同權(quán)重集成，我們認(rèn)為線性加權(quán)應(yīng)可再提升結(jié)果。

表5也針對不同前處理的訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，“標(biāo)準(zhǔn)數(shù)據(jù)”指的是原始訓(xùn)練數(shù)據(jù)集，經(jīng)篩選后有242 132個(gè)問題?！皵U(kuò)充數(shù)據(jù)”則是在1.2節(jié)重新預(yù)處理過所得之?dāng)?shù)據(jù)，共有347 723個(gè)問題。

因上傳次數(shù)限制，沒有足夠數(shù)據(jù)進(jìn)行同基準(zhǔn)的比較，但可看出擴(kuò)充數(shù)據(jù)在ROUGE-L上有顯著提升效果，但其BLEU-4下降。我們推測，擴(kuò)充數(shù)據(jù)也可能混淆訓(xùn)練方向，會有同一個(gè)題目卻對應(yīng)到不同的答案的矛盾情形。又因時(shí)間關(guān)系，擴(kuò)充的數(shù)據(jù)并不完整，這也可能是導(dǎo)致分?jǐn)?shù)下降的原因之一。

表5 集成模型實(shí)驗(yàn)數(shù)據(jù)

4 分析與討論

由于該數(shù)據(jù)集答案為人工產(chǎn)生，以區(qū)段的方式難以表示結(jié)果，因?yàn)榇鸢缚赡苷栽温涞牟煌恢?。在?shí)體類問題中尤為明顯(表6)。我們認(rèn)為也許可以嘗試生成式模型，或是將多個(gè)答案進(jìn)行合并。

表6 摘要式答案之范例

預(yù)測答案時(shí)，我們使用以句號串接的方式預(yù)測完整數(shù)據(jù)。這個(gè)做法雖能一定程度上提高命中率及改善段落被錯(cuò)誤切割的情形，但在段落很短時(shí)，很大機(jī)率會取到跨段落的答案。表7中，框起來的句號為串接處，問題1串接了數(shù)個(gè)段落的答案，使其更完整，但問題2卻因?yàn)榇恿藘蓚€(gè)獨(dú)立答案，計(jì)分受到長度懲罰。

此外，可以觀察到被誤切為數(shù)段的多為列點(diǎn)或步驟描述，也許可以此為線索合并段落，將有類似格式的內(nèi)文在預(yù)處理時(shí)串接起來，以修正數(shù)據(jù)。至于預(yù)測時(shí)則可改用特殊符號為分隔符，降低預(yù)測到跨文章結(jié)果的機(jī)率。

表7 串接段落對答案的影響之范例

最后，DuReader數(shù)據(jù)集中三種問題類型的特性迥異，我們認(rèn)為應(yīng)對三種類型分別訓(xùn)練。最初雖曾嘗試訓(xùn)練個(gè)別模型，但性能變差，推測原因是數(shù)據(jù)量下降，故未繼續(xù)研究這個(gè)方向。但也許可以嘗試多任務(wù)學(xué)習(xí)，通過共享信息來放大數(shù)據(jù)，降低拆開訓(xùn)練的不利影響。

5 結(jié)論

機(jī)器閱讀理解是近年來自然語言處理的研究重點(diǎn)，隨著更多中文閱讀理解數(shù)據(jù)集的發(fā)布，中文閱讀理解的技術(shù)將能更好地發(fā)展。本文為DuReader數(shù)據(jù)集設(shè)計(jì)一基于BiDAF的閱讀理解系統(tǒng)。除改良數(shù)據(jù)前處理及使用fastText預(yù)訓(xùn)練詞向量，亦發(fā)現(xiàn)基線系統(tǒng)為簡化運(yùn)算而以問題與段落之相似度篩選文本的假設(shè)并不合理，故改用全文預(yù)測，獲得大幅度的性能提高，為本文系統(tǒng)分?jǐn)?shù)提高的主因。本文亦以集成學(xué)習(xí)降低單一模型的偏差，使模型效果更佳，也更穩(wěn)定，有效地提升正確率。并使用兩種分類模型，分別基于注意力與相似性，對是非題答案進(jìn)行分類。

本文實(shí)現(xiàn)的方法在MRC 2018的評比中得到了ROUGE-L 56.57%與 BLEU-4 48.03%的結(jié)果，說明該方法是可行且有效的。

本文研究也存在不足之處，首先，由于時(shí)間與設(shè)備限制，資料擴(kuò)展并沒有完整完成。對于預(yù)測時(shí)的段落串接，雖然大幅改善結(jié)果，但也造成一些多抓的情況，應(yīng)可再嘗試其他的處理方式。另外，未能針對各問題類型及不同資料來源進(jìn)行實(shí)驗(yàn)，也是可惜之處，我們認(rèn)為DuReader的三種問題類型各有不同特性，這可以是今后繼續(xù)研究的方向。