賴郁婷,曾俋穎,林柏誠,蕭瑞辰,邵志杰
(1. 臺達(dá)電子股份有限公司 臺達(dá)研究院,臺灣 臺北;2. 臺達(dá)電子股份有限公司 知識管理部,臺灣 臺北)
機(jī)器閱讀理解是近年來自然語言處理的重點(diǎn)研究項(xiàng)目之一,我們相信當(dāng)機(jī)器具備高水平的閱讀理解能力時(shí),將能大幅提升數(shù)據(jù)及知識檢索的效率。近年來,多個(gè)機(jī)器閱讀理解數(shù)據(jù)集的發(fā)布使得機(jī)器閱讀理解的研究大幅增加,常見的任務(wù)形式包含填空題、選擇題與簡答題。其中,簡答題最為接近實(shí)際的應(yīng)用情境,相關(guān)的英文數(shù)據(jù)集有SQuAD[1]、MS MARCO[2],中文數(shù)據(jù)集則有DRCD[3]和DuReader[4]。
本文描述為了2018年舉辦的機(jī)器閱讀理解技術(shù)競賽所建構(gòu)的模型,該競賽采用DuReader數(shù)據(jù)集,其題型為簡答題,每個(gè)問題提供最多五個(gè)文章段落,及人工整理的答案。本文基于經(jīng)典模型BiDAF[5]進(jìn)行數(shù)據(jù)分析與系統(tǒng)改良,提交機(jī)器閱讀理解模型D-Reader。我們的方法加入了預(yù)訓(xùn)練的詞向量,并組合多次訓(xùn)練的模型成為一個(gè)集成模型。也針對訓(xùn)練數(shù)據(jù)做了預(yù)處理及篩選,以確保訓(xùn)練數(shù)據(jù)質(zhì)量,并對預(yù)測結(jié)果進(jìn)行標(biāo)點(diǎn)符號正規(guī)化與是非題分類處理,以提高答案分?jǐn)?shù)。
本文結(jié)構(gòu)如下,第1節(jié)介紹數(shù)據(jù)與預(yù)處理方法,第2節(jié)介紹本文使用的模型及實(shí)現(xiàn)細(xì)節(jié),第3節(jié)介紹實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)結(jié)果,第4節(jié)為分析與討論,第5節(jié)總結(jié)本文內(nèi)容與發(fā)現(xiàn)。
本文的實(shí)驗(yàn)數(shù)據(jù)采用的是2018年舉辦的機(jī)器閱讀理解技術(shù)競賽中公開的DuReader數(shù)據(jù)集,此數(shù)據(jù)集包含30萬個(gè)問題,每個(gè)問題對應(yīng)5個(gè)候選文檔及人工整理的答案,所有的問題與內(nèi)文都來自于真實(shí)的數(shù)據(jù)——百度搜索引擎數(shù)據(jù)和百度知道問答社群。
百度數(shù)據(jù)集可以從兩個(gè)方面來分類: 問題類型與觀點(diǎn)。第一類是問題類型,DuReader將問題類型分成Entity(實(shí)體)、Description(描述)和YesNo(是非)。實(shí)體類問題,其答案都是單一確定的回答或是一連串的字詞,例如: “三國演義的作者有誰?”;對于描述類問題,其答案長度較長,是多個(gè)句子的總結(jié),是一種典型的how/why的問題,例如: “如何在計(jì)算機(jī)安裝Linux系統(tǒng)?”;對于是非類問題,其問題比較簡單,通?;卮鹗腔蚍瘢热? “懷孕可以吃姜黃嗎?”
第二類是觀點(diǎn),即回答是事實(shí)(Fact)還是觀點(diǎn)(Opinion),通過兩個(gè)劃分方法,DuReader的問題類型總共可以分成六類,如表1所示。

表1 DuReader問題類型

續(xù)表
數(shù)據(jù)預(yù)處理采用DuReader數(shù)據(jù)集提供的分詞。另外,在數(shù)據(jù)集中,每一個(gè)問題匹配到多個(gè)參考答案。因此,我們對每一個(gè)參考答案皆取文檔中最近似的區(qū)段,故一個(gè)問題會根據(jù)每一答案產(chǎn)生數(shù)筆訓(xùn)練數(shù)據(jù)。前述處理后,訓(xùn)練數(shù)據(jù)會比原先的30萬筆還要多,預(yù)期擴(kuò)充訓(xùn)練數(shù)據(jù)將會使準(zhǔn)確率提升。參考答案與文章段落的相似度計(jì)算使用F1-score,計(jì)算預(yù)測答案與參考答案的平均重疊次數(shù)。
由于DuReader數(shù)據(jù)集的答案為人工產(chǎn)生,可能無法在文檔中找到準(zhǔn)確對應(yīng)的句子,故濾除與標(biāo)準(zhǔn)答案之F1-score低于0.7的數(shù)據(jù),以保持訓(xùn)練數(shù)據(jù)質(zhì)量。同時(shí),由于時(shí)間與設(shè)備的限制,本文并未使用完整資料,而是使用347 723個(gè)問題作為訓(xùn)練數(shù)據(jù)。
本文的系統(tǒng)架構(gòu)如圖1所示。首先訓(xùn)練詞向量,并基于詞向量訓(xùn)練BiDAF模型,組合6個(gè)單一模型為一個(gè)集成模型,最后進(jìn)行后處理,并對是非題的答案進(jìn)行分類。下面將介紹各步驟的細(xì)節(jié)。

圖1 模型架構(gòu)
本文使用Joulin等于2016年提出的fastText[6]模型進(jìn)行詞向量訓(xùn)練。此模型基于Word2Vec[7],通過上下文的信息來訓(xùn)練詞匯的語意表示,并同時(shí)考慮子詞的信息,將詞匯中N-gram的子詞向量加總作為該詞匯向量。此作法有別于過往,能獲取未登錄詞之詞向量。此外借助子詞的信息,也能有效提升低頻詞的詞向量質(zhì)量。fastText的訓(xùn)練也相當(dāng)快速,是當(dāng)前的主流方法。
我們選用其中的Continuous Bag-of-Word (CBOW) 算法,其以中心詞匯的前后文詞匯來預(yù)測中心詞匯,在優(yōu)化語言模型的同時(shí)更新詞向量。
Bi-Directional Attention Flow (BiDAF)[5]是由Minjoon Seo等發(fā)表于2017年的一個(gè)分層多階段的訓(xùn)練網(wǎng)絡(luò)。其引入不同級別的文章粒度,包含字符級及詞級,對段落上下文進(jìn)行模型的訓(xùn)練。并計(jì)算問題到內(nèi)文與內(nèi)文到問題之間兩種關(guān)注(Attentions),來獲得query-aware的特征向量,最后使用雙向LSTM[8]進(jìn)行語義信息的聚合,得到答案的開始位置以及結(jié)束位置為預(yù)測結(jié)果。
BiDAF網(wǎng)絡(luò)包含六層:
①CharacterEmbeddingLayer: 使用CNN將問句和內(nèi)文的每個(gè)字符映像到一個(gè)多維向量空間。
②WordEmbeddingLayer: 將問句和內(nèi)文的每個(gè)詞映射到一個(gè)300維的向量空間,使用的是前面提到的預(yù)先訓(xùn)練好的fastText的CBOW詞向量模型。 雙層 Highway Network會形成兩個(gè)一維矩陣,包含內(nèi)文的矩陣X和問句的矩陣Q。
③ContextualEmbeddingLayer: 將X和Q向量分別輸入一個(gè)雙向的長期短期記憶網(wǎng)絡(luò)(LSTM)[12],并連接雙向LSTM的輸出,捕捉X和Q各自的特征來優(yōu)化向量。此層輸出為兩個(gè)二維的矩陣,內(nèi)文的矩陣H和問句矩陣U。
④AttentionFlowLayer: 將向量H和向量U鏈接,做 context-to-query 以及 query-to-context 兩個(gè)方向的關(guān)注 (Attention),輸出為內(nèi)文中的每個(gè)單詞的查詢感知特征向量(query-aware vector),以及前一層傳過來的內(nèi)文與問句向量。雙向關(guān)注做法是,先計(jì)算矩陣的相似性,利用內(nèi)文和問句的相似度矩陣S∈RT*J,相似度計(jì)算方法如式(1)所示。
Stj=α(H:t,U:j)∈R
(1)
其中,
(2)
Stj表內(nèi)文的第t個(gè)字和問句的第j個(gè)字的相似度,α是一個(gè)可訓(xùn)練的scalar function,H:t為H的第t列向量,U:j為U的第j列向量,w是一個(gè)可訓(xùn)練的權(quán)重向量,⊙為逐元素的乘積,“;”表示在向量上做拼接,計(jì)算后得到雙向的關(guān)注向量S。

(3)
at=softmax(St:)∈RJ
其中,at表示第t個(gè)內(nèi)文的詞對問句的詞的關(guān)注權(quán)重。
2)Query-to-contextAttention(Q2C): 計(jì)算對每一個(gè)內(nèi)文的詞而言,哪些問句詞與它最相關(guān),當(dāng)作為此問句的關(guān)鍵回答。取得相似性矩陣每列的最大值,并做softmax得到關(guān)注權(quán)重b,即:
b=softmax(maxcol(S))∈RT
(4)
歸一化計(jì)算關(guān)注的內(nèi)文向量。
(5)

(6)
其中,G:t表第t個(gè)列向量,對應(yīng)于第t個(gè)內(nèi)文的詞,β為一個(gè)任意可訓(xùn)練的向量函數(shù),dG是β的輸出維度。β采用的方法是如上面α所述的拼接方式。
(7)
⑤ModelingLayer: 建模層的輸入為G,對G做編碼,經(jīng)過雙向LSTM后得到M∈R2d×T,M的每個(gè)列向量包含關(guān)于整個(gè)內(nèi)文段落和問句的詞的交互信息。
⑥OutputLayer: 使用上一層的M做分類得到內(nèi)文每個(gè)位置為起始位置的機(jī)率p1,然后將M輸入雙向LSTM得到M2,再將M2分類得到結(jié)束位置的機(jī)率p2。
訓(xùn)練: 其中W是一個(gè)可訓(xùn)練的權(quán)重向量,定義訓(xùn)練損失函數(shù)為真實(shí)答案的開始和結(jié)束的負(fù)對數(shù)概率總和,并對所有例子取平均值。
(9)

本文以Wei He[4]等人實(shí)現(xiàn)的BiDAF作為基線系統(tǒng)。在該程序代碼中,在訓(xùn)練與測試階段,對每篇文章挑選出最具代表性的一個(gè)段落,以改良效能。其挑選的方法為,在訓(xùn)練階段,比較答案與段落的recall。而在測試階段,因答案不可取得,則是與問題進(jìn)行比較。然而,我們發(fā)現(xiàn)在測試階段若以段落與問題的recall來篩選,將會導(dǎo)致許多正確答案所在的段落落選,反而選擇復(fù)誦問題但無內(nèi)容的段落。另外也發(fā)現(xiàn),有部分文章被切割為數(shù)個(gè)段落,若只取一個(gè)段落,將取到不完整的文章。因此,為了提升召回率,我們將文章段落以句號串接起來,以整篇來預(yù)測答案。
本節(jié)將6個(gè)BiDAF單一模型的開始與結(jié)束位置的機(jī)率取平均值,再計(jì)算機(jī)率乘積最大的區(qū)間作為答案,如果候選答案區(qū)間為空或?yàn)閱我痪涮枺瑒t視為無效答案,將跳過并取下一個(gè)答案直至找到有效答案。
由于在2.2節(jié)中以句號串接段落文章,在此處將清除多余的標(biāo)點(diǎn)符號和移除換行符號“ ”和“ ”,并于句尾補(bǔ)上句號,使答案句更加完整。
因MRC 2018主辦方規(guī)范的評價(jià)指標(biāo),增加了對正確識別是非題答案類別的得分獎勵。故我們對BiDAF模型預(yù)測過后的是非題結(jié)果進(jìn)行分類。是非題答案共有四個(gè)類別: Yes、No、Depends和No_Opinions。
本文的分類模型基于LSTM設(shè)計(jì)了兩種不同的模型架構(gòu): Attention Text Classifier和Deep Text Modeling Classifier,前者采用注意力機(jī)制,后者采用相似度機(jī)制。因兩種模型側(cè)重的特征不同,該分類模型采用集成的方式組合兩者,以提升模型的泛化能力。
兩個(gè)分類模型都采用相同的預(yù)處理動作,先對問題與答案進(jìn)行分詞,使用清華大學(xué)推出的中文詞法分析工具包THULAC[9],其在簡體中文分詞中具有準(zhǔn)確率高及效能佳的特點(diǎn)。
2.5.1 Attention Text Classifier
此模型分成五個(gè)部分: Embedding Layer、Bi-LSTML Layer、Attention Layer、Merge Layer與Softmax Layer。模型的架構(gòu)如圖2所示。

圖2 Attention Text Classifier模型
①EmbeddingLayer: 使用fastText,以DuReader的數(shù)據(jù)集訓(xùn)練一個(gè)300維詞向量模型。
②BiLSTMLayer: 利用LSTM模型累加的線性形式,處理序列數(shù)據(jù)的信息,避免梯度消失的問題也能學(xué)習(xí)長周期的信息。將Question和Answer分開表示,透過雙向LSTM結(jié)合上下文信息,分別學(xué)習(xí)Question和Answer的表示向量,分別將兩個(gè)表示向量傳遞給后面。
③AttentionLayer: 透過注意力(Attention)機(jī)制,增強(qiáng)關(guān)聯(lián)性較強(qiáng)的詞權(quán)重并降低關(guān)聯(lián)性較低的詞權(quán)重,將Question和Answer的表示向量,采用點(diǎn)積(Dot)方式進(jìn)行計(jì)算,產(chǎn)生答案對于問題的注意力(Attention)的表示向量。
④MergeLayer: 保留問題的信息并加入特定詞匯的權(quán)重,把Attention及Question的表示向量進(jìn)行加總運(yùn)算,將結(jié)果傳遞給后面。
⑤FeedforwardLayer: 使用Softmax回歸模型,針對Merge Layer傳遞過來的信息進(jìn)行學(xué)習(xí),計(jì)算待分類數(shù)據(jù)歸屬于各個(gè)類別的機(jī)率,Softmax 回歸模型是Logistic 回歸模型的一種形式,擁有良好的數(shù)學(xué)特性。
模型的參數(shù)設(shè)定為: 采用Adam 算法進(jìn)行優(yōu)化、詞向量維度為300,batch size設(shè)定為256,LSTM units設(shè)定為128,Hidden Layer Number設(shè)定為1,dropout rate設(shè)定為0.3。
此模型在開發(fā)集的正確率可達(dá)72.71%。
2.5.2 Deep Text Modeling Classifier
此模型參考Basant Agarwal[10]等人提出的分類模型修改而成,分為五個(gè)部分,依序?yàn)镋mbedding layer, CNN layer, RNN layer, Interaction layer, Feed forward layer,模型的架構(gòu)如圖3所示。

圖3 Deep Text Modeling Classifier模型
①Embeddinglayer: 使用Word2Vec,以DuReader的數(shù)據(jù)集訓(xùn)練一個(gè)300維詞向量模型。
②CNNlayer: CNN通過不同大小的filter擷取重要的特征,對于抽取局部特征有優(yōu)異的表現(xiàn)。使用不同長度的filter同步進(jìn)行卷積,視為不同長度的N元組語意信息,最后通過Max pooling將卷積后的重要信息擷取出來。
③RNNlayer: 上述CNN的輸出除了將重要信息擷取出來外,同時(shí)也保留文字的順序關(guān)系,因此將之作為LSTM的輸入,將序列數(shù)據(jù)基于文字順序迭加以獲取文字語意信息。兩個(gè)輸入字符串分別經(jīng)過CNN, RNN layer后相減,此方法可視為句對間語意的差異信息。
④Interactionlayer: 將句對的詞向量作內(nèi)積,內(nèi)積可作為向量在另一向量的投影,因此通過詞向量的內(nèi)積了解句對間詞匯的相似程度,視之為相似矩陣Similarity Matrix,最后將結(jié)果經(jīng)過CNN的特征擷取來表示句對間重要的語意信息。
⑤Feedforwardlayer: 將前述方法所得之結(jié)果串聯(lián)后通過Feed forward layer,通過Softmax來仿真各標(biāo)簽的機(jī)率,采用Cross Entropy作為損失函數(shù),最后通過Adam進(jìn)行參數(shù)更新。
本節(jié)實(shí)驗(yàn)以Wei He[4]等人實(shí)現(xiàn)的BiDAF為基線,進(jìn)一步組合我們提出的改良方法。實(shí)驗(yàn)中BiDAF模型的超參數(shù)設(shè)置如下: batch_size設(shè)為64, dropout_keep_prob 設(shè)為1, embed_size設(shè)為300, epochs 次數(shù)為2, hidden_size為 150, learning_rate為0.001, max_a_len設(shè)定為250, max_p_len設(shè)定為500, max_p_num設(shè)定為5, max_q_len設(shè)定為60。
實(shí)驗(yàn)環(huán)境為: CPU Intel Core E5-2698; GPU NVIDIA DGX-1 搭載 Tesla V100; 顯存128GB; 操作系統(tǒng)為64 位元Ubuntu 16.04 LTS。
實(shí)驗(yàn)以MRC 2018主辦方規(guī)范的ROUGE-L[11]及BLUE-4[12]作為評價(jià)指標(biāo),并以ROUGE-L為主要參考指標(biāo)。主辦方適當(dāng)增加了正確識別是非題的答案類型及匹配實(shí)體的得分獎勵,以彌補(bǔ)傳統(tǒng)ROUGE-L和BLEU-4指標(biāo)對是非題和實(shí)體類型問題評價(jià)不敏感的問題。
3.2.1 后處理實(shí)驗(yàn)
本節(jié)比較答案后處理,包含是非題答案分類及標(biāo)點(diǎn)正規(guī)化的效果,具體說明及參數(shù)設(shè)置見節(jié)2.4與2.5,實(shí)驗(yàn)結(jié)果如表2所示。加入了Yes/No標(biāo)簽(cls)后使ROUGE-L提高了0.42%,BLEU-4提升0.35%。標(biāo)點(diǎn)正規(guī)化(norm)則使ROUGE-L再提高了0.16%,BLEU-4的提升則更為顯著,有0.56%,這可能是源于BLEU-4在短答案上的波動較大的特性。在本節(jié)后續(xù)的實(shí)驗(yàn)中,都會加上cls+norm的后處理。

表2 后處理實(shí)驗(yàn)數(shù)據(jù)
3.2.2 詞向量比較
基于上一節(jié)最佳的后處理設(shè)置,我們進(jìn)一步實(shí)驗(yàn)不同的詞向量。訓(xùn)練語料使用DuReader的全部分詞文本。算法為CBOW,模型窗口設(shè)定為3,維度設(shè)定為300,學(xué)習(xí)速率設(shè)定為0.5,訓(xùn)練5輪。N-gram的最大值設(shè)定為2,最長子詞則設(shè)定為4字符,最小為1字符。損失函數(shù)選用hs。
結(jié)果如表3所示,可以看出使用fastText算法預(yù)訓(xùn)練詞向量較隨機(jī)詞向量效果有顯著提升,ROUGE-L提高了3.93%,BLEU-4提高了2.57%。

表3 詞向量實(shí)驗(yàn)數(shù)據(jù)
3.2.3 預(yù)測方式比較
基線系統(tǒng)為了提升效能,以先挑選文章中最具相關(guān)的段落來加速預(yù)測。而我們使用以句號串接的完整數(shù)據(jù)來預(yù)測,實(shí)驗(yàn)結(jié)果見表4,在ROUGE-L上提高了7.23%,BLEU-4提高了6.75%,進(jìn)步非常顯著,可見基線系統(tǒng)以問題與段落相似度來代表其相關(guān)度的假設(shè)并不合理。這也是本文模型分?jǐn)?shù)大幅提升的關(guān)鍵,雖然會使預(yù)測階段的運(yùn)算時(shí)間拉長,但通過平行處理,運(yùn)算時(shí)間約兩小時(shí),并不至于太慢。

表4 預(yù)測方法實(shí)驗(yàn)數(shù)據(jù)
3.2.4 集成模型
表5是不同集成模型的實(shí)驗(yàn)結(jié)果,此實(shí)驗(yàn)中的每個(gè)單一模型所使用的參數(shù)設(shè)置皆相同。從實(shí)驗(yàn)數(shù)據(jù)可看出,集成模型確實(shí)能優(yōu)化結(jié)果,并且表現(xiàn)比單一模型穩(wěn)定,由7個(gè)模型的集成在ROUGE-L上較單一模型提高了0.96%,可推測越多的集成模型表現(xiàn)越佳。此實(shí)驗(yàn)中的模型以相同權(quán)重集成,我們認(rèn)為線性加權(quán)應(yīng)可再提升結(jié)果。
表5也針對不同前處理的訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)驗(yàn),“標(biāo)準(zhǔn)數(shù)據(jù)”指的是原始訓(xùn)練數(shù)據(jù)集,經(jīng)篩選后有242 132個(gè)問題?!皵U(kuò)充數(shù)據(jù)”則是在1.2節(jié)重新預(yù)處理過所得之?dāng)?shù)據(jù),共有347 723個(gè)問題。
因上傳次數(shù)限制,沒有足夠數(shù)據(jù)進(jìn)行同基準(zhǔn)的比較,但可看出擴(kuò)充數(shù)據(jù)在ROUGE-L上有顯著提升效果,但其BLEU-4下降。我們推測,擴(kuò)充數(shù)據(jù)也可能混淆訓(xùn)練方向,會有同一個(gè)題目卻對應(yīng)到不同的答案的矛盾情形。又因時(shí)間關(guān)系,擴(kuò)充的數(shù)據(jù)并不完整,這也可能是導(dǎo)致分?jǐn)?shù)下降的原因之一。

表5 集成模型實(shí)驗(yàn)數(shù)據(jù)
由于該數(shù)據(jù)集答案為人工產(chǎn)生,以區(qū)段的方式難以表示結(jié)果,因?yàn)榇鸢缚赡苷栽温涞牟煌恢?。在?shí)體類問題中尤為明顯(表6)。我們認(rèn)為也許可以嘗試生成式模型,或是將多個(gè)答案進(jìn)行合并。

表6 摘要式答案之范例
預(yù)測答案時(shí),我們使用以句號串接的方式預(yù)測完整數(shù)據(jù)。這個(gè)做法雖能一定程度上提高命中率及改善段落被錯(cuò)誤切割的情形,但在段落很短時(shí),很大機(jī)率會取到跨段落的答案。表7中,框起來的句號為串接處,問題1串接了數(shù)個(gè)段落的答案,使其更完整,但問題2卻因?yàn)榇恿藘蓚€(gè)獨(dú)立答案,計(jì)分受到長度懲罰。
此外,可以觀察到被誤切為數(shù)段的多為列點(diǎn)或步驟描述,也許可以此為線索合并段落,將有類似格式的內(nèi)文在預(yù)處理時(shí)串接起來,以修正數(shù)據(jù)。至于預(yù)測時(shí)則可改用特殊符號為分隔符,降低預(yù)測到跨文章結(jié)果的機(jī)率。

表7 串接段落對答案的影響之范例
最后,DuReader數(shù)據(jù)集中三種問題類型的特性迥異,我們認(rèn)為應(yīng)對三種類型分別訓(xùn)練。最初雖曾嘗試訓(xùn)練個(gè)別模型,但性能變差,推測原因是數(shù)據(jù)量下降,故未繼續(xù)研究這個(gè)方向。但也許可以嘗試多任務(wù)學(xué)習(xí),通過共享信息來放大數(shù)據(jù),降低拆開訓(xùn)練的不利影響。
機(jī)器閱讀理解是近年來自然語言處理的研究重點(diǎn),隨著更多中文閱讀理解數(shù)據(jù)集的發(fā)布,中文閱讀理解的技術(shù)將能更好地發(fā)展。本文為DuReader數(shù)據(jù)集設(shè)計(jì)一基于BiDAF的閱讀理解系統(tǒng)。除改良數(shù)據(jù)前處理及使用fastText預(yù)訓(xùn)練詞向量,亦發(fā)現(xiàn)基線系統(tǒng)為簡化運(yùn)算而以問題與段落之相似度篩選文本的假設(shè)并不合理,故改用全文預(yù)測,獲得大幅度的性能提高,為本文系統(tǒng)分?jǐn)?shù)提高的主因。本文亦以集成學(xué)習(xí)降低單一模型的偏差,使模型效果更佳,也更穩(wěn)定,有效地提升正確率。并使用兩種分類模型,分別基于注意力與相似性,對是非題答案進(jìn)行分類。
本文實(shí)現(xiàn)的方法在MRC 2018的評比中得到了ROUGE-L 56.57%與 BLEU-4 48.03%的結(jié)果,說明該方法是可行且有效的。
本文研究也存在不足之處,首先,由于時(shí)間與設(shè)備限制,資料擴(kuò)展并沒有完整完成。對于預(yù)測時(shí)的段落串接,雖然大幅改善結(jié)果,但也造成一些多抓的情況,應(yīng)可再嘗試其他的處理方式。另外,未能針對各問題類型及不同資料來源進(jìn)行實(shí)驗(yàn),也是可惜之處,我們認(rèn)為DuReader的三種問題類型各有不同特性,這可以是今后繼續(xù)研究的方向。