譚詠梅,劉姝雯,呂學強
(1. 北京郵電大學 計算機學院,北京 100876;2. 北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101)
文本蘊含識別(recognizing textual entailment,RTE)是指給定文本T(Text)與假設H(Hypothesis),識別出T是否蘊含H。換言之,當一個人閱讀T之后,推斷出H是否為真[1],對深入理解文本語義具有重要作用。其中,中文文本蘊含識別是指識別出中文句對(T-H對)之間是否存在蘊含關系。
文本蘊含識別是自然語言處理領域一項具有挑戰(zhàn)性的任務,可以應用到多項信息獲取技術中。例如,信息檢索中可以使用文本蘊含技術生成與檢索詞語相關的候選信息,問答系統(tǒng)中可以使用文本蘊含來生成候選答案或者對候選答案進行篩選排序,文本摘要中可以使用文本蘊含技術輔助精簡文本[2]。
目前,中文文本蘊含大多采用機器學習的方法,通過人工提取大量特征構造分類器進行識別,這些方法需要依賴于特征工程以及大量的自然語言處理(natural language processing, NLP)工具(例如詞性標注、命名實體識別、指代消解等)。當前,深度學習與傳統(tǒng)方法相結合的方法在NLP問題上取得了一定的成果,例如LSTM和CRF相結合的方法在分詞、命名實體識別等序列標注問題上已經得到應用[3-4]。本文將深度學習與傳統(tǒng)方法結合,提出一種基于CNN與雙向LSTM的中文文本蘊含識別方法,首先使用卷積神經網(wǎng)絡(convolutional neural network,CNN)與雙向長短時記憶網(wǎng)絡(bidirectional long short-term memory,BiLSTM)自動提取相關特征,避免人工篩選大量特征以及NLP工具造成的錯誤累計問題,然后使用全連接層進行分類得到初步的識別結果,最后使用語義規(guī)則進行修正,得到最終的蘊含識別結果。該方法在2014年RITE-VAL評測數(shù)據(jù)集上MacroF1結果為61.74%,超過評測中最好的成績61.51%[5],表明該方法對于中文文本蘊含識別是有效的。
日本國立情報學研究所(national institute of information,NII)組織的NTCIR(NII test collection for IR systems)于2011年開始舉辦中文文本蘊含識別(recognizing inference in text,RITE)方面的評測任務[6]。截止到目前,國內外已經成功舉辦了三次中文文本蘊含識別的評測。2011年NTCIR-9提出了RITE任務[7],2013年NTCIR-10提出了RITE-2任務[8],2014年NTCIR-11提出了RITE-VAL任務[9]。
對于中文文本蘊含識別任務,學者們已經提出了許多種方法,包括基于規(guī)則的方法[10]、基于相似度的方法[11]、基于對齊的方法[12]、基于機器學習的方法[5]、基于深度神經網(wǎng)絡的方法[13]等。
基于規(guī)則的方法需要由人工編寫若干中文文本蘊含關系的規(guī)則,當滿足某一規(guī)則時,給出是否蘊含的結論。基于規(guī)則的方法的優(yōu)點是直觀、識別準確、易于理解;缺點是規(guī)則的編寫需要花費大量的人力與時間,由于中文表述的多樣性以及背景知識的缺乏,規(guī)則并不能涵蓋全部的語言現(xiàn)象。
基于相似度的方法認為“相似即蘊含”,文本對之間的相似度越高,它們之間存在蘊含關系的可能性越大。在實驗中會根據(jù)訓練數(shù)據(jù)設定一個閾值,測試時,如果文本對的相似度高于閾值則判定為“蘊含”,否則認為“不蘊含”。基于相似度的方法的優(yōu)點是實現(xiàn)相對簡單,可以判斷在詞匯層面是否具有蘊含關系;缺點是強行假設“相似即蘊含”,導致大量相似但并不蘊含的文本對被錯誤識別[2],也不能深入理解句法、語義關系。
基于對齊的方法是在基于相似度的方法上演化出來的[2],找出文本對之間的相似部分并通過對齊技術進行對齊,然后根據(jù)對齊的程度識別是否蘊含。基于對齊的方法的優(yōu)點是直觀;缺點是不夠靈活,對具有復雜對齊方式的文本蘊含關系識別效果不佳。
基于機器學習的方法通過人工已標注好的數(shù)據(jù)提取大量的詞匯特征、句法特征、語義特征等,然后構造分類器(如SVM,LR等)進行分類。基于機器學習的方法的優(yōu)點是適用于樣本數(shù)據(jù)量小的情況,減少了規(guī)則的使用;缺點是需要人工提取大量特征,不僅耗時耗力,而且分類效果嚴重依賴提取的特征,并且在提取特征的時候需要使用大量自然語言處理工具,也會引入新的錯誤。
隨著深度神經網(wǎng)絡技術在圖像、語音等領域的成功應用,基于深度神經網(wǎng)絡的方法在文本蘊含識別中的應用研究也逐漸增多。例如,王寶鑫將注意力機制應用在卷積神經網(wǎng)絡模型中,來對英文文本蘊含識別進行研究[13]。深度神經網(wǎng)絡方法和傳統(tǒng)方法相比,有如下幾個特點。
(1) 減少甚至避免人工參與。傳統(tǒng)方法需要大量的人工抽取特征,深度神經網(wǎng)絡可以避免傳統(tǒng)機器學習方法中的人工抽取特征工作。
(2) 減少錯誤累計。傳統(tǒng)方法需要詞性標注、命名實體識別等NLP工具,而使用多種NLP工具時容易導致錯誤累計問題,深度神經網(wǎng)絡的方法可以在一定程度上減少錯誤累計。
(3) 模型調整。方便傳統(tǒng)方法的可塑性較深度神經網(wǎng)絡方法低,如果用傳統(tǒng)方法解決問題,改進成本巨大,調整模型時可能需要對代碼進行大量改動。而深度神經網(wǎng)絡的方法只需要調整參數(shù),就可以調整模型,具有很強的靈活性和成長性。
(4) 訓練成本稍高。雖然深度神經網(wǎng)絡方法較傳統(tǒng)方法的訓練成本高,但是當前高速發(fā)展的硬件性能可以支撐深度神經網(wǎng)絡的訓練。
本文方法首先對文本進行預處理,之后將句子映射到向量表示,再使用CNN與雙向LSTM分別對文本進行編碼,提取相關特征,然后使用全連接層進行分類,得到初步的識別結果,最后使用語義規(guī)則對網(wǎng)絡識別結果進行處理,得到最終的蘊含識別結果,其系統(tǒng)架構如圖1所示。

圖1 基于CNN與雙向LSTM的中文文本蘊含識別系統(tǒng)架構圖
(1) 文本與假設分開
由于語料中的文本T與假設H是成對保存的,本文系統(tǒng)需要對T和H分別構建子網(wǎng)絡,所以首先將T和H分開,以便于網(wǎng)絡的構建。
(2) 統(tǒng)一數(shù)字
由于文本中對于數(shù)字的表示方法不一致,需要將文本中的數(shù)字格式進行統(tǒng)一,全部以阿拉伯數(shù)字的形式表示[14]。如: “二百一十七”轉化為“217”,“百分之七十五”轉化為“0.75”。
(3) 中文分詞
中文沒有空格等形式的天然分隔符,因此需要進行分詞處理。本文使用結巴分詞*https: //pypi.python.org/pypi/jieba/進行中文分詞。
例如,對句子“拉力賽是采用公共或者私人道路,使用改裝過的或者是特別制造的汽車進行的比賽。”進行中文分詞后,得到如下結果:
“拉力賽 是 采用 公共 或者 私人 道路 , 使用 改裝 過 的 或者是 特別 制造 的 汽車 進行 的 比賽 。”
(4) 拼音轉換
由于實驗數(shù)據(jù)的稀疏性以及漢字數(shù)量龐大,本文首先使用pinyin*https: //pypi.python.org/pypi/xpinyin/將中文轉換成拼音表示,以減小詞典大小,同時減少未登錄詞(out of vocabulary,OOV)出現(xiàn)的數(shù)量。
例如,對句子“拉力賽是采用公共或者私人道路,使用改裝過的或者是特別制造的汽車進行的比賽。”進行漢字轉拼音后,得到如下結果:
“l(fā)a li sai shi cai yong gong gong huo zhe si ren dao lu , shi yong gai zhuang guo de huo zhe shi te bie zhi zao de qi che jin xing de bi sai 。”
2.2.1 嵌入層
嵌入層將預處理得到的結果以向量的形式表示,將句子映射到低維向量表示,每一列對應一個字,表示成n×l的矩陣形式(n表示嵌入的向量維度,l表示句子長度)。嵌入層通過將文本轉化為計算機能夠處理的數(shù)字向量形式,便于之后的網(wǎng)絡提取特征。
2.2.2 卷積層
1962年,Hubel和Wiesel通過對貓的視覺皮層細胞的研究,提出了感受野的概念[15]。1998年,LeCun Yann提出了基于CNN的文字識別系統(tǒng)LeNet-5[16],并被用于銀行手寫數(shù)字識別。
CNN主要有卷積和池化兩種操作。卷積參考了局部感受野的思想,每個隱藏層節(jié)點只連接到某個足夠小局部的輸入點上,而不是全連接到每個輸入點上,同時同一層中某些神經元之間的連接權重是共享的,從而大大減少需要訓練的權值參數(shù)。卷積操作可以在避免傳統(tǒng)機器學習方法人工提取大量特征的情況下,提取出句子的詞匯特征、語義特征等信息。
如圖1中所示,卷積層使用多個n×h的濾波器(或稱卷積核;n為嵌入向量的維度,h為濾波器的窗口大小)與嵌入層的輸出結果進行卷積操作,通過使用不同窗口大小的濾波器可以讓網(wǎng)絡自動提取出句子的不同特征。再將每一個濾波器與句子卷積得到的結果連接起來,得到卷積層的輸出,計算如式(1)所示[17]。
mi=f(w·xi: i+h-1+b)
(1)
其中,mi表示卷積操作得到的第i個特征,f表示非線性函數(shù),w表示一個濾波器的權重,它通過與一個窗口大小為h的輸入特征x進行卷積操作得到一個新的特征,xi可以看作輸入x的第i個輸入,b為偏置。
將上述得到的所有特征連接起來就得到了卷積層的輸出特征圖M,如式(2)所示[17]。
M=[m1,m2,…,ml-h+1]
(2)
其中,l表示輸入長度。
2.2.3 池化層
池化類似于一種“壓縮”方法,在每次卷積過后,通過一個下采樣過程來減小規(guī)模,簡化從卷積層輸出的信息。本文使用最大池化[18]的方法,對卷積層輸出的每個向量取最大值,提取出最重要的特征信息,再連接成一個向量,得到池化層的輸出。最大池化的方法能使用網(wǎng)絡自動提取到句子中最有用的特征。
計算如式(3)所示[17]。

(3)

將上述得到的所有最大池化結果連接起來就得到了池化層的輸出z,如式(4)所示[17]。
(4)
其中,k為濾波器個數(shù)。
2.2.4 BiLSTM層
LSTM(long short-term memory,長短時記憶網(wǎng)絡)由Hochreiter等人于1997年提出[19],通過設置輸入門、遺忘門、輸出門,避免了循環(huán)神經網(wǎng)絡(recurrent neural network,RNN)在隱藏層梯度計算時由于鏈式法則造成的梯度消失(梯度趨近于零)和梯度爆炸(梯度趨近于無窮)問題[20]。
Graves等人于2005年提出的BiLSTM[21]通過向前和向后分別訓練一個LSTM,能做到同時保留“過去”與“未來”的文本信息。
由于LSTM只能保留“過去”的信息,即只能正向提取句子中的詞匯、語義信息,而BiLSTM能在訪問“過去”的信息的同時,訪問“未來”的信息,即能從正向、反向兩個方向提取句子中的詞匯、語義信息,得到更豐富、更深入的信息,對于中文文本蘊含識別任務是非常有益的。
BiLSTM層對嵌入層的輸出進行操作,以保留句子在“過去”以及“未來”的長期依賴信息,然后將這些信息連接起來,作為本層的輸出。BiLSTM層的使用避免了傳統(tǒng)機器學習方法需要人工提取大量特征的工作。
假設在t時刻的輸入向量為xt,前一時刻的輸出為ht-1,前一時刻的隱藏狀態(tài)為ct-1,則當前時刻的狀態(tài)ct和輸出ht如式(5)、式(6)所示。
其中,當前時刻的輸入X由輸入向量xt與前一時刻的輸出ht-1組成,如式(7)所示,w為權重,b為偏置,g、s分別表示狀態(tài)的輸入和輸出的激活函數(shù),it、ft、ot分別表示輸入門i、遺忘門f、輸出門o在t時刻的激活值,如式(8)~式(10)所示。σ表示三個門的激活函數(shù)。
2.2.5 全連接層
全連接層為三層的全連接結構: 輸入層為T與H的池化層與BiLSTM層輸出的連接Z,一個隱藏層,輸出層使用softmax函數(shù)得到網(wǎng)絡的識別結果。
計算如式(11)所示。
y=softmax(wfull·Z+bfull)
(11)
其中,y為網(wǎng)絡識別結果,wfull為全連接層的權重,bfull為全連接層的偏置。
修正模塊使用外部資源編寫語義規(guī)則對網(wǎng)絡輸出結果進行修正,得到最終的蘊含結果。外部資源包括近義詞表、反義詞表、否定詞表。
基于王志浩[14]的工作,本文使用網(wǎng)絡爬蟲從近義詞網(wǎng)站和反義詞網(wǎng)站獲取到近義詞表與反義詞表。
否定詞表包含表示否定意義的詞語,包括“不”“無”“非”“沒”“未”“禁”等。
由于中文知識庫資源有限,本文應用詞表并結合規(guī)則的方法對網(wǎng)絡輸出結果進行修正,四條規(guī)則如下[14]:
規(guī)則1如果文本T和假設H的分詞結果中存在近義詞對,那么蘊含識別結果為“Y”,例如,
T1: “火地群島,是南美洲最南端的島嶼群,由主島大火地島及周邊小島組成。”
H1: “火地群島,是南美洲最南端的島嶼群,由主島大火地島及附近小島組成。”
“周邊”和“附近”是近義詞,因此文本T1和假設H1存在蘊含關系,蘊含識別結果為“Y”。
規(guī)則2如果文本T和假設H的分詞結果中存在反義詞對,那么蘊含識別結果為“N”,例如,
T2: “阿巴多自 2003年接任琉森音樂節(jié)音樂總監(jiān)后,成立了琉森節(jié)日管弦樂團(lucerne festival orchestra, LFO)。”
H2: “阿巴多自 2003年接任琉森音樂節(jié)音樂總監(jiān)后,解散了琉森節(jié)日管弦樂團(lucerne festival orchestra, LFO)。”
“成立”和“解散”是反義詞,因此文本T2和假設H2不存在蘊含關系,蘊含識別結果為“N”。
規(guī)則3如果文本T和假設H的差集(H中有而T中沒有)中存在否定詞,那么蘊含識別結果為“N”,例如,
T3: “中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經營權和國際出入口局業(yè)務經營權。”
H3: “中國移動不具備互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經營權和國際出入口局業(yè)務經營權。”
文本T3與假設H3的差集為“不、備”,“不”是否定詞,因此文本T3和假設H3不存在蘊含關系,蘊含識別結果為“N”。
規(guī)則4如果經過統(tǒng)一數(shù)字預處理的文本T和假設H中存在不同的數(shù)字,那么蘊含識別結果為“N”,例如,
T4: “火地群島總面積73753平方公里。”
H4: “火地群島總面積37753平方公里。”
文本T4中的數(shù)字為“73 753”,而假設H4中的數(shù)字為“37 753”,兩者不同,因此文本T4和假設H4不存在蘊含關系,蘊含識別結果為“N”。
本文使用NTCIR-11的RITE-VAL評測任務的簡體中文文本蘊含語料進行實驗[8],測試數(shù)據(jù)共1 200對,訓練數(shù)據(jù)通過收集往屆數(shù)據(jù)擴充到1 976對,實驗數(shù)據(jù)統(tǒng)計如表1所示。

表1 實驗數(shù)據(jù)統(tǒng)計
評價指標為macro-F1和準確率(Accuracy),其計算如式(12)、式(13)所示[8]。
其中,C是分類的集合(Y和N);Prec.c和Rec.c分別是c類的準確率和召回率,計算如式(14)、式(15)所示[8]。
其中,Ncorrect表示正確識別蘊含關系的句對數(shù),Nall表示總句對數(shù),Npredicted表示預測結果中識別為c類的總句對數(shù),Ntarget表示正確結果中應該識別為c類的總句對數(shù)。
本文方法的參數(shù)設置參考Yoon Kim[17]的工作,如表2所示。
其中,所有的詞向量都是隨機初始化,并隨著網(wǎng)絡在訓練過程中進行調整。使用窗口大小(h)分別為3、4、5的卷積核各100個。

表2 參數(shù)設置
針對2.2節(jié)的網(wǎng)絡結構部分,為了對比分析不同網(wǎng)絡結構的性能,本文設計實現(xiàn)了如下七種網(wǎng)絡:
(1) CNN: 僅使用CNN對句子進行特征提取,使用全連接層根據(jù)提取到的特征進行分類;
(2) LSTM: 僅使用LSTM對句子進行特征提取,使用全連接層根據(jù)提取到的特征進行分類;
(3) BiLSTM: 僅使用BiLSTM對句子進行特征提取,使用全連接層根據(jù)提取到的特征進行分類;
(4) LSTM-CNN-series: 將LSTM提取到的信息傳入CNN,使用全連接層根據(jù)CNN的輸出進行分類;
(5) BiLSTM-CNN-series: 將BiLSTM提取到的信息傳入CNN,使用全連接層根據(jù)CNN的輸出進行分類;
(6) CNN-LSTM-parallel: 分別使用CNN和LSTM提取特征,使用全連接層根據(jù)提取到的特征進行分類;
(7) CNN-BiLSTM-parallel: 分別使用CNN和BiLSTM提取特征,使用全連接層根據(jù)提取到的特征進行分類。
本文對上述構造的七種網(wǎng)絡進行實驗,實驗結果如表3所示。

表3 不同網(wǎng)絡的實驗結果比較
從表3中可以得到如下結論:
(1) 四種融合方式的實驗結果均優(yōu)于單一網(wǎng)絡的實驗結果,表明融合方式可以綜合考慮單一網(wǎng)絡各自的優(yōu)點,提高中文文本蘊含識別方法的性能;
(2) parallel方法相對series方法,實驗結果更好,表明使用兩種網(wǎng)絡分別對句子進行特征提取所獲得的信息,要多于或優(yōu)于將一種網(wǎng)絡對句子提取到的特征傳入另一種網(wǎng)絡的方法;
(3) 分別對比BiLSTM與LSTM,BiLSTM-CNN-series與LSTM-CNN-series,CNN-BiLSTM-parallel與CNN-LSTM-parallel的實驗結果,發(fā)現(xiàn)針對中文文本蘊含識別任務,BiLSTM要優(yōu)于LSTM,因為使用BiLSTM可以保留文本中的“過去”與“未來”長期依賴信息,LSTM只能保留文本中的“過去”的長期依賴信息,而上文與下文信息均對中文文本蘊含識別具有重要作用。
同時與RITE-VAL評測的前三名方法進行比較,實驗結果如表4所示,其中BUPT[5]、NWNU[22]、III&CYUT[23]為RITE-VAL前三名的評測結果。

表4 本文方法與評測方法的結果比較
表4的實驗結果表明,本文提出的CNN-BiLSTM-parallel方法的實驗結果已經超過RITE-VAL評測的前三名,表明該方法對于中文文本蘊含識別任務是有效的。其中,BUPT使用了中文分詞、詞性標注、命名實體識別、指代消解等四種NLP工具,人工提取了23個特征;NWNU使用了中文分詞、詞性標注、命名實體識別等三種NLP工具,人工提取了七個特征;III&CYUT人工提取了10個特征,人工編寫了11條規(guī)則。而本文方法只使用了中文分詞一種NLP工具,僅編寫了四條規(guī)則,NLP工具的使用數(shù)量以及人工參與的工作量遠遠少于RITE-VAL評測前三名的參賽隊伍,表明本文方法在一定程度上避免了人工篩選大量特征的工作,以及使用多種NLP工具造成的錯誤累計問題,同時提高了中文文本蘊含識別方法的性能。
最后,對比分析了本文方法與只使用CNN方法、只使用BiLSTM方法,以及BUPT方法的Y類和N類F1值,結果如表5所示。

表5 Y類與N類結果比較
從表5中可以得到如下結論:
(1) CNN的N類F1值遠遠高于Y類F1值,是由于CNN更關注于局部的特征,更偏向于關注文本對中不同的部分,如下例所示:
T5: “《罪與罰》是俄國文學家杜斯妥也夫斯基的長篇小說作品,出版于1866年。”
H5: “《罪與罰》是俄國科學家杜斯妥也夫斯基的長篇小說作品,出版于1866年。”
其中,“文學家”與“科學家”不對應,因此得出這兩句話不具有蘊含關系。
(2) BiLSTM的Y類F1值遠遠高于N類F1值,是由于BiLSTM更關注于上下文的長期依賴信息,更偏向于識別并保存文本對中的相關信息,由于語料中T與H的文字重復比較高,所以BiLSTM網(wǎng)絡易將N類誤分為Y類,如下例所示:
T6: “中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經營權和國際出入口局業(yè)務經營權。”
H6: “中國移動涉足網(wǎng)絡業(yè)務。”
從T6的長句中可以得到“中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經營權”的信息,進一步可以得到“中國移動有互聯(lián)網(wǎng)業(yè)務”,與H6句意思一致,得出這兩句話具有蘊含關系。
(3) CNN-BiLSTM-parallel的Y類F1值與N類F1值之間的差距較CNN和BiLSTM縮小了很多,表明融合兩種網(wǎng)絡起到了促進作用,但仍然是N類F1值較高,可能是因為CNN提取到的特征在其中起的作用更大。
(4) CNN-BiLSTM-parallel的Y類F1值與N類F1值之間的差距與BUPT相比,縮小了很多,表明本文方法對于兩類蘊含關系的識別較為均衡,而BUPT方法嚴重傾向于Y類的識別。
通過分析實驗結果,發(fā)現(xiàn)有如下幾類情況易識別錯誤:
(1) 缺乏相關領域知識型
T7: “1981年6月6日,美國疾病控制與預防中心通報全球首宗愛滋病感染案例。”
H7: “1981年6月6日,美國疾病控制與預防中心通報全球首宗后天免疫缺乏癥候群感染案例。”
由于缺乏“后天免疫缺乏癥候群”的俗稱是“愛滋病”的知識,導致蘊含關系識別錯誤。
(2) 邏輯推理型
T8: “1989年英倫航空92號班機空難,機上118名乘客中的39人當場死亡,8人于稍后時間亦過世;而機上的8名機員則全部生還。”
H8: “1989年英倫航空92號班機空難,機上126人僅79人生還。”
T8中的信息需要經過計算推理才能識別出與H8句具有蘊含關系,即從T8的信息中得到班機上一共有118+8=126人,生還118-39-8+8=79人,因此蘊含關系應識別為蘊含。
推理是文本蘊含識別中的一種重要語言現(xiàn)象,在RITE-VAL評測任務的1 200對測試集中,推理類型的子數(shù)據(jù)集有184對,占比最高,達15%[8],本文針對推理類型子數(shù)據(jù)集進行了實驗,實驗結果如表6所示。
從表6中可以看出,本文方法在推理類型子數(shù)據(jù)集上效果仍是較好的。

表6 在推理類型子數(shù)據(jù)集上的實驗結果
續(xù)表

中文文本蘊含識別方法AccuracyBiLSTM-CNN-series52.72CNN-LSTM-parallel53.80CNN-BiLSTM-parallel57.07
中文文本蘊含識別任務旨在判定中文句對之間是否存在蘊含關系,對信息檢索、問答系統(tǒng)、文本摘要等任務具有重要意義。本文提出了一種基于CNN與雙向LSTM的中文文本蘊含識別方法,該方法首先將句子映射到向量空間,然后使用CNN與雙向LSTM對句子進行編碼,自動提取相關特征,再使用全連接層進行分類,得到初步的識別結果,最后使用語義規(guī)則對網(wǎng)絡識別結果進行修正,得到最終的蘊含識別結果。本文方法避免了人工篩選大量特征的工作以及NLP工具造成的錯誤累計問題,在2014年RITE-VAL評測任務數(shù)據(jù)集上的macro-F1結果為61.74%,當時評測第一名為61.51%[5],表明本文方法對于中文文本蘊含識別是有效的。
另一方面,本文的方法對于缺乏相關領域知識和邏輯推理型蘊含識別效果不佳。未來可以在相關領域知識與邏輯推理問題上進行改進,例如從大規(guī)模的文本中獲取豐富的相關領域知識,解決由于相關領域知識的缺乏而導致蘊含關系識別錯誤,使用深度學習的方法解決邏輯推理問題。