任 函
(廣東外語外貿大學 語言工程與計算實驗室,廣東 廣州 510006)
基于推理現象識別的答案抽取
任 函
(廣東外語外貿大學 語言工程與計算實驗室,廣東 廣州 510006)
答案抽取是問答系統的核心任務之一。為了改進答案抽取性能,本文提出一種基于推理現象的答案抽取方法,該方法通過分析問句和檢索候選句間的推理現象,進而判斷兩個句子間的蘊涵關系,并據此抽取候選答案。該方法的特點在于,首先從局部上把握兩者所包含的推理關系,然后基于此從整體上分析問題與答案句的關系,以此作為答案抽取的依據。實驗表明,本文方法能夠在一定程度上改進答案抽取的性能。
答案抽取; 推理現象; 文本蘊涵識別; 支持向量機
答案抽取(Answer Extraction)是問答式檢索系統(又稱問答系統,Question Answering)的核心任務之一,是指從檢索到的相關信息中抽取出和答案類型一致的部分,并根據某種原則選擇最有可能的候選答案返回給用戶[1]。傳統的問答系統一般采用句法語義分析、相似度計算和模式匹配等方法抽取候選答案[2],然而,對于那些在詞匯和句子結構上存在較大差異的問題和答案,這類系統往往難以獲得理想的性能,其原因在于,這類問題和答案涉及復雜的語義關系,需要進行深度的語義分析和推理。
為此,一些研究者利用文本蘊涵識別(Recognizing Textual Entailment)方法進行答案抽取。該方法將答案抽取問題轉化為問題和答案的蘊涵關系判斷問題,從而提供了一種分析問題和答案之間語義關系的有效途徑[3]。作為一種語義推理的通用框架,文本蘊涵識別能夠應用在問答系統、多文檔自動摘要、信息抽取等眾多自然語言處理應用中[4, 5]。
然而,盡管文本蘊涵識別能夠改進問答系統的性能,現有文本蘊涵識別研究仍集中于針對某一特定類型的推理問題設計精確的解決方案,這種方式雖然能夠提高針對這類問題的推理能力,然而由于文本蘊涵識別涉及的推理關系眾多,使得這種方式對于文本蘊涵識別的整體性能提升非常有限[6]。為此,一些研究嘗試對推理中涉及的推理關系進行分類,稱之為推理現象,并據此建立推理現象的標注方法和資源[7, 8, 9]。例如:
Q1:上下文無關文法的創立者是誰?
A1:喬姆斯基提出了形式語法理論。
其中,“上下文無關文法”和“形式語法理論”屬于“領屬”現象,“創立者”和“提出”屬于“詞義蘊涵”現象。顯然,獲取這些推理現象有助于對問題和答案間的蘊涵關系進行判斷。基于此,本文提出一種基于推理現象的答案抽取方法,該方法通過分析問句和檢索候選句間的推理現象,來判斷兩個句子間的蘊涵關系,并據此抽取候選答案。與現有方法相比,本文方法能夠深入分析問題和答案之間的語義關系,即首先從局部上把握兩者所包含的推理關系,然后基于此從全局上進行分析判斷,得到包含了問題所表達的意思的答案候選句,以此作為答案抽取的依據。實驗表明,本文方法能夠在一定程度上改進答案抽取的性能。
1.系統架構
本文利用基于推理現象識別的方法對文檔搜索得到句子進行分析,找出可能包含了答案的候選句,并抽取其中的答案,總體架構如圖1所示。具體而言:首先,對問句進行分析,得到期望答案類型(Expected Answer Type, EAT),并對問句進行擴展以進行檢索;在答案抽取階段,分析檢索到的句子與問句之間的推理現象;之后,利用文本推理方法對句子與問句進行推理判斷,即將句子看作T,問題看作H,判斷T是否蘊含了H,若存在蘊涵關系,則表明問題所表示的意思包含在句子中,則該句可能為包含答案的候選句;最后,按照蘊涵度進行排序,并利用EAT進行答案驗證以抽取答案。

圖1 系統總體架構
以前述(Q1,A1)為例,系統首先分析問題,得到EAT為人物名稱,然后,利用本文提出的推理現象識別方法分析Q1和A1中涉及的推理現象,包括“領屬”、“詞義蘊涵”和“指代”。之后,利用推理現象識別結果進行文本蘊涵識別,得出A1蘊涵了Q1的判斷。最后,根據EAT,從A1中抽取出答案“喬姆斯基”。
2.答案抽取模型
答案抽取的任務是,利用推理現象識別結果對問句和答案句進行文本蘊涵識別,找出與問題最相關的答案句,并進行排序和驗證。如果將答案句看作T,問題看作H,則這一問題可轉化為文本蘊涵識別問題,即判斷T是否蘊含了H,若存在蘊涵關系,則表明問題所表示的意思包含在句子中,則該句可能為包含答案的候選句。由此,答案排序可分為兩個子任務,第一是推理現象識別,第二是文本蘊涵識別。
在之前的工作中,我們提出了一種推理現象識別方法[10],該方法選取了NTCIR RITE-3評測任務中的22類推理現象,并利用隨機森林建立了一個推理現象和文本蘊涵識別的聯合識別方法。實驗表明,該方法在一定程度上改進了文本蘊涵識別的性能。
然而,這一工作存在一定的局限性:在NTCIR的文本推理語料中,部分推理現象,如同義詞、同位語等推理現象的語料比較豐富,而列舉、指代等推理現象的語料則較為缺乏,即語料存在不平衡問題,這將導致學習模型存在性能偏置,從而影響總體性能。黃衍等也指出,隨機森林在不平衡問題的分類性能上要顯著低于支持向量機(SVM)[11]。為此,本文提出一種基于支持向量機的推理現象識別方法,并應用于文本蘊涵聯合,其架構如圖2所示。

圖2 基于推理現象的文本蘊涵識別架構
在該方法中,我們采用一對多識別方法(1 vs rest),即為每一類推理現象指派一個支持向量機,每個支持向量機識別一種推理現象。然后,將每個推理現象識別結果作為特征放入一個基于支持向量機的蘊涵識別模型,用于最終判斷。這一方案的好處在于,能夠在一定程度上避免不平衡問題導致的性能下降,同時保證了模型的泛化性能。
基于推理現象識別的答案抽取算法如圖3所示。

算法:答案抽取算法輸入:問句q,檢索句子集S輸出:答案文本步驟:1.對于每一:1)根據問句類型分析,將q及s中符合條件的片斷用占位符代替;2)使用每一推理現象識別模型SVMi(i,∈[1,n]n為推理現象個數)分析其中是否存在第i類推理現象,并將識別結果作為特征放入SVMF中;3)將SVMF輸出結果利用Sigmoid映射到[0,1],作為蘊涵度;2.對于全部句子,根據其蘊涵度分值進行排序,對于排名在前K位的檢索句子,找出句子中被占位符替換的原始文本,作為答案候選。
圖3答案抽取算法
Sigmoid函數計算方法為:

(1)
這里x即為SVMF的輸出結果,s(x)即為蘊涵度分值。
在答案驗證階段,我們將答案填入問句中,然后對問句與答案句進行文本蘊涵識別,即判斷答案句是否在意義上包含了問句。這一過程仍可利用答案抽取模型中的文本蘊涵識別模型。
3.特征集合
本文采用三類特征應用于答案抽取模型。第一類是推理現象專用特征,其中每一個特征用于識別一類推理現象。例如,上位詞特征用于識別(T, H)文本對中存在上下位關系的詞,其具體方法為:若H中某個詞為T中某個詞的上位詞,則該特征值加1;若不存在這樣的詞,該特征值為0。第二類是推理現象通用特征,這類特征與推理現象專用特征一起用于識別文本中的推理現象。采用這類特征的動機是,推理現象本質上是復雜語義關系的組合,準確描述推理現象不僅需要利用人工總結的知識,如詞典和匹配規則,還需要考慮推理現象所在文本片斷與上下文的關系。例如,為識別修飾語省略現象,需要從句法角度考察修飾成分和中心詞的關系。第三類是蘊涵識別特征,這類特征與推理現象識別結果一起用于識別總體蘊涵關系。采用這類特征的動機是,推理現象特征僅是局部特征,其識別結果不能作為最終的推理判斷,而是需要與各類蘊涵識別全局特征一起進行總體蘊涵識別。

表1 推理現象通用特征
推理現象專用特征采用[10]中提出的特征,共22種,包括16種蘊涵現象特征和6種矛盾現象特征。通用蘊涵識別特征采用[12]中提出的特征,共15種,包括字串重疊特征、相似度特征、結構特征和語言學特征。對于推理現象通用特征,我們定義了10種特征,主要用于考察局部字串和結構上下文的一致性和相似性,如表1所示。其中, 和 分別為T和H中的成分, 為布爾值,表示 和 是否一致, 為取值范圍在[0,1]的重疊度,計算方法為集合 和 中相同元素的個數與 和 中全部元素(去重)的個數之比。
本文實驗數據選取NTCIR-5提供的中文問答語料,包括200個中文問題。文檔集來自NTCIR提供的CIRB040r中文語料,共901,446篇文檔。測試集中包含9類陳述型問題。實驗還選取了NTCIR國際評測會議提供的RITE-3中文評測語料,用于推理現象識別的訓練和測試。該語料包括581對訓練數據和1200對測試數據。每條數據包括一個語段T和一個假設H,并標注了一個推理現象和整體蘊涵關系(蘊涵/非蘊涵)。
本實驗采用NTCIR-5的評測指標,即正確率(Acc.)和MRR值。正確率的評價標準是排名第一的候選答案的正確率,MRR值則用于評價前n個結果的排序是否正確。R表示答案正確,且該答案所在的文檔能夠讓用戶正確得出該答案;U表示答案正確,但該答案所在的文檔不支持該答案,即該文檔提供的信息不足以讓用戶得出正確答案。
實驗設置了三個系統,第一個系統(svm)直接利用通用特征和SVM分類器進行答案抽取;第二個系統(svm+lpf+gf)利用一個SVM分類器對全部推理現象進行識別,并進行文本蘊涵識別以獲取答案句;第三個系統(this paper)首先利用多個SVM分類器對每一推理現象進行識別,再利用一個SVM分類器進行答案抽取,即本文方法。為進行比較,實驗還設置了一個基準系統(baseline),該系統為NTCIR參賽系統[13],采用模式匹配方法抽取答案,并為每個類型的問題定義了一系列模板。

表2 答案抽取結果
本實驗中,我們分別測試了第一個答案和前五個答案的正確率和MRR,實驗結果如表2所示。
實驗結果表明:
1)推理現象識別能夠有效改進答案抽取的性能。當考慮答案和所在文檔均正確時,本文方法比基準系統的正確率高出7.5%,MRR值高出8.42%;當僅考慮答案正確時,前者比后者的正確率高出7%,MRR值高出7.57%,顯示出本文方法顯著優于基準系統。從svm+lpf+pf和svm兩個實驗系統的性能對比上看,當考慮答案和所在文檔均正確時,前者的正確率比后者高出2%,MRR值高出2.05%;當僅考慮答案正確時,前者的正確率比后者高出1.5%,MRR值高出1.68%,說明僅在現有模型中加入推理現象識別過程也能夠在一定程度上改進答案抽取的性能。
2)基于文本蘊涵識別的答案抽取方法優于基于模式匹配的方法。從svm和baseline兩個系統的性能對比上看,當考慮答案和所在文檔均正確時,前者比后者的正確率高出4%,MRR值高出1.07%;當僅考慮答案正確時,前者比后者的正確率高出5%,MRR值高出5.63%。
3)與整體識別方案相比,分步識別推理現象和文本蘊涵關系效果更好。這一結論體現在本文方法和svm+lpf+gf兩個實驗系統的性能對比,當考慮答案和所在文檔均正確時,前者比后者的正確率高出1.5%,MRR值高出1.07%;當僅考慮答案正確時,前者比后者的正確率高出0.5%,MRR值高出0.26%。另一方面,從性能上看,兩個系統的差異并不十分明顯,其原因在于,盡管采用了串行方法有助于更好地識別推理現象,但這一過程可能存在錯誤擴散問題,導致性能提升比較有限。
本文提出一種基于推理現象識別的答案抽取方法。該方法通過分析問句和檢索候選句間的推理現象,來判斷兩個句子間的蘊涵關系,并據此抽取候選答案。在推理現象識別階段,我們為每一推理現象設置一個分類器,并利用推理現象特征進行識別;在答案排序和驗證階段,我們將推理現象識別結果作為特征,同時加入文本蘊涵識別特征,對問句和答案句進行蘊涵分類。實驗結果表明,識別推理現象能夠有效提高答案抽取的性能;同時,采用串行方案識別推理現象與文本蘊涵類別,能夠在一定程度上改進總體蘊涵識別性能。
[1] 任函. 文本蘊涵識別及其在問答系統中的應用[D]. 武漢: 武漢大學計算機學院, 2011.
[2] 吳友政, 趙軍, 段湘煜, 等. 問答式檢索技術及評測研究綜述[J]. 中文信息學報, 2005, 19(3): 1~13.
[3] Harabagiu S and Hickl A. Methods for Using Textual Entailment in Open-Domain Question Answering//In proceedings of ACL 2006. 2006.
[4] Androutsopoulos I and Malakasiotis P. A Survey of Paraphrasing and Textul Entailment Methods[J]. Journal of Artificial Intelligence Research, 2010, 38(1): 135~187.
[5] Dagan I and Dolan B. Recognizing textual entailment: Rational, evaluation and approaches[J]. Natural Language Engineering, 2009, 15(4): i-xvii.
[6] Magnini B and Cabrio E. Combining Specialized Entailment Engines[M]. Proceedings of LTC'09. 2009.
[7] Bentivogli L, Cabrio E, Dagan I, et al. Building textual entailment specialized data sets: a methodology for isolating linguistic phenomena relevant to inference[J]. Proceedings of the International Conference on Language Resources and Evaluation. 2010: 3542~3549.
[8] Kaneko K, Miyao Y and Bekki D. Building Japanese Textual Entailment Specialized Data Sets for Inference of Basic Sentence Relations. In proceedings of the 51st Annual Meeting of the Association of Computational Linguistics 2013.273~277.
[9] Sammons M, Vydiswaran V G V and Roth D. "Ask not what Textual Entailment can do for you..."http://Proceedings of the Annual Meeting of the Association for Computational Linguistics. 2010: 1119~1208.
[10] 任函, 馮文賀, 劉茂福, 等. 基于語言現象的文本蘊涵識別[J]. 中文信息學報, 2017, 31(1): 184~191.
[11] 黃衍, 查偉雄. 隨機森林與支持向量機分類性能比較[J]. 軟件, 2012, 2012(6): 107-110.
[12] Ren H, Wu H, Tan X, et al. The WHUTE System in NTCIR-11 RITE Task//Proceedings of the 11th NTCIR Conference. 2014.
[13] Ren H, Ji D, He Y, et al. Multi-Strategy Question Answering System for NTCIR-7 C-C Task//Proceedings of the 7th NTCIR Workshop. 2008: 49~53.
責任編輯:吳惠娟
TP391
:A
2095-4654(2017)04-0132-04
2017-03-10