劉露
(四川大學計算機學院,成都610065)
自然語言處理(Natural Language Processing,NLP)的研究從表層的詞匯理解延伸到更深層次的句法語義,研究粒度從單個的詞的語義到短語、句子,直至篇章。隨著詞匯、句子語義研究的不斷發(fā)展和逐漸成熟,篇章分析慢慢變成了研究的重點。
篇章是指由一系列連續(xù)的子句、句子或語段構成的語言的整體單位。一篇文章、一段會話都可以看成是篇章。在一個篇章內的各個篇章單元(子句、句子或語段)之間不是簡單的排列堆疊,而是具有一定的層次結構和語義關系。篇章分析任務旨在研究同一篇章內各個單元之間的內在邏輯關系。進行篇章分析研究能夠輔助許多其它的自然語言處理任務,具有重要的研究意義。例如,篇章的因果關系可用于自動問答(Question An?swering)[1]和事件關系抽?。‥vent Relation Extraction)[2];對比關系可用于情感分析(Sentiment Analysis)[3];擴展關系可用于自動文摘(Text Summarization)[4]。
現(xiàn)有的篇章分析研究主要分為了基于修辭結構理論(Rhetorical Structure Theory,RST)的文本級篇章分析和基于賓州篇章樹庫理論(Penn Discourse Treebank,PDTB)的句子級篇章分析。不管是文本級的篇章分析還是句子級的篇章分析,其研究的難點問題都是篇章單元之間的關系識別。
篇章關系根據篇章文本中有無連接詞(如“thus”,“however”)出現(xiàn)分為了顯式和隱式兩種。由于連接詞對篇章關系有很強的指示作用(如“thus”指示因果關系,“however”指示轉折關系),顯式的篇章關系識別已經取得了較好的效果,僅使用連接詞作為特征就能達到93%的準確率[5]。而隱式篇章關系識別由于缺乏連接詞作為“線索”,只能通過兩個篇章單元的語義來推斷篇章關系,是目前篇章關系識別研究的瓶頸問題。
本文主要介紹了隱式篇章關系識別研究任務并總結了現(xiàn)有的研究工作。本文的后續(xù)內容如下,第1小節(jié)介紹現(xiàn)有的主要的篇章分析理論及語料;第2小結詳細闡述了隱式篇章關系識別任務;第3小節(jié)給出了針對隱式篇章關系識別研究的相關工作和研究現(xiàn)狀;最后,在第4小節(jié)進行了總結并討論了未來的改進和研究方向。
早在上世紀70年代,就有學者對篇章分析進行了研究,為了更好地定義、實現(xiàn)篇章分析這一任務,產生大量的篇章分析理論,包括中心理論(Centering)、修辭結構理論(RST)、篇章圖樹庫理論(Discourse Graph?Bank)和賓州篇章樹庫理論(PDTB)。這些理論在一定程度上推動了篇章分析任務的發(fā)展?,F(xiàn)有的篇章分析研究主要基于修辭結構理論RST和賓州篇章樹庫理論PDTB兩種。
Mann和Thompson等人[6]提出的修辭結構理論(RST)是最廣泛接受的語篇分析框架之一。在修辭結構理論RST中,篇章文本劃分成了基本篇章單元(Ele?mentary Discourse Units,EDU)。關聯(lián)性強的EDU單元通過修辭關系進行組合,形成大的語篇單元(Span),大的語篇單元再根據修辭關系組合形成更大的語篇單元,直至形成一棵覆蓋語篇所有單元的樹。修辭關系可分為單核(Mononuclear)和多核(Multinuclear)。單核關系包含一個“核”(Nucleus)語句和一個“衛(wèi)星”(Satellite)語句,其中“核”表達主要的文本信息,“衛(wèi)星”表達次要的其他信息。而多核關系包含兩個或多個語句,它們都是“核”?;谛揶o結構理論的篇章分析可看做文本級的篇章分析,其主要子任務為EDU界定、篇章關系識別、核-衛(wèi)星識別和篇章結構生成。
根據修辭結構理論RST,Carlson等人標注了RST語篇樹庫(RST-DT),由LDC于2002年發(fā)布①https://catalog.ldc.upenn.edu/LDC2002T07.。該語料包括了來自Wall Street Journal的385篇文檔,標注了78種篇章關系(53種單核,25種多核)。圖1中展示了RST-DT中的一條示例。該示例文本片段由四個EDU(edu1-edu4)組成,并用方括號分隔。在該文本片段的樹形篇章結構中,edu1和edu2通過單核關系At?tribution關聯(lián)形成語篇單元edu1-edu2,其中edu1為“核”,edu2為“衛(wèi)星”,箭頭由“衛(wèi)星”語句指向“核”語句;edu1-edu2和edu3通過多核關系Same-Unit關聯(lián)形成edu1-edu3;最后edu1-edu3和edu4通過單核關系Condition關聯(lián)形成了完整的句子的篇章樹。
Miltsakaki和Prased等人[7]遵循篇章詞匯化樹型連接語法D-LTAG(Discourse Lexicalized Tree Adjoining Grammar)標注了賓州篇章樹庫PDTB(Penn Discourse Tree Bank)。PDTB采用“謂詞-論元”(Predicate-Argu?ments)的思想,將篇章文本標注為“連接詞-論元”(Con?nective-Argument)的結構。其中,連接詞所銜接的兩個文本片段稱為論元(Argument),分別記為Arg1和Arg2。不同于修辭結構理論RST,它只是從相鄰、相近的篇章單元推導出部分的篇章結構,并不直接形成整體篇章的樹形結構。篇章關系根據文本中有無連接詞(如however,thus)的出現(xiàn)分為了顯式和隱式?;谫e州篇章樹庫理論的篇章分析可看做句子級的篇章分析,其主要子任務為論元切分、連接詞識別、顯式篇章關系識別和隱式篇章關系識別。

圖1 RST-DT篇章結構樹示意圖
LDC于2008年發(fā)布PDTB2.0是目前規(guī)模最大的英文篇章關系語料庫,它包括了來自Wall Street Journal的2500多篇文檔,共四萬多個篇章關系實例。PDTB中將篇章關系分成了三層,第一層4類(Contingency,Comparison,Expansion,Temporal),第二層16類,第三層23類,共43類。圖2展示了PDTB2.0中的兩條篇章關系樣例。其中,第一條(a)為顯式篇章關系,根據論元Arg2中“but”連接詞可知為Comparison關系;第二條(b)為隱式篇章關系,根據兩個論元的語義可推斷是Expansion關系。

圖2 PDTB2.0篇章關系樣例
隱式篇章關系的識別可看作多類別的分類問題,可使用多個二元分類器或多分類器實現(xiàn)。處理這個任務一般分為兩個步驟,一是確定一組理想的特征來表示兩個論元,二是將這些特征應用到分類器中進行分類。圖3展示了處理隱式篇章關系識別問題的一般框架。首先,通過嵌入層將輸入的兩個論元Arg1、Arg2的詞序列轉換為對應的詞向量;然后通過編碼器En?coder(如卷積神經網絡CNN、長短時記憶網絡LSTM、遞歸神經網絡等)編碼論元的語義信息以獲取論元的表示;通過注意力機制、張量神經網絡NTN等方式捕捉論元對之間的交互信息作為論元對的特征;最后,將這些特征應用到分類器(如多層感知器MLP)中進行分類。

圖3 處理隱式篇章關系識別任務的一般框架
由于具有隱式篇章關系的文本中不存在對篇章關系有指示作用的連接詞,因此需要根據論元的語義來識別篇章關系,這是目前研究的難點。隨著PDTB 2.0數據集的公開,已經有很多針對隱式篇章關系識別任務的研究工作。
早期的工作主要是使用人工構造特征的方法設計各種特征表示論元,如詞性標簽(Part-of-speechtags)、動詞(Verbs)、極性詞(Plority)、論元開頭的詞和結尾詞(First-Last,First3)、句法樹(Production Rules)以及分別來自兩個論元的詞對信息(Word Pairs)等。Pitler[8]、Lin[9]、Park[10]等人通過實驗,證明了不同特征對不同篇章關系的有效性,正確的特征組合可以有效促進隱式篇章關系識別分類器任務的效果。但人工構造特征的方式具有耗時費力、工作量大,句法樹、詞性等這類特征需要依賴于外部資源,詞對特征等十分有效卻會遭遇稀疏問題等缺點。
隨著神經網絡的發(fā)展,且神經網絡在一定程度上能夠自己學習特征,減少人工構造特征的代價,捕獲深層次的語義特征,基于神經網絡的方法逐漸應用于隱式篇章關系識別任務中。隱式篇章關系識別的神經網絡方法主要集中于解決兩個問題:一是如何建模句子以捕獲論元語義;二是如何捕獲論元間的語義交互。
現(xiàn)有的工作多使用卷積神經網絡CNN,遞歸神經網絡,循環(huán)神經網絡RNN及其變體LSTM、BiLSTM、Tree-LSTM編碼論元的語義和語法信息。使用注意力機制,神經張量網絡NTN等捕獲論元之間的交互信息。由于淺層的詞對特征存在稀疏問題和語義鴻溝(sematic gap)問題,Chen[11]等人提出使用預先訓練的詞向量并通過BiLSTM編碼論元中的每個詞,然后通過門相關網絡(Gate Relevance Network)捕獲詞對之間的線性和非線性交互信息作為特征進行分類。Liu[12]等人根據人們常通過重復閱讀理解句子語義的習慣,提出多層注意力(Multi-level Attention)機制模擬重復閱讀的過程以獲取更好的論元表示,從而促進隱式篇章關系識別的效果。Bai[13]等人通過不同粒度的文本表示(包括字符、子詞、詞、句子和句子對)來增強論元的語義表達,在最后的句子對層中使用雙向注意力(Bi-Atten?tion)捕捉論元對之間的交互信息,Bai的方法在PDTB2.0的第一層四分類上的識別結果F1值達到了51.06%。Cai[14]等人根據人們順序閱讀的習慣,通常會帶著第一個論元(Arg1)的信息閱讀第二論元(Arg2),提出配對感知的句子建模(Pair-aware Sentence Modeling)網絡,在編碼Arg2中的詞時通過注意力機制考慮當前詞與Arg1中每個詞的交互作用,促進Arg2獲得更好的論元表示。Guo[15]等人使用交互注意力和稀疏學習的張量網絡(Neural Tensor Network with Interactive At?tention and Sparse Learning)捕捉論元之間重要的交互信息來識別隱式篇章關系。
另外一些工作通過引入其他信息輔助隱式篇章關系的識別。Zhou[16]等人先預測可能的連接詞,再將連接詞作為特征進行隱式的篇章關系識別。Qin[17]、Xu[18]等人試圖利用顯式的篇章關系樣例進行數據擴充以解決隱式篇章關系的標注數據少的問題。Liu[19]、Lan[20]等人使用多任務的方式,希望通過其他相關任務如連接詞預測、顯式篇章關系識別任務來促進隱式篇章關系的識別效果。
本文介紹了主流的篇章分析理論和語料,闡述了隱式篇章關系識別研究內容,并總結了相關的研究工作。隨著PDTB2.0數據集的公布,雖然已經有了很多針對隱式篇章關系識別的研究工作,并取得了不錯的效果,但目前隱式篇章關系識別準確率仍不高(低于60%),不能滿足實際應用的需要。一方面如何建模論元獲取更好的特征表達很困難,另一方面神經網絡的訓練需要大量的樣例,但能獲取的標注數據有限,且各類別的數據分布極其不均衡,因此進一步的隱式篇章關系的識別研究可從這兩方面著手。隨著語義研究的深入和自動擴充數據技術的成熟,隱式篇章關系識別的效果將進一步提升。