任立園,謝振平,劉 淵
(1. 江南大學 數字媒體學院, 江蘇 無錫 214122;2. 江蘇省媒體設計與軟件技術重點實驗室, 江蘇 無錫 214122)
為使瀏覽者快速、準確地獲得有用的信息,使他們從紛繁復雜的信息獲取、處理中解放出來,文本摘要技術正成為不可或缺的大數據處理工具之一。文本摘要技術是指從大量數據中自動找到能夠表達文本主旨內容的摘要文句[1]的技術,能夠提高文本瀏覽、檢索、分類的效率。顯然地,摘要句集要求有一定的概況性、客觀性、可理解性和可讀性[2]。
文本摘要方法一般以原文中的句子作為單位進行評估分析,主要依賴文本外部可見特征,如句子長度、位置、詞頻等信息。本文借鑒知識網絡可對領域知識庫進行建模表達的思想,為了表征語料庫知識間的關聯性,將語料庫中的文句關鍵詞構建成知識網絡節點,從而可將文句映射至知識網絡上的一條節點路徑進行表達。相應地,可引入文句路徑在知識網絡中的滲透性特征作為新的摘要句特征量。具體地,引入文句路徑中關鍵詞組的覆蓋寬度和內在深度作為文句的建構滲透度特征。進一步,借助最大熵分類方法,通過實驗分析了新特征與基礎特征的摘要句判別影響權重及性能對比結果。
文本摘要是自然語言處理技術的重要組成部分,最早應用于圖書管理中。自Luhn[3]發表第一篇有關文章摘要技術的論文后,在測評會議DUC[4]與TAC[5]組織的自動摘要國際評測的推動下,文本摘要技術已經取得了較大的進展。Chin-Yew Lin[6]開發的摘要質量自動評估工具ROUGE的廣泛使用也推動了文本摘要技術的快速發展。
文本摘要技術主要有句子抽取式和句子壓縮式[7-8]兩類方法。抽取式方法是對句子的重要性進行排序,選擇權重最高的句子組成摘要。因此,可以基于規則利用文本常見外部特征抽取摘要,或利用機器學習方法基于句子的不同特征屬性對句子分類、回歸來抽取句子。常見的學習方法有條件隨機場(CRF)[9]、SVM[10-11]、最大熵原理[12]等。選擇句子時還需進行數據清洗,消除句子的冗余度。句子壓縮方法則是二次提煉過程,對句子中詞語進行刪除、更換或者重新排序,常見方法有ILP[13]、詞匯鏈[14]和圖排序[15]等。也有研究基于對語言學的深度剖析,從深度語義層面產生生成式摘要,如AMR[16]模型,需要語言理解分析及語言學知識來支撐,實現復雜度相對較大。
中文由于自身語法特點,目前國內較為全面的語料庫相對較少,中文文本摘要研究發展相對較慢,不過也已形成有代表性的成果,如哈工大信息檢索研究室劉挺教授等人構建了具有一定規模的語料庫,并基于篇章多級依存結構構建了HIT2863II型自動文摘系統[17];北京大學計算機科學技術研究所提出了基于圖排序的自動摘要方法[18-19]等。
1957年Jaynes E T[20-21]提出了最大熵原理。其主要思想是從信息論角度出發,為了準確估計隨機變量的狀態,在所有可能的概率模型中,熵最大的模型是最優的。即在滿足所有已知知識的約束下, 對未知信息不再做其他先驗假設,并認為未知信息分布最合理的推斷就是符合已知知識的最不確定或最隨機的推斷。
1992年,Della Pietra[22-23]等人將最大熵原理應用到自然語言處理中建立語言模型進行文本處理。由于其靈活性和包容性以及優異的處理結果,最大熵模型隨后被廣泛地應用于自然語言處理中,包括分詞、詞性標注、詞義排歧、短語識別、機器翻譯、文本分類等[24]。
最大熵模型常用作概率估計的計算,其原理是在給定上下文特征x的情況下,輸出是否為事件y的概率py|x。對此,可以用大量的訓練數據集獲得隨機變量的行為,樣本學習結果表示為一個二值指示函數的期望值,相應的指示函數稱作特征函數。對于多個有效特征的情況,可基于樣本數據訓練學習每一個特征的權重參數λ1,λ2,…,λk,通過某種組合方法計算條件概率py|x,實現目標的分類或識別。
新模型主要將文本中的句子構建成知識網絡[25-26]并進行建模表達,從而可以提取能夠一定程度上表征文句語義特性的新穎特征。首先著重考慮兩個問題: ①如何表示文句關鍵詞知識之間的語義關系; ②如何從語義關系網絡中提取能夠表征摘要句的有效特征。為此,新模型構建分為兩個主要步驟: ①對語料庫預處理獲取關鍵詞,通過約束關鍵詞之間語義距離來構建知識網絡以表征知識間的語義關系,從而將知識節點轉化為語義空間的數值變量。②以知識網絡節點間路徑表征文本文句。為了研究文句在全文的滲透特征對摘要句判別的影響,設計形成滲透度特征,具體引入文句路徑中關鍵詞組的覆蓋寬度值和內在深度值。
定義知識網絡G=(V,E)由節點和邊組成,節點表示知識項,邊表示兩個知識間的語義關系。文中V={Wi}為文句中所有關鍵詞的集合。E?V×V是關鍵詞間的關系集合。進而,語料庫中文檔的每個文句可由多個關鍵詞順序串成,則相應的每個文句可由知識網絡的一條節點路徑表示。
文中知識網絡的構建分為四個步驟: 1)基于術語抽取方法提取語料庫的關鍵詞作為知識網絡的節點; 2)采用word2vec詞向量模型[27]為每個關鍵詞訓練出一個高維詞向量; 3)通過計算關鍵詞詞向量間的歐氏距離作為知識網絡節點間的邊權重,從而量化知識網絡節點間的語義強弱關系; 4)針對知識網絡中每個節點,保留該節點的前top-k個距離最近的節點作為其關聯節點,同時保存對應的節點間邊權重。
語料庫關鍵詞抽取首先對語料庫進行預處理,包括解析語料文本、分詞、去除停用詞等清洗數據步驟,再基于詞頻統計和信息熵抽取術語得到關鍵詞集合。
詞向量模型[27]最早由Hinton于1986年提出,其核心思想是通過文本語料訓練,利用詞的共現信息、語義信息和上下文依賴關系,將每個詞映射成一個高維的實數向量,通過計算向量之間的距離來表征詞匯間的語義關系。
根據每個關鍵詞對應的高維詞向量,可通過歐氏距離公式計算知識間的語義關系強度。結合小世界網絡理論[28]和實驗分析,對每一個網絡節點,僅記錄與其最近鄰相關的最多20個節點間的連接邊關系。
結合實驗中哈工大信息檢索研究室單文檔自動文摘語料庫[29]的預處理結果,圖1給出了一個上述方法構造的知識網絡結構示例。其中圓點表示關鍵詞節點,節點間的連線表示知識語義關系,權重越小則節點距離越近,表明兩個知識之間關系越緊密。節點的所有近鄰關系數稱為節點度D,節點度越大表明知識節點在知識網絡中重要性越大,相應節點的圓點半徑大小指示了該關鍵詞節點在該網絡中的重要性程度。

圖1 知識網絡結構示例
圖1是截取了整體知識網絡的部分子圖。以語料庫中“冰淇淋”一詞為例分析,其節點度D為13。指向該詞的近鄰關系詞有“可樂”“奶粉”“飲料”“牛奶”“巧克力”“雪糕”“餅干”“零食”等13個關鍵詞節點,兩者語義關系值越小,則在圖上越近。圖1給出了示例“冰淇淋-巧克力”和“冰淇淋-啤酒”的語義距離分別為1.905 650和2.561 474。此外,可以看出“冰淇淋”節點半徑大于指向它的其他關鍵詞的節點半徑,而小于它指向的“奶茶”一詞的節點半徑,說明了在該子圖中“奶茶”一詞的重要性較高。
進而,可將語料庫中的文檔及句子映射至知識網絡進行表達。具體地,由于文句中每個關鍵詞對應知識網絡中的一個節點,則含有多個順序關鍵詞的一個文句可對應知識網絡上的一條節點間路徑,而每個文檔則可表示為由其文句路徑組合成的知識網絡社區。在節點路徑表示過程中,兩個關鍵詞節點間可能是直接或非間接相連。如圖2所示,有兩條加粗路徑分別表示兩個不同的文句路徑,其中一條節點間連接為全部實線,另一條節點間連接存在虛線,實線表示相鄰關鍵詞節點間有直接相連邊,虛線表示相鄰關鍵詞節點間沒有直接相連的邊,需要經過二者中間的其他節點。

圖2 文句路徑實例圖
文檔中的某個句子如果是摘要句,通常可以認為該句中含有較多的原文信息,即其中的關鍵詞本身在文檔中具有較高的影響度。往往這些關鍵詞在文檔社區中分布較廣,且具有延展性。它們可以從摘要句中滲透到全文中,對文檔的行文布局起到提綱挈領的作用,與上下文有著一定聯系,這就是關鍵詞的滲透度特性。為了更好地量化滲透度,可引入文句的滲透度特征作為摘要句提取的重要特征量。
結合分析關鍵詞節點的詞頻、節點度等指標可知,一個關鍵詞節點的滲透延展性越強,它與上下文的知識相關性也越強,對摘要句產生的驅動強度也應越大。為此,定義文句在知識網絡中滲透度的滲透覆蓋寬度特征和滲透內在深度特征,以反映文句成為摘要句的可能強度。
滲透覆蓋寬度特征反映了文句關鍵詞在整個文檔中出現的廣泛性。故關鍵詞節點滲透覆蓋寬度定義為其在文檔社區網絡中,所覆蓋相關的文句路徑次數。即經過該關鍵詞節點的文句路徑數。而整個文句的滲透覆蓋寬度值定義為其所包含的關鍵詞節點的滲透覆蓋寬度值的加和,如式(1)所示。
(1)
其中,widi表示文句Si的滲透覆蓋寬度值,wij為文句Si中的第j個關鍵詞,dgr(wij)表示社區網絡中經過關鍵詞節點wij的文句路徑數,即單個關鍵詞節點的滲透覆蓋寬度值。式(1)中,ni表示文句Si中關鍵詞的個數。
若網絡社區中某條路徑僅包含“奧運會”和“中國”兩個關鍵詞節點,且上述兩個關鍵詞節點的經過路徑情況如下所示:
奧運會 4 6 7 31 50 58 60 62 63 70 81
中國 1 2 5 12 13 23 24 31 32 34 37 47 54 55 60 61 70 73 76 78 80
則該條路徑的滲透覆蓋寬度值wid=11+18=29。這里需要考慮文句中所有關鍵詞節點經過的路徑的去重問題。
進一步,如下考慮文句路徑的內在滲透深度特征。考慮到文句路徑中兩個相鄰關鍵詞節點的連接性,定義文句路徑的內在滲透深度特征為文句路徑中所有相鄰節點的語義距離之和,其值為:
(2)
其中,depi表示文句Si的內在滲透深度值,wi,j為文句Si中的第j個關鍵詞;dis(wi,j,wi,j+1)為相鄰關鍵詞節點間的關鍵詞知識網絡上的距離,若兩個節點非直接相連,則取兩者間所有連通路徑中的最短路徑距離。
結合傳統的摘要句特征提取方法,文本實驗中合計考慮如下的特征集,

其中,loc,len,tf-idf為基本特征集,loc表示文句在整個文章中的相對位置值,len表示文句中所含關鍵詞的個數,tf-idf表示詞頻和逆向文檔頻率[30],if表示詞語在文檔中出現的次數,idf表示詞語被包含在語料庫文檔中的篇數的倒數。tf-idf值通常取tf與idf值的乘積。wordvec表示文句中所含關鍵詞的詞向量,文中詞向量維度取200,向量中每一維表示某種隱含的語義信息。一般詞向量空間簇聚緊密的詞之間內在關系也較為密切。
對于特征true/false/?,若是訓練文句數據,則取明確的標記值true或false;若為測試文句,則取為不定值“?”。
最大熵模型中簡單的特征集可以表達復雜的語言現象,使用最大熵模型進行中文文本分類方法仍存在有效特征缺失的問題[31],特征的選擇是模型性能的關鍵因素。基于上述特征集,借助最大熵分類模型,本文實驗的摘要句判別過程如下。對于任意文句Si的某個特征xik,定義p(yi|xik)表示某個特征條件下,文句Si為摘要句yi=1或非摘要句yi=0的概率。如此,原文文句可視為摘要句和非摘要句的合集,進而對文句集合進行二分處理。在基于最大熵模型的摘要提取模型中,進一步引入特征函數f(y,x)→{1,0},表示特征量x與判別結果量y之間的相關性,取值為1或0,分別表示兩者存在或不存在因果特征,如式(3)所示。

(3)
進一步基于最大熵分類模型,可得到如下關于摘要句判別的最優概率公式,如式(4)所示。

(4)

(5)

本文采用的語料庫是哈工大信息檢索研究室單文檔自動文摘語料庫[29],這是一個可訓練的XML文本集,其中共有1 055篇文檔,共計約43 505個文句。文本內容為人工按照原文10%以及20%文摘句標注后的語料。實驗中隨機從10%和20%標注的摘要句中抽取訓練和測試文本的摘要文句。實驗中共提取了46 272個關鍵詞作為知識網絡構成節點。
模型訓練、測試過程中,考慮等量地抽取正負樣本。從知識網絡中提取出相同數量的摘要路徑和非摘要路徑構成訓練文本。這樣提取的特征集樣本不會太單一,從而保證訓練模型的準確率。預處理后的語料庫的80%用來生成訓練文本,剩下的20%留作測試文本。
分類模型將測試文本的句子分類為摘要句和非摘要句,摘要的評測方法是把模型生成的摘要與人工標準摘要進行比較,用查準率P和查全率R(召回率)來衡量性能差異,相應的公式表示如式(6)~(7)所示。
其中,M為摘要算法判別生成的摘要句集合,B為人工建立的標準摘要句集。召回率用來衡量文本摘要算法生成摘要的信息覆蓋率,而查準率用來衡量算法評估摘要句的精確度。
為了平衡查準率和召回率影響,較為全面評價模型性能以及提取特征的權重,引入F-Score作為綜合指標。根據不同需求,可考慮F1-Score、F0.5-Score、F2-Score三個指標。其中,F1-Score是指查準率和召回率同等重要,F0.5-Score是指查準率比召回率重要,F2-Score是指召回率比查準率重要。具體公式定義如式(8)所示。
(8)
圖3首先給出了模型參數求解的一個典型收斂曲線情況結果。其中橫坐標代表迭代次數,縱坐標表示特征的權重值。從中可以看出,迭代初期時參數變化波動大,而隨著迭代次數的增加,各特征權重參數均趨于收斂穩定,這一結果表明了文中所述特征模型及摘要句判別模型的有效性。又由模型特性可知,各權重參數值大小與對應特征影響強度正相關,收斂得到的特征權重因子越大,則該特征對摘要文句的分類驅動強度越大。分析圖3結果可知,與基本特征相比,建構滲透度特征wid,dep對應權重參數的收斂值更好,清晰地表明了新模型特征量的有效性。

圖3 模型參數λk的典型收斂性曲線
表1進一步給出了各個參數的詳細求解實驗結果,表中給出了運行20次實驗所得結果的均值與均方差。分析可知,權重影響最小的特征為文句關鍵詞個數len,較大的為滲透度覆蓋寬度wid,以及滲透度內在深度特征dep。此外tf-idf和wordvec特征權重較為接近,文句位置的重要性比預想要高。

表1 實驗語料庫上的特征權重結果
進一步綜合分析實驗結果,可有以下結論:
(1) 一個文句的建構滲透度特征wid值越大,文句為摘要句的可能性越大。
(2) 一個文句是否為摘要句和文句中關鍵詞個數即特征len的相關性較弱。可以想象,較短摘要文句是對全文的概括,較長摘要文句則是解釋說明相關關鍵詞,所以摘要文句長度值波動范圍較大。
(3)loc=2或loc=3的文句多為摘要文句。摘要文句多在段首,實驗采用累加計數法統計loc值,不同段首的摘要文句loc值逐漸增大。
(4) 含有較高tf-idf值的關鍵詞的文句為摘要文句的概率較大,而特征wordvec與tf-idf對摘要文句中的驅動強度相接近。
(5) 一個文句的dep值在一個中間區間范圍內時,文句為摘要句的可能性最大。可見,dep值太小時,文句的概括性較弱;dep值過大時,文句的內涵緊密性可能也較弱,均不利于成為一個摘要句。
本小節進一步定量化考察不同特征下的摘要句判別性能影響。表2給出了選取不同特征情況下,基于最大熵分類所得摘要句分類性能的實驗結果,表中同樣給出了運行20次實驗的性能指標的均值和均方差值。其中,基礎特征集為loc、len、tf-idf、wordvec,表中性能指標均為百分比值(%)。

表2 不同特征集下的摘要性能結果
表2中結果顯示,在加入建構滲透度特征后,摘要生成的查準率和召回率均有了較大幅度的提升,明確地顯示了建構滲透度特征模型的強有效性。具體地,基礎特征集加入滲透度內在深度特征后,查準率提高了17.94%,召回率提高了20.38%。滲透度內在深度特征計算了文句路徑中相鄰關鍵詞間的知識網絡上的建構語義距離,定性分析摘要句特性可知,摘要句中相鄰關鍵詞間不應是簡單的語義近鄰關系,而更應體現一種知識建構性。建構滲透度內在深度特征一定程度上反映了上述概念思想,并獲得了良好的性能提升。
在基礎特征集中加入滲透度覆蓋寬度特征后,模型的查準率較加入滲透度內在深度的特征方法高了6.92%。顯然地,滲透度覆蓋寬度特征對摘要分類的驅動強度要大于滲透度內在深度特征,這與圖3、表1所示結果相吻合。分析可知,在文檔網絡社區中,若路徑中關鍵詞節點的經過路徑較多,不僅僅意味著該關鍵詞知識在上下文中頻率較高,更表明該知識節點對其他文句路徑有較多的支撐作用,這一特征表現與摘要句的內在特性高度吻合。
結合F值性能結果比較可知,加入了滲透度內在深度和覆蓋寬度特征后的模型性能進一步得到了提升,綜合地表明了文中所定義的兩個建構滲透度特征具有互補性,可有效結合運用。
基于文中提出的建構滲透度特征模型F=loc,len,tf-idf,wordvec,wid,dep,進一步研究分析不同常規分類算法的性能結果,將最大熵分類模型、樸素貝葉斯算法及SVM算法進行對比。基于前述實驗相同的數據集及實驗方法進行實驗分析,所得結果如表3所示。對于SVM,各維度特征量進行了均值為0和方差為1的歸一化處理,核函數為高斯函數,模型中核寬度和結構項權重值進行了優化選擇。從表3的結果可以看出,本文采用的基于最大熵分類的摘要句判別模型取得了更好的綜合性能。

表3 基于新特征模型的算法性能比較
本文通過引入關鍵詞知識網絡,以節點表示文句關鍵詞,邊表征關鍵詞間語義關系,節點間路徑表征文句特性。并在知識網絡中引入文句的滲透度特征,分別提出了滲透覆蓋寬度和內在深度特征量,并進一步結合最大熵分類模型進行摘要句提取建模。實驗結果表明了新特征模型的良好有效性,且指出滲透覆蓋寬度特征具有最強的特異性。進一步的常規算法對比實驗結果也表明,在新特征模型上,使用基于最大熵分類的文本摘要方法具有最佳的性能表現。文中綜合研究結果表明,所提出的建構滲透度特征模型具有良好的可計算性及較高的應用性能價值。