多特征融合的漢越雙語新聞摘要方法

2019-01-22 08:33:52余正濤高盛祥劉書龍張亞飛

中文信息學報 2018年12期

葉雷，余正濤，高盛祥，劉書龍,張亞飛

(昆明理工大學信息工程與自動化學院，云南昆明 650500)

0 引言

隨著互聯網技術的發展，網絡上每天都會生成大量的文本數據，從這些數據中獲取有用的信息變得越來越難。自動摘要技術利用計算機對文檔進行處理，生成包含原文檔核心內容的摘要，實現對文檔的壓縮，是解決信息爆炸問題的有效方法。隨著“一帶一路”倡議的提出，中越兩國的交流變得愈發密切。關于一些重要的新聞事件，兩國媒體會發布大量的漢語新聞和越南語新聞。若能利用自動摘要技術處理這些雙語新聞，我們便能快速地獲取這些海量新聞的主要內容，這對于我國與越南的經濟交流、文化交流等有著重要意義。

按照生成摘要的方式，自動摘要技術可以分為抽取式(extractive)摘要和抽象式(abstractive)摘要。前者主要對原文檔的句子進行重要性評估，再從中選取重要語句構成摘要；后者則是在理解原文檔的基礎上，重新組織語言生成摘要。由于越南語的自然語言生成技術還有一定的局限性，因此本文主要研究抽取式摘要的生成。抽取式摘要按照方法的不同可以分為基于特征統計的方法、基于機器學習技術的方法和基于圖模型的方法。

(1) 基于特征統計的方法使用詞頻、句子位置、是否包含關鍵詞等這類特征對句子的重要程度進行衡量，然后通過一定的策略選取重要句子構成摘要。例如，Luhn利用了最直觀的思想，即詞頻越高的詞匯越有可能描述文檔的主要內容[1]，因此利用句中詞匯的頻率給句子打分，選擇得分高的句子生成摘要。另外，也有方法根據原文檔的特點，融入句子位置[2]、句子長度、句子與標題的相似度[3]等特征來更好地衡量句子的重要性。這類方法應用于寫作規范、結構清晰的文檔時能取得較好的結果。

(2) 隨著機器學習技術的發展，也逐漸出現了一些基于機器學習技術的自動摘要方法。例如,有研究者利用樸素貝葉斯分類模型[4]判斷文檔里的每個句子是否為摘要句，也有研究者利用決策樹[5]、隱馬爾科夫模型[6]等算法來生成摘要。這類方法適用于有足夠多的訓練語料的情況，而且在處理科技文獻、新聞文檔等結構化文檔時能取得較好的結果。

(3) 基于圖模型的方法得到了廣泛的應用，這類方法的一般思想是把文檔分解為若干單元(詞或句子)，然后以這些單元為頂點、以單元間的關聯為邊建立圖模型，通過圖排序算法計算得到各個頂點的得分，再通過一定的策略選擇得分高的頂點構成摘要。例如，文獻[7]在處理文檔時，以文檔中的句子作為頂點、句子間的相似度作為邊來構建句子圖，之后在句子圖上使用TextRank算法對句子進行排序，選擇排序靠前的句子構成摘要。這類方法具有一定的擴展性，可以方便地融入一些特征。例如，文獻[8]在為醫學文獻生成摘要時，用句子含有的醫學本體(ontology)來表征每個頂點，通過融入領域知識來提升文檔摘要的準確性。另外，句子間的余弦相似度、語義相似性等特征[9-10]也能用于衡量句子間的關聯強度，以提升自動摘要的效果。

上述的自動摘要方法都是應用于單語環境，近年來，研究者們逐漸開始探索跨語言或多語言環境下的自動摘要方法。例如，文獻[11]提出了一種跨語言自動摘要方法，旨在為阿拉伯文的新聞文檔生成英文摘要。實驗使用了相關的雙語新聞文檔集，首先通過機器翻譯把阿拉伯文文檔翻譯為英文文檔，然后從翻譯后的文檔中抽取摘要，之后計算這份摘要與英文文檔集中句子的相似度，最后從英文文檔集中挑選出相似度足夠高的句子作為阿拉伯文文檔集的摘要。文獻[12]提出了一種多語言自動摘要方法，旨在為相關的中英文報道生成兩份摘要，分別代表中文報道獨有的觀點和英文報道獨有的觀點。該方法也是使用機器翻譯的方法，把中文文檔翻譯為英文、把英文文檔翻譯為中文，然后在兩種單語環境下生成摘要。現有的跨語言、多語言環境下的自動摘要方法，都利用了機器翻譯技術。在機器翻譯效果較好時，能夠取得較好的自動摘要結果。

我們的目標是為相關的漢越雙語新聞生成一份雙語摘要，處理的對象是漢越雙語新聞文檔。由于漢語和越南語之間的機器翻譯效果還不理想，因此無法直接借鑒已有的方法。關于同一事件的新聞文本，不論這些文本是同種語言還是不同語言，其句子之間具有一定的關聯關系，利用這些關聯關系有助于生成自動摘要。因此，本文提出了多特征融合的雙語新聞摘要方法，通過一定的方法定量分析新聞句子間的關聯關系，并將這些關聯關系融入圖模型，提升自動摘要的效果。

1 新聞文本的特點分析

關于同一事件，往往會有很多新聞對其進行報道。由于新聞體裁要求用最準確、簡潔的文字對事件進行描述，故不同的新聞文本在寫作時往往具有一些相同的特點，下面以表1為例對新聞文本的寫作特點進行說明。

表1 兩篇關于同一事件的新聞

比較兩篇新聞可以發現，關于同一新聞事件的不同新聞文本，往往會有如下一些寫作特點:

(1) 多篇新聞文本，雖然會從各個相同的或不同的角度對新聞事件進行描述，但在描述的過程中會出現相同的新聞要素，如時間、地點、參與人、組織機構等;

(2) 多篇新聞文本，會引用相似的、甚至是相同的句子對新聞事件進行描述;

(3) 新聞文本會在標題、正文第一段、段落第一句等位置，簡明扼要地對新聞事件進行描述或表達新聞媒體的觀點。

通過以上分析我們認為，如果能在漢越雙語新聞的自動摘要任務中利用這些新聞文本的寫作特點，就能更好地生成雙語新聞的摘要。

2 融合多特征的漢越雙語新聞摘要方法

為了獲取關于同一事件的漢越雙語新聞的主要內容，我們利用新聞文本的寫作特點，提出了一種融合多特征的漢語雙語新聞摘要方法，整體框架如圖1 所示。

圖1 融合多特征的漢越雙語新聞摘要方法

本方法的流程是： ①對雙語新聞文檔集進行預處理，建立以句子為頂點的無向圖；②根據新聞文本的寫作特點，用句子間的新聞要素共現程度以及句子間的相似度來衡量句子間關聯關系的強弱，并以此作為頂點間邊的權重；③在句子圖上利用圖排序算法計算句子的重要性并進行排序；④結合句子的位置特征對排序結果進行調序；⑤挑選出重要句子并去除冗余，生成漢越雙語新聞文本的摘要。

2.1 句子間的新聞要素共現程度分析

新聞要素包含了事件發生的時間、地點、參與人和涉及到的組織機構等信息。為了用新聞要素共現程度來衡量句子間的關聯關系強弱，我們借鑒文獻[13]的方法對句子間的要素共現程度進行定量分析。首先，使用句子所包含的新聞要素表征句子；然后，使用句子間的新聞要素共現次數來衡量共現程度，具體步驟如下。

第一步，抽取句子中的命名實體作為新聞要素并表征句子。

第二步，對齊漢語新聞要素和越南語新聞要素。

第三步，計算句子間的新聞要素共現程度。

對任意句子si=e1,e2,…,en1、sj=e1,e2,…,en2，如果表征si和sj的集合有交集，則si和sj之間具有要素共現關系。其中，若si和sj是同一語種的句子，則直接做交集運算即可判斷，若si和sj是不同語種的句子，則需使用對齊集合Ecv中的要素重新表征句子si和sj之后，再做交集運算進行判斷。

考慮到最終生成的交集有大有小，它可能只包含一個新聞要素，也可能包含多個新聞要素。句子間的新聞要素共現程度，在交集包含多個新聞要素時，理所應當地比交集只包含一個要素時強。此外，包含新聞要素較多的句子與其他句子具有要素共現關系的概率更大，而句子間的新聞要素共現程度不應該受句子本身所包含的新聞要素數量的影響。根據上述思想，使用式(1)計算任意兩個句子間的新聞要素共現程度。

其中，Countsi∩sj表示句子si和sj的交集中新聞要素的數量，Countsi表示句子si所包含的新聞要素的數量。

2.2 句子間的相似度分析

根據新聞文本的寫作特點，我們還使用句子間的相似度來衡量句子間的關聯關系強弱。句子相似度計算是自然語言處理領域中的一項重要任務，根據不同的句子相似度定義方法，可以分為語義(semantic)相似度和主題(topic)相似度。以“他喜歡吃蘋果”和“他不喜歡吃蘋果”兩個短句為例進行說明，由于兩個句子所表達的情感極性不同，所以兩個句子的語義相似度較低，但是由于兩個句子談論的內容是相關的，所以兩個句子的主題相似度較高。我們根據任務需要使用主題相似度，即只要兩個新聞句子談論的是相關的內容，就認為二者具有較高的相似度。為了計算不同語種句子間的主題相似度，我們使用文獻[14]提出的方法訓練漢越雙語詞向量，使用雙語詞向量表征句子，并計算相似度，具體做法如下。

第一步：訓練漢越雙語詞向量。

利用維基百科語料訓練中文詞向量Σ和越南語詞向量Ω，然后使用文獻[14]提出的方法把兩份單語詞向量投影到同一向量空間，得到漢越雙語詞向量。投影后的中文詞向量記為Σ*，投影后的越南語詞向量記為Ω*。

第二步：利用詞向量表征句子，得到句子的向量表示。

由于計算的是句子之間的主題相似度，所以在表征句子時，需要剔除那些與新聞事件無關的、不重要的詞，比如介詞、連詞和冠詞等，具體步驟如下。

首先，對句子進行分詞并標注詞性，選擇動詞、名詞、形容詞和副詞來表征句子。

第三步：利用句子的向量表示計算句子之間的相似度。

上述步驟以雙語句子間的相似度計算為例進行說明，單語句子間的相似度計算過程與之相似。

2.3 句子關聯無向圖的建立

在得到句子間的新聞要素共現程度和句子間的相似度之后，就可以建立以句子為頂點、以句子間的關聯關系為邊的無向圖，建立好的句子無向圖如圖2 所示。

圖2 雙語新聞句子無向圖示例

圖中的文檔是關于同一事件的漢語新聞文檔和越南語新聞文檔。對任意兩個句子s1和s2，我們在2.1節中對句子間的新聞要素共現程度Res1,s2做了定量分析，在2.2節中對句子間的相似度Rsims1,s2做了定量分析，結合二者如式(3)所示。

其中，Rs1,s2表示句子s1和s2的關聯強度，式中α和β是權重參數，兩個參數滿足0<α,β<1且α+β=1。對于句子無向圖中的所有頂點，兩兩之間利用式(3)計算關聯強度，則可以得到句子無向圖的關聯強度矩陣，如式(4)所示。

其中，Ri,j就是句子si和sj的關聯強度，即Ri,j=Rsi,sj。為了簡化后續的計算，如果兩個句子之間的關聯強度Ri,j<0.2，則在建立句子關聯無向圖時不連接這兩個頂點且把關聯強度Ri,j置為0。

2.4 句子關聯無向圖頂點權重的計算

在建立好句子無向圖并計算得到相應的關聯強度矩陣M后，利用TextRank算法在句子無向圖上進行排序計算，得到各個頂點的權重得分。Text-Rank算法把PageRank算法的思想擴展到了帶權重的無向圖模型上，其計算如式(5)所示。

其中，Scoresi表示句子si的權重得分，d表示阻尼系數，一般設置為0.85，Ri,j是關聯強度矩陣M中的值。算法迭代多次并收斂之后，就能得到每個句子的重要程度。

2.5 句子的位置重要性分析

在上述計算句子重要性的過程中，只考慮了新聞句子間的要素共現程度及相似度，二者分析的是句子與句子間的關系對句子重要性的影響，沒有考慮到句子在文本中的位置也反映了句子的重要性。已有研究表明：在一定類型的文檔中，句子重要性與句子位置具有一定的關系。例如有研究者指出，標題后的句子更有可能表達文檔的中心思想，且重要句子更可能出現在文檔的首段或尾段，以及段落的首句或尾句[16]，且這類基于位置評價句子重要性的方法，對新聞文本、科技文獻等寫作規范的文本效果相對較好。根據新聞文本的寫作特點并結合已有的研究結果，我們提出以下調序公式，如式(6)所示。

其中，Scoresi是排序算法得到的句子si的得分，即式(5)的最終結果，Sreosi是調序后的句子si的得分。

2.6 去除冗余句子生成摘要

上述的排序和調序過程，為新聞文檔集中的每個句子都分配了重要性得分，得分越高的句子越好地描述了文檔集的主要內容。但是，由于新聞文檔集中存在很多相似、甚至是重復的句子，因此不能直接按照得分高低抽取句子構成摘要。需要去除冗余句子提高摘要的可讀性，具體做法如下。

第一步：設調序后的句子集合為C，集合中的句子按照得分從高到低排序，序號為1至C。

第二步：選擇集合C中的第一個句子s1，對于i=2至i=C，利用公式(3)計算Rs1,si，如果Rs1,si的值大于閾值θ，則從集合C中刪除句子si。

第三步：把句子s1加入摘要并從集合C中刪除。對集合C中的句子重新排序，序號為1至C。

第四步：重復第二步和第三步，直到獲得滿足要求的摘要。

3 實驗及分析

3.1 實驗語料

實驗語料包括兩部分，一部分用于訓練雙語詞向量，另一部分用于驗證我們提出的漢越雙語新聞摘要方法，具體信息分別敘述如下。

3.1.1 維基百科語料

考慮到訓練單語詞向量的目的，是為了把兩份向量進行投影，投影后的兩份詞向量構成一個第三方向量空間，使得語義相近的詞匯(不論是中文詞匯或是越南語詞匯)在空間中的位置也盡量相近。最終我們使用維基百科作為詞向量的訓練語料，它有兩個優點：一是維基百科方便獲取且規模較大；二是從雙語語料的內容一致性來說，漢越維基百科所討論的內容是天然相關的，即幾乎每個越南語維基百科頁面，都有相應的漢語維基百科頁面。語料的內容越是一致，則語義相近的詞越多，越有利于單語詞向量的投影。

下載得到的維基百科語料包含一些待編輯詞條的頁面，這些頁面詞數很少，幾乎不含有有用的語義信息，無法用于訓練，需要對其刪減，具體信息如表2 所示。

表2 維基百科語料的具體信息

3.1.2 雙語新聞語料

目前還沒有公開的漢越雙語新聞語料，因此我們從中國新聞網、新華網、新浪新聞等國內新聞網站，以及越南每日快訊、越南通訊社網、中華網越南版等越南新聞網站收集新聞，每個新聞保留其標題、正文、發布時間等。人工整理收集來的新聞文本，挑選出三個在漢越雙方都有較多報道的新聞事件，同時根據關鍵詞從谷歌檢索、補充一定量的相關新聞報道構成漢越雙語新聞語料。針對每個事件，從相關的新聞文本中人工抽取6個句子(漢越句子各3個)作為參考摘要。把雙語新聞文檔和人工抽取的摘要作為實驗數據，具體信息如表3所示。

表3 漢越雙語新聞數據的具體信息

3.2 評價指標

采用自動摘要任務中常用的ROUGE值作為評價指標[17]，ROUGE是一種基于召回率的相似性度量方法，它通過比較候選摘要與參考摘要中共現的n元組n-gram來評價候選摘要的質量。ROUGE值越高說明候選摘要的質量越好，計算方法如式(7)所示。

其中，n表示n元組的長度，R表示構成參考摘要的句子的集合，s表示參考摘要中的句子，Countn-gram表示句子s中n元組的數目，Countmatchn-gram表示候選摘要句與參考摘要句s共同包含的n元組的數目。通過式(7)可以發現ROUGE-n反映的是參考摘要句的n元組的召回率。實驗中我們使用ROUGE-1和ROUGE-2來評價摘要結果的好壞。在計算ROUGE值時，漢語摘要句和越南語摘要句分開計算，然后再取平均值。

3.3 實驗設計與結果分析

本文包含三個實驗，實驗1訓練雙語詞向量并驗證其有效性；實驗2通過對比選擇最佳的α、β參數以及閾值θ；實驗3通過比較驗證所提方法的有效性。

3.3.1 訓練雙語詞向量并驗證其有效性

首先使用Word2Vec工具訓練單語詞向量，訓練之前需要對維基語料進行預處理。中文語料的預處理包括分詞、去除標點與特殊符號，以及繁簡體轉換。越南語語料的預處理包括分詞、去除標點及特殊符號。越南語語料的處理使用Vitk工具包[注]Vitk工具包： https://github.com/phuonglh/vn.vitk。

經過多次訓練比較，本文的訓練參數設置如下：上下文窗口長度為10，詞向量維度設為100，低頻詞閾值設為10，采用skip-gram模型進行訓練，迭代次數為50次，其余參數使用默認值。訓練完畢后使用文獻[14]提供的代碼[注]代碼地址： https://github.com/mfaruqui/crosslingual-cca訓練雙語詞向量。從訓練完的雙語詞向量中隨機選擇了幾個名詞、動詞及形容詞，并計算它們在另一種語言中前5個相近的詞，結果如表4所示。

表4 雙語詞向量效果示例

從結果可以看出，對于名詞、動詞這類具有明確語義信息的詞來說，訓練得到的雙語詞向量能取得較好的結果，形容詞的效果相對較差，但也能匹配到較為相關的詞。因此我們認為，雙語詞向量可以用于句子間的相似度計算。

3.3.2 通過對比選擇最佳參數

本文提出的摘要方法含有參數α、β和θ。θ用于去冗余過程中過濾關聯強度過高的相似句子，α和β用于確定句子間的要素共現程度和相似度對句子關聯強度的貢獻比例。

先用以下方法確定θ的取值。

首先，在α=1、β=0和α=0、β=1兩種情況下生成摘要；然后，將θ從1逐步減少到0(每次減少0.1)，在這個過程中人工統計不同θ值下摘要中高度相似的句子的數量；最后，選擇最大的θ值使得生成的摘要中幾乎沒有高度相似的句子。α=1、β=0時θ=0.6，α=0、β=1時θ=0.7。最終選擇θ=0.65作為去冗余時的閾值。

在確定θ=0.65后，通過對比生成摘要的ROUGE值選擇最佳的α和β參數。具體結果如圖3 所示。從圖中可以看到在α=0.4、β=0.6時，提出的方法取得了最好的結果。

圖3 α和β參數對ROUGE值的影響

3.3.3 驗證漢越雙語新聞摘要方法的有效性

為了驗證所提方法的有效性，將如下幾個方法進行對比。

① Multi-Feature：本文所提出的方法。參數選擇為α=0.4、β=0.6、θ=0.65。

② Multi-Feature-e：本文所提出的方法。參數選擇為α=1、β=0、θ=0.65。

③ Multi-Feature-sim：本文所提出的方法。參數選擇為α=0、β=1、θ=0.65。

④ TextRank：該方法在計算句子間邊的權重時，原本使用的是句子間詞的重疊數量，僅適用于單語文檔。為了使該方法能夠適用于雙語新聞摘要任務，使用句子間的新聞要素共現程度來代替句子間詞的重疊數，用于計算句子間邊的權重。此外，該方法本身用于單文檔摘要，沒有考慮去冗余，故此處我們再為其加上去冗余的步驟。該方法與Multi-Feature-e相比，沒有利用句子的位置對句子重要性進行調序。實驗結果如表5所示。

比較Multi-Feature-e和TextRank可以看出，對排序后的結果再進行調序，取得了較大提高。

表5 在三個新聞事件上的實驗結果

我們認為這驗證了把句子位置作為特征的有效性。另外，之所以取得較多提高的原因，我們認為是新聞摘要本身的特點造成的結果，因為新聞報道的標題本身就對新聞文本做了簡練的概括，調序時針對這一特點對新聞標題賦予了較高的權重。

比較Multi-Feature-e和Multi-Feature-sim可以看出，引入詞向量計算句子之間的關聯強度，相比僅使用詞共現來計算句子之間的關聯強度更為有效，我們認為這是因為詞向量不僅能計算共現詞之間的相似度，還能計算那些相關詞之間的相似度；另外，在衡量雙語句子間的關系時，詞向量的效果比雙語詞典要好。

比較Multi-Feature與其他方法可以發現，在漢越雙語新聞摘要任務上，本文所提出的方法取得了較好的結果，具有有效性。

4 總結

為了生成漢越雙語新聞的摘要，本文提出了一種融合多特征的漢越雙語新聞摘要方法。該方法根據新聞文本的寫作特點，分析了句子間的新聞要素共現程度、句子間的相似度以及句子的位置重要性，并把這三個特征融合到模型中。實驗證明，所提出的方法在漢越雙語新聞摘要任務上取得了較好的結果。由于在分析句子間的相似度時，僅利用特定類型詞的詞向量加權來衡量句子相似度，有一定的局限性。在下一步工作中，考慮使用新的方法來衡量句子間的相似度，以提升自動摘要效果。