999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分層最大邊緣相關的柬語多文檔抽取式摘要方法

2020-12-23 11:25:40曾昭霖嚴馨余兵兵周楓徐廣義
河北科技大學學報 2020年6期
關鍵詞:深度學習

曾昭霖 嚴馨 余兵兵 周楓 徐廣義

摘 要:為了解決傳統多文檔抽取式摘要方法無法有效利用文檔之間的語義信息、摘要結果存在過多冗余內容的問題,提出了一種基于分層最大邊緣相關的柬語多文檔抽取式摘要方法。首先,將柬語多文檔文本輸入到訓練好的深度學習模型中,抽取得到所有的單文檔摘要;然后,依據類似分層瀑布的方式,迭代合并所有的單文檔摘要,通過改進的最大邊緣相關算法合理地選擇摘要句,得到最終的多文檔摘要。結果表明,與其他方法相比,通過使用深度學習方法并結合分層最大邊緣相關算法共同獲得的柬語多文檔摘要,R1,R2,R3和RL值分別提高了4.31%,5.33%,6.45%和4.26%。基于分層最大邊緣相關的柬語多文檔抽取式摘要方法在保證摘要句子多樣性和差異性的同時,有效提高了柬語多文檔摘要的質量。

關鍵詞: 自然語言處理;柬語;抽取式摘要;深度學習;瀑布法;最大邊緣相關

中圖分類號:TP391文獻標識碼: A

doi:10.7535/hbkd.2020yx06005

Khmer multi-document extractive summarization method

based on hierarchical maximal marginal relevance

ZENG Zhaolin1,2, YAN Xin1,2, YU Bingbing1,2, ZHOU Feng1,2, XU Guangyi3

(1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,Yunnan 650500,China;2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming, Yunnan 650500,China;3. Yunnan Nantian Electronic Information Industry Company Limited, Kunming,Yunnan 650040,China)

In order to solve the problem of ineffective utilization of the semantic information between documents in the traditional multi-document extractive summarization method and the excessive redundant content in the summary result, a Khmer multi-document extractive summarization method based on hierarchical maximal marginal relevance(MMR)was proposed. Firstly, the Khmer multi-document text was input into the trained deep learning model to extract all the single-document summaries. Then, all single document summaries were iteratively merged according to a similar hierarchical waterfall method, and the improved MMR algorithm was used to reasonably select summary sentences to obtain the final multi-document summary. The experimental results show that the R1, R2, R3, RL values of the Khmer multi-document summary obtained by using the deep learning method combined with the hierarchical MMR algorithm increases by 4.31%, 5.33%, 6.45% and 4.26% respectively compared with other methods. The Khmer multi-document extractive summarization method based on hierarchical MMR can effectively improve the quality of Khmer multi-document summary while ensuring the diversity and difference of the summary sentences.

Keywords:

natural language processing;Khmer; extractive summarization;deep learning;waterfall method;maximal marginal relevance(MMR)

隨著“一帶一路”倡議的實施,中國和柬埔寨作為重要的雙邊貿易國家和友好合作伙伴,交流與往來日益增加,有關柬埔寨語(簡稱柬語,下同)的自然語言處理技術[1]研究變得尤為重要。隨著互聯網技術的發展、信息的增加以及傳播和交互速度的迅速加快,人們對互聯網的需求正在發生變化[2]。如何從大量冗余信息中快速得到主要內容已成為當前研究的熱點。簡短的摘要可以幫助人們快速獲取信息,加快信息傳播速度。根據待觀察文檔數量的多少,可以將文檔摘要的形式分為單文檔摘要[3]和多文檔摘要[4]。前者是對一個文檔內容進行提取生成一篇摘要,后者是從一個話題下的多篇相關文檔中生成一篇摘要。單文檔摘要技術主要面向單個文檔,隨著時代的發展,多文檔摘要技術逐漸得到重視。迄今為止,已經有很多方法被應用到多文檔摘要技術中,主要分為基于特征的方法、基于聚類的方法、基于圖模型的方法和基于深度學習的方法。

基于特征的方法即對語料進行特征構造,轉化為句子排序問題,依據句子的重要性挑選摘要句,組合形成摘要。常用的句子特征如句子位置、句子長度、線索詞等[5]。常用于基于特征的多文檔摘要方法還有基于中心性(Centrality)[6]相關方法,其是在識別輸入源中心通道的基礎上檢測出最顯著的信息,用于生成通用的摘要;而基于覆蓋率(Coverage)[7]的方法則產生由單詞、主題、時間驅動的摘要。基于特征的多文檔摘要方法雖然已得到廣泛研究,但該方法無法理解文檔的上下文信息,僅在句子級別對句子進行評分。

基于聚類的方法即將句子集進行歸類。盡管多文檔包含多個主題且各文檔內容通常有所不同,但是通過聚類方法可以提取出在聚類簇中表達主題信息的句子形成摘要[8]。RADEV等[9]提出了基于質心代表文檔集合的邏輯主題的抽取式摘要方法;MCKEOWN等[10]開發了基于片斷聚類方法的多文檔摘要系統MultiGen,識別出不同文件間的相似之處和不同之處,通過語義相似度提取主題,從主題中抽取交集作為關鍵詞,生成連貫的摘要。但是,基于聚類的方法需要事先知道聚類的類別數。

基于圖模型的方法廣泛用于多文檔摘要任務中,把諸如句子和段落之類的文本單元集成到基于圖的結構中,使用類似投票機制提取文本摘要[11]。典型的圖模型為PageRank算法[12], 初始時為每個頁面分配相同的重要性評分,根據算法迭代更新每個頁面的PageRank評分,直至評分穩定。TextRank是在PageRank算法基礎上,對每個詞節點附上權值,構建關于詞的無向帶權圖,建立圖模型,利用投票機制對文本的重要成分進行排序,生成摘要[13]。YASUNAGA等[14]提出了GCN(graph convolutional network)模型,將句子關系圖融入到神經網絡模型中,得到句子的重要性,利用依此產生的句子高維表征,通過重要性估計提取摘要句。

基于深度學習的方法即利用深度學習訓練出詞、句子等級別具有上下文信息、語義關系的表征,以便更好地生成摘要[15]。CAO等[16]針對基于查詢的多文檔摘要任務,提出了AttSum模型,采用聯合學習的方法結合卷積神經網絡和注意力機制對句子進行建模表示,能夠有效學習到文檔主旨和摘要句子之間的相關性;NALLAPATI等[17]提出了基于循環神經網絡的SummaRuNNer模型,從文本的重要性和新穎性等角度出發,解釋文本摘要的生成過程;NARAYAN等[18]利用基于Encoder-Decoder框架的分層文檔編碼器和基于注意力的解碼器結構,結合附帶信息的關注來更好地選擇摘要句。但是單純的基于深度學習的方法需要大量數據對模型進行訓練。

目前柬語自然語言處理研究的基礎較為薄弱,且主要集中在命名實體識別與可比語料方面,關于多文檔摘要方面的研究十分稀少,領域專家人工標注的代價十分昂貴,柬語多文檔摘要語料較為匱乏。已有多文檔抽取式摘要方法大多使用的是有監督的學習方法,不太適用于柬語多文檔摘要。本文利用無監督學習方法,在不依賴任何標注數據的情況下,通過對多文檔內在特征的挖掘,找到文檔間的關系,使用類似瀑布分層的方式,結合改進的最大邊緣相關算法MMR[19],基于句子特征的5種評估方法的綜合得分決定摘要句的重要性,依據ROUGE-L[20]召回率評估候選摘要句與已選摘要句之間內容的冗余關系,迭代合并通過深度學習模型得到的單文檔摘要集,有效提高柬語多文檔摘要的質量,保證摘要結果的多樣性和差異性。

1 多文檔抽取式摘要的主要內容

在通過訓練好的CNN-LSTM-LSTM深度學習模型得到柬語單文檔摘要集的基礎上,添加一種分層最大邊緣相關算法,迭代合并所有單文檔摘要作為最終的多文檔摘要。考慮到多文本摘要任務中存在較多的冗余內容,本文用于抽取單文檔摘要的深度學習模型參數無法識別多文檔文本中較多的冗余內容,于是提出了一種基于分層最大邊緣相關算法的柬語多文檔抽取式摘要方法。該方法分2步完成:第1步,將每個單文檔文本輸入到已經訓練好的CNN-LSTM-LSTM深度學習模型中,獲取所有的單文檔摘要;第2步,依據類似瀑布的方式,將按新聞時序排序的單文檔摘要集通過改進的最大邊緣相關算法,迭代合并所有單文檔摘要,得到最終的多文檔摘要。過程如圖1所示。

本文中的CNN-LSTM-LSTM深度學習神經網絡模型的輸入層為已經過分詞、詞性標注、去噪等預處理之后的柬語多文檔新聞語料。在深度學習神經網絡模型中,先使用卷積神經網絡CNN對輸入文檔D中的n個句子進行編碼,獲得所有句子S的句子表征{S1,S2,…,Sn},將其作為長短期記憶神經網絡LSTM(long short-term memory)[21]的輸入。根據CNN-LSTM-LSTM網絡結構可知,文檔編碼器LSTM的隱藏狀態為{h1,h2,…,hi,…,hn},其中hi表示文檔D中第i個句子對應的文檔編碼器LSTM中的隱藏狀態,通過文檔編碼器LSTM得到該輸入文檔的表征hn,hn為包含文檔D中所有句子信息的最后一個隱藏狀態。句子提取器LSTM作為另外一種循環神經網絡,初始的隱藏狀態的輸入為與其相連的文檔編碼器LSTM中的最后一個隱藏狀態hn,也是輸入文檔的表征。句子提取器LSTM中的隱藏狀態表示為

t=LSTM(pt-1St-1,t-1) 。

式中:t表示在第t個時間步句子提取器LSTM的隱藏狀態;pt-1表示句子提取器認為前一句應該被提取的概率;St-1表示前一句的句子表征。

結合注意力機制[22]的句子提取器在處理第t個時間步的句子時,通過將其當前的隱藏狀態t與其在文檔編碼器中的隱藏狀態ht相關聯,經過以下處理得到該句子為摘要句標簽的概率:

P(yL=1|St)=σ(MLP([t;ht]))。

式中:yL∈{0,1}為文檔D中的句子是否為摘要句的標簽,1表示該句為摘要句;MLP是一個多層神經網絡,輸入為[t;ht],“;”表示連接;σ表示Sigmoid激活函數。CNN-LSTM-LSTM神經網絡模型結構示意圖如圖2所示。

1.1 從單文檔摘要到多文檔摘要

通常將包含多個單文檔文本摘要的集合稱為多文檔摘要,與單文檔摘要相比,多文檔摘要包含眾多的冗余內容,同一話題在不同摘要中重復出現。如何將單文檔摘要集轉化為更為高效的多文檔摘要是本文解決的問題。傳統的多文檔摘要方法[23]是將所有單文檔文本連接起來,看成一個文檔,再使用單文檔摘要方法生成最終的多文檔摘要。當單文檔文本數目較少時,該方法表現出良好的效果,但隨著文檔數量的逐漸增加,該方法的性能逐漸下降,在識別冗余內容時具有局限性。另外,該方法也忽略了事件發生的時間信息。為了克服該方法的局限性,一種可能的策略是先逐個抽取出單文檔摘要,并將它們有規則地迭代組合在一起。為了迭代組合單文檔摘要,筆者提出瀑布法,如圖3所示。瀑布法包含2步。首先,將柬語多文檔文本通過CNN-LSTM-LSTM深度學習神經網絡模型,獲得關于每篇文檔的單文檔摘要集{S1,S2,…,Sj,…,Sn},Sn假設為最后一篇單文檔摘要;其次,將第1個單文檔摘要S1和第2個單文檔摘要S2連接在一起,合并為一個輸入摘要,通過改進的MMR算法和句子的重要性得分評估對2個單文檔摘要的句子進行排序,挑選前若干個MMR總得分最高的句子進行合并,作為該階段合并后的文檔摘要S1,2,再采取同樣方法,將合并得到的文檔摘要S1,2與第3個單文檔摘要S3連接合并,得到該階段合并后的文檔摘要S1,2,3。重復上述方法,直到迭代完成所有抽取出來的單文檔摘要,得到一個最終的柬語多文檔摘要。

該方法對輸入文檔摘要的時間順序較為敏感,在每次迭代過程中,候選摘要都要與已選摘要合并,所以初始文檔的摘要比后面文檔的摘要更有可能被刪除。由于較新的新聞內容更符合人們的信息需求,因此本文依據新聞文檔的時間順序對單文檔摘要集進行排序后再進行合并。通過實驗表明,摘要中包含的句子個數為20的時候,效果最好,因此把20設為本文摘要包含的句子個數參數。這種方法可以很好地解決每個文檔內與每個文檔之間的信息冗余問題,在保證多文本摘要多樣性的同時,可以保證多文檔摘要的差異性。

1.2 分層最大邊緣相關算法

最大邊緣相關算法MMR(maximal marginal relevance),是一種用于實現文檔摘要的方法。新聞文本中包含許多重復的背景信息。MMR的主要思想是使所選的摘要句與文檔主旨高度相關,在確保摘要多樣性的同時,使候選摘要句與已選摘要句之間的差異性盡可能大,最終摘要結果僅有較低冗余信息,達到平衡摘要句之間多樣性和差異性的目的。

本文使用改進的MMR算法,在句子重要性評估得分上,使用基于句子特征的5種評估方法的綜合得分表示句子和文檔主旨的相似性得分,以便更好地選擇摘要句子;在句子的差異性比較上,利用ROUGE-L召回率進行評估,依據候選摘要句子與已選摘要句子之間的差異性得分,降低多文檔摘要內容的冗余。首先,在已按新聞時序排好的單文檔摘要集D中,利用句子重要性評估方法選擇得分排在最前的摘要句Sj作為初始摘要句子,將其添加到已選摘要句集S中,初選摘要句子Sj是單文檔摘要集D中重要性得分最高的一句,同時也是當前已選摘要句集中內容重疊最少的;然后,通過MMR算法計算剩余摘要句的得分值,決定是否將其添入已選摘要句集S中。不斷迭代計算單文檔摘要集D中的剩余摘要句子,直至已選摘要句集S達到摘要長度的限制。改進的MMR算法計算公式表示為

MMR=arg max[DD(X]Si∈D\S

[λsim1(Si,D)[TXX}-*2][DD(X] 重要性

-(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)][TXX}]

冗余性。

式中:D為單文檔摘要的結果文檔集,由所有抽取出來的單文檔摘要按新聞時序排列組成;S為當前已選摘要句集;Si表示候選摘要句;Sj表示已選摘要句集S中的已選摘要句;λ是平衡因子;λsim1(Si,D)表示候選摘要句Si與單文檔摘要集D的相似度,作為該句重要性的評估,其值越大,表明句子Si與文檔主旨的相關度越緊密,包含重要的文檔主旨信息,適合作為摘要句;(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)表示候選摘要句Si與已選摘要句Sj之間的相似性,作為句子Si的冗余性評估,其值越小,表明該句與已選摘要集S之間的差異性越大,兩者間的冗余內容越少。迭代計算能使重要性和差異性之間平衡最大的候選摘要句加入已選摘要句集S。通過實驗調整λ值,達到摘要句多樣性和差異性之間的平衡。 分層最大邊緣相關算法描述如表1所示。

1.2.1 句子的重要性評估

為了評估摘要句子的重要性sim1(Si,D),選取若干關于句子不同特征的比較方法,通過計算基于句子不同特征的綜合得分,用來代表摘要句子與文檔之間的重要性得分。本文使用基于句子5種不同特征的得分評估摘要句的重要性,包括基于句子中關鍵詞的得分、基于句子與多文檔標題相似性的得分、基于句子中線索詞的得分、基于句子長度的得分以及基于句子位置的得分。

1)基于句子中關鍵詞的得分

關鍵詞是反映文章中主題的詞語,句子包含的關鍵詞越多,其包含文檔主題的信息量就越大,句子就越重要。關鍵詞的提取,首先要將分詞后的單文檔摘要文本過濾掉無意義的停用詞,然后使用TF-IDF(term frequency-inverse document frequency, 詞頻-逆文本頻率)算法計算出每個詞語的權重,最后根據詞語的權重提取出關鍵詞。詞語TF-IDF權重的計算公式為

Wi,j=tfi,j×logNnj+1。 (1)

式中:Wi,j表示特征詞的TF-IDF權重;tfi,j表示詞語wi在當前文本dj中出現的頻率;N表示抽取出的單文檔摘要集的文本總數;nj為單文檔摘要集合中包含詞語wi的單文檔摘要文本數目;nj+1中的+1為拉普拉斯平滑,防止當nj為0時出現分母為0的非法情況。

計算得到每個詞語的權重是出于關鍵詞得分對句子重要性的影響考慮,挑選出詞語權重排在前面的若干實詞作為關鍵詞短語(通常為5~10個)。研究發現,抽取出權重最大的前8個實詞作為關鍵詞較為合適。基于關鍵詞的得分計算公式為

WX(Si)=∑8k=1W(Si,k)。

式中:WX(Si)表示句子Si基于關鍵詞的得分;∑8k=1W(Si,k)表示句子Si包含的關鍵詞得分之和;Si,k表示句子Si中所包含的關鍵詞;W(Si,k)表示句子Si中包含的關鍵詞所對應的權重大小。

由于柬語句子長度變化較大,為了避免因為句子長度差距導致的句子間重要性得分差距過大,在句子包含TF-IDF關鍵詞權重的基礎上進行歸一化處理,使不同長度的句子基于關鍵詞權重值處于同一數值范圍,計算公式為

W1(Si)=(WX(Si)-min WX(S))(max WX(S)-min WX(S))。

式中:W1(Si)為句子Si歸一化后基于關鍵詞的句子得分;WX(Si)為句子Si歸一化前基于關鍵詞的句子得分;max W(S)為所有句子中得分的最大值;min W(S)為所有句子中得分的最小值。

2)基于句子與標題相似度的得分

新聞文本標題通常能反映該文本的主題,對摘要句的重要性評估具有很大影響。通過計算摘要句和標題之間的相似度得分來評估單文檔摘要集中摘要句子的重要性,相似度越大,則該句就越重要,被選中的可能性就越大。在向量空間模型VSM中通過余弦相似度計算,句子Si和標題C以包含關鍵詞的得分作為特征的向量表示之間的相似度得分,表示摘要句和標題的整體相似度得分。本文中Si=(WSi,1,

WSi,2,…,WSi,8),

C=(WC1,WC2,…,WC8)。基于句子和標題的余弦相似度得分計算公式為

W2(Si)=

∑8k=1W(Ck)×W(Si,k)

∑8k=1W(Ck)2×

∑8k=1W(Si,k)2。

式中:W2(Si)表示句子Si與標題C的相似度得分,分值越高,與文本主旨的相關度越高,句子Si越應該被選取;W(Si,k)表示句子Si中所包含的由式(1)得出的第k個關鍵詞權重;Ck表示標題C中所包含8個關鍵詞中的第k個關鍵詞;W(Ck)表示標題C中所包含的第k個關鍵詞得分。

3)基于句子中線索詞的得分

句子中某些詞語并不是關鍵詞,但是依然可以起到提示性的作用,如“綜上所述”“總而言之”“說明”等具有對文本主旨內容牽引的指示詞,會包含更多的信息,應該給予較大權重。句子Si基于是否包含線索詞WC的得分規則如式(2)所示:

W3(Si)= 1, WCSi,

0, WCSi。(2)

4)基于句子長度的得分

過短的句子通常沒有實際意義,并且包含文檔主旨的信息很少;過長的句子雖然包含了更多語義信息,但是內容過于繁雜,通常不屬于摘要。因此,摘要句的選擇應該選擇長度適中的句子。句子Si基于句子長度LSi的得分規則如式(3)所示:

W4(Si)=

1, 15≤LSi≤25,

0.5, 5≤LSi<15 or 25

0, others 。 (3)

5)基于句子位置的得分

大部分柬語新聞文本結構的特點會在首段或者首句對該篇新聞報道的主題核心進行說明。通過閱讀大量新聞報道發現,為了吸引讀者的閱讀興趣以及方便讀者能夠快速了解所報道的事件,新聞報道文章往往會在首段的首句引出新聞主題核心,在首段的非首句仍然是對新聞報道的總結性描述。因此應該給予句子Si位于首段

Pfirst首句Sf和首段非首句更高的權重,計算規則如式(4)所示:

W5(Si)=

1, SiPfirst and Si=Sf,

0.5, SiPfirst and Si≠Sf,

0, SiPfirst。[JB)][JY] (4)

通過計算上述基于句子5種不同特征重要性得分的組合,對單文檔摘要集中每個摘要句子的相關度和重要度進行綜合評分。基于句子綜合特征的重要性得分計算式如(5)所示:

Score(Si)=∑5n=1(γn×Wn(Si)) 。 (5)

式中: Score(Si)表示句子Si的綜合評估得分;Wn(Si)表示第i個句子基于第n項句子特征的重要性得分;γn表示關于上述5項基于句子不同特征得分在綜合得分中的比例因子系數,且∑5n=1

γn=1,1≤n≤5,且n為整數。通過計算Score(Si)得到每個摘要句Si的sim1(si,D)的重要性得分。

1.2.2 句子的冗余性評估

為了評估候選摘要句與已選摘要句之間的差異性得分

max

Sj∈S sim2(Si,Sj),Si表示候選摘要句,Sj表示已經被選中的摘要句,S表示已選摘要句集,利用ROUGE-L召回率評估,通過計算候選句子和已選摘要句子之間的最長公共子序列長度,除以已被選中摘要語句的長度,作為候選摘要句子的差異性得分。產生較高ROUGE-L精度的候選語句認為與已選摘要有著顯著的內容重疊,它將獲得較低的MMR分數,因此不太可能作為摘要句,達到去除多文檔摘要內容冗余的目的。計算式如式(6)所示:

Rlcs=LCS(X,Y)m 。 (6)

式中:X表示候選摘要句;Y表示已經被選中的摘要句;LCS表示X與Y的最長公共子序列的長度; m表示已被選中的摘要句的長度;Rlcs表示候選摘要句與已選摘要句的內容重疊率,即冗余程度。通過計算ROUGE-L的值,得到max[DD(X]Sj∈S sim2(Si,Sj)得分。

2 實驗數據分析

2.1 實驗數據

本文中所使用的柬語多文檔實驗語料主要來源于柬埔寨新聞日報網、Koh Santepheap以及柬埔寨MYTV等網站,通過人工收集和網頁爬取方法獲得相關主題新聞文檔,再進行分詞、詞性標注等預處理,所采集到的語料涵蓋了政治、體育、娛樂和軍事等眾多領域。利用實驗室分詞平臺進行分詞預處理,得到大約700個新聞標題,5 000篇左右的新聞文檔,每個新聞標題下大約包含7篇新聞報道,每篇文檔中包含30個左右的句子,每個新聞標題下的所有新聞文本按照新聞時間順序排列成1份柬語多文檔語料。該多文檔摘要系統的任務是從包含7篇新聞文檔的單文檔摘要結果中合并抽取生成1份簡潔、流暢、涵蓋主題內容的多文檔摘要。

2.2 評價指標

自動文本摘要質量的評估是一項比較困難的任務,通常選取1個或多個指標對生成摘要和參考摘要進行內部評價,內部評價比較的是摘要內容的信息覆蓋率。在本實驗中,對摘要結果的評價通過與專家標注的參考摘要進行對比,實驗數據經過專業人員審核,參考摘要通過多個專家標注,準確性高。目前較為廣泛使用的摘要評價指標為ROUGE指標,其評測原理采用召回率作為指標。ROUGE-N基于摘要中N元詞的共現信息評價摘要,通過比較生成摘要中包含的基本語義單元數目在專家標注參考摘要數目的占比衡量摘要質量,是一種面向N元詞召回率的評價方法。ROUGE-L基于抽取出的摘要與參考摘要匹配到的最長公共子序列的占比評價摘要質量,能在一定程度上反映摘要的質量,其值越高,表示抽取出來的摘要質量越高。本文采用一元召回率(R1)、二元召回率(R2)、三元召回率(R3)和最長公共子序列的召回率(RL)作為摘要評價指標。計算公式表示為

ROUGE-N=∑S∈RS∑n-gram∈SCountmatch(n-gram)

∑S∈RS∑n-gram∈SCountmatch(n-gram) ,

式中: RS表示參考摘要;Countmatch(n-gram)表示在生成摘要與標準參考摘要中匹配到的共現n-gram數量之和;Count(n-gram)表示標準參考摘要中的n-gram數量。

2.3 實驗結果與討論

2.3.1 最大邊緣相關算法中λ因子系數的選擇

為了選取最佳λ因子系數,保證多文檔摘要句子相關性和差異性的平衡,進行了30組實驗對比。研究發現,當選取λ值以小于0.1的級數增加時,摘要結果得分變化并不明顯,所以以0.1的倍數增加選擇了11 組實驗進行對比,實驗結果見表2。

由表2可知,當λ值為0或者為1.0時,在R1,R2,R3,RL上的得分很低,主要是因為當λ值為0或者為1時,僅僅考慮了摘要句子之間的相關性或差異性,沒有綜合考慮。隨著λ值的增加,R1,R2,R3,RL的得分也呈現增加的趨勢,當λ值為0.5時得分最高,展現出很好的性能,故將其作為MMR算法的平衡因子系數值。由表2還可以看出,當λ值超過0.5時,ROUGE各項評估得分開始下降,原因是閾值設置過大,導致許多重要性得分很高的句子不能滿足冗余性約束而無法加入到摘要中。

2.3.2 摘要中包含句子個數參數的選擇

為了選取合并摘要中句子個數參數的最優值,使用本文方法分別進行了30組實驗。研究發現,當設置的摘要中句子個數參取值以小于2的級數增加或者減少時,R1,R2,R3和RL的得分變化不太明顯,所以每次在選取摘要中包含句子個數參數的取值時,選取2的整數倍值增加或者減少進行實驗。初步選取摘要中句子的個數為16,在此基礎上進行增加或遞減實驗。選取相同的λ=0.5,在相同的語料集下使用瀑布法結合本文中的MMR算法合并單文檔摘要,挑選了有代表性的8組實驗結果進行對比,實驗結果如表3所示。

由表3可知,隨著摘要中包含句子個數的增加,在R1,R2,R3,RL上的得分呈現遞增趨勢,體現了自動文本摘要包含信息的多樣性。可以看出,當摘要中句子的個數值為20時,在R1,R2,R3和RL上的得分最高,效果最好。隨著摘要中包含句子個數繼續增加,R1,R2,R3和RL的值呈現下降趨勢,主要是由于當摘要中句子的個數值過大時,存在較多的冗余內容,無法保證摘要的差異性。所以,本文選取摘要中句子的個數值為20,作為最終的多文檔摘要長度。

2.3.3 改進MMR算法的重要性驗證

在句子重要性評估上,使用了基于摘要句5種特征的綜合句子得分表示句子和文檔主旨之間的相關性,效果理想。采用本文中改進的MMR算法與基于單純余弦相似度計算的MMR算法,在進行單文檔摘要合并為多文檔摘要時進行了對比,實驗結果見表4。

由表4可知,與基于單純余弦相似度計算方法的MMR算法相比,本文中使用改進的MMR方法合并摘要的效果更好,R1,R2,R3和RL都要比前一種方法要高,證明了本文使用方法的有效性。這主要是由于本文使用的MMR方法可以更好地利用句子的特征信息綜合評估句子的重要性,在保證多文本摘要準確性的同時也可以保證多文檔摘要的信息豐富多樣性,提高了柬語多文本摘要的質量。

2.3.4 基于分層最大邊緣相關方法抽取多文檔摘要的優越性驗證

將本文基于分層最大邊緣相關的多文檔摘要方法與另外3種對多文檔進行摘要的無監督方法,在使用相同訓練集時進行R1,R2,R3和RL結果的對比。3種對比方法包括:1)基于文檔中詞的TF-IDF特征的方法[24],聯合句子的長度、位置等表面特征進行摘要句的選擇;2)基于圖的排序模型TextRank用于文本處理,構建關于詞的無向帶權圖,利用投票機制提取關鍵詞;3)基于MMR的方法。結果見表5。

由表5結果可知,相比于其他3種對比方法,本文提出的基于分層最大邊緣相關的多文檔抽取式摘要方法,在R1,R2,R3和RL上取得了最高的得分。利用本文中的改進方法抽取出來的多文檔摘要與專家人工標注的參考摘要更加吻合,深度挖掘了文本之間的語義關系,并且有效減少了多文檔摘要中的內容冗余,抽取出的柬語多文檔摘要質量更高,也進一步說明本文所提方法的有效性。

3 結 語

1)提出了一種基于分層最大邊緣相關的柬語多文檔抽取式摘要方法。首先,將收集來的柬語多文檔語料輸入到已經訓練好的深度學習神經網絡模型中,獲得單文檔摘要集合;然后,依據類似瀑布的方式,將單文檔摘要結果通過改進的最大邊緣相關算法,迭代合并所有單文檔摘要作為最終的多文檔摘要結果。

2)與直接對多文檔文本進行自動摘要相比,該方法深度挖掘了文本間的語義關系,在保證摘要句多樣性的同時,也降低了多文檔摘要的內容冗余,提高了柬語多文檔摘要的質量。

3)由于柬語多文檔摘要語料較為匱乏,因此本文采用的是無監督學習方法,導致抽取出來的多文檔摘要不如半監督和有監督的學習方法效果好。下一步工作將嘗試探討使用半監督的學習方法,解決柬語多文檔摘要標注語料匱乏的問題,提高多文檔摘要的流暢性。

參考文獻/References:

[1]HIRSCHBERG J, MANNING C D. Advances in natural language processing[J]. Science, 2015, 349(6245): 261-266.

[2]秦兵,劉挺,李生.多文檔自動文摘綜述[J].中文信息學報,2005,19(6):13-22.

QIN Bing,LIU Ting,LI Sheng.Summary of multi-document automatic summarization[J].Journal of Chinese Information Processing, 2005,19(6):13-22.

[3]ISONUMA M, MORI J, SAKATA I. Unsupervised neural single-document summarization of reviews via learning latent discourse structure and its ranking[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: Association for Computational Linguistics, 2019:2142-2152.

[4]MOHAMMED D A, KADHIM N J. Extractive multi-document summarization model based on different integrations of double similarity measures[J]. Iraqi Journal of Science, 2020, 61(6):1498-1511.

[5]程園,吾守爾·斯拉木,買買提依明·哈斯木.基于綜合的句子特征的文本自動摘要[J].計算機科學,2015,42(4):226-229.

CHENG Yuan, WUSHOUER Slam, MAIMAITIYIMING Hasim. Automatic text summarization based on comprehensive sentence features[J].Computer Science,2015,42(4):226-229.

[6]GUPTA A, KAUR M. Text summarisation using laplacian centrality-based minimum vertex cover[J]. Journal of Information & Knowledge Management, 2019, 18(4):1-20.

[7]李強,王玫,劉爭紅.基于RFID覆蓋掃描的標簽定位方法[J].計算機工程,2017,34(3):294-298.

LI Qiang, WANG Mei, LIU Zhenghong. Label positioning method based on RFID overlay scanning[J].Computer Engineering, 2017, 34(3):294-298.

[8]BLISSETT K, JI H. Cross-lingual NIL entity clustering for low-resource languages[C]//Proceedings of the Second Workshop on Computational Models of Reference, Anaphora and Coreference.[S.l.]: Association for Computational Linguistics, 2019:20-25.

[9]RADEV D R, JING H. Centroid-based summarization of multiple documents[J]. Information Processing & Management, 2004, 40(6):919-938.

[10]MCKEOWN K, RADEV D R. Generating summaries of multiple news articles[C]//Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]: Association for Computational Linguistics,1995:74-82.

[11]PAUL C, RETTINGER A, MOGADALA A, et al. Efficient graph-based document similarity[C]//European Semantic Web Conference: Springer Cham.[S.l.]:[s.n.],2016:334-349.

[12]LANGVILLE A N, MEYER C D,FERNNDEZ P. Google's pagerank and beyond: The science of search engine rankings[J]. The Mathematical Intelligencer, 2008, 30(1):68-69.

[13]WEN Y, YUAN H, ZHANG P. Research on keyword extraction based on word2vec weighted Textrank[C]//2016 2nd IEEE International Conference on Computer and Communications (ICCC).[S.l.]: IEEE, 2016:2109-2113.

[14]YASUNAGA M, ZHANG R, MEELU K, et al. Graph-based neural multi-document summarization[C]//Proceedings of the 21st Conference on Computational Natural Language Learning.[S.l.]: Association for Computational Linguistics, 2017:452-462.

[15]江躍華,丁磊,李嬌娥,等.融合詞匯特征的生成式摘要模型[J].河北科技大學學報,2019,40(2):152-158.

JIANG Yuehua, DING Lei, LI Jiao′e, et al. A generative summary model incorporating lexical features[J]. Journal of Hebei University of Science and Technology,2019,40(2):152-158.

[16]CAO Z, LI W, LI S, et al. Attsum: Joint learning of focusing and summarization with neural attention[C]// Proceedings of Coling 2016, the 26th International Conference on Computational Linguistics.[S.l.]:Technical Papers, 2016:547-556.

[17]NALLAPATI R, ZHAI F, ZHOU B. SummaRuNNer: A recurrent neural network based sequence model for extractive summarization of documents[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2017:3075-3081.

[18]NARAYAN S, PAPASARANTOPOULOS N, COHEN S B, et al. Neural Extractive Summarization with Side Information[EB/OL]. [2017-09-10].https://arxiv.org/abs/1704.04530v2.

[19]BOUDIN F, TORRES-MORENO J M. A scalable MMR approach to sentence scoring for multi-document update summarization[C]//Companion Volume: Posters and Demonstrations.[S.l.]: [s.n.],2008:23-26.

[20]SCHLUTER N. The limits of automatic summarisation according to rouge[C]//Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:Sociation for Computational Linguistics, 2017:41-45.

[21]RAO G, HUANG W, FENG Z, et al. LSTM with sentence representations for document-level sentiment classification[J]. Neurocomputing, 2018, 308(25):49-57.

[22]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing System.[S.l.]: Curran Associates Inc, 2017:6000-6010.

[23]ZHANG Y, ER M J, ZHAO R, et al. Multiview convolutional neural networks for multidocument extractive summarization[J]. IEEE Transactions on Cybernetics, 2017, 47(10): 3230-3242.

[24]CHRISTIAN H, AGUS M P, SUHARTONO D. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)[J]. ComTech: Computer, Mathematics and Engineering Applications, 2016, 7(4):285-294.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 亚洲综合片| 国产老女人精品免费视频| 综合成人国产| 无码国内精品人妻少妇蜜桃视频| 亚洲性影院| 国产主播在线一区| 依依成人精品无v国产| 色精品视频| 亚洲三级视频在线观看| 老司国产精品视频91| 国产电话自拍伊人| 日本www在线视频| 国产欧美综合在线观看第七页 | 精品精品国产高清A毛片| 久久久精品国产SM调教网站| 国产人碰人摸人爱免费视频| 久久精品娱乐亚洲领先| 欧美特级AAAAAA视频免费观看| 97综合久久| 成年人国产视频| 亚洲高清在线播放| 高清无码一本到东京热| 国产91视频观看| 久久亚洲AⅤ无码精品午夜麻豆| 中文成人在线| 日本AⅤ精品一区二区三区日| 性色生活片在线观看| 99精品欧美一区| 国产免费人成视频网| 永久免费av网站可以直接看的| 国产在线欧美| 青草视频免费在线观看| 色哟哟国产成人精品| 99青青青精品视频在线| 91久久偷偷做嫩草影院免费看| 91色国产在线| 国产中文一区a级毛片视频| 毛片网站观看| 萌白酱国产一区二区| 亚洲狠狠婷婷综合久久久久| 国产在线视频欧美亚综合| 欧美亚洲一区二区三区导航| 91网址在线播放| 视频一区视频二区日韩专区| 婷婷色在线视频| 暴力调教一区二区三区| 热久久国产| 一本一本大道香蕉久在线播放| 在线欧美日韩国产| 欧美日韩中文国产va另类| 国产黄色爱视频| 97视频在线精品国自产拍| 中文字幕日韩视频欧美一区| 毛片最新网址| 2020最新国产精品视频| 日本欧美午夜| 久久综合干| 99视频有精品视频免费观看| 亚洲精品国偷自产在线91正片| 黑色丝袜高跟国产在线91| 中文成人在线| 国产精品深爱在线| 国产在线第二页| 亚洲中文字幕在线观看| 毛片久久网站小视频| 久久精品人妻中文系列| 小13箩利洗澡无码视频免费网站| 热九九精品| 国产精品yjizz视频网一二区| 91精品小视频| 欧美精品在线看| 亚洲不卡无码av中文字幕| 欧美一级夜夜爽| 丝袜国产一区| 九色视频最新网址| 四虎永久在线| 中文字幕久久精品波多野结| 国产丰满成熟女性性满足视频| 国产精选小视频在线观看| 久久国产亚洲欧美日韩精品| 蜜臀av性久久久久蜜臀aⅴ麻豆| 中文字幕在线欧美|