基于文本相似度的新聞自動摘要算法研究

2022-03-10 03:17:58李棟凱張永昌

科學與信息化 2022年4期

李棟凱張永昌

1. 河北工程大學信息與電氣工程學院河北邯鄲 056038；2. 河北工程大學土木工程學院河北邯鄲 056038

引言

互聯(lián)網(wǎng)的快速發(fā)展孕育了自媒體并帶動自媒體飛速發(fā)展，但很多自媒體新聞的正文與其所寫的標題并不完全相符，甚至有些自媒體為“博眼球”把新聞標題和標題完全無關的內(nèi)容生硬的進行捆綁，這消耗了讀者的有效閱讀時間。新聞自動摘要技術可以快速形成新聞匯總，聚焦新聞熱點，提高讀者的閱讀效率，改善閱讀體驗。

本文將textrank[1]、word2vec[2-3]和MMR[4-5]三種語言模型用于新聞自動摘要算法的研究。通過仿真實驗結果的對比發(fā)現(xiàn)：①textrank算法得到的摘要語句可讀性差，理解困難；②在textrank算法基礎上增加word2vec模型后對整篇新聞的概括度較高，但將并不能很好的解決信息冗余和效率低的問題；③MMR可以有效去除信息冗余，體現(xiàn)語義的多樣性。

1 算法簡介

1.1 textrank算法

textrank被用來做文本摘要[1]的步驟如圖1所示。首先逐條提取目標文本中的句子，并把提取到的句子表示成向量形式，用非稀疏矩陣來表示文本中所有句子之間的相似性；然后，將句子作為節(jié)點，句子之間的相似度作為邊的權重，將矩陣轉(zhuǎn)換成一個圖的表示形式；最后，對所有句子節(jié)點按照其邊的權重重新排序，提取出排名靠前的句子作為摘要。

圖1 textrank摘要步驟

Textrank中計算兩兩句子間的相似度通過式（1）來計算，等式的右邊表示目標文本中第i個句子和第j個句子的相似度，等式右側的分子代表第i個句子和第j個句子所有單詞的數(shù)量。

1.2 word2vec模型

實現(xiàn)textrank算法中有一步需要把文本中的句子轉(zhuǎn)化為向量的表示形式。這一步驟可以通過TF-idf，word2vec以及characterbased等方法來實現(xiàn)。其中，TF-idf是依據(jù)詞語在文本匯總出現(xiàn)的頻率計算；word2vec生成的向量可以進一步表示出詞與詞之間的聯(lián)系；character-based僅是把一個詞語轉(zhuǎn)換為一個字符來表示。本文采用word2vec模型用于改進textrank算法的新聞摘要生成質(zhì)量[2-3]。

word2vec模型本質(zhì)上是去掉了隱藏層的人工神經(jīng)網(wǎng)絡模型。該模型認為上下文中詞義相近的詞，它們對應的向量之間距離相近。它主要是對比某個詞和與它相鄰的詞之間的關系。比如“她給小明做午飯”。如果“小明”作為中心詞，那么和它相鄰的詞有“她”、“給”、“做”、“午飯”。在“她給小李做午飯”。中選取“小李”為中心詞，與這個詞緊鄰的同樣有“她”、“給”、“做”、“午飯”。因此與這兩個中心詞的相鄰的詞是完全相同的，經(jīng)過向量計算我們希望得到“小明”等于“小李”。

1.3 MMR算法

MMR算法又被稱為最大邊界相關算法，是在研究查詢結果的多樣化時提出[4-5]。最初MMR被用來計算Query文本與被搜索的文檔兩者的相似度，后來也被用于rank排序。MMR的數(shù)學計算公式如式（2）所示：

采用MMR最后生成摘要的句子有兩個特性，一是該句子的重要性更高，二是這個句子和其他句子之間的相似度更低。因此，通過MMR算法得到的最終摘要，句句都很重要，但句句都不一樣。抽取的句子既能表達整個文檔的含義，又可以兼具語義的多樣性。

2 仿真實驗

本文選取2008版的搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)（SogouCA）作為實驗數(shù)據(jù)集，該數(shù)據(jù)集來自若干新聞站點包含國內(nèi)，國際，體育等18個頻道。全網(wǎng)新聞數(shù)據(jù)（SogouCA）中的數(shù)據(jù)格式為圖2所示，它提供了URL、標題以及新聞正文的內(nèi)容。該數(shù)據(jù)集中有的新聞正文長句較多，有的正文則很短甚至沒有正文，且不是所有的新聞都有標題。

圖2 數(shù)據(jù)集中的數(shù)據(jù)格式

新聞文本里的正文內(nèi)容含有特殊的符號比如：表情符號、空格、英文字母等，且全角半角使用較混亂。實驗前需要通過數(shù)據(jù)預處理對給新聞文本進行整理，以去除特殊符號，將全角轉(zhuǎn)換為半角，從而便于隨后實驗步驟的進行。

本文采取Anaconda（python3.8）與Pycharm搭配使用作為仿真實驗工具。使用jieba分詞工具的精確模式去停用詞。使用anaconda中的opencc庫來進行繁體簡體之間的轉(zhuǎn)換。具體仿真平臺參數(shù)如表1所示。

表1 仿真工具平臺

以搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)中一條體育新聞為例，原文如圖2所示，展示了三種文本摘要算法生成的摘要結果分別如圖3-5所示。

圖2 新聞原文

圖3 textrank摘要結果

圖4 增加word2vec后的textrank摘要結果

圖5 MMR算法摘要結果

對比摘要生成情況可以發(fā)現(xiàn)，textrank提取了新聞的最后一句話，使用了詞向量生成模型的textrank提取到了新聞的第一句話。在實驗中發(fā)現(xiàn)采用textrank算法傾向于提取文本最后一句話作為摘要句，而采用word2vec模型的textrank算法同時提取了文本第一句話。因此，增加了word2vec模型的textrank算法對整篇新聞的概括度較高。

MMR摘要方法抽取出來的句子之間的關聯(lián)性不大，比較跳躍性，可讀性差。但MMR相比于textrank提取的句子多樣性較好，冗余較小，可以較完整概況新聞整體內(nèi)容。

3 結束語

考慮到新聞文本結構的特殊性，新聞中句子位置的特征以及不同種類新聞對摘要的不同要求，當前自動摘要評測技術只能對句子間“皮相”進行評估，不能通過語義辨別摘要質(zhì)量的好壞。從而一定程度上需要人的主觀評測。因此本文未對摘要結果進行評測，僅分析了基于三種算法生成的摘要之間的差異。

新聞文本中的第一條語句通常是對整篇信息的高度概括，闡述了新聞的核心觀點；而最后一條語句通常是對本文的簡單總結或新聞報道方的信息羅列。本文選取的三個算法都是基于抽取式的摘要生成技術，只要目標新聞的內(nèi)容質(zhì)量具備一定層次性和邏輯性，基本都能不偏離新聞報道的主題，但均不具備對新聞較高的概括能力。