李棟凱 張永昌
1. 河北工程大學信息與電氣工程學院 河北 邯鄲 056038;2. 河北工程大學土木工程學院 河北 邯鄲 056038
互聯(lián)網(wǎng)的快速發(fā)展孕育了自媒體并帶動自媒體飛速發(fā)展,但很多自媒體新聞的正文與其所寫的標題并不完全相符,甚至有些自媒體為“博眼球”把新聞標題和標題完全無關的內(nèi)容生硬的進行捆綁,這消耗了讀者的有效閱讀時間。新聞自動摘要技術可以快速形成新聞匯總,聚焦新聞熱點,提高讀者的閱讀效率,改善閱讀體驗。
本文將textrank[1]、word2vec[2-3]和MMR[4-5]三種語言模型用于新聞自動摘要算法的研究。通過仿真實驗結果的對比發(fā)現(xiàn):①textrank算法得到的摘要語句可讀性差,理解困難;②在textrank算法基礎上增加word2vec模型后對整篇新聞的概括度較高,但將并不能很好的解決信息冗余和效率低的問題;③MMR可以有效去除信息冗余,體現(xiàn)語義的多樣性。
textrank被用來做文本摘要[1]的步驟如圖1所示。首先逐條提取目標文本中的句子,并把提取到的句子表示成向量形式,用非稀疏矩陣來表示文本中所有句子之間的相似性;然后,將句子作為節(jié)點,句子之間的相似度作為邊的權重,將矩陣轉(zhuǎn)換成一個圖的表示形式;最后,對所有句子節(jié)點按照其邊的權重重新排序,提取出排名靠前的句子作為摘要。
圖1 textrank摘要步驟
Textrank中計算兩兩句子間的相似度通過式(1)來計算,等式的右邊表示目標文本中第i個句子和第j個句子的相似度,等式右側的分子代表第i個句子和第j個句子所有單詞的數(shù)量。
實現(xiàn)textrank算法中有一步需要把文本中的句子轉(zhuǎn)化為向量的表示形式。這一步驟可以通過TF-idf,word2vec以及characterbased等方法來實現(xiàn)。其中,TF-idf是依據(jù)詞語在文本匯總出現(xiàn)的頻率計算;word2vec生成的向量可以進一步表示出詞與詞之間的聯(lián)系;character-based僅是把一個詞語轉(zhuǎn)換為一個字符來表示。本文采用word2vec模型用于改進textrank算法的新聞摘要生成質(zhì)量[2-3]。
word2vec模型本質(zhì)上是去掉了隱藏層的人工神經(jīng)網(wǎng)絡模型。該模型認為上下文中詞義相近的詞,它們對應的向量之間距離相近。它主要是對比某個詞和與它相鄰的詞之間的關系。比如“她給小明做午飯”。如果“小明”作為中心詞,那么和它相鄰的詞有“她”、“給”、“做”、“午飯”。在“她給小李做午飯”。中選取“小李”為中心詞,與這個詞緊鄰的同樣有“她”、“給”、“做”、“午飯”。因此與這兩個中心詞的相鄰的詞是完全相同的,經(jīng)過向量計算我們希望得到“小明”等于“小李”。
MMR算法又被稱為最大邊界相關算法,是在研究查詢結果的多樣化時提出[4-5]。最初MMR被用來計算Query文本與被搜索的文檔兩者的相似度,后來也被用于rank排序。MMR的數(shù)學計算公式如式(2)所示:
采用MMR最后生成摘要的句子有兩個特性,一是該句子的重要性更高,二是這個句子和其他句子之間的相似度更低。因此,通過MMR算法得到的最終摘要,句句都很重要,但句句都不一樣。抽取的句子既能表達整個文檔的含義,又可以兼具語義的多樣性。
本文選取2008版的搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)作為實驗數(shù)據(jù)集,該數(shù)據(jù)集來自若干新聞站點包含國內(nèi),國際,體育等18個頻道。全網(wǎng)新聞數(shù)據(jù)(SogouCA)中的數(shù)據(jù)格式為圖2所示,它提供了URL、標題以及新聞正文的內(nèi)容。該數(shù)據(jù)集中有的新聞正文長句較多,有的正文則很短甚至沒有正文,且不是所有的新聞都有標題。
圖2 數(shù)據(jù)集中的數(shù)據(jù)格式
新聞文本里的正文內(nèi)容含有特殊的符號比如:表情符號、空格、英文字母等,且全角半角使用較混亂。實驗前需要通過數(shù)據(jù)預處理對給新聞文本進行整理,以去除特殊符號,將全角轉(zhuǎn)換為半角,從而便于隨后實驗步驟的進行。
本文采取Anaconda(python3.8)與Pycharm搭配使用作為仿真實驗工具。使用jieba分詞工具的精確模式去停用詞。使用anaconda中的opencc庫來進行繁體簡體之間的轉(zhuǎn)換。具體仿真平臺參數(shù)如表1所示。
表1 仿真工具平臺
以搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)中一條體育新聞為例,原文如圖2所示,展示了三種文本摘要算法生成的摘要結果分別如圖3-5所示。
圖2 新聞原文
圖3 textrank摘要結果
圖4 增加word2vec后的textrank摘要結果
圖5 MMR算法摘要結果
對比摘要生成情況可以發(fā)現(xiàn),textrank提取了新聞的最后一句話,使用了詞向量生成模型的textrank提取到了新聞的第一句話。在實驗中發(fā)現(xiàn)采用textrank算法傾向于提取文本最后一句話作為摘要句,而采用word2vec模型的textrank算法同時提取了文本第一句話。因此,增加了word2vec模型的textrank算法對整篇新聞的概括度較高。
MMR摘要方法抽取出來的句子之間的關聯(lián)性不大,比較跳躍性,可讀性差。但MMR相比于textrank提取的句子多樣性較好,冗余較小,可以較完整概況新聞整體內(nèi)容。
考慮到新聞文本結構的特殊性,新聞中句子位置的特征以及不同種類新聞對摘要的不同要求,當前自動摘要評測技術只能對句子間“皮相”進行評估,不能通過語義辨別摘要質(zhì)量的好壞。從而一定程度上需要人的主觀評測。因此本文未對摘要結果進行評測,僅分析了基于三種算法生成的摘要之間的差異。
新聞文本中的第一條語句通常是對整篇信息的高度概括,闡述了新聞的核心觀點;而最后一條語句通常是對本文的簡單總結或新聞報道方的信息羅列。本文選取的三個算法都是基于抽取式的摘要生成技術,只要目標新聞的內(nèi)容質(zhì)量具備一定層次性和邏輯性,基本都能不偏離新聞報道的主題,但均不具備對新聞較高的概括能力。