999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本相似度的新聞自動摘要算法研究

2022-03-10 03:17:58李棟凱張永昌
科學與信息化 2022年4期
關鍵詞:文本實驗模型

李棟凱 張永昌

1. 河北工程大學信息與電氣工程學院 河北 邯鄲 056038;2. 河北工程大學土木工程學院 河北 邯鄲 056038

引言

互聯(lián)網(wǎng)的快速發(fā)展孕育了自媒體并帶動自媒體飛速發(fā)展,但很多自媒體新聞的正文與其所寫的標題并不完全相符,甚至有些自媒體為“博眼球”把新聞標題和標題完全無關的內(nèi)容生硬的進行捆綁,這消耗了讀者的有效閱讀時間。新聞自動摘要技術可以快速形成新聞匯總,聚焦新聞熱點,提高讀者的閱讀效率,改善閱讀體驗。

本文將textrank[1]、word2vec[2-3]和MMR[4-5]三種語言模型用于新聞自動摘要算法的研究。通過仿真實驗結果的對比發(fā)現(xiàn):①textrank算法得到的摘要語句可讀性差,理解困難;②在textrank算法基礎上增加word2vec模型后對整篇新聞的概括度較高,但將并不能很好的解決信息冗余和效率低的問題;③MMR可以有效去除信息冗余,體現(xiàn)語義的多樣性。

1 算法簡介

1.1 textrank算法

textrank被用來做文本摘要[1]的步驟如圖1所示。首先逐條提取目標文本中的句子,并把提取到的句子表示成向量形式,用非稀疏矩陣來表示文本中所有句子之間的相似性;然后,將句子作為節(jié)點,句子之間的相似度作為邊的權重,將矩陣轉(zhuǎn)換成一個圖的表示形式;最后,對所有句子節(jié)點按照其邊的權重重新排序,提取出排名靠前的句子作為摘要。

圖1 textrank摘要步驟

Textrank中計算兩兩句子間的相似度通過式(1)來計算,等式的右邊表示目標文本中第i個句子和第j個句子的相似度,等式右側的分子代表第i個句子和第j個句子所有單詞的數(shù)量。

1.2 word2vec模型

實現(xiàn)textrank算法中有一步需要把文本中的句子轉(zhuǎn)化為向量的表示形式。這一步驟可以通過TF-idf,word2vec以及characterbased等方法來實現(xiàn)。其中,TF-idf是依據(jù)詞語在文本匯總出現(xiàn)的頻率計算;word2vec生成的向量可以進一步表示出詞與詞之間的聯(lián)系;character-based僅是把一個詞語轉(zhuǎn)換為一個字符來表示。本文采用word2vec模型用于改進textrank算法的新聞摘要生成質(zhì)量[2-3]。

word2vec模型本質(zhì)上是去掉了隱藏層的人工神經(jīng)網(wǎng)絡模型。該模型認為上下文中詞義相近的詞,它們對應的向量之間距離相近。它主要是對比某個詞和與它相鄰的詞之間的關系。比如“她給小明做午飯”。如果“小明”作為中心詞,那么和它相鄰的詞有“她”、“給”、“做”、“午飯”。在“她給小李做午飯”。中選取“小李”為中心詞,與這個詞緊鄰的同樣有“她”、“給”、“做”、“午飯”。因此與這兩個中心詞的相鄰的詞是完全相同的,經(jīng)過向量計算我們希望得到“小明”等于“小李”。

1.3 MMR算法

MMR算法又被稱為最大邊界相關算法,是在研究查詢結果的多樣化時提出[4-5]。最初MMR被用來計算Query文本與被搜索的文檔兩者的相似度,后來也被用于rank排序。MMR的數(shù)學計算公式如式(2)所示:

采用MMR最后生成摘要的句子有兩個特性,一是該句子的重要性更高,二是這個句子和其他句子之間的相似度更低。因此,通過MMR算法得到的最終摘要,句句都很重要,但句句都不一樣。抽取的句子既能表達整個文檔的含義,又可以兼具語義的多樣性。

2 仿真實驗

本文選取2008版的搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)作為實驗數(shù)據(jù)集,該數(shù)據(jù)集來自若干新聞站點包含國內(nèi),國際,體育等18個頻道。全網(wǎng)新聞數(shù)據(jù)(SogouCA)中的數(shù)據(jù)格式為圖2所示,它提供了URL、標題以及新聞正文的內(nèi)容。該數(shù)據(jù)集中有的新聞正文長句較多,有的正文則很短甚至沒有正文,且不是所有的新聞都有標題。

圖2 數(shù)據(jù)集中的數(shù)據(jù)格式

新聞文本里的正文內(nèi)容含有特殊的符號比如:表情符號、空格、英文字母等,且全角半角使用較混亂。實驗前需要通過數(shù)據(jù)預處理對給新聞文本進行整理,以去除特殊符號,將全角轉(zhuǎn)換為半角,從而便于隨后實驗步驟的進行。

本文采取Anaconda(python3.8)與Pycharm搭配使用作為仿真實驗工具。使用jieba分詞工具的精確模式去停用詞。使用anaconda中的opencc庫來進行繁體簡體之間的轉(zhuǎn)換。具體仿真平臺參數(shù)如表1所示。

表1 仿真工具平臺

以搜狗實驗室的全網(wǎng)新聞數(shù)據(jù)(SogouCA)中一條體育新聞為例,原文如圖2所示,展示了三種文本摘要算法生成的摘要結果分別如圖3-5所示。

圖2 新聞原文

圖3 textrank摘要結果

圖4 增加word2vec后的textrank摘要結果

圖5 MMR算法摘要結果

對比摘要生成情況可以發(fā)現(xiàn),textrank提取了新聞的最后一句話,使用了詞向量生成模型的textrank提取到了新聞的第一句話。在實驗中發(fā)現(xiàn)采用textrank算法傾向于提取文本最后一句話作為摘要句,而采用word2vec模型的textrank算法同時提取了文本第一句話。因此,增加了word2vec模型的textrank算法對整篇新聞的概括度較高。

MMR摘要方法抽取出來的句子之間的關聯(lián)性不大,比較跳躍性,可讀性差。但MMR相比于textrank提取的句子多樣性較好,冗余較小,可以較完整概況新聞整體內(nèi)容。

3 結束語

考慮到新聞文本結構的特殊性,新聞中句子位置的特征以及不同種類新聞對摘要的不同要求,當前自動摘要評測技術只能對句子間“皮相”進行評估,不能通過語義辨別摘要質(zhì)量的好壞。從而一定程度上需要人的主觀評測。因此本文未對摘要結果進行評測,僅分析了基于三種算法生成的摘要之間的差異。

新聞文本中的第一條語句通常是對整篇信息的高度概括,闡述了新聞的核心觀點;而最后一條語句通常是對本文的簡單總結或新聞報道方的信息羅列。本文選取的三個算法都是基于抽取式的摘要生成技術,只要目標新聞的內(nèi)容質(zhì)量具備一定層次性和邏輯性,基本都能不偏離新聞報道的主題,但均不具備對新聞較高的概括能力。

猜你喜歡
文本實驗模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 五月婷婷综合网| 波多野结衣无码视频在线观看| 亚洲男人天堂2020| 在线人成精品免费视频| 四虎影视国产精品| 久996视频精品免费观看| 成人福利在线视频| 人人91人人澡人人妻人人爽| 亚洲青涩在线| 久草性视频| 伊人久久福利中文字幕| 99视频只有精品| 九九热精品在线视频| 国产小视频免费| 国产主播喷水| 日韩av无码DVD| 日韩不卡高清视频| 日韩免费毛片视频| 国产精品蜜臀| 亚洲色图另类| 青青青国产视频手机| 91丨九色丨首页在线播放 | 免费在线看黄网址| 国产精品无码作爱| 人人艹人人爽| 国产在线观看99| 丝袜国产一区| 亚洲天堂久久新| av色爱 天堂网| 国产高清在线精品一区二区三区| 国产成人三级| 免费在线一区| 亚洲精品不卡午夜精品| 亚欧美国产综合| 日韩欧美成人高清在线观看| 国产又色又刺激高潮免费看| 996免费视频国产在线播放| 国产精品密蕾丝视频| 鲁鲁鲁爽爽爽在线视频观看| 狠狠v日韩v欧美v| 亚洲人成在线免费观看| 国产一二三区在线| 国产网友愉拍精品视频| 一本大道AV人久久综合| 国产成+人+综合+亚洲欧美| 激情综合网址| 麻豆AV网站免费进入| 免费高清a毛片| 蜜臀AV在线播放| 久久精品女人天堂aaa| 91在线激情在线观看| 精品伊人久久久香线蕉| 99久久国产综合精品2020| 日本在线国产| 国产亚洲精久久久久久久91| 欧美色视频在线| 亚洲色偷偷偷鲁综合| 国产视频久久久久| 国产精品自拍合集| 國產尤物AV尤物在線觀看| 在线综合亚洲欧美网站| 无码AV动漫| 五月六月伊人狠狠丁香网| 国产91线观看| 亚洲二三区| 国产区福利小视频在线观看尤物| 91色爱欧美精品www| 激情影院内射美女| 亚洲无限乱码| 波多野结衣无码AV在线| 丁香综合在线| 少妇极品熟妇人妻专区视频| 亚洲乱强伦| 91成人免费观看| 无码'专区第一页| 国产91av在线| 亚洲一区二区在线无码| 精品丝袜美腿国产一区| 国产成人亚洲无码淙合青草| 国产精品19p| 欧美翘臀一区二区三区| 中文字幕在线日韩91|