999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)

2020-02-22 03:09:35歐霖趙永標(biāo)
現(xiàn)代信息科技 2020年18期
關(guān)鍵詞:文本系統(tǒng)

歐霖 趙永標(biāo)

摘? 要:對(duì)新聞標(biāo)注關(guān)鍵詞有助于用戶(hù)快速了解新聞內(nèi)容,也有利于新聞的分類(lèi)及檢索。鑒于人工選取關(guān)鍵詞效率太低,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)包含五個(gè)模塊:用戶(hù)登錄、用戶(hù)注冊(cè)、分詞與詞性標(biāo)注、候選詞提取、關(guān)鍵詞提取。該系統(tǒng)可以輔助新聞編輯人員進(jìn)行關(guān)鍵詞抽取和篩選。經(jīng)過(guò)測(cè)試,該系統(tǒng)達(dá)到了一定的準(zhǔn)確度,而且界面友好,易于使用。

關(guān)鍵詞:TextRank;關(guān)鍵詞抽取;新聞

中圖分類(lèi)號(hào):TP391.3 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)18-0023-04

Abstract:Tagging news with keywords helps users quickly understand the content of the news,and is also conducive to news classification and retrieval. In view of the low efficiency of manual keyword selection,a news keyword extraction system based on TextRank was designed and implemented. The system includes five modules:user login,user registration,word segmentation and part-of-speech tagging,candidate word extraction,and keyword extraction. The system can assist news editors in keyword extraction and screening. After testing,the system has reached a certain degree of accuracy,and the interface is friendly and easy to use.

Keywords:TextRank;keywords extraction;news

0? 引? 言

隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們獲取新聞的方式發(fā)生了很大的改變,已從電視、報(bào)紙等傳統(tǒng)媒體轉(zhuǎn)向新聞網(wǎng)站等互聯(lián)網(wǎng)媒體。新聞關(guān)鍵詞能勾勒新聞的輪廓,反映新聞的主題;同時(shí),新聞關(guān)鍵詞也可以用于新聞的分類(lèi)和檢索,因此,對(duì)新聞標(biāo)注關(guān)鍵詞是十分必要的[1]。人工選取關(guān)鍵詞雖然準(zhǔn)確性高,但效率低。為了提高效率,必須利用相關(guān)算法自動(dòng)抽取新聞關(guān)鍵詞。

關(guān)鍵詞抽取方法分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督方法將關(guān)鍵詞抽取轉(zhuǎn)化為二分類(lèi)問(wèn)題,即首先構(gòu)造一個(gè)詞表,再針對(duì)文檔集中的每一個(gè)文檔,標(biāo)注詞表中的哪些詞是該文檔的關(guān)鍵詞,然后用標(biāo)注的文檔集訓(xùn)練分類(lèi)器。有監(jiān)督方法需要構(gòu)造詞表,標(biāo)注語(yǔ)料,代價(jià)太大,而無(wú)監(jiān)督方法沒(méi)有這些要求,因而應(yīng)用更廣泛。無(wú)監(jiān)督關(guān)鍵詞抽取算法主要有三類(lèi):基于統(tǒng)計(jì)特征的抽取算法,常用的統(tǒng)計(jì)特征是TF-IDF;基于詞圖模型的抽取算法,如TextRank算法;基于主題模型的抽取算法,如LDA[2]。其中,基于詞圖模型的抽取算法,特別是TextRank算法具有理論完備、實(shí)現(xiàn)簡(jiǎn)單、性能優(yōu)良的特點(diǎn)而被廣泛應(yīng)用。鑒于此,本文將其應(yīng)用于新聞文本關(guān)鍵詞抽取,設(shè)計(jì)并實(shí)現(xiàn)了基于TextRank算法的新聞文本關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)可以輔助新聞編輯人員標(biāo)注新聞關(guān)鍵詞,提高工作效率。

1? 關(guān)鍵詞抽取的相關(guān)技術(shù)

1.1? TextRank算法

TextRank算法的思想源于Google的PageRank算法[3]。用一個(gè)有向有權(quán)圖G=(V,E)來(lái)表示TextRank普通模型,由點(diǎn)集合V和邊集合E組成,E為V×V的子集。用wji表示任兩點(diǎn)vi,vj之間邊的權(quán)重,對(duì)于一個(gè)給定的點(diǎn)vi,In(vi)表示指向該點(diǎn)的點(diǎn)集合,Out(vj)表示點(diǎn)vi指向的點(diǎn)集合,點(diǎn)vi的權(quán)重ws定義為:

其中,d為阻尼系數(shù),取值范圍為0到1,代表從圖中某一特定點(diǎn)指向其余任意點(diǎn)的概率,一般取值為0.85[4]。

基于TextRank的關(guān)鍵詞提取步驟為:

(1)把給定的文本T按照完整句子進(jìn)行分割,即:T=[S1,S2,…,Sm],其中,m為句子數(shù)量。

(2)關(guān)于每個(gè)句子Si∈T,對(duì)其進(jìn)行分詞和詞性標(biāo)注處理,并除去掉停用詞,只留下指定詞性的單詞,如名詞、動(dòng)詞、形容詞,即Si=[S(i,1),S(i,2),…,S(i,n)]為候選關(guān)鍵詞,n為候選關(guān)鍵詞的個(gè)數(shù)。

(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中,V為節(jié)點(diǎn)集,由步驟(2)生成的候選關(guān)鍵詞組成,而后運(yùn)用共現(xiàn)關(guān)系構(gòu)造任兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對(duì)應(yīng)的詞匯在長(zhǎng)度為K的窗口中共現(xiàn),K為窗口大小,即最多共現(xiàn)K個(gè)單詞。其中,在這里K值的設(shè)定不同,可能導(dǎo)致抽取的關(guān)鍵詞可能會(huì)有所區(qū)別。

(4)根據(jù)上面的權(quán)重計(jì)算公式,迭代傳播各節(jié)點(diǎn)的權(quán)重,直至收斂。

(5)對(duì)節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,即為關(guān)鍵詞。

1.2? 中文分詞與詞性標(biāo)注

與英文不同,中文文本詞語(yǔ)之間沒(méi)有界限。在對(duì)中文文本進(jìn)行處理前,一般需要對(duì)其進(jìn)行分詞,根據(jù)具體情況還需要同時(shí)進(jìn)行詞性標(biāo)注。經(jīng)過(guò)多年的研究,中文分詞技術(shù)取得了很大的進(jìn)展,出現(xiàn)了不少成熟的分詞軟件,例如:結(jié)巴分詞、哈工大的LTP、復(fù)旦大學(xué)的FudanNLP、北京理工大的NLPIR-ICTCLAS等。本系統(tǒng)選擇NLPIR-ICTCLAS系統(tǒng),該分詞系統(tǒng)采用層疊形馬爾科夫模型(CHMM)進(jìn)行分詞,通過(guò)分層,既增加了分詞的準(zhǔn)確性,又保證了分詞的效率。NLPIR-ICTCLAS系統(tǒng)采用北大標(biāo)準(zhǔn)/中科院標(biāo)準(zhǔn)的詞性對(duì)照表。表1展示了本系統(tǒng)涉及的名詞、動(dòng)詞、副詞、形容詞的詞性對(duì)照表。

2? 基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)

2.1? 系統(tǒng)總體設(shè)計(jì)

系統(tǒng)的功能模塊圖如圖1所示。

系統(tǒng)主要包含5個(gè)功能模塊,分別是“用戶(hù)登錄”“用戶(hù)注冊(cè)”“分詞與詞性標(biāo)注”“候選詞提取”“關(guān)鍵詞提取”。

系統(tǒng)啟動(dòng)后,首先進(jìn)入“用戶(hù)登錄”界面,如果登錄成功,即進(jìn)入“分詞與詞性標(biāo)注”界面,然后依次進(jìn)入“候選詞提取”界面,“關(guān)鍵詞提取”界面,如果是新用戶(hù),則首先需要注冊(cè),然后才能登錄。系統(tǒng)的運(yùn)行流程圖如圖2所示。

2.2? 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)

本軟件用Java語(yǔ)言編寫(xiě),包含5個(gè)界面,分別對(duì)應(yīng)于5個(gè)功能模塊。其中“用戶(hù)登錄”“用戶(hù)注冊(cè)”功能與一般軟件類(lèi)似,在此略過(guò),重點(diǎn)介紹另外3個(gè)模塊的功能。

2.2.1? 分詞與詞性標(biāo)注模塊

首先在文本框中輸入或者粘貼新聞文本,“分詞與詞性標(biāo)注”模塊通過(guò)調(diào)用NLPIR-ICTCLAS漢語(yǔ)分詞系統(tǒng)(2016版)對(duì)待提取關(guān)鍵詞的文本進(jìn)行分詞和詞性標(biāo)注,并顯示結(jié)果,如圖3所示。

2.2.2? 候選詞提取模塊

“候選詞提取”模塊用于從已分詞和標(biāo)注詞性的文本中挑選出候選關(guān)鍵詞。候選關(guān)鍵詞一般為名詞,也可以增加動(dòng)詞,形容詞或者副詞,用戶(hù)可以根據(jù)實(shí)際情況選取,名詞必選。選擇候選關(guān)鍵詞的詞性后,點(diǎn)擊候選詞提取,所有候選關(guān)鍵詞即出現(xiàn)在下部文本框中,如圖4所示。

2.2.3? 關(guān)鍵詞提取模塊

“關(guān)鍵詞提取”是本軟件的核心模塊。關(guān)鍵詞提取采用TextRank算法。對(duì)于關(guān)鍵詞提取功能,需要設(shè)置兩個(gè)參數(shù),一個(gè)是TextRank算法所需要的窗口大小,另一個(gè)是關(guān)鍵詞的個(gè)數(shù)。參數(shù)設(shè)置好后,點(diǎn)擊“提取關(guān)鍵詞”按鈕,左邊的文本框即顯示所提取的關(guān)鍵詞以及關(guān)鍵詞的TextRank值,如圖5所示。

2.3? 軟件性能測(cè)試

為了測(cè)試本軟件對(duì)新聞文本抽取的關(guān)鍵詞的準(zhǔn)確性,本文從鳳凰網(wǎng)新聞板塊隨機(jī)選取了10篇新聞進(jìn)行測(cè)試。這些新聞均已標(biāo)注了關(guān)鍵詞,以下為其中一篇新聞的部分頁(yè)面HTML代碼:

泰國(guó)街頭抗議示威持續(xù),總理巴育稱(chēng)愿意談判解決問(wèn)題_鳳凰網(wǎng)

上述HTML代碼中,名稱(chēng)為“keywords”的meta數(shù)據(jù)即為關(guān)鍵詞。

通過(guò)觀察,這10篇新聞的關(guān)鍵詞均為名詞,個(gè)數(shù)平均為6個(gè)。基于此,將系統(tǒng)中三個(gè)的參數(shù)分別設(shè)置為:候選關(guān)鍵詞的詞性只選名詞,窗口大小設(shè)置為10個(gè),關(guān)鍵詞個(gè)數(shù)設(shè)置為6個(gè)。將系統(tǒng)抽取的關(guān)鍵詞與已標(biāo)注的關(guān)鍵詞進(jìn)行對(duì)比,準(zhǔn)確率為69%,即6個(gè)關(guān)鍵詞中平均有約4個(gè)屬于已標(biāo)注的關(guān)鍵詞。

3? 結(jié)? 論

本文設(shè)計(jì)并實(shí)現(xiàn)了基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。設(shè)置相關(guān)參數(shù)后,系統(tǒng)可以運(yùn)用TextRank算法抽取新聞文本中的關(guān)鍵詞。通過(guò)在一定數(shù)量的實(shí)際新聞文本上進(jìn)行測(cè)試,結(jié)果表明該系統(tǒng)具有較高的準(zhǔn)確性。本系統(tǒng)采用的是經(jīng)典的TextRank算法。雖然該算法簡(jiǎn)單高效,但也具有主題相關(guān)性不高以及忽視新詞等缺點(diǎn),下一步將考慮引入改進(jìn)的TextRank算法。

參考文獻(xiàn):

[1] 陶潔.基于新聞文本的關(guān)鍵詞提取 [D].武漢:華中師范大學(xué),2019.

[2] 田脈.新聞文本關(guān)鍵詞提取算法研究與實(shí)現(xiàn) [D].武漢:中南財(cái)經(jīng)政法大學(xué),2019.

[3] MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:404-411.

[4] Together_CZ.TextRank雜談 [EB/OL].(2017-04-09).https://blog.csdn.net/together_cz/article/details/69935286.

作者簡(jiǎn)介:歐霖(1998—),男,漢族,廣東惠州人,本科,研究方向:自然語(yǔ)言處理;趙永標(biāo)(1980—),男,漢族,湖北洪湖人,講師,碩士,研究方向:自然語(yǔ)言處理。

猜你喜歡
文本系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統(tǒng)
在808DA上文本顯示的改善
半沸制皂系統(tǒng)(下)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 一本大道无码高清| 日韩在线欧美在线| 日韩一区精品视频一区二区| 日韩欧美成人高清在线观看| 国内精自视频品线一二区| 久久免费成人| 亚洲精品成人片在线播放| 久久网欧美| 精品久久综合1区2区3区激情| 欧美日韩免费观看| 国产拍揄自揄精品视频网站| 国产精品欧美在线观看| 老司国产精品视频| 国产成人精品日本亚洲| 欧美成人手机在线观看网址| 亚洲欧美一区二区三区图片 | 伊人久久青草青青综合| 超碰精品无码一区二区| 国产在线观看一区精品| 四虎国产精品永久在线网址| 亚洲一区二区在线无码| 欧美人在线一区二区三区| 国产一级在线观看www色| 国产日产欧美精品| 另类专区亚洲| 亚洲人成电影在线播放| 国产精品内射视频| 欧美成人区| 91香蕉视频下载网站| 国产精品无码一二三视频| 欧美成人精品一级在线观看| 狠狠亚洲五月天| av色爱 天堂网| 国产午夜一级淫片| 色婷婷视频在线| 亚洲综合色吧| 国产精品毛片在线直播完整版| 9999在线视频| 71pao成人国产永久免费视频| 伊人成人在线| 国产精品女在线观看| 国产美女在线观看| 亚洲精品成人片在线播放| 国产精品尹人在线观看| 国模粉嫩小泬视频在线观看| 国产人妖视频一区在线观看| 国产高清不卡视频| 日韩欧美国产中文| 潮喷在线无码白浆| 精品无码视频在线观看| 欧美精品色视频| 尤物特级无码毛片免费| 手机精品福利在线观看| 呦女亚洲一区精品| a毛片免费在线观看| 亚洲成人77777| 亚洲—日韩aV在线| 美女国产在线| 99re在线观看视频| 国内精自线i品一区202| 91丨九色丨首页在线播放 | 狠狠色噜噜狠狠狠狠色综合久 | 久久精品一品道久久精品| 永久免费精品视频| 亚洲欧美另类专区| 美臀人妻中出中文字幕在线| 中文字幕亚洲无线码一区女同| 区国产精品搜索视频| 国产第一页亚洲| 国产制服丝袜91在线| 中文字幕在线免费看| 国产欧美视频在线| 欧美亚洲日韩中文| 国产v欧美v日韩v综合精品| 在线欧美日韩| 亚洲成av人无码综合在线观看| 真实国产精品vr专区| 亚洲欧美激情小说另类| 成人午夜久久| 九九热精品在线视频| 国产剧情一区二区| 日本三区视频|