歐霖 趙永標(biāo)



摘? 要:對(duì)新聞標(biāo)注關(guān)鍵詞有助于用戶(hù)快速了解新聞內(nèi)容,也有利于新聞的分類(lèi)及檢索。鑒于人工選取關(guān)鍵詞效率太低,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)包含五個(gè)模塊:用戶(hù)登錄、用戶(hù)注冊(cè)、分詞與詞性標(biāo)注、候選詞提取、關(guān)鍵詞提取。該系統(tǒng)可以輔助新聞編輯人員進(jìn)行關(guān)鍵詞抽取和篩選。經(jīng)過(guò)測(cè)試,該系統(tǒng)達(dá)到了一定的準(zhǔn)確度,而且界面友好,易于使用。
關(guān)鍵詞:TextRank;關(guān)鍵詞抽取;新聞
中圖分類(lèi)號(hào):TP391.3 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)18-0023-04
Abstract:Tagging news with keywords helps users quickly understand the content of the news,and is also conducive to news classification and retrieval. In view of the low efficiency of manual keyword selection,a news keyword extraction system based on TextRank was designed and implemented. The system includes five modules:user login,user registration,word segmentation and part-of-speech tagging,candidate word extraction,and keyword extraction. The system can assist news editors in keyword extraction and screening. After testing,the system has reached a certain degree of accuracy,and the interface is friendly and easy to use.
Keywords:TextRank;keywords extraction;news
0? 引? 言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們獲取新聞的方式發(fā)生了很大的改變,已從電視、報(bào)紙等傳統(tǒng)媒體轉(zhuǎn)向新聞網(wǎng)站等互聯(lián)網(wǎng)媒體。新聞關(guān)鍵詞能勾勒新聞的輪廓,反映新聞的主題;同時(shí),新聞關(guān)鍵詞也可以用于新聞的分類(lèi)和檢索,因此,對(duì)新聞標(biāo)注關(guān)鍵詞是十分必要的[1]。人工選取關(guān)鍵詞雖然準(zhǔn)確性高,但效率低。為了提高效率,必須利用相關(guān)算法自動(dòng)抽取新聞關(guān)鍵詞。
關(guān)鍵詞抽取方法分為有監(jiān)督和無(wú)監(jiān)督兩種。有監(jiān)督方法將關(guān)鍵詞抽取轉(zhuǎn)化為二分類(lèi)問(wèn)題,即首先構(gòu)造一個(gè)詞表,再針對(duì)文檔集中的每一個(gè)文檔,標(biāo)注詞表中的哪些詞是該文檔的關(guān)鍵詞,然后用標(biāo)注的文檔集訓(xùn)練分類(lèi)器。有監(jiān)督方法需要構(gòu)造詞表,標(biāo)注語(yǔ)料,代價(jià)太大,而無(wú)監(jiān)督方法沒(méi)有這些要求,因而應(yīng)用更廣泛。無(wú)監(jiān)督關(guān)鍵詞抽取算法主要有三類(lèi):基于統(tǒng)計(jì)特征的抽取算法,常用的統(tǒng)計(jì)特征是TF-IDF;基于詞圖模型的抽取算法,如TextRank算法;基于主題模型的抽取算法,如LDA[2]。其中,基于詞圖模型的抽取算法,特別是TextRank算法具有理論完備、實(shí)現(xiàn)簡(jiǎn)單、性能優(yōu)良的特點(diǎn)而被廣泛應(yīng)用。鑒于此,本文將其應(yīng)用于新聞文本關(guān)鍵詞抽取,設(shè)計(jì)并實(shí)現(xiàn)了基于TextRank算法的新聞文本關(guān)鍵詞抽取系統(tǒng)。該系統(tǒng)可以輔助新聞編輯人員標(biāo)注新聞關(guān)鍵詞,提高工作效率。
1? 關(guān)鍵詞抽取的相關(guān)技術(shù)
1.1? TextRank算法
TextRank算法的思想源于Google的PageRank算法[3]。用一個(gè)有向有權(quán)圖G=(V,E)來(lái)表示TextRank普通模型,由點(diǎn)集合V和邊集合E組成,E為V×V的子集。用wji表示任兩點(diǎn)vi,vj之間邊的權(quán)重,對(duì)于一個(gè)給定的點(diǎn)vi,In(vi)表示指向該點(diǎn)的點(diǎn)集合,Out(vj)表示點(diǎn)vi指向的點(diǎn)集合,點(diǎn)vi的權(quán)重ws定義為:
其中,d為阻尼系數(shù),取值范圍為0到1,代表從圖中某一特定點(diǎn)指向其余任意點(diǎn)的概率,一般取值為0.85[4]。
基于TextRank的關(guān)鍵詞提取步驟為:
(1)把給定的文本T按照完整句子進(jìn)行分割,即:T=[S1,S2,…,Sm],其中,m為句子數(shù)量。
(2)關(guān)于每個(gè)句子Si∈T,對(duì)其進(jìn)行分詞和詞性標(biāo)注處理,并除去掉停用詞,只留下指定詞性的單詞,如名詞、動(dòng)詞、形容詞,即Si=[S(i,1),S(i,2),…,S(i,n)]為候選關(guān)鍵詞,n為候選關(guān)鍵詞的個(gè)數(shù)。
(3)構(gòu)建候選關(guān)鍵詞圖G=(V,E),其中,V為節(jié)點(diǎn)集,由步驟(2)生成的候選關(guān)鍵詞組成,而后運(yùn)用共現(xiàn)關(guān)系構(gòu)造任兩點(diǎn)之間的邊,兩個(gè)節(jié)點(diǎn)之間存在邊僅當(dāng)它們對(duì)應(yīng)的詞匯在長(zhǎng)度為K的窗口中共現(xiàn),K為窗口大小,即最多共現(xiàn)K個(gè)單詞。其中,在這里K值的設(shè)定不同,可能導(dǎo)致抽取的關(guān)鍵詞可能會(huì)有所區(qū)別。
(4)根據(jù)上面的權(quán)重計(jì)算公式,迭代傳播各節(jié)點(diǎn)的權(quán)重,直至收斂。
(5)對(duì)節(jié)點(diǎn)權(quán)重進(jìn)行倒序排序,從而得到最重要的T個(gè)單詞,即為關(guān)鍵詞。
1.2? 中文分詞與詞性標(biāo)注
與英文不同,中文文本詞語(yǔ)之間沒(méi)有界限。在對(duì)中文文本進(jìn)行處理前,一般需要對(duì)其進(jìn)行分詞,根據(jù)具體情況還需要同時(shí)進(jìn)行詞性標(biāo)注。經(jīng)過(guò)多年的研究,中文分詞技術(shù)取得了很大的進(jìn)展,出現(xiàn)了不少成熟的分詞軟件,例如:結(jié)巴分詞、哈工大的LTP、復(fù)旦大學(xué)的FudanNLP、北京理工大的NLPIR-ICTCLAS等。本系統(tǒng)選擇NLPIR-ICTCLAS系統(tǒng),該分詞系統(tǒng)采用層疊形馬爾科夫模型(CHMM)進(jìn)行分詞,通過(guò)分層,既增加了分詞的準(zhǔn)確性,又保證了分詞的效率。NLPIR-ICTCLAS系統(tǒng)采用北大標(biāo)準(zhǔn)/中科院標(biāo)準(zhǔn)的詞性對(duì)照表。表1展示了本系統(tǒng)涉及的名詞、動(dòng)詞、副詞、形容詞的詞性對(duì)照表。
2? 基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)
2.1? 系統(tǒng)總體設(shè)計(jì)
系統(tǒng)的功能模塊圖如圖1所示。
系統(tǒng)主要包含5個(gè)功能模塊,分別是“用戶(hù)登錄”“用戶(hù)注冊(cè)”“分詞與詞性標(biāo)注”“候選詞提取”“關(guān)鍵詞提取”。
系統(tǒng)啟動(dòng)后,首先進(jìn)入“用戶(hù)登錄”界面,如果登錄成功,即進(jìn)入“分詞與詞性標(biāo)注”界面,然后依次進(jìn)入“候選詞提取”界面,“關(guān)鍵詞提取”界面,如果是新用戶(hù),則首先需要注冊(cè),然后才能登錄。系統(tǒng)的運(yùn)行流程圖如圖2所示。
2.2? 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
本軟件用Java語(yǔ)言編寫(xiě),包含5個(gè)界面,分別對(duì)應(yīng)于5個(gè)功能模塊。其中“用戶(hù)登錄”“用戶(hù)注冊(cè)”功能與一般軟件類(lèi)似,在此略過(guò),重點(diǎn)介紹另外3個(gè)模塊的功能。
2.2.1? 分詞與詞性標(biāo)注模塊
首先在文本框中輸入或者粘貼新聞文本,“分詞與詞性標(biāo)注”模塊通過(guò)調(diào)用NLPIR-ICTCLAS漢語(yǔ)分詞系統(tǒng)(2016版)對(duì)待提取關(guān)鍵詞的文本進(jìn)行分詞和詞性標(biāo)注,并顯示結(jié)果,如圖3所示。
2.2.2? 候選詞提取模塊
“候選詞提取”模塊用于從已分詞和標(biāo)注詞性的文本中挑選出候選關(guān)鍵詞。候選關(guān)鍵詞一般為名詞,也可以增加動(dòng)詞,形容詞或者副詞,用戶(hù)可以根據(jù)實(shí)際情況選取,名詞必選。選擇候選關(guān)鍵詞的詞性后,點(diǎn)擊候選詞提取,所有候選關(guān)鍵詞即出現(xiàn)在下部文本框中,如圖4所示。
2.2.3? 關(guān)鍵詞提取模塊
“關(guān)鍵詞提取”是本軟件的核心模塊。關(guān)鍵詞提取采用TextRank算法。對(duì)于關(guān)鍵詞提取功能,需要設(shè)置兩個(gè)參數(shù),一個(gè)是TextRank算法所需要的窗口大小,另一個(gè)是關(guān)鍵詞的個(gè)數(shù)。參數(shù)設(shè)置好后,點(diǎn)擊“提取關(guān)鍵詞”按鈕,左邊的文本框即顯示所提取的關(guān)鍵詞以及關(guān)鍵詞的TextRank值,如圖5所示。
2.3? 軟件性能測(cè)試
為了測(cè)試本軟件對(duì)新聞文本抽取的關(guān)鍵詞的準(zhǔn)確性,本文從鳳凰網(wǎng)新聞板塊隨機(jī)選取了10篇新聞進(jìn)行測(cè)試。這些新聞均已標(biāo)注了關(guān)鍵詞,以下為其中一篇新聞的部分頁(yè)面HTML代碼:
上述HTML代碼中,名稱(chēng)為“keywords”的meta數(shù)據(jù)即為關(guān)鍵詞。
通過(guò)觀察,這10篇新聞的關(guān)鍵詞均為名詞,個(gè)數(shù)平均為6個(gè)。基于此,將系統(tǒng)中三個(gè)的參數(shù)分別設(shè)置為:候選關(guān)鍵詞的詞性只選名詞,窗口大小設(shè)置為10個(gè),關(guān)鍵詞個(gè)數(shù)設(shè)置為6個(gè)。將系統(tǒng)抽取的關(guān)鍵詞與已標(biāo)注的關(guān)鍵詞進(jìn)行對(duì)比,準(zhǔn)確率為69%,即6個(gè)關(guān)鍵詞中平均有約4個(gè)屬于已標(biāo)注的關(guān)鍵詞。
3? 結(jié)? 論
本文設(shè)計(jì)并實(shí)現(xiàn)了基于TextRank的新聞關(guān)鍵詞抽取系統(tǒng)。設(shè)置相關(guān)參數(shù)后,系統(tǒng)可以運(yùn)用TextRank算法抽取新聞文本中的關(guān)鍵詞。通過(guò)在一定數(shù)量的實(shí)際新聞文本上進(jìn)行測(cè)試,結(jié)果表明該系統(tǒng)具有較高的準(zhǔn)確性。本系統(tǒng)采用的是經(jīng)典的TextRank算法。雖然該算法簡(jiǎn)單高效,但也具有主題相關(guān)性不高以及忽視新詞等缺點(diǎn),下一步將考慮引入改進(jìn)的TextRank算法。
參考文獻(xiàn):
[1] 陶潔.基于新聞文本的關(guān)鍵詞提取 [D].武漢:華中師范大學(xué),2019.
[2] 田脈.新聞文本關(guān)鍵詞提取算法研究與實(shí)現(xiàn) [D].武漢:中南財(cái)經(jīng)政法大學(xué),2019.
[3] MIHALCEA R,TARAU P.TextRank:Bringing Order into Texts [C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:404-411.
[4] Together_CZ.TextRank雜談 [EB/OL].(2017-04-09).https://blog.csdn.net/together_cz/article/details/69935286.
作者簡(jiǎn)介:歐霖(1998—),男,漢族,廣東惠州人,本科,研究方向:自然語(yǔ)言處理;趙永標(biāo)(1980—),男,漢族,湖北洪湖人,講師,碩士,研究方向:自然語(yǔ)言處理。