999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法分析及主題分布的關(guān)鍵詞抽取模型

2022-12-31 00:00:00王昊劉丹劉碩
計算機應(yīng)用研究 2022年9期

收稿日期:2022-02-24;修回日期:2022-03-31

作者簡介:王昊(1994-),男,黑龍江齊齊哈爾人,碩士,主要研究方向為人工智能、篇章信息處理;劉丹(1969-),男(通信作者),四川成都人,副教授,碩導,博士,主要研究方向為人工智能、網(wǎng)絡(luò)安全(liudan@uestc.edu.cn);劉碩(1997-),男,天津人,碩士研究生,主要研究方向為人工智能、信息處理.

摘 要:

針對TextRank算法在抽取篇章關(guān)鍵詞時忽略句法信息、主題信息等問題,提出基于句法分析與主題分布的篇章關(guān)鍵詞抽取模型(S-TAKE)。模型分為段落和篇章兩階段遞進抽取篇章關(guān)鍵詞,首先以段落為單位,結(jié)合詞共現(xiàn)、語法及語義信息抽取段落關(guān)鍵詞;然后根據(jù)段落主題對段落聚類,形成段落主題集;最后根據(jù)段落主題分布特征抽取篇章關(guān)鍵詞。在公開的新聞數(shù)據(jù)集上,模型的抽取效果較原始TextRank提升了約10%。實驗結(jié)果表明,S-TAKE的抽取效果有了明顯提升,證明了語法信息及主題信息的重要性。

關(guān)鍵詞:關(guān)鍵詞抽取; TextRank; 依存關(guān)系; 語義距離; 段落主題

中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2022)09-006-2603-05

doi: 10.19734/j.issn.1001-3695.2022.02.0068

Keyword extraction model based on syntactic analysis and topic distribution

Wang Hao, Liu Dan, Liu Shuo

(Research Institute of Electronic Science amp; Technology, University of Electronic Science amp; Technology of China, Chengdu 611731, China)

Abstract:Aiming at the problem that TextRank ignored syntactic information and topic information when extracting chapter keywords, this paper proposed a chapter keyword extraction model based on syntactic analysis and topic distribution(S-TAKE). This model included two stages of chapter keyword extraction, such as paragraph and chapter. Firstly,it used paragraphs as a unit to extract paragraph keywords by combining word co-occurrence,grammatical and semantic information. Then it clustered the paragraphs according to the paragraph topics to form the paragraph topic set. Finally,it extracted chapter keywords based on the distribution characteristics of paragraph topics. On the open news dataset,the model’s extraction effect improved by about 10% compared with the original TextRank. Results show that S-TAKE model has significantly improved the extraction effect,and proves the importance of grammatical information and topic information.

Key words:keyword extraction; TextRank; dependency relationship; semantic distance; paragraph topic

關(guān)鍵詞是篇章內(nèi)容的高度概括、主題的簡明表達。關(guān)鍵詞抽取技術(shù)在工業(yè)中有著廣泛運用,其中無監(jiān)督方法憑借其泛用性備受青睞。TextRank是最具代表性的基于圖的無監(jiān)督抽取算法,其以詞為節(jié)點構(gòu)建詞圖,通過計算節(jié)點權(quán)重抽取關(guān)鍵詞,但忽略了詞的語義語法信息及文本的主題信息,對長文本、多主題文本抽取效果不佳。

本文提出基于句法分析與篇章主題的關(guān)鍵詞抽取模型S-TAKE(syntactic analysis and paragraph topic based article keyword extraction model)。該模型以段落為抽取關(guān)鍵詞的基本文本單元,由段落至篇章分兩階段抽取篇章關(guān)鍵詞。抽取段落關(guān)鍵詞時,利用句法分析在詞圖中引入語法信息,解決TextRank過度偏向高頻詞的問題;利用詞嵌入在轉(zhuǎn)移矩陣中引入語義信息,解決TextRank忽略詞語義關(guān)聯(lián)的問題;以段落作為抽取關(guān)鍵詞的基本單位,解決TextRank對長文本處理困難的問題。篩選篇章關(guān)鍵詞時引入段落主題形成主題關(guān)鍵詞集,根據(jù)主題重要性等因素篩選篇章關(guān)鍵詞,解決TextRank忽略文本主題的問題。S-TAKE主要創(chuàng)新點如下:a)在詞圖構(gòu)建過程中,通過句法分析引入語法信息,通過詞嵌入引入語義信息,改善TextRank特征單一、結(jié)果過于偏向高頻詞、沒有考慮詞語法語義的問題;b)以段落作為抽取關(guān)鍵詞的基本單元,減小了詞圖計算的復雜度,增強了詞圖內(nèi)部主題相關(guān)度,改善了原始Text-Rank對長文本效果不佳的問題;c)根據(jù)段落主題對段落聚類形成主題關(guān)鍵詞集,基于主題重要性等因素篩選篇章關(guān)鍵詞,解決TextRank沒有考慮文本主題的問題。實驗證明,模型的準確率P、召回率R及F1值相比原始TextRank及文中所述其他組合均有顯著提升。

1 相關(guān)工作

關(guān)鍵詞抽取是文本處理的重要基礎(chǔ)任務(wù)之一,自Luhn[1]提出基于詞頻的關(guān)鍵詞抽取,學者們提出了許多抽取方案,根據(jù)使用的語料可將其分為有監(jiān)督抽取和無監(jiān)督抽取。有監(jiān)督方法采用分類或序列標注的方式抽取關(guān)鍵詞,常用分類器包括樸素貝葉斯、支持向量機、條件隨機場、多層感知機等,使用序列標注時多利用神經(jīng)網(wǎng)絡(luò)完成。該類方法效果較好,但需標注語料支持,效果與訓練語料相關(guān),應(yīng)用有較多條件限制。

無監(jiān)督方法通過量化表示詞的重要度抽取關(guān)鍵詞,無須標注語料并具有較高普適性,分為基于統(tǒng)計的方法、基于主題模型的方法和基于圖的方法。基于統(tǒng)計的方法以統(tǒng)計信息衡量詞重要性,對行文敏感且忽略了詞的語義關(guān)聯(lián);基于主題模型的方法以主題劃分詞類并以詞類的中心詞作為關(guān)鍵詞,雖然考慮了主題因素,但主題分布和詞類受語料影響大,詞類中心詞與文本關(guān)鍵詞存在一定偏差;基于圖的方法將詞視為節(jié)點,以邊表示詞間關(guān)聯(lián),通過計算節(jié)點權(quán)重抽取關(guān)鍵詞,其代表為TextRank算法[2]。但TextRank算法僅利用了詞的共現(xiàn)信息,節(jié)點權(quán)值受詞頻影響過大,為此研究人員提出了眾多改進模型。最常見的改進是在TextRank中引入統(tǒng)計特征。孫福權(quán)等人[3]利用萬有引力模型綜合考慮詞的影響力、距離和共現(xiàn),構(gòu)建了新的轉(zhuǎn)移概率實現(xiàn);夏天[4]定義了詞覆蓋、詞位置、詞聚類三種影響力對轉(zhuǎn)移矩陣加權(quán);孟彩霞等人[5]根據(jù)詞在文本中首次出現(xiàn)和最后出現(xiàn)的距離定義了詞跨度,并結(jié)合詞位置對轉(zhuǎn)移矩陣加權(quán);艾金勇[6]綜合考慮詞的位置、詞性以及詞分布,修改轉(zhuǎn)移矩陣的權(quán)重;Biswas等人[7]從圖的結(jié)構(gòu)出發(fā),得出節(jié)點權(quán)重主要取決于頻率、中心性、鄰居節(jié)點位置等參數(shù);牛永潔等人[8]從詞出發(fā),得出節(jié)點權(quán)重的主要影響因素包括詞覆蓋度、詞長、詞頻、詞跨度及詞位置;李志強等人[9]以詞TF-IDF值和信息熵的均值為轉(zhuǎn)移概率構(gòu)建轉(zhuǎn)移矩陣;Mao等人[10]使用歸一化谷歌距離計算詞對權(quán)重,并引入WordNet補充詞信息。但統(tǒng)計特征受文本影響大,且上述改進均忽略了詞的語義、語法信息,未考慮主題對關(guān)鍵詞的影響。

為此,部分改進通過組合TextRank與其他模型提升效果,組合的模型主要為主題模型和詞表示模型。融合主題模型時,部分研究基于主題對候選關(guān)鍵詞聚類,基于詞聚類和文本信息構(gòu)建詞圖進行計算,其代表為TopicRank[11]、topical Page-Rank[12]與Multipartiterank[13];另一部分研究則根據(jù)主題影響力或主題下詞語的相似度對轉(zhuǎn)移矩陣加權(quán)[14,15]。融合詞表示模型時,主要利用詞表示中的語義信息優(yōu)化轉(zhuǎn)移矩陣,如余本功等人[16]基于word2vec以向量相似度衡量詞的語義距離,并綜合部分統(tǒng)計信息對轉(zhuǎn)移矩陣加權(quán);夏天[17]利用詞向量對詞進行聚類以改進節(jié)點間轉(zhuǎn)移概率的計算;Wang等人[18]針對局部信息對全局代表性弱的問題,引入doc2vec模型以文本向量指引關(guān)鍵詞抽取。但上述改進忽略了詞的語法信息,使用主題模型時也未考慮文本主題分布對關(guān)鍵詞的影響。

2 S-TAKE模型

本文提出一種基于句法分析與篇章主題的篇章關(guān)鍵詞抽取模型S-TAKE,以段落作為抽取關(guān)鍵詞的基本文本單元,由段落至篇章分兩階段抽取篇章關(guān)鍵詞,包括段落關(guān)鍵詞抽取及篇章關(guān)鍵詞篩選兩部分。

對于篇章D,獲取其段落集合{P1,P2,…,Pn},首先根據(jù)段落關(guān)鍵詞抽取算法構(gòu)建段落詞圖GPi=〈VPi,EPi〉與轉(zhuǎn)移矩陣CPi,計算各節(jié)點權(quán)重并根據(jù)權(quán)重大小獲取段落關(guān)鍵詞集KWPi;然后利用段落文本生成段落主題向量TPi,根據(jù)篇章關(guān)鍵詞篩選算法對段落按主題進行聚類,綜合段落關(guān)鍵詞形成主題關(guān)鍵詞集KWTi,依據(jù)主題重要度ITi、詞頻等因素對關(guān)鍵詞進行篩選得出篇章關(guān)鍵詞集合KWD。模型原理如圖1所示。

2.1 段落關(guān)鍵詞抽取算法

篇章通常包含多個主題,傳統(tǒng)關(guān)鍵詞抽取方法利用整篇文檔構(gòu)建詞圖,忽略了多主題特征導致詞圖內(nèi)主題不統(tǒng)一,對篇章抽取效果不佳。段落作為組成篇章的基本單位,具有段內(nèi)主題高度一致的特性,且篇章關(guān)鍵詞包含于各段的關(guān)鍵詞中,因此提出以段落作為獲取關(guān)鍵詞的基本文本單元。

模型以Text-Rank為基礎(chǔ)抽取段落關(guān)鍵詞。首先構(gòu)建段落詞圖G=〈V,E〉,點集V通過對段落文本的分詞結(jié)果進行篩選獲取,邊集E通過句法分析獲取詞的語法信息,綜合詞的語法與共現(xiàn)信息獲取;然后利用詞嵌入模型獲取詞的語義信息,根據(jù)語義相似度對邊賦予不同權(quán)重形成轉(zhuǎn)移矩陣C;最后利用PageRank的計算公式,結(jié)合詞圖結(jié)構(gòu)與轉(zhuǎn)移矩陣計算各節(jié)點的權(quán)重PRvi,根據(jù)節(jié)點權(quán)重的大小獲取關(guān)鍵詞,實現(xiàn)段落關(guān)鍵詞抽取。

2.1.1 基于句法分析的詞圖構(gòu)建

詞圖G=〈V,E〉由點集V={v1,v2,…,vn}與邊集E={e1,e2,…,em}構(gòu)成,點集V對應(yīng)各候選關(guān)鍵詞,邊集E對應(yīng)存在關(guān)聯(lián)的候選關(guān)鍵詞對。

1)點集V的獲取

詞圖的點對應(yīng)文本中的詞。由于關(guān)鍵詞的性質(zhì)和中文的行文習慣,構(gòu)建點集V時需要對分詞結(jié)果進行過濾。對于明確的非關(guān)鍵詞的過濾可以縮小詞圖規(guī)模,提升詞圖構(gòu)建的質(zhì)量,優(yōu)化后續(xù)的抽取效果。

關(guān)鍵詞體現(xiàn)篇章主題,其一定是具有實際意義的實詞,因此過濾操作主要根據(jù)詞性和停用詞表進行。模型以名詞、動詞、數(shù)詞、形容詞、副詞等詞性作為候選關(guān)鍵詞的可能詞性,過濾掉其他詞性的詞及停用詞表中的詞形成候選關(guān)鍵詞集,即詞圖的點集V。

2)邊集E的獲取

詞圖的邊e=〈vi,vj〉代表其端點vi、vj對應(yīng)的詞wp、wq存在關(guān)聯(lián)。TextRank以詞的上下文特征(即詞共現(xiàn))作為衡量詞是否存在關(guān)聯(lián)的標準,特征維度單一且受行文影響較大。除上下文特征外,詞語的特征還包括與行文無關(guān)的語法信息。詞的語法信息通過詞間的依存關(guān)系體現(xiàn),一般通過句法分析獲取并以三元組d={wi,wj,rk},wi,wj∈S,rk∈R表示。其中,wi、wj為存在依存關(guān)系的詞,關(guān)系由wi指向wj;rk為弧值,表示依存關(guān)系的類型;S為分析的語句;R為依存關(guān)系類型的集合。當詞間存在依存關(guān)系且詞均屬于候選關(guān)鍵詞集時,則視為對應(yīng)頂點間有邊相連,若邊集E中不存在該邊,則將這條邊添加至邊集,即

if 〈wp,wq〉∈Dsi and (vwp,vwq∈V) and (〈vwp,vwq〉E) then

add 〈vwp,vwq〉→E(1)

通過句法分析獲取的邊體現(xiàn)了詞的語法關(guān)聯(lián),對于行文變化有較強魯棒性,且語法關(guān)聯(lián)不受詞距離影響,能體現(xiàn)遠距離的詞語關(guān)系。但一句話僅包含(詞個數(shù)-1)條依存關(guān)系,在進行詞過濾的前提下,通過句法分析獲取的邊數(shù)量進一步減少,僅使用句法分析構(gòu)建詞圖會導致邊過于稀疏;同時句子的核心一般為動詞,僅使用句法分析得到的邊會過分突出動詞重要性。

因此構(gòu)建詞圖時,模型同時考慮詞的語法與共現(xiàn)兩個維度的信息,對通過兩者獲取的邊集進行取并操作,提出一種融合詞的語法信息和共現(xiàn)信息的詞圖構(gòu)建算法,算法實現(xiàn)如下:

算法1 基于句法分析的詞圖構(gòu)建算法

輸入:段落文本P。

輸出:段落P對應(yīng)的段落詞圖GP。

初始化詞圖GP,GP=〈V,E〉,V=,E=;

初始化變量len(滑動窗口SW)=w;

對P分句得句列表{S1,S2,…,Sn};

for i=1 to n

對Si分詞得詞列表{wi1,wi2,…,wim};

初始化去除過濾詞的語句SV=;

for wij in Si

"if wij∈過濾詞典

添加wij→SV;

if wij不屬于點集V then 添加vwij→V;

獲取句子的依存關(guān)系集合D={di1,di2,…,di(m-1)};

for dij in D

if Vwp,Vwq∈點集V and e=〈Vwp,Vwq〉不屬于邊集E

添加Vwp,Vwq→E;

for j=1 to len(SV)

for k=1 to w

if vwj,vw(j+k)不屬于邊集E then添加〈vwj,vw(j+k)〉→E;

此時生成的詞圖同時考慮了詞的語法關(guān)系和前后詞序上的共現(xiàn)關(guān)系,解決了TextRank沒有考慮語法信息、忽略長距離詞語關(guān)聯(lián)的問題,避免了單純使用依存句法構(gòu)建詞圖導致詞圖稀疏與偏重動詞的問題。

2.1.2 基于語義加權(quán)的轉(zhuǎn)移矩陣構(gòu)建

轉(zhuǎn)移矩陣是模型獲取段落關(guān)鍵詞時的另一核心要素,其元素代表不同節(jié)點間的轉(zhuǎn)移概率,概率可以利用邊權(quán)重的比值表示。TextRank對各邊賦予相同的權(quán)重,即從一個節(jié)點轉(zhuǎn)移至與其相連的各節(jié)點的概率相同,但實際上這種轉(zhuǎn)移具有其傾向性。詞圖G的點對應(yīng)文本中的詞,不同的邊關(guān)聯(lián)的詞語不同,可以通過衡量邊所關(guān)聯(lián)的詞語的關(guān)系對不同的邊賦予不同的權(quán)重。

衡量詞語關(guān)系最直接的方式就是根據(jù)詞的語義信息計算其語義距離,詞的語義信息一般通過詞向量體現(xiàn),常用詞向量包括以word2vec為代表的靜態(tài)詞向量和以BERT為代表的動態(tài)詞向量,因此利用詞向量引入語義信息對轉(zhuǎn)移矩陣進行加權(quán)。以矩陣C表示轉(zhuǎn)移矩陣,元素cij表示節(jié)點vi到vj的轉(zhuǎn)移概率。首先根據(jù)詞圖G構(gòu)建初始轉(zhuǎn)移矩陣C0為

C0=c00…c0m

cm0…cmm

(2)

C0的橫、縱軸對應(yīng)詞圖G的節(jié)點,根據(jù)邊集E初始化cij,節(jié)點間存在邊時cij=1,否則cij=0。

以段落為基本單位構(gòu)建詞圖,段落具有較強的主題內(nèi)聚性,一個段落只對應(yīng)一個主題,同主題的關(guān)鍵詞語義較為接近。因此衡量轉(zhuǎn)移概率時,詞的語義越相似,對應(yīng)轉(zhuǎn)移概率越高。使用向量表示詞時,常利用向量的余弦距離衡量詞語義的遠近,公式如下:

sij=xwi·xwj‖xwi‖‖xwj‖(3)

其中:x0為詞向量;sij為對應(yīng)的余弦距離,取值為[-1,1]。sij越大則向量越相似,詞的語義越接近,反之則語義含義越遠。考慮詞語義信息的同時,還要考慮邊出現(xiàn)次數(shù)包含的信息。邊出現(xiàn)的次數(shù)代表著邊相關(guān)的詞關(guān)聯(lián)的次數(shù),關(guān)聯(lián)次數(shù)越多,對應(yīng)詞在當前篇章的語境下相關(guān)度越高。根據(jù)不同詞對的余弦距離與出現(xiàn)次數(shù)構(gòu)建權(quán)值矩陣W為

W=w00…w0mwm0…wmm(4)

wij=∑詞對次數(shù)sij(5)

利用權(quán)值矩陣對初始轉(zhuǎn)移矩陣加權(quán),即可得實際的轉(zhuǎn)移矩陣C為

C=C0×W(6)

算法2 基于語義加權(quán)的轉(zhuǎn)移矩陣生成算法

輸入:段落文本P,詞圖結(jié)構(gòu)GP。

輸出:對應(yīng)的轉(zhuǎn)移矩陣C。

以GP的點集大小|V|構(gòu)建兩個|V|×|V|的矩陣,分別為初始轉(zhuǎn)移矩陣C0與權(quán)重矩陣W;

根據(jù)GP的邊集E初始化C0;

對P分句得句列表{s1,s2,…,sn};

for i=1 to n

對Si分詞得詞列表{wi1,wi2,…,wim};

for e in 句Si包含的邊

獲取邊關(guān)聯(lián)節(jié)點Vp、Vq對應(yīng)詞wi、wj的向量表示xwi、xwj;

根據(jù)xwi,xwj計算對應(yīng)邊的權(quán)重Sij;

在權(quán)重矩陣的對應(yīng)元素wpq與wqp上加上權(quán)重Sij;

將初始權(quán)重矩陣C0與權(quán)重矩陣W按位相乘,得到轉(zhuǎn)移矩陣c;

此時轉(zhuǎn)移矩陣C同時考慮了詞的語義關(guān)聯(lián)和詞對出現(xiàn)的次數(shù)信息,得出的轉(zhuǎn)移矩陣更符合中文表達的實際情況。

2.1.3 PR值與關(guān)鍵詞選擇

得到詞圖G與轉(zhuǎn)移矩陣C后即可利用PageRank提出的PR值公式計算各節(jié)點權(quán)值,計算公式如下:

PRvi=(1-d)+d×∑vj∈In(vi)cji∑vk∈O(vj)cjk×PRvj(7)

其中:PRvi表示節(jié)點vi的權(quán)值;d為阻尼系數(shù);In(vi)表示指向節(jié)點vi的節(jié)點集合;O(vj)表示vj指向的節(jié)點集合;cji表示轉(zhuǎn)移矩陣C中由節(jié)點vi轉(zhuǎn)移至vj的概率。節(jié)點權(quán)值需迭代計算至數(shù)值穩(wěn)定,每輪迭代需同時更新所有節(jié)點的權(quán)重,因此計算過程中采取矩陣運算。用列向量Rt表示t時刻所有節(jié)點的PR值向量,則t+1時刻的計算公式如下:

Rt+1=1-dm×1+d×C×Rt(8)

其中:C為轉(zhuǎn)移矩陣;m為詞圖包含的節(jié)點數(shù),迭代運算至權(quán)重平穩(wěn)或達到一定次數(shù)后即可停止運算,權(quán)重平穩(wěn)時有Rt+1=R。R為最終的PR值矩陣,包含各節(jié)點最終的PR值,按照PR值對節(jié)點降序排列,即可選取排名前k的詞作為輸入的關(guān)鍵詞。

2.2 基于主題的段落聚類與關(guān)鍵詞篩選

原始TextRank和各種基于其的改進方法均以篇章為單位構(gòu)建詞圖,破壞了原本的文本結(jié)構(gòu)和主題結(jié)構(gòu),忽略了篇章子主題的信息。中文篇章的主題通常以層次結(jié)構(gòu)體現(xiàn),一個段落通常只闡述一個主題。主題越重要對應(yīng)文字描述越多,即對應(yīng)的段落越多。因此在獲取段落關(guān)鍵詞的基礎(chǔ)上,模型提出了基于主題的篇章關(guān)鍵詞篩選算法。算法首先根據(jù)段落Pi的文本生成段落主題向量TPi,基于段落主題向量對段落進行主題聚類;融合同主題段落的關(guān)鍵詞列表形成主題關(guān)鍵詞列表;充分考慮文本結(jié)構(gòu)和主題信息,解決原始TextRank和各種改進方法忽略文本結(jié)構(gòu)和主題結(jié)構(gòu)的問題;最終根據(jù)詞頻、主題重要度ITi等對主題關(guān)鍵詞進行篩選,獲取篇章關(guān)鍵詞KWD。

算法3 基于主題聚類的篇章關(guān)鍵詞篩選算法

輸入:段落Pi的文本,段落關(guān)鍵詞集KWPi。

輸出:篇章關(guān)鍵詞集KWD。

for i=1 to count(Pi)

根據(jù)段落Pi的文本生成段落主題向量TPi;

根據(jù)TPi對段落按主題進行聚類,形成主題集合{T1,T2,…,Tm};

合并同主題段落的段落關(guān)鍵詞,形成主題關(guān)鍵詞集合;

for i=1 to m

根據(jù)主題對應(yīng)的段落個數(shù)計算主題重要度ITi;

對KWTi中的詞,按詞在該主題對應(yīng)段落中的詞頻降序排列;

取前K×ITi」個關(guān)鍵詞,加入篇章關(guān)鍵詞集KWD;

if count(KWD)lt;K

對所有剩余的主題關(guān)鍵詞,按篇章中的詞頻降序排列;

取前K-count(KWD)個不在KWD中的關(guān)鍵詞加入KWD;

首先使用Sentence-Transformer構(gòu)建各段落的嵌入表示。Sentence-Transformer基于BERT模型,對輸入文本的長度存在限制,當輸入長度超過限制時,采用截斷的方式處理超出限制的文本。以得到的嵌入表示作為段落的主題向量TPi,使用K-means算法對各段落的主題向量聚類,形成基于主題的段落集合。由于篇章主題一般不會過多,所以模型對K-means的k取值為3。

合并同主題下的段落關(guān)鍵詞列表,形成主題關(guān)鍵詞列表KWTi。統(tǒng)計主題關(guān)鍵詞列表中各關(guān)鍵詞在該主題對應(yīng)段落中的出現(xiàn)次數(shù),出現(xiàn)次數(shù)越多則該關(guān)鍵詞對該主題越有代表性,根據(jù)詞頻對段落關(guān)鍵詞列表降序排列。

不同主題對文本的重要程度不同,主題對應(yīng)的段落越多則該主題越重要,在篇章關(guān)鍵詞列表中占比越大,因此根據(jù)主題對應(yīng)的段落個數(shù)對主題賦權(quán),形成主題權(quán)重ITi為

ITi=count(Pj∈Ti)count(Pk∈D)(9)

其中:count(·)表示對括號內(nèi)元素計數(shù)。根據(jù)權(quán)值選取每個主題前ITi×K個關(guān)鍵詞作為該主題提供給篇章的關(guān)鍵詞,對重復的關(guān)鍵詞進行合并,并在剩余的關(guān)鍵詞中根據(jù)詞頻選取詞語進行補充,形成篇章關(guān)鍵詞列表KWD。

3 實驗數(shù)據(jù)及分析

3.1 實驗數(shù)據(jù)與環(huán)境

實驗選取了兩個原始數(shù)據(jù)集,并對其進行篩選構(gòu)成了實驗所用數(shù)據(jù)。原始數(shù)據(jù)集1為文獻[17]構(gòu)建的南方周末新聞數(shù)據(jù)集。隨機抽取300篇長度在1 000字以上的文章,并對原始關(guān)鍵詞按基本詞進行拆分形成nz_news數(shù)據(jù)集,其含有1 090個未拆分關(guān)鍵詞和1 467個拆分關(guān)鍵詞,平均每篇包含2 766.790個字符,3.633個未切分關(guān)鍵詞和4.890個切分關(guān)鍵詞。原始數(shù)據(jù)集2為從各門戶網(wǎng)站爬取的新聞數(shù)據(jù)集,該數(shù)據(jù)集的關(guān)鍵詞為不可拆分的詞。隨機抽取300篇長度在500~1 000字的文章形成random_news數(shù)據(jù)集,其含有4 642個關(guān)鍵詞,平均每篇包含729.197個字符和15.473個關(guān)鍵詞。具體實驗數(shù)據(jù)樣例如圖2所示。

(a)nz_news樣例

(b)random_news樣例

具體實驗環(huán)境如表1所示。

3.2 方案與指標

實驗采取準確率P、召回率R及F1值作為抽取方法效果的評判標準。以KA表示測試數(shù)據(jù)集提供的正確關(guān)鍵詞集合,KE表示抽取的關(guān)鍵詞集合,各評價指標的計算公式如下:

P=|KA∩KE||KE|, R=|KA∩KE||KA|, F1=2×P×RP+R

(10)

實驗采用的抽取方法包括:a)M1,原始TextRank;b)M2,結(jié)合句法分析與詞共現(xiàn),以篇章為單位構(gòu)建詞圖,轉(zhuǎn)移矩陣構(gòu)建與M1相同;c)M3,詞圖構(gòu)建與M2相同,以詞對出現(xiàn)次數(shù)進行加權(quán)構(gòu)建轉(zhuǎn)移矩陣;d)M4,詞圖構(gòu)建與M2相同,以word2vec詞向量衡量語義距離,綜合語義距離與詞對出現(xiàn)次數(shù)構(gòu)建轉(zhuǎn)移矩陣;e)M5,結(jié)合句法分析與詞共現(xiàn),以段落為單位構(gòu)建詞圖,轉(zhuǎn)移矩陣構(gòu)建與M4相同,根據(jù)詞頻從所有段落關(guān)鍵詞中抽取前k個詞作為篇章關(guān)鍵詞;f)M6,詞圖構(gòu)建與轉(zhuǎn)移矩陣構(gòu)建與M5相同,采用基于主題聚類的篇章關(guān)鍵詞篩選算法篩選關(guān)鍵詞(即S-TAKE)。

3.3 結(jié)果與分析

實驗1 不同方法在不同關(guān)鍵詞個數(shù)下抽取情況優(yōu)劣

為驗證各方法抽取關(guān)鍵詞效果的優(yōu)劣,以及抽取不同數(shù)量的關(guān)鍵詞對結(jié)果的影響,分別在nz_news與random_news數(shù)據(jù)集上采用不同方法及不同關(guān)鍵詞抽取數(shù)量進行實驗。

實驗以3為共現(xiàn)窗口長度,分別使用方法M1~M5抽取5、7、10個關(guān)鍵詞并與標準答案(拆分關(guān)鍵詞)進行對比,實驗結(jié)果如表2、3所示。

由表2、3可知,五種方法中, M5具有最好的效果。隨著抽取關(guān)鍵詞數(shù)量的增加,各方法在nz_news數(shù)據(jù)集上的R值逐漸增加、F1值逐漸降低,而在random_news數(shù)據(jù)集上R值和F1值則同步增加。這是因為nz_news數(shù)據(jù)集的篇平均關(guān)鍵詞數(shù)量較少,所以即使R值增加,F(xiàn)1值也可能降低。而在random_news數(shù)據(jù)集中,篇平均關(guān)鍵詞數(shù)量較多,當抽取10個關(guān)鍵詞時還未達到其篇均的15個關(guān)鍵詞,因此其R值與F1值仍能保持同步增加。

實驗2 不同滑動窗口長度對關(guān)鍵詞抽取結(jié)果的影響

共現(xiàn)窗口長度決定共現(xiàn)對數(shù)目,對詞圖構(gòu)建有較大影響。為驗證滑動窗口長度對結(jié)果的影響,使用方法M1、M5,在random_news數(shù)據(jù)集上依次以2~6為窗口長度抽取10個關(guān)鍵詞,結(jié)果如圖3所示。

(a)方法M1

(b)方法M5

方法M1即原始TextRank在random_news數(shù)據(jù)集上的抽取效果隨著窗口長度增加逐漸降低,符合其原論文使用長度為2的共現(xiàn)窗口的結(jié)論;方法M5則在共現(xiàn)窗口長度為4時取得最好的效果,隨后隨著窗口長度增加效果逐漸下降。根據(jù)結(jié)果可知,通過依存關(guān)系獲取到的信息一定程度上緩解了共現(xiàn)窗口增加時帶來的影響。

實驗3 驗證層次模型的有效性

方法M6即為模型S-TAKE,為驗證其有效性,將其與方法M5進行對比。

由于random_news數(shù)據(jù)集沒有段落信息,僅在nz_news數(shù)據(jù)集上進行實驗。定義共現(xiàn)窗口長度為3,分別抽取5、7、10個關(guān)鍵詞,對比兩種算法對于未拆分關(guān)鍵詞和拆分關(guān)鍵詞的抽取效果,結(jié)果如表4、5所示。

關(guān)鍵詞個數(shù)為5時,M6即S-TAKE模型在未拆分關(guān)鍵詞上的表現(xiàn)效果優(yōu)于M5,但在拆分關(guān)鍵詞上較低;關(guān)鍵詞個數(shù)為7、10時,S-TAKE模型的效果則全面優(yōu)于方法M5。

以圖2(a)中截取的語料為例,以切分關(guān)鍵詞為衡量標準,使用原始TextRank抽取7個關(guān)鍵詞時,其關(guān)鍵詞列表為[日本,被告,株式會社,法院,中國,三井,商船,報道,船舶,依法];使用本文提出的S-TAKE方法抽取得到的關(guān)鍵詞列表為[日本,安倍晉三,株式會社,中國,商船,三井,靖國神社,依法,船舶,報道]。在排名前三的關(guān)鍵詞中,原始TextRank命中了2個,本文算法命中了3個;在排名前7的關(guān)鍵詞中,原始TextRank命中了4個,本文算法命中了5個;在排名前10的關(guān)鍵詞中,原始TextRank仍舊只命中4個,本文算法命中了6個。以未切分關(guān)鍵詞為衡量標準時,在獲取10個關(guān)鍵詞的情況下,原始TextRank僅命中了2個,本文方法命中了3個,對于復合型的關(guān)鍵詞,兩種方法均未能有效識別。

考察語料集給定的關(guān)鍵詞發(fā)現(xiàn),可拆分的關(guān)鍵詞一般為某主題的細化表達,一般與其主題同時出現(xiàn)在關(guān)鍵詞列表中,如“養(yǎng)老金—養(yǎng)老”“醫(yī)療保險—保險”等,且主題詞的權(quán)重更大。不考慮主題且抽取關(guān)鍵詞較少時,容易在同一主題下抽取多個詞語,即更容易抽取到可拆分的關(guān)鍵詞,因此方法M5在抽取詞數(shù)較少時在拆分關(guān)鍵詞上的效果優(yōu)于S-TAKE模型。但S-TAKE模型考慮了主題要素,抽取到了篇章中其他主題的主題詞,故其在未拆分關(guān)鍵詞上的表現(xiàn)效果優(yōu)于方法M5。

4 結(jié)束語

本文通過在TextRank中引入句法信息與語義信息,提升了算法抽取關(guān)鍵詞的能力;同時基于中文行文特點,提出了以段落為基本單位構(gòu)建詞圖、根據(jù)段落主題聚類獲取篇章關(guān)鍵詞的思想,解決了TextRank忽略文本結(jié)構(gòu)及主題信息的問題。實驗結(jié)果表明,S-TAKE模型的效果較原始TextRank有顯著提高,證明了語法信息與語義信息在關(guān)鍵詞獲取中的重要作用,證明了主題信息對關(guān)鍵詞獲取的意義,驗證了基于段落主題進行聚類思想的正確性。

但研究同時提出了新的問題,如何更好地對段落主題進行建模以減少誤差、如何對不同的依存關(guān)系賦予不同的權(quán)重、如何對同一條依存邊的正反向進行賦權(quán)等。后續(xù)擬在現(xiàn)有基礎(chǔ)上繼續(xù)研究。

參考文獻:

[1]Luhn H P. A statistical approach to mechanized encoding and sear-ching of literary information [J]. IBM Journal of Research and Development,1957,1(4): 309-317.

[2]Mihalcea R,Tarau P. TextRank: bringing order into text [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2004: 404-411.

[3]孫福權(quán),張靜靜,劉冰玉,等. 基于萬有引力改進的TextRank關(guān)鍵詞提取算法 [J]. 計算機應(yīng)用與軟件,2020,37(7): 216-220,295. (Sun Fuquan,Zhang Jingjing,Liu Bingyu,et al. Improved Text-Rank keyword extraction algorithm based on gravity [J]. Computer Applications and Software,2020,37(7): 216-220,295. )

[4]夏天. 詞語位置加權(quán)TextRank的關(guān)鍵詞抽取研究 [J]. 現(xiàn)代圖書情報技術(shù),2013,29(9): 30-34. (Xia Tian. Study on keyword extraction using word position weighted TextRank [J]. Data Analysis and Knowledge Discovery,2013,29(9): 30-34. )

[5]孟彩霞,張琰,李楠楠. 基于TextRank的關(guān)鍵詞提取改進方法研究 [J]. 計算機與數(shù)字工程,2020,48(12): 3022-3026. (Meng Caixia,Zhang Yan,Li Nannan. Research on improved method of keyword extraction based on TextRank [J]. Computer and Digital Engineering,2020,48(12): 3022-3026. )

[6]艾金勇. 融合多特征的TextRank藏文文本關(guān)鍵詞抽取方法研究 [J]. 情報探索,2020(7): 1-6. (Ai Jinyong. Research on keyword extract method of Tibetan text based on TextRank integrated multiple features [J]. Information Research,2020(7): 1-6.)

[7]Biswas S K,Bordoloi M,Shreya J. A graph based keyword extraction model using collective node weight [J]. Expert Systems with Applications,2018,97(5): 51-59.

[8]牛永潔,姜寧. 關(guān)鍵詞提取算法TextRank影響因素的研究 [J]. 電子設(shè)計工程,2020,28(12): 1-5. (Niu Yongjie,Jiang Ning. Research on influence factors of keyword extraction algorithm TextRank [J]. Electronic Design Engineering,2020,28(12): 1-5.)

[9]李志強,潘蘇含,戴娟,等. 一種改進的TextRank關(guān)鍵詞提取算法 [J]. 計算機技術(shù)與發(fā)展,2020,30(3): 77-81. (Li Zhiqiang,Pan Suhan,Dai Juan,et al. An improved TextRank keyword extraction algorithm [J]. Computer Technology and Development,2020,30(3): 77-81. )

[10]Mao Xiangke,Huang Shaobin,Li Rongsheng,et al. Automatic keywords extraction based on co-occurrence and semantic relationships between words [J]. IEEE Access,2020,8: 117528-117538.

[11]Bougouin A,Boudin F,Daille B. TopicRank: graph-based topic ran-king for keyphrase extraction [C]// Proc of the 6th International Joint Conference on Natural Language Processing. Nagoya,Japan: Asian Federation of Natural Language Processing,2013:543-551.

[12]Liu Zhiyuan,Huang Wenyi,Zheng Yabin,et al. Automatic keyphrase extraction via topic decomposition [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2010: 366-376.

[13]Boudin F. Unsupervised key phrase extraction with multipartite graphs [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2018: 667-672.

[14]Sterckx L,Demeester T,Deleu J,et al. Creation and evaluation of large keyphrase extraction collections with multiple opinions [J]. Language Resources and Evaluation,2017,52(2): 503-532.

[15]張兵磊. 基于TextRank和LDA的中文短文本分類研究 [J]. 信息與電腦: 理論版,2021,33(6): 12-14. (Zhang Binglei.Research on Chinese short text classification based on TextRank and LDA [J].China Computer amp; Communication,2021,33(6): 12-14. )

[16]余本功,張宏梅,曹雨蒙. 基于多元特征加權(quán)改進的TextRank關(guān)鍵詞提取方法 [J]. 數(shù)字圖書館論壇,2020(3): 41-50. (Yu Bengong,Zhang Hongmei,Cao Yumeng. Improved TextRank keyword extraction method based on multivariate features weighted [J]. Digi-tal Library Forum,2020(3): 41-50. )

[17]夏天. 詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取 [J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(2): 28-34. (Xia Tian. Extracting keywords with modified TextRank model [J]. Data Analysis and Knowledge Discovery,2017,1(2): 28-34. )

[18]Wang Wei,Li Xiangshun,Yu Sheng. Chinese text keyword extraction based on doc2vec and TextRank [C]// Proc of Chinese Control and Decision Conference. Piscataway,NJ: IEEE Press,2020: 369-373.

主站蜘蛛池模板: 黄色网址免费在线| 成人自拍视频在线观看| 免费午夜无码18禁无码影院| 8090午夜无码专区| 国产美女在线观看| 欧美一级高清片久久99| 亚洲人成色在线观看| 亚洲熟女中文字幕男人总站| 国产成人精品18| 国产精品2| 毛片免费视频| 成人午夜视频在线| 色哟哟国产精品一区二区| 色香蕉影院| 亚洲午夜片| 国产欧美日韩va另类在线播放| 男人天堂伊人网| 91精品国产综合久久不国产大片| 波多野结衣久久高清免费| 国产亚洲视频免费播放| 欧美翘臀一区二区三区| 青青青草国产| 亚洲视频免费在线看| 青青草原偷拍视频| 国产精品手机在线观看你懂的 | 日日拍夜夜嗷嗷叫国产| A级毛片高清免费视频就| 亚洲精品第一页不卡| 天堂亚洲网| 亚洲自拍另类| 在线综合亚洲欧美网站| 欧美色视频日本| 一级看片免费视频| 国内丰满少妇猛烈精品播| 99久久精品免费看国产电影| 最新午夜男女福利片视频| 在线视频一区二区三区不卡| 亚洲看片网| 老司机精品一区在线视频| 国产91精品调教在线播放| 久久一色本道亚洲| 免费看美女毛片| jizz国产在线| 午夜国产精品视频黄| 国产精品污视频| 91国内视频在线观看| 亚洲国产一成久久精品国产成人综合| 精品伊人久久久久7777人| 欲色天天综合网| 免费 国产 无码久久久| 国产在线一区二区视频| 一个色综合久久| 国产精品偷伦在线观看| 精品视频一区二区观看| 亚洲一区二区精品无码久久久| 69av在线| 国产成人在线小视频| 一区二区在线视频免费观看| 亚洲日韩精品无码专区| 亚洲国产成人久久精品软件| 一级毛片在线播放免费| 国产午夜在线观看视频| 欧美亚洲国产精品久久蜜芽| 亚洲九九视频| 久操中文在线| 色香蕉影院| 原味小视频在线www国产| 天天视频在线91频| 国产一在线| 国产精品综合久久久 | 在线播放91| 亚洲中文久久精品无玛| 欧美精品啪啪| 女同国产精品一区二区| 香蕉久人久人青草青草| 99热这里只有精品2| 国产呦精品一区二区三区下载 | 一级全黄毛片| 另类欧美日韩| 成人午夜视频免费看欧美| 无码视频国产精品一区二区| 日韩精品视频久久|