999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖關(guān)鍵詞提取中的短語評分方法

2020-11-17 06:29:20張宇翔
計算機(jī)工程與設(shè)計 2020年11期
關(guān)鍵詞:關(guān)鍵單詞特征

蘇 超,張宇翔

(中國民航大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

0 引 言

自動關(guān)鍵詞提取技術(shù)可以快速地抽取目標(biāo)文檔的主題并給出文檔的核心主旨,其成果廣泛用于文檔檢索[1]、文本分類[2]、文本主題挖掘[3]等具體領(lǐng)域。如以Wang等提出的WordAttractionRank算法[4-6]為代表將詞圖邊的相關(guān)信息融合到PageRank框架[7]的轉(zhuǎn)移概率中;以Sterckx等提出的Single-TPR算法[8-10]為代表利用詞節(jié)點信息修改重啟概率;以Zhang等提出的MIKE方法[11]為代表同時將詞圖邊的信息和詞節(jié)點的信息融合到轉(zhuǎn)移概率和重啟概率中。

事實上,完成單詞的評分后,據(jù)此對多元候選關(guān)鍵詞組的評分同樣會影響最終的提取性能?,F(xiàn)有的多元詞組評分方法根據(jù)組成候選短語的單詞計算它的整體得分。Zhang等[12]提出在計算候選短語內(nèi)含單詞之和的同時為多元詞組按其長度分配權(quán)重。這類評分算法的缺陷是對長度越長的詞組評分越高,對通常長度較短的關(guān)鍵詞組評分越低。為此,F(xiàn)lorescu C等[13]對詞組分配詞組長度的倒數(shù)作為權(quán)重來彌補(bǔ)之前的缺陷,而且增加了詞組在文檔中的頻率以增強(qiáng)多元詞組的最終得分,但該方法對統(tǒng)計特征的使用單一。

本文在Florescu C等的基礎(chǔ)上,結(jié)合候選短語的統(tǒng)計特征,創(chuàng)新性地提出一種單文檔關(guān)鍵短語評分方法。該方法分為3步:①根據(jù)單詞在文檔中的相鄰關(guān)系選出指定長度的候選短語;②使用TD-IDF和4種隨機(jī)游走技術(shù)對文檔內(nèi)的單詞評分;③利用候選短語的詞頻特征與位置特征計算候選短語的最終評分,選出排名靠前的k個候選短語作為文檔的關(guān)鍵短語。提出方法不僅消除了短語長度的影響,而且充分利用了候選短語在單文檔內(nèi)的詞頻信息和位置信息,能夠幫助提升最后的提取性能。

1 關(guān)鍵短語提取

1.1 候選短語生成

為了識別多元短語的重要性,從數(shù)據(jù)集中統(tǒng)計多元短語的含詞分布情況,見表1。由表1可知,關(guān)鍵短語主要集中在一元、二元、三元上,3種數(shù)據(jù)集高達(dá)95%,幾乎概括了全部關(guān)鍵短語,因此生成候選關(guān)鍵短語時只抽取一至三元的短語。

表1 關(guān)鍵短語含詞分布概率/%

1.1.1 一元候選短語

對文檔數(shù)據(jù)進(jìn)行詞性過濾和去無用詞,只留下形容詞和名詞作為一元候選關(guān)鍵詞集。

1.1.2 二元候選短語

定義d={w1,w2,…,wn},d是1.1.1節(jié)中的候選關(guān)鍵詞集合,wi是每個候選單詞。根據(jù)單詞在window=2的滑動窗口中的共現(xiàn)關(guān)系構(gòu)建邊,如w1-w2,…,wn-1-wn。每一條邊代表一組二元候選短語,加入二元候選短語集合中。

1.1.3 三元候選短語

對二元候選短語中的詞組兩兩拼接,若第一個短語的最后一個詞和第二個詞組的第一個詞相同,則組成三元短語。如果三元短語在原文中出現(xiàn),則加入到三元候選短語集合中。

1.2 傳統(tǒng)的短語評分方式

傳統(tǒng)的短語評分方法有兩種:一種是對組成候選短語的單詞評分加和;另一種方法在評分加和的基礎(chǔ)上按短語長度分配權(quán)重,具體計算方式如下

s(p)=∑wj∈ps(wj)

(1)

s(p)=φ∑wj∈ps(wj)

(2)

前一種方法對于長度越大的短語得分越高,不利于提取重要的一元、二元、三元短語;后一種方法雖然提高了二元、三元短語的權(quán)重,但其中φ只是經(jīng)驗值,在不同的數(shù)據(jù)集中,實驗結(jié)果最優(yōu)的φ取值不同。

1.3 關(guān)鍵短語評分方法

在完成單詞的評分和候選短語的生成后,首先通過組成候選短語的單詞評分得出候選短語的初級評分;再根據(jù)特征定義方法找出關(guān)鍵短語常有的特征,利用這些特征得到相應(yīng)的特征權(quán)重并完成對候選短語的最終評分。

候選短語的初級評分方法計算如下

(3)

其中,s(p) 是詞組的評分;s(wj) 是單詞wj的評分;|p| 是詞組的長度。式(3)是當(dāng)式(2)φ取1/|p| 的特殊情況。在傳統(tǒng)的詞組評分方式中,針對不同的數(shù)據(jù)集,實驗性能最優(yōu)時φ的取值具有經(jīng)驗性,且對于新的數(shù)據(jù)集沒有經(jīng)驗可循。因此,在本文的方法中取φ=1/|p| 使之具有普適性。

特征定義是定義一些盡可能較好區(qū)分關(guān)鍵詞和非關(guān)鍵詞的特征?;谟斜O(jiān)督關(guān)鍵詞提取方法的特點,本文對候選短語選取總結(jié)以下特征:

(1)頻率特征是候選短語在文檔中出現(xiàn)頻率相關(guān)的特征,常用的特征有詞頻tf,該特征指短語在給定文檔中出現(xiàn)的次數(shù),通常認(rèn)為詞頻越高,其在文檔中的重要程度越高,成為關(guān)鍵短語的可能性越大。

(2)位置特征則常用候選短語在目標(biāo)文檔中出現(xiàn)位置的分布、跨度等指標(biāo)來衡量。出現(xiàn)在文檔中特定位置的短語,如文檔的開頭、段落的開頭等,相對于出現(xiàn)在其它位置的短語,更有可能成為關(guān)鍵短語。位置特征具有高效性,被廣泛使用。

(3)長度特征指候選關(guān)鍵短語本身及其所在句子的長度。關(guān)鍵短語的長度通常小于等于3。

(4)候選關(guān)鍵短語的構(gòu)成(如詞性等)和候選關(guān)鍵短語所在句子的句法需滿足特定的語言特征,如專有名詞或特殊格式等。

本文在數(shù)據(jù)預(yù)處理階段,根據(jù)語言特征和長度特征,已完成對數(shù)據(jù)的詞性過濾,且在生成候選短語時抽取了一至三元的短語。因此,完成單詞評分后,針對候選短語的詞頻特征和位置特征選取一些常用度量指標(biāo)可以增加候選短語成為關(guān)鍵短語的可能性。由于本文的設(shè)計場景是單文本關(guān)鍵詞提取,盡量不依賴于其它文本數(shù)據(jù),所以本文只取詞在單文本中出現(xiàn)的頻率

Wtf(p)=tf(p)

(4)

其中,Wtf(p) 指詞組p的詞頻權(quán)重;tf(p) 是詞組p在文檔中出現(xiàn)的次數(shù)。

位置特征有多個衡量指標(biāo),本文嘗試選取候選短語出現(xiàn)位置的分布指標(biāo),有以下考量:數(shù)據(jù)是由標(biāo)題和摘要整合在一起,位置特征不具備是否出現(xiàn)在段落開頭、是否出現(xiàn)在標(biāo)題中等條件,故用候選短語每次出現(xiàn)的位置作為權(quán)重,計算方法如下

(5)

其中,Wpos(p)指詞組p的位置權(quán)重;posi(p)是詞組第i次出現(xiàn)的位置,即詞組p前面的單詞個數(shù);|d| 是文本長度。

最后,整合詞組p的內(nèi)含單詞的評分、詞頻權(quán)重、位置權(quán)重計算詞組p最終得分,方法如下

sfinal(p)=s(p)*Wtf(p)*Wpos(p)

(6)

傳統(tǒng)的詞組評分方式對單詞的評分具有很強(qiáng)的依賴性,不同的單詞評分方法最終得出的關(guān)鍵短語有差異。文中用關(guān)鍵短語在有監(jiān)督方法中常有的特征,對候選短語進(jìn)行權(quán)重計算,能減少候選短語對于單詞評分結(jié)果的依賴,同時區(qū)分關(guān)鍵短語和非關(guān)鍵短語。

2 實驗結(jié)果和分析

2.1 數(shù)據(jù)集

實驗中使用3個科學(xué)出版物數(shù)據(jù)集KDD、WWW、SIGIR 全面評估本文的模型。KDD和WWW由(Gollapalli and Caragea 2014)提供,分別包含832、1347篇文章;SIGIR 由ACM信息檢索研究與發(fā)展會議的866篇文章組成。每篇文章包括題目,摘要和作者手工標(biāo)注的關(guān)鍵詞,見表2。

表2 實驗中使用的數(shù)據(jù)集

由表2可知,3個數(shù)據(jù)集有以下特征:①每篇論文平均有4個關(guān)鍵詞;②所有論文中二元關(guān)鍵短語占多數(shù),三元和三元以上的關(guān)鍵短語較少。

2.2 5個無監(jiān)督單詞評分方法

單詞的評分是計算多元詞組評分的前提。為了說明模型的有效性,本文選取了5種著名的無監(jiān)督單詞評分方法,具體介紹如下:

TF-IDF:最樸素的無監(jiān)督方法,盡管方法簡單,但提取效果好,是直接根據(jù)候選關(guān)鍵詞的TF-IDF值對其進(jìn)行打分排序。

TextRank:該方法首先用PageRank算法對詞圖中的候選關(guān)鍵詞進(jìn)行打分,其中邊權(quán)重是共現(xiàn)次數(shù),重啟概率設(shè)為1,即r(w)=1。

SingleTPR:該方法在PageRank算法的基礎(chǔ)上,首次使用LDA模型計算文檔的主題分布并將候選關(guān)鍵詞的主題信息融合到PageRank框架的重啟概率中。

WordAttractionRank:首次引入詞向量來增強(qiáng)單詞之間的語義關(guān)聯(lián),與TextRank相比,同樣修改的是PageRank框架的轉(zhuǎn)移概率。

PositionRank:將候選單詞在文檔中每次出現(xiàn)的位置加入至PageRank模型中,對重啟概率進(jìn)行了修改。

2.3 評估指標(biāo)

在關(guān)鍵詞提取的性能評估指標(biāo)中,廣泛采取以下4種指標(biāo):準(zhǔn)確率P、召回率R、F值、MRR對提取結(jié)果進(jìn)行測評,其定義如下

(7)

其中,C代表正確提取出關(guān)鍵詞的數(shù)目,E代表提取出的關(guān)鍵詞的數(shù)目,S是作者標(biāo)注的關(guān)鍵詞的個數(shù)。

MRR衡量每個文檔第一個被準(zhǔn)確提取的關(guān)鍵詞的排名情況,具體計算如下

(8)

|D|是目標(biāo)文檔集合,rd為文檔d第一個正確提取結(jié)果的排序。

2.4 實驗設(shè)置

為了驗證文本方法的合理性,取傳統(tǒng)的詞組評分方式和Florescu C等的方法作為對比實驗,以便下文敘述。傳統(tǒng)詞組評分方式命為sum(式(1)),mean(式(2)),F(xiàn)lorescu C等的方法命名為mean*tf,本文方法命名為mean*tf*pos。在mean方法中,為了使方法具有對比性,取φ為1/|p|,實驗結(jié)果見表3。

2.5 實驗結(jié)果

因文中所使用的3個數(shù)據(jù)集里每篇文章的平均關(guān)鍵詞個數(shù)為4(KDD的是4.08,WWW的是4.88,SIGIR的是3.81,見表2),故實驗中取topk=4評估實驗性能。

由表3可知,本文提出的mean*tf*pos方法明顯優(yōu)于其它3種詞組評分方式。例如,KDD數(shù)據(jù)集中,TF-IDF的mean*tf*pos方法的F值達(dá)到了0.173,mean方法的F值只有0.115;WWW數(shù)據(jù)集中,TextRank的mean*tf*pos 方法的F值相對于mean方法提升了5%;此外5種單詞評分方法的mean*tf*pos方法的F值在SIGIR數(shù)據(jù)集中相比較mean方法都大幅度提高,TextRank甚至高出了10個百分點。

表3 5種單詞評分方法提取關(guān)鍵短語方法對比/%(top k=4)

2.6 實驗結(jié)果分析

(1)實驗中的評估標(biāo)準(zhǔn)較嚴(yán)格,提取出的關(guān)鍵詞與標(biāo)注中給出的關(guān)鍵詞完全匹配才算一個正例,而非取詞干后匹配即可,故提升難度較大。

(2)后兩種短語評分方式因短語詞頻因素的加入顯著提升了實驗效果,可知利用詞頻有利于準(zhǔn)確提取關(guān)鍵短語;

(3)進(jìn)一步分析,當(dāng)數(shù)據(jù)較少,短語詞頻可能相同的情況時需要探討位置因素的作用。

統(tǒng)計3個數(shù)據(jù)集可知,短語詞頻集中于1次(54%)、2次(26%)、3次(15%),故后續(xù)實驗選取上述3種頻率以便分析這種情況。短語對比方法用mean*tf和mean*tf*pos。為方便比較,實驗中取F值評估實驗性能,結(jié)果見表4。

表4 不同頻次下短語位置的影響(F值/%)

觀察表4可知,在頻次為2時,5種單詞評分方法在加入位置因素后提取效果顯著提升;在頻次為1和3時,位置因素的作用有利有弊。如KDD數(shù)據(jù)集中,SingleTPR和WAR在頻次為1的時候加入位置因素后效果沒有單詞頻顯著;SIGIR數(shù)據(jù)集中,WAR和PositionRank在頻次為3的時候因位置因素的加入提升了提取結(jié)果。結(jié)合表3可知,本文的方法適用于候選短語頻次不同的情況。

(4)分析單詞評分的提取結(jié)果對抽取候選短語的影響。基于上述從短語統(tǒng)計層次著手進(jìn)行的研究,現(xiàn)從單詞的評分結(jié)果入手,認(rèn)為對比短語的sum方法可以間接地評判單詞評分的影響。sum方式是直接將短語包含單詞的評分相加,不同的單詞評分方式得到的單詞評分截然有異。比較5種單詞評分方法提取候選短語結(jié)果的F值,得圖1。

圖1 5種單詞評分方法提取結(jié)果對比

觀察圖1可知,在3類數(shù)據(jù)集中,TF-IDF和PositionRank在sum方法及其它3種短語評分方法中F值均最高;在KDD和SIGIR數(shù)據(jù)集中,當(dāng)SingleTPR和WAR在sum方法上的F值高于TextRank時,其在mean*tf,mean*tf*pos方法中F值略低于TextRank,但總體趨勢不變。

3 結(jié)束語

關(guān)鍵短語作為科技文獻(xiàn)的主題,相對于關(guān)鍵詞更能體現(xiàn)作者的主體思想。本文針對傳統(tǒng)關(guān)鍵短語提取方法受短語長度影響的缺點,提出了一種基于圖的關(guān)鍵短語評分方法,雖然增加了提取文本關(guān)鍵詞的復(fù)雜度,但獲得了較高的準(zhǔn)確率,有一定的應(yīng)用價值。

本文方法在數(shù)據(jù)預(yù)處理階段將標(biāo)題和摘要整合在一起并且嘗試在位置特征中選取候選短語每次出現(xiàn)的位置,但度量位置特征的指標(biāo)非常廣泛,未來可進(jìn)一步選用其它指標(biāo)檢驗所提出算法的有效性。

猜你喜歡
關(guān)鍵單詞特征
高考考好是關(guān)鍵
單詞連一連
如何表達(dá)“特征”
不忠誠的四個特征
看圖填單詞
抓住特征巧觀察
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
最難的單詞
主站蜘蛛池模板: 国产亚洲第一页| 一级黄色片网| 国产成人AV综合久久| 午夜三级在线| 亚洲一本大道在线| 日韩在线视频网| 精品成人免费自拍视频| 精品国产成人a在线观看| 国产精品欧美激情| 77777亚洲午夜久久多人| 久久久黄色片| 国产精品无码一区二区桃花视频| 99视频在线免费观看| 亚洲区视频在线观看| 日韩无码精品人妻| 国产成人高清精品免费软件| 亚洲视频欧美不卡| 久久黄色小视频| 成人精品在线观看| 夜夜操狠狠操| 国产真实二区一区在线亚洲 | 成人av手机在线观看| 亚洲精品无码不卡在线播放| 人妻免费无码不卡视频| 亚洲最大看欧美片网站地址| 久草视频福利在线观看| 91精品国产自产91精品资源| 亚洲性日韩精品一区二区| 亚洲综合在线网| 国产a网站| 中文字幕久久亚洲一区| 久久久久无码精品| 国产精品福利导航| 91尤物国产尤物福利在线| 国产欧美在线观看视频| 色香蕉网站| 美女亚洲一区| 高清国产va日韩亚洲免费午夜电影| 中文成人无码国产亚洲| 91精品国产一区自在线拍| 狼友av永久网站免费观看| 999在线免费视频| 丁香六月综合网| 国产成人无码Av在线播放无广告| 2021天堂在线亚洲精品专区| 国产在线视频欧美亚综合| 丰满少妇αⅴ无码区| 97se亚洲综合| www.日韩三级| 538精品在线观看| 欧美日韩国产精品va| 国产成人综合亚洲网址| 亚洲精品人成网线在线 | 18禁色诱爆乳网站| 国产无码网站在线观看| 国产在线自在拍91精品黑人| 国产丝袜精品| 鲁鲁鲁爽爽爽在线视频观看| 久久精品无码中文字幕| 国产精品亚洲αv天堂无码| 欧美精品高清| 久久不卡国产精品无码| 亚洲无码不卡网| 国产精品亚洲片在线va| 幺女国产一级毛片| 激情网址在线观看| 成年人国产视频| 在线观看亚洲天堂| 欧美在线三级| 亚洲视频色图| 国产成人91精品免费网址在线| 天天做天天爱夜夜爽毛片毛片| 中文字幕有乳无码| 精品国产成人a在线观看| 亚洲第七页| 亚洲精品国产精品乱码不卞| 亚洲最新网址| 国产一级在线观看www色| 精品国产成人三级在线观看| 老司国产精品视频91| 综合色在线| 麻豆精品在线|