999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TAKE的中文關(guān)鍵短語提取算法研究

2020-05-20 01:18:56劉晨暉張德生
計算機工程與應(yīng)用 2020年10期
關(guān)鍵詞:關(guān)鍵文本

劉晨暉,張德生,胡 鋼

西安理工大學(xué) 理學(xué)院,西安 710054

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,中國整體的網(wǎng)絡(luò)使用量也呈指數(shù)形式的增長。迄今為止,我國現(xiàn)有常駐網(wǎng)民數(shù)量已達(dá)到7億。隨著時間的推移,這個數(shù)量仍呈現(xiàn)直線攀升的趨勢。而大規(guī)模的網(wǎng)民數(shù)量和日益成熟的網(wǎng)絡(luò)技術(shù)將帶來大量的網(wǎng)絡(luò)信息。而在這些信息中,文本信息是最原始有效的數(shù)據(jù)表現(xiàn)形式,因此隨著大數(shù)據(jù)時代的來臨,文本挖掘[1]作為數(shù)據(jù)挖掘一項極為重要的研究領(lǐng)域被一些學(xué)者所提出。本文所研究的文本關(guān)鍵短語提取技術(shù)[2]則是文本挖掘工作的一項基礎(chǔ)性內(nèi)容。

文本關(guān)鍵短語提取技術(shù)是基于語言學(xué)、認(rèn)知科學(xué)、心理學(xué)、社會學(xué)和統(tǒng)計學(xué)等相關(guān)知識,挖掘多個詞語或短語,來良好地刻畫文章、文檔或某類主題的文本關(guān)鍵信息提取技術(shù)[3-4]。傳統(tǒng)的關(guān)鍵短語提取技術(shù)[4-5]所提取的關(guān)鍵短語準(zhǔn)確率較低,短語歧義性強,并且承載信息量較少,因而無法很好地刻畫文章的主旨信息。

基于以上問題,本文在英文關(guān)鍵短語提取算法TAKE(Totally Automated Keyword Extraction)[6]的基礎(chǔ)上,加入適合中文文本的中文分詞器和新詞識別算法,并改進(jìn)原有算法的詞語過濾和特征計算方法,提出一種改進(jìn)的TAKE算法(簡稱本文算法)。

2 相關(guān)工作

文本關(guān)鍵短語提取技術(shù)的研究最早開始于美國,IBM 公司的Luhn[7]提出了基于詞頻統(tǒng)計的文獻(xiàn)自動標(biāo)引方法,這也標(biāo)志著關(guān)鍵短語自動抽取研究與應(yīng)用的開始。之后,Edmundson在前人的理論基礎(chǔ)上真正意義上設(shè)計實現(xiàn)了最早的關(guān)鍵短語自動抽取系統(tǒng)。而后,許多研究人員加入到相應(yīng)領(lǐng)域的研究中,形成了基于規(guī)則、基于語義、基于統(tǒng)計、基于主題等多個技術(shù)體系。

基于規(guī)則[4]就是基于機器學(xué)習(xí)等相關(guān)計算機知識建立規(guī)則來提取關(guān)鍵短語。早期有非常經(jīng)典的KEA[8]系統(tǒng)。KEA 是利用有監(jiān)督的機器學(xué)習(xí)方法,在訓(xùn)練模型中引入候選詞特征值的概念來建立較為精確的模型。隨后,Tomokiyo等[9]提取關(guān)鍵詞的方法則是基于信息論中KL 散度來對候選詞進(jìn)行排名,提取關(guān)鍵短語。發(fā)展至今,相對主流的方法則是基于網(wǎng)絡(luò)圖的TextRank[10]方法。

基于語義[11]就是通過語法剖析句子結(jié)構(gòu),通過計算機學(xué)習(xí)人類理解句子的方式來提取文章關(guān)鍵主旨,但這少不了外界知識庫、語義詞典作為相關(guān)訓(xùn)練集。Ercan等[12]所提出基于詞匯鏈進(jìn)行語義分析和索紅光等[13]利用“知網(wǎng)”構(gòu)建詞匯鏈提取關(guān)鍵詞都在基于語義的關(guān)鍵短語提取上有所突破。當(dāng)然,單純使用基于語義的方式也存在著很大的缺陷,這主要源于它過于依賴原有的外界知識,可能造成模型產(chǎn)生過擬合且移植性較差。

基于統(tǒng)計就是通過統(tǒng)計學(xué)相關(guān)知識建立統(tǒng)計量來合理量化短語的各個特征,并通過量化結(jié)果進(jìn)行排序,提取關(guān)鍵短語。Salton 等最早提出了相對成熟的基于統(tǒng)計的關(guān)鍵短語提取算法TF-IDF(Term Frequency-Inverse Document Frequency)[14],該方法通過詞頻和逆文檔頻率來構(gòu)造統(tǒng)計量刻畫短語的關(guān)鍵程度。但這樣只考慮頻率來定義統(tǒng)計量過于粗糙,將造成很多不能代表文章的低頻短語或詞語被提取出來。近年來,如文獻(xiàn)[15-17]等許多文章比較成功地將TF-IDF進(jìn)行改進(jìn)并應(yīng)用到中文關(guān)鍵短語挖掘當(dāng)中。但這些改進(jìn)方法大都針對于某些特定領(lǐng)域的中文語料,由于特定領(lǐng)域的中文語料本身攜帶有一定的先驗知識,此類文章多數(shù)通過先驗知識訓(xùn)練機器學(xué)習(xí)模型再與TF-IDF 相融合,或依據(jù)先驗知識在原有TF-IDF統(tǒng)計量中加入量化的短語特征來完成改進(jìn)。少部分不限制語料領(lǐng)域范圍的文章在沒有先驗知識的情況下,都是通過無監(jiān)督的機器學(xué)習(xí)融合TF-IDF 進(jìn)行算法改進(jìn),它們的主要缺點在于精確率較低且算法的時間成本較高。總體上看,目前國內(nèi)現(xiàn)有的TF-IDF 改進(jìn)算法缺少大規(guī)模的用戶使用檢測,僅通過論文中的小規(guī)模數(shù)據(jù)無法真正意義地說明相關(guān)算法的實用性與穩(wěn)定性。因此國內(nèi)外大多數(shù)論文仍沿用經(jīng)典的TF-IDF算法作為相關(guān)實驗的對比算法。

隨后,Blei等[18]提出的LDA(Latent Dirichlet Allocation)關(guān)鍵短語提取算法認(rèn)為詞語、主題、文章之間都存在有一定概率分布,一篇文章由隨機的主題組成,而主題則由隨機的詞語構(gòu)成,通過先后驗概率模型對每個短語建立得分統(tǒng)計量進(jìn)行短語排名來提取關(guān)鍵短語。這也開創(chuàng)了基于主題的中文關(guān)鍵短語提取技術(shù)的先河。而后,關(guān)于LDA 算法結(jié)構(gòu)改進(jìn)且無文本領(lǐng)域限制的相關(guān)論文較少,如文獻(xiàn)[19]都是基于微博、短文本等特定文本領(lǐng)域的LDA算法改進(jìn)。此后大多數(shù)相關(guān)論文都是對于LDA 算法的實際應(yīng)用。從2012 年至今,LDA算法被廣泛應(yīng)用于分類器、文本聚類、模式識別、語義情感分析等相關(guān)領(lǐng)域的研究當(dāng)中。因此LDA至今仍被作為一個經(jīng)典的關(guān)鍵短語提取算法參與到相關(guān)領(lǐng)域論文的對比實驗當(dāng)中。

隨著時間的推移,單純基于某一方面的關(guān)鍵短語自動提取算法已經(jīng)成為了歷史,取而代之的是基于多領(lǐng)域融合的關(guān)鍵短語自動提取技術(shù)。在IEEE大數(shù)據(jù)國際會議上Pay 提出的TAKE[6]算法就是近年來比較完善的英文關(guān)鍵短語提取技術(shù)。他在文獻(xiàn)[20]的基礎(chǔ)上通過加入詞語詞性、詞語位置、停詞約束等多項特征而提出了一種英文關(guān)鍵短語自動提取算法。本文算法也是在該算法的基礎(chǔ)上改進(jìn)并應(yīng)用于中文文本當(dāng)中。

3 TAKE算法

3.1 整理框架

本文將TAKE 算法完整步驟整理到圖1 的框架圖中。其中:候選提取是從文本語料中提取候選關(guān)鍵單詞或短語集合;詞語過濾是通過單詞在文中的詞性、位置等特征,從候選關(guān)鍵詞中篩選出更有可能是關(guān)鍵詞的詞匯;特征計算是通過頻率、度等特征,建立統(tǒng)計量對過濾后的候選關(guān)鍵詞進(jìn)行量化排名;閾值函數(shù)是設(shè)定一定的閾值,從量化排名的結(jié)果中提取得分超過閾值的關(guān)鍵詞或短語作為文章關(guān)鍵短語。

圖1 TAKE算法的整體框架

3.2 候選提取

候選提取就是將原始語料構(gòu)建成候選詞語集的過程。由于TAKE算法針對英文文本,因此原文通過標(biāo)點符號將文本分割成語句,再通過空格將語句分割成單詞,最終將所有單詞構(gòu)建成候選關(guān)鍵詞語集合。

3.3 詞語過濾

詞語過濾是通過詞語詞性、位置以及是否為停用詞(無具體實際意義的常用詞匯)來重構(gòu)候選關(guān)鍵短語集合。原文首先對所有候選單詞進(jìn)行詞性標(biāo)注,然后找出詞語中的停用詞,將相鄰兩個停用詞之間的所有單詞按原文順序組合成候選短語放入候選短語集中。接下來TAKE 認(rèn)為英文中含有意義的短語一定是多個形容詞加名詞的詞性組合方式,因此去掉所有不屬于上述組合方式的短語。最后原文認(rèn)為短語出現(xiàn)頻率不大于1,并且不出現(xiàn)在文章首尾10%以及標(biāo)題中的短語極大可能性不是關(guān)鍵短語,因此原文刪除這些不符合上述條件的候選短語。

3.4 特征計算

特征計算是通過單詞頻數(shù)和度的量化指標(biāo)建立統(tǒng)計量排序候選短語集中所有短語的過程。其中一個單詞的頻數(shù)是計算候選短語集中該單詞獨立出現(xiàn)的次數(shù),度是單詞在候選集中總共出現(xiàn)的次數(shù)(包括該單詞涵蓋在某個短語內(nèi))。接下來原文將度和頻數(shù)的比值作為該單詞的最后得分,如果短語是由多個單詞構(gòu)成,那么短語的得分將是組成它所有單詞的得分總和。

3.5 閾值函數(shù)

閾值函數(shù)就是通過某個標(biāo)準(zhǔn)定義一個閾值,讓候選短語集中的所有得分大于閾值的短語作為文章關(guān)鍵短語。原文的閾值定義標(biāo)準(zhǔn)有很多,最終主要由實際情況而定,比如取候選集中得分的平均值或眾數(shù)作為閾值,當(dāng)然也可以規(guī)定取得分前幾名作為閾值。至此便完成TAKE算法的最后一步。

4 本文算法

下面給出兩個定義,方便解釋本文算法。

定義1 詞語在漢語中的定義非常含糊,不同于英文文本,中文字、詞、短語之間的界限很難有一個統(tǒng)一完整的定義。因此本文將分詞后的每一個最小單元稱為詞語,如“數(shù)據(jù)”“挖掘”“是”“有”“必要”“的”都可以稱為詞語。

定義2 本文將中文短語定義為詞語(定義1)的有序組合,如“數(shù)據(jù)挖掘”“有必要的”。

4.1 本文算法結(jié)構(gòu)

將本文算法的整體流程整理到圖2 的框架圖中。其中文本分詞是因為本文主要針對中文文本,所以要在原文的基礎(chǔ)上加入中文分詞系統(tǒng);新詞識別主要因為中文詞語概念含糊并且結(jié)構(gòu)復(fù)雜多樣,所以有必要在原文的基礎(chǔ)上加入新詞識別方法重構(gòu)分詞結(jié)果;詞語合并與原算法的候選提取類似;特征融合是在TAKE的詞語過濾和特征計算的基礎(chǔ)上加入更多約束條件改進(jìn)完成的。

圖2 本文算法整體框架

4.2 文本分詞

因為TAKE是針對英文文本而言,所以分詞過程只需要借助天然的空格即可分割單詞。而中文文本由于語言特征等一系列原因,導(dǎo)致分詞過程處理起來十分復(fù)雜,因此本文加入了jieba分詞器作為本文的分詞工具,并將分割好的詞匯通過已有的詞匯庫標(biāo)注詞語詞性,詞匯庫未命中詞匯按名詞屬性標(biāo)注。

4.3 新詞識別

本文的新詞(本文指未被傳統(tǒng)詞匯庫羅列的詞匯)識別采用基于多領(lǐng)域特異性的新詞識別算法。由于中文新詞通常只流行于某些領(lǐng)域,傳統(tǒng)的中文詞語庫不會羅列相關(guān)詞語,因此它們常會被分詞系統(tǒng)錯誤分割為不正確的詞語,如“給/力”“高/富/帥”“數(shù)據(jù)/挖掘”等。

新詞雖然結(jié)構(gòu)多樣不易挖掘,但新詞卻有很多垃圾串(本文指非新詞)所不具有的屬性。組成新詞的各個詞語一般很少含有停用詞,并且如果某個詞語是一個專業(yè)領(lǐng)域的詞匯,那么在這個領(lǐng)域的文章中組成該詞匯的所有詞語一定大量共現(xiàn)。另一點區(qū)別在于專業(yè)領(lǐng)域詞匯通常只會大量出現(xiàn)在某些特定領(lǐng)域,而垃圾串通常在各種領(lǐng)域出現(xiàn)的概率都是均等的。如“數(shù)據(jù)挖掘”人們很難在某個文學(xué)期刊中看到,但“數(shù)據(jù)”在各個領(lǐng)域都會經(jīng)常用到。但僅基于以上特征的篩選是過于“粗魯”的,因此本文還設(shè)定了3個指標(biāo)構(gòu)建了新詞得分函數(shù)。這3個指標(biāo)分別是覆蓋率、聚合力、自由度。

覆蓋率就是這個候選新詞在文中出現(xiàn)的頻率。聚合力即 EMI(Enhanced Mutual Information)[21]指標(biāo),它的具體定義將在式(1)中給出。該指標(biāo)認(rèn)為如果某個詞可能是新詞,那么組成它的詞語一定大概率共現(xiàn)。如“支持”“向量”“機”在機器學(xué)習(xí)領(lǐng)域中通常都會同時出現(xiàn)。自由度是指左右糾纏熵[22]指標(biāo),具體定義如式(2)、(3)所示。這個指標(biāo)認(rèn)為如果某個詞可以構(gòu)成新詞,那么它在文中向左向右的拓展性應(yīng)該很高。如“屌絲”經(jīng)常在文中可以組成“是屌絲”“老屌絲”“屌絲是”“屌絲認(rèn)為”等短語。

式(1)中,候選新詞w由詞語集 (w1,w2,…,wT)組成,n表示詞語出現(xiàn)頻數(shù)。式(2)中,f(wL)表示候選新詞w所有向左結(jié)合成不同短語的數(shù)量,f(wj)表示w向左結(jié)合成某個短語的數(shù)量,l表示候選新詞w在文本中向左可以結(jié)合成多少種短語。式(3)的定義完全和式(2)相反,它是向右結(jié)合。

最終給出新詞的得分公式,該公式是根據(jù)以上統(tǒng)計量綜合給出,具體定義如式(4)所示。

其中,q(w)表示候選新詞w出現(xiàn)的頻率,EMI(w)、L(w)、R(w)如式(1)、(2)、(3)所示,α、β、χ、δ代表4個權(quán)重參數(shù),并且α+β+χ=1(α,β,χ,δ∈[0,1])。

基于以上所有討論,本文將新詞識別整理成如下偽代碼。

輸入:多篇來自n個領(lǐng)域文章經(jīng)過分詞后的詞語集合Wi(i∈ {1,2,…,n})。

輸出:新詞集合Ni。

1. 將每個Wi中的詞語按順序與之后的詞語組合,最多只能組合3次并放入候選新詞集NWi中;

2. 過濾掉候選新詞集合中組合詞語出現(xiàn)次數(shù)小于組成它詞語獨立出現(xiàn)次數(shù)最大值的組合詞語。

3. 去掉含有停止詞的組合詞語。

4. whilei

5. forwinNWi:

6. ifwinNWj(j≠i):

7. 從NWi中刪除w;

8. end if;

9. end for;

10. ++i;

11. whilei

12. forwinNWi:

13. 將R(w)放入新詞集合Qi;

14. end for;

15. ++i;

16. 設(shè)立閾值k;

17. foriinn:

18. 從Qi中提取數(shù)值最大的k個w放入集合Ni。

19. end for;

20. returnN;

其中R(w)的計算如式(4)所示,k表示給定的閾值。

4.4 詞語合并

詞語合并首先就是根據(jù)新詞識別后所給予的新詞集合Ni對原有文本重新分詞。

之后標(biāo)記所有分詞結(jié)果的詞語屬性,新詞庫中的詞匯都按名詞處理。TAKE算法用停用詞作為標(biāo)識,合并相鄰?fù)S迷~之間的單詞。但這對于中文而言不夠合理,因為中文語句相對于英文語句中的停止詞兩兩間隔較長,這不利于挖掘真正的關(guān)鍵短語。因此本文接下來除了標(biāo)記停用詞以外,還將標(biāo)記所有除名詞、形容詞、動詞以外的詞匯,并將標(biāo)記詞匯之間的詞語結(jié)合成候選短語放入候選短語集中,再將在文中出現(xiàn)頻數(shù)等于1的短語剔除。

最后,本文考慮到英文中動詞修飾名詞時經(jīng)常使用動名詞的形式,如“datamining”中“mining”就從動詞標(biāo)記轉(zhuǎn)化為名詞標(biāo)記,因此TAKE才會剔除所有不是名詞結(jié)尾的候選短語。但這對中文來講將產(chǎn)生很多問題,如“數(shù)據(jù)挖掘”中“挖掘”在中文標(biāo)注下仍然是動詞詞性,如果剔除了非名詞結(jié)尾的短語,那么關(guān)鍵短語“數(shù)據(jù)挖掘”將被“魯莽”剔除。基于這些討論,本文將剔除所有不含名詞以及名詞和動詞不作短語結(jié)尾的候選短語。

4.5 特征融合

特征融合就是通過候選短語的頻率、共線性、短語性等多個短語特征,構(gòu)建統(tǒng)計量排序候選短語的過程。TAKE 僅使用度與頻數(shù)的比值作為得分函數(shù)排序短語的做法過于“粗魯”,如果“數(shù)據(jù)挖掘”出現(xiàn)次數(shù)較多,但原文中也經(jīng)常使用高頻詞“數(shù)據(jù)”單獨出現(xiàn),那么“數(shù)據(jù)挖掘”最終在TAKE 中的得分卻會比較低。與此同時TAKE所使用的詞語累加得分的方式也比較“粗糙”,這種做法過于偏向短語的超集,如“支持向量機”與“支持向量機構(gòu)造方法”同在候選關(guān)鍵短語集中出現(xiàn),那么后者的得分將一定高于前者。但通常情況下,人們更能接受“支持向量機”作為關(guān)鍵短語。基于以上討論,本文提出了特征融合算法來排序候選短語。在此之前本文提出兩個新的概念:短語性、純潔性。

短語性是基于候選短語的無歧義而提出的。短語無歧義就是指短語易于理解、語法正確、語義完整的短語。如“數(shù)據(jù)挖掘造成模型”“數(shù)”都是短語表達(dá)存在歧義且不完整的短語,而“數(shù)據(jù)挖掘”則是一個良好無歧義的短語。經(jīng)過大量實驗說明,關(guān)鍵短語的長度大都集中在4 字左右。另一方面通常“支持向量”與“機”的條件概率一定會遠(yuǎn)大于“支持向量機”與“造成”的概率。因為“支持向量機”的共現(xiàn)可能必將會大于“支持向量機造成”的共現(xiàn)概率,這也源于“造成”與“支持向量機”搭配的不穩(wěn)定性,使得“支持向量機造成”很有可能不是一個常有的固定搭配。基于以上討論,本文提出了短語性統(tǒng)計量,如式(5)、(6)所示:

其中,l(w) 代表短語w的長度,a1+a2+a3+a4+a5+a6=1 為式(5)中參數(shù)的約束條件。D(w)表示短語w的短語性。P((w1,w2,…,wi-1)|wi)表示順序組成短語w的詞語集合(w1,w2,…,wi)的條件概率。

純潔性是基于短語詞性而提出的。通常在關(guān)鍵短語中起主導(dǎo)作用的是名詞詞語,而形容詞和動詞都是對于名詞的補充與修飾,如“數(shù)據(jù)挖掘”是“數(shù)據(jù)”被動詞“挖掘”的一種修飾,當(dāng)關(guān)鍵詞中只出現(xiàn)“數(shù)據(jù)”而沒有出現(xiàn)“挖掘”時,通常人們都可以聯(lián)想到這是一篇與數(shù)據(jù)相關(guān)的文章,但反之,人們會對于文章內(nèi)容毫無頭緒。基于以上討論,本文提出了純潔性,具體定義在式(7)中給出。

其中,C(w)表示短語w的純潔性,w表示候選短語,e+f+g+h=1 是參數(shù)的約束公式。

最后,基于式(6)、(7)以及TAKE的得分函數(shù),本文定義了排序函數(shù),具體定義如式(8)、(9)所示。

其中,短語w由詞語集(w1,w2,…,wn)順序組成。deg(wi)表示詞語wi總共出現(xiàn)的頻率,freq(wi)表示詞語wi單獨出現(xiàn)的頻率。λ1、λ2、λ3為 3 個權(quán)重參數(shù),λ1+λ2+λ3=1 是相應(yīng)的參數(shù)約束條件。

最終本文在閾值函數(shù)的選取上沿用TAKE 算法的選取方式。但現(xiàn)今大多數(shù)應(yīng)用場景對于關(guān)鍵詞位的數(shù)量是給定的,因此本文僅在不要求關(guān)鍵詞數(shù)量的情況下沿用TAKE的閾值函數(shù)。

5 實驗分析

為檢驗本文方法的提取效果,通過以下實驗結(jié)果加以說明。本文語料庫來源于百度文庫純文本文章219篇,其涉及領(lǐng)域有文學(xué)散文(21 篇)、數(shù)據(jù)挖掘(24 篇)、歷史典故(22 篇)、時政方針(23 篇)、自然科學(xué)(31 篇)。具體信息如表1所示。

表1 語料信息

5.1 評判標(biāo)準(zhǔn)

本文實驗采用國內(nèi)外公認(rèn)的精確率P、召回率R、F值作為結(jié)果評判標(biāo)準(zhǔn),具體定義如式(10)、(11)、(12)所示。

其中,r表示每個主題候選短語集合中選取的短語個數(shù);s表示每個主題實際的關(guān)鍵短語個數(shù);c表示每個主題下所抽取的關(guān)鍵短語對照該主題下實際關(guān)鍵短語的正確匹配個數(shù)。

5.2 實驗參數(shù)

首先確定4.3 節(jié)中新詞識別的各個參數(shù),本文通過5.1 節(jié)的實驗語料人工標(biāo)記新詞,通過最終的F值指標(biāo)給定新詞識別中的各個參數(shù)。其中參數(shù)α、β、χ具體選定過程如表2 所示。表2 中F值是閾值k分別取1、5、10 且參數(shù)δ分別取0.1、0.4、0.9 自由排列組合后,α、β、χ取表中各數(shù)值時的平均F值。從表2中可以看出,當(dāng)α、β、χ取0.4、0.3、0.3時,可以得到最大的F值,因此本文后續(xù)實驗都采用以上的數(shù)值設(shè)定參數(shù)α、β、χ。從結(jié)果中不難看出,式(4)中各個特征對于新詞的鑒定都十分重要,因此這3個指標(biāo)的權(quán)重數(shù)值較為接近時可以取得最大F值。

表2 α、β、χ 的 F 值走勢

接下來在以上參數(shù)確定的基礎(chǔ)上將δ以不同數(shù)值帶入式(4)中,通過5.1節(jié)中所提供實驗語料求出相應(yīng)的F值完成實驗,如圖3所示。圖3中的F值是參數(shù)k分別取 1、5、9 時相應(yīng)參數(shù)δ的平均F值。從圖 3 中可以看出,當(dāng)δ取0.1時,相應(yīng)的F值會達(dá)到最大,隨著數(shù)值不斷接近于1,相應(yīng)的F值也在不斷地變小。因此本文將δ確定為0.1。

圖3 δ-F 關(guān)系對比圖

在圖2、圖3 的實驗基礎(chǔ)上,本文賦予k不同取值,在相應(yīng)取值下通過F值的走勢來確定參數(shù)k的最終取值。具體結(jié)果如圖4所示,其中當(dāng)k=0 時召回率和精確率公式的分子為0,因此F值指標(biāo)也為0,當(dāng)隨著參數(shù)k的不斷變大F值也在相應(yīng)增大,當(dāng)與實驗語料真正的新詞個數(shù)匹配時會達(dá)到F值的峰值點,如果超過峰值這個零界點繼續(xù)增大k時相應(yīng)的F值也在變小。從圖4中可以看出,零界點在數(shù)值5 左右,因此本文在后續(xù)實驗中確定參數(shù)k的值為5。

圖4 k-F 關(guān)系對比圖

最終需要確定式(5)、(7)、(9)中的相關(guān)參數(shù),其中通過人工標(biāo)記的關(guān)鍵短語完成式(5)中參數(shù)a1、a2、a3、a4、a5、a6和式(7)中參數(shù)e、f、g、h的定值實驗,具體結(jié)果如表3、表4所示。

表3 不同短語長度數(shù)量占比表

表4 不同名詞數(shù)量短語占比表

表3中長度表示關(guān)鍵短語的長度,占比表示該長度下的短語數(shù)量在總體關(guān)鍵短語中的占比。由于5.1 節(jié)中實驗語料均為隨機抽取,因此給定式(5)中相關(guān)參數(shù):a1=0.14、a2=0.09、a3=0.39、a4=0.29、a5=0.07、a6=0.02。從實驗結(jié)果中不難看出,中文關(guān)鍵短語長度大概率集中在4 到5,這也與人們的中文語言習(xí)慣有很大的相關(guān)性。

表4 是對式(7)中參數(shù)的定值實驗結(jié)果,其中名詞數(shù)量代表該短語中所包含的名詞詞語數(shù)量,占比與表3的含義相似。通過實驗結(jié)果,將參數(shù)e、f、g、h分別定為0.11,0.56,0.29,0.04。可以看出,大多數(shù)關(guān)鍵短語都是由兩個或一個名詞詞語組成,這主要是因為通常名詞充當(dāng)另一個名詞補語大都只使用一次。如果兩個名詞修飾一個名詞多會摻雜其他詞性的修飾語來保證語義符合語法,但這樣會使得整個短語長度過長,從而促使短語歧義性增強,因此才會出現(xiàn)表4 所示的統(tǒng)計結(jié)果。從中可以看出一個關(guān)鍵短語中大都只含有一個或兩個名詞性的詞語。

通過以上參數(shù)的確定,將最終確定式(9)中相關(guān)參數(shù)。本文同樣通過賦予參數(shù)λ1、λ2、λ3不同數(shù)值后F值的不同表現(xiàn)確定參數(shù)的實際數(shù)值,具體實驗結(jié)果如表5所示。從表5中可以看出,式(9)中的任何一個指標(biāo)都對最終結(jié)果產(chǎn)生很大影響,但其中純潔性特征的影響較弱。根據(jù)結(jié)果,本文將實驗參數(shù)λ1、λ2、λ3確定為0.4、0.2、0.4。

表5 λ1、λ2、λ3 的 F 值走勢表

5.3 實驗結(jié)果

根據(jù)5.2 節(jié)的實驗參數(shù),在表6 中展示本文算法與傳統(tǒng)經(jīng)典中文關(guān)鍵短語提取算法TF-IDF、TextRank 和LDA 的對比實驗結(jié)果。由于本文所改進(jìn)算法TAKE 只能對英文文本做關(guān)鍵詞自動提取,因此本文不做比較。最終實驗采用Linux X86作為軟件運行環(huán)境,其中jieba分詞系統(tǒng)采用自帶常用詞典;停詞庫由百度文庫提供的1 893個停用詞組成,算法由C++實現(xiàn),gdb調(diào)試,具體實驗結(jié)果見表6。

表6 四種算法基于P、R、F 的對比結(jié)果

從表6 中可以看出,TextRank、IF-IDF、LDA 算法在準(zhǔn)確率上與本文算法相比偏低,這說明每種算法在取相同數(shù)目的關(guān)鍵短語時,本文算法所提取關(guān)鍵短語與正確關(guān)鍵短語的匹配程度更高,即式(10)中的c大于其他對比算法。這也導(dǎo)致本文算法在召回率,即式(11)上分母相同的情況下分子大于其他算法,因此相對于其他三種對比算法在召回率上有更為良好的表現(xiàn)。因為F值指標(biāo)是對準(zhǔn)確率和召回率的綜合衡量,所以表6中本文算法在F值上要遠(yuǎn)高于其他對比算法。這也說明了本文算法在關(guān)鍵短語提取上更貼近文章主題。

6 結(jié)束語

本文針對英文關(guān)鍵短語提取算法TAKE 進(jìn)行了文本分詞、新詞識別、特征融合等一系列有效改進(jìn),所提出的本文算法成功運用于中文文本的關(guān)鍵詞自動抽取當(dāng)中。通過與經(jīng)典的中文關(guān)鍵短語提取算法進(jìn)行對比,本文算法在精確率、召回率和F值上具有更高的量化表現(xiàn),說明了本文算法的主題關(guān)鍵短語提取效果更加良好。與此同時,本文算法仍有很大的改進(jìn)空間,例如加入更多的先驗知識優(yōu)化本文算法的約束規(guī)則,添加機器學(xué)習(xí)相關(guān)算法等。

猜你喜歡
關(guān)鍵文本
高考考好是關(guān)鍵
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
走好關(guān)鍵“五步” 加強自身建設(shè)
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
生意無大小,關(guān)鍵是怎么做?
中國商人(2013年1期)2013-12-04 08:52:52
主站蜘蛛池模板: 日韩国产亚洲一区二区在线观看| 亚洲欧美不卡| 国产精品手机在线观看你懂的| 国产欧美日韩精品第二区| 国产精品亚洲а∨天堂免下载| 极品av一区二区| 欧美在线网| 伊人成人在线视频| 亚洲av综合网| 小说 亚洲 无码 精品| 71pao成人国产永久免费视频| 中文字幕人妻av一区二区| 日韩亚洲高清一区二区| 另类重口100页在线播放| 久草网视频在线| 免费一级无码在线网站| 欧美日韩国产系列在线观看| h网站在线播放| 国产va视频| 2022国产无码在线| 精品撒尿视频一区二区三区| 国产成人在线无码免费视频| 狠狠色狠狠综合久久| 91精品国产91久久久久久三级| 亚洲IV视频免费在线光看| 日本精品一在线观看视频| 国语少妇高潮| 欧美亚洲一二三区| 欧美一级色视频| 一级毛片高清| 国产午夜精品鲁丝片| 伊人丁香五月天久久综合| 丰满的少妇人妻无码区| 视频一区视频二区中文精品| 国禁国产you女视频网站| 91亚洲视频下载| 欧美日韩一区二区三区四区在线观看| 日本午夜影院| 99偷拍视频精品一区二区| 国产精选自拍| 欧美成人午夜在线全部免费| 亚洲精品老司机| 欧美色亚洲| 欧美视频在线观看第一页| 亚洲系列无码专区偷窥无码| 亚洲一区二区精品无码久久久| 午夜激情福利视频| 久久黄色免费电影| 亚洲欧美日韩精品专区| 再看日本中文字幕在线观看| 久久亚洲国产一区二区| 超碰91免费人妻| 国产乱子伦视频在线播放| 国产亚洲视频播放9000| 国产女人在线观看| 91精品综合| 福利国产在线| 国产免费网址| 国语少妇高潮| 国产激情影院| 色噜噜中文网| 99ri国产在线| 少妇高潮惨叫久久久久久| 国产国产人在线成免费视频狼人色| 国产微拍精品| 丝袜国产一区| 精品无码专区亚洲| 波多野结衣一区二区三区AV| 免费一级毛片在线观看| 精品国产网| 狠狠色香婷婷久久亚洲精品| 亚洲女人在线| 久久久久亚洲AV成人人电影软件| 国产精品视频观看裸模| 国产在线观看精品| 老司国产精品视频91| 又粗又大又爽又紧免费视频| 亚洲欧洲一区二区三区| Jizz国产色系免费| 国模沟沟一区二区三区| 亚洲天堂自拍| 亚洲一区二区日韩欧美gif|