999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于萬有引力改進的TextRank關鍵詞提取算法

2020-07-13 12:56:26孫福權張靜靜劉冰玉姜玉山多允慧
計算機應用與軟件 2020年7期
關鍵詞:語義方法模型

孫福權 張靜靜 劉冰玉* 姜玉山 多允慧

1(東北大學秦皇島分校 河北 秦皇島 066004)2(東北大學 遼寧 沈陽 110819)

0 引 言

文本文檔可以由一個或多個簡單而有意義的關鍵詞來表示,通過關鍵詞可以了解作者的寫作意圖。關鍵詞提取技術在文本分類、文本摘要提取、文本聚類、情感分析、信息檢索等領域發揮重要作用[1],且關鍵詞提取在新聞以及其他領域均得到了較為廣泛的應用。為此眾多學者致力于關鍵詞提取的研究[2-4]。Shrawankar等[4]結合自然語言處理的解析技術,采用關鍵字和關鍵短語組合的方法構造出合適標題,從而有助于讀者減少閱讀時間以獲取完整想法。

現有的關鍵詞提取算法主要包括基于無監督的學習模式和有監督的學習模式[5]。但是基于有監督的學習需要大量的、高質量的標注語料,耗費大量的人力物力。因此,目前無監督提取關鍵詞的方法仍為主流方法,無監督方法是將提取任務轉化為一個排序問題,從而克服訓練語料庫和領域偏差的關鍵挑戰。其中基于詞圖模型、主題模型和TF-IDF詞頻統計的算法為關鍵詞提取的主要算法。其中基于TF-IDF統計關鍵詞簡單易行[6],但是這種方法忽略了低頻詞、詞語內部之間的語義關系和文本中主題關系的影響。TextRank算法[7]利用詞語構成圖模型,并根據詞語之間的共現頻率迭代計算得到關鍵詞。該方法利用文本自身信息就可以獲取候選關鍵詞,具有簡潔性,故本文采用該算法作為研究的基礎算法。

原始的TextRank算法借助于轉移概率對詞語在文檔中的權重進行測算,導致了將高頻詞匯作為關鍵詞行為的發生。因此Biswas等[8]利用影響節點權重的不同參數,如詞語的頻率、位置、相鄰關鍵詞字的強度等,提出了一種新的基于無監督圖的關鍵詞提取方法,結果表明根據詞語頻率、位置等信息可以提升關鍵詞的提取效果。Figueroa等[9]通過應用類似于反向傳播概念的錯誤反饋機制,增強了基于圖的關鍵詞提取方法。然而,單純地考慮文檔外部結構無法完成對關鍵詞的精準提取,還需要考慮文檔內部的語義關系對文檔的影響。Liu等[10]將傳統的隨機游走分解為針對不同主題的多組隨機游走,并構建特定詞圖模型,以衡量不同主題下詞語的重要性結合文檔的主題分布,提取排名靠前的詞語作為關鍵詞。顧益軍等[11]利用主題模型計算詞語在文檔中的主題影響度,將候選關鍵詞的重要性按照主題影響力和鄰接關系進行非均勻傳遞,構建詞圖模型。Wen等[12]對新聞稿件的關鍵詞提取方法進行了研究,利用Word2Vec計算詞語之間的相似度作為節點權重的轉移概率,簡單而有效地改善TextRank算法的性能。Qiu等[13]應用地質本身特性對基于深度學習的詞分布模型Word2vec進行了更新,將領域背景信息進行了鏈接,識別了不常見但具有代表性的關鍵短語。以上文獻在對關鍵詞進行提取時僅考慮了詞語的語義關系或者LDA主題影響度單一方面。為了更準確地對關鍵詞進行提取,充分利用文檔語義信息及結構信息,本文利用牛頓提出的萬有引力公式對TextRank算法進行改進。通過計算詞語之間的吸引力作為節點權重的轉移概率,迭代計算得到文檔中詞語的排序,實現關鍵詞的提取。

1 相關理論

1.1 Word2vec模型

Word2vec模型[14]是Mikolov等于2013年提出的,該模型可以通過淺層神經網絡對語料進行訓練,不需要人為干涉就可以把文檔中的詞語映射到向量空間,從而將每個詞表征為K維的實數向量。這種方式得到的詞向量具有語義關系,經典的式子就是king-man+woman=queen。Word2vec中的Skip-gram模型沒有考慮到中文的語法,忽略了詞的順序。本文通過建立CBOW(continuous bag-of-words)模型,實現對詞向量的獲取。

CBOW模型根據詞語所在文檔的前后文內容,對當前詞語的出現概率進行預測,當上下文出現時,對應的詞w出現的概率應越大越好。在CBOW模型中,詞向量屬于附加物,詞語的向量值處于循環往復的更新迭代過程中。CBOW模型包括輸入層、投影層和輸出層三個部分,如圖1所示。

圖1 CBOW模型

輸入層為當前訓練詞語周圍的詞語對應的詞向量,對應的詞向量是通過對訓練文檔中所有詞語去重后得到詞語表,利用詞語表獲得的詞語對應的one-hot編碼。投影層對輸入層中的詞向量進行簡單的求和操作。輸出層對獲取到的詞向量,利用Softmax函數將輸出層的神經元的值轉化為概率,得到詞語w。

1.2 計算詞語的主題影響度

Blei等[15]提出了LDA主題模型,該模型屬于無監督的貝葉斯模型,它可以將文檔集中的每篇文檔按照概率分布的形式給出。在LDA主題模型中,不同的文檔具有K個隱含主題,隱含主題又由多個詞語的多項式構成。在文檔生成的過程中,能以一定概率獲取不同的主題,從所獲取的主題中,能夠以一定概率提取到某個特征詞[16]。隱含主題模型的概率圖如圖2所示。

圖2 隱含主題模型LDA的概率圖表示

圖2中:φ(z)表示文檔主題下詞語概率分布;θ(d)表示文檔主題的分布;α表示θ(d)的超參;β表示φ(z)的超參。假設一篇文檔d由K個隱含主題的多項式表示,每個主題又由詞w的多項式分布表示,則可以通過θ(d)和φ(z)來計算每篇文檔中詞語w的主題影響力[11],且w出現在主題下的概率越大說明其在該文檔中更重要。文檔d中詞w的主題影響力為:

(1)

(2)

(3)

式中:num(d,z)表示文檔d分配給主題z的頻數;num(z,w)表示主題z分配給詞的頻數。

結合式(1)-式(3)可以得到詞w在文檔d下的主題影響力。

1.3 構建詞的圖模型

設圖G=(V,E),V是頂點集合,E是邊的集合。將文檔詞集合中的每個詞看作圖中的頂點V={w1,w2,…,wn}。圖模型中的邊是由文檔中詞語之間的共現關系得到。首先將新聞文檔利用句號、問號、嘆號等符號分句,然后對每句以特定窗口的大小滑動,計算詞語與詞語之間的共現頻率。其公式如下:

(4)

式中:freq(i,j)是詞語i、j在每句以特定窗口滑動時共現的次數;freq(i)、freq(j)分別是詞語i、j在每句以特定窗口滑動時出現的次數。

2 基于萬有引力的關鍵詞提取算法

牛頓提出,任何物體之間都有相互吸引力,這個力的大小與各物體的質量成正比例,與它們之間的距離的平方成反比[17]。本文利用萬有引力模型對TextRank算法進行改進,融合文檔中詞語的內部結構信息和詞語之間的語義信息提出了GTextRank算法。該算法的核心思想是具有較強吸引力的詞語可以對文本大致內容進行概括。

本文將文檔中的詞語象征性地表示為具有質量的物質,詞語與詞語之間具有相互吸引力,吸引力的大小用F表示。F與詞語質量以及萬有引力常數成正比,與詞語之間的距離成反比,因此合理地表示詞語的質量、萬有引力常數和恰當的距離對準確刻畫詞語之間的吸引力具有重要作用。

在一篇文檔中的詞語的主題影響度越大則該詞語在文檔中相對越重要,文檔中詞語之間的關聯度可以通過詞向量之間的距離和詞語的共現頻率體現。詞向量之間的距離越大,詞語之間關聯度越??;詞語之間的共現頻率越大,詞語之間的關聯度越大。因此,本文將詞語在文檔中的主題影響力作為詞的質量,詞向量的距離作為詞語之間的距離,共現頻率作為萬有引力模型中的萬有引力常數,則詞語之間的引力公式為:

(5)

式中:Gc(i,j)表示詞語之間的共現頻率;M(wi|d)和M(wj|d)分別表示詞語在文檔下主題影響力;di,j表示詞語i、j之間的詞語之間的距離。

利用式(5)計算得出的詞語之間的吸引力F作為詞圖模型中的轉移概率,通過原始的TextRank算法迭代計算各圖模型節點的權重。對應節點上的詞語權重越大,詞語越重要,從而得到有序的關鍵詞序列。根據排序好的關鍵詞序列得到指定數量的關鍵詞。

(6)

式中:Ws(wi)為詞語wi的權重得分;In(wi)表示詞語wi的共現詞語集合;In(wj)表示詞語wj的共現詞語集合;d為阻尼系數,0≤d≤1,通常取值為0.85。

綜上,該算法關鍵詞的提取分為3步:(1) 對測試文檔預處理(分詞、去停用詞等);(2) 基于萬有引力模型對測試文檔建模,計算兩詞之間的引力大?。?3) 通過式(6)迭代計算得到指定數量的關鍵詞。提取步驟如圖3所示。

圖3 關鍵詞提取步驟

3 實 驗

3.1 實驗數據及評價指標

本文語料數據來源于搜狗實驗室和復旦文本分類語料,囊括了體育、娛樂、軍事和醫療等新聞數據,共1.54 GB。將以上語料作為Word2vec的訓練集,選取50篇醫療新聞作為關鍵詞提取的測試集。由于目前沒有關鍵詞的相關測試集,實驗前,由多個語言學專業人員根據每篇文章內容的大小提取7~13個關鍵詞。然后對每個人提取的關鍵詞取交集得到文章的關鍵詞并作為最終測試集對應關鍵詞提取結果。實驗在一臺配置為Intel i5 2.27 GHz和8 GB內存的臺式機進行,用Python自帶的gensim中的Word2vec工具訓練詞向量,運行時間為14小時。實驗的評價結果采用自然語言常用的評價指標:精確度(P)、召回率(R)和F。三種指標的計算公式如下:

(7)

(8)

(9)

式中:np表示抽取出正確關鍵詞的個數;ne表示抽取出關鍵詞的個數;nd表示文檔中包含關鍵詞的個數。

3.2 實驗結果與分析

關鍵詞提取準確度產生影響的參數主要為主題模型中擬主題個數以及關鍵詞的個數。本文首先通過改變擬主題的個數,分析不同擬主題個數對關鍵詞提取準確度的影響。同時,針對不同的關鍵詞提取算法,通過改變關鍵詞的個數,實現對關鍵詞提取算法優劣性的對比,并總結擬主題的個數和關鍵詞提取數量對GTextRank算法產生的影響。

首先改變擬主題個數對算法性能進行分析。實驗中d取固定值0.85,其α=50/K(K為主題個數),β=0.01,迭代次數5 000次,提取關鍵詞的個數為10。當TextRank算法中的差異值等于0.005時迭代停止。分別選取擬主題個數為5、10、15、20和25,對應的P、R和F的曲線如圖4所示。

圖4 不同個數擬主題P、R、F變化曲線圖

可以看出,當主題個數較少時,效果較差,但是隨著擬主題個數的增加,其關鍵詞提取的準確度增加,當擬主題個數為20時結果最佳。實驗結果表明,選取較為準確的主題個數是提高提取關鍵詞的準確度的關鍵。由于實驗數據集的主題性較強,本實驗選取的都是醫療相關新聞,所以當擬主題個數較少時,也可以得到較好的結果。

實驗中對比了4種不同的算法,分別是經典的TF-IDF算法、原始的TextRank算法、基于詞向量改進的TextRank算法以及本文算法(GTextRank)。在不同提取關鍵詞數量下對這4種方法進行比較,每種方法分別抽取權重最大的前5個詞、8個詞和10個詞作對比。GTextRank算法中的主題數目為20,其他參數設置與不同個數據擬主題實驗參數相同。對比結果如圖5-圖8所示。

圖5 關鍵詞個數為5,不同算法的P、R、F

圖6 關鍵詞個數8,不同算法的P、R、F

圖7 關鍵詞個數10,不同算法的P、R、F

圖8 F隨關鍵詞個數變化趨勢圖

可以看出,隨著關鍵詞個數的增加,所有方法的P、R和F都呈現上升趨勢。相對其他方法,本文算法的提升效果較大。當關鍵詞提取數量相同時,由于基于Word2vec改進的TextRank算法的實驗效果取決于訓練的詞向量的好壞,所以該算法在這4種方法中表現最差。而本文算法的P、R和F均高于其他方法,結果最優。為了較好地觀察本文算法的提取效果,將不同文檔中的提取結果列于表1。

表1 不同方法提取的關鍵詞

可以看出,TextRank僅僅考慮詞語的共現頻率,忽略了主題相關性和文本之間的語義關系,不能較好地提取出能概括出文章大意的關鍵詞。盡管TF-IDF方法考慮到了文檔中詞語出現的頻率,但未予以詞語潛在語義關系充分的重視,導致所提取的關鍵詞仍不甚理想。相較于以上方法,Word2vec方法考慮到了文檔的內部結構即語義關系,但結果的準確度受訓練詞向量好壞的影響較大,存在一定限制。本文算法綜合考慮了詞語共現頻率、詞語的主題影響度和詞語之間的潛在語義關系,充分利用文檔中的內部結構關系和詞語之間的語義關系,提取出的關鍵詞相對其他方法效果較好。

4 結 語

關鍵詞在一篇文檔中占據重要地位,讀者通過關鍵詞,能夠摸索出文檔的大致主題和內容。在對關鍵詞進行提取時需同時考慮文檔的內部結構與詞語之間的語義關系,僅僅考慮其中一部分,往往獲取的關鍵詞不具有代表性。本文提出的基于萬有引力改進的Text-Rank算法同時把詞語之間的影響力、語義關系和共現頻率考慮在內,利用TextRank算法迭代計算得到詞語的排列序,進而對指定數量的關鍵詞進行提取。本文對比了基于不同算法的關鍵詞提取方法,實驗結果表明,建立在萬有引力改進基礎上的TextRank算法所提取的關鍵詞較為理想,但是詞語在文檔中的位置也影響關鍵詞提取效果。未來將進一步考慮詞語位置的影響,并將其納入算法中,作為本文的后續工作之一。

猜你喜歡
語義方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产午夜精品鲁丝片| 不卡无码h在线观看| 青青国产视频| 久青草国产高清在线视频| 欧美一级夜夜爽| 女人爽到高潮免费视频大全| 亚洲av片在线免费观看| 亚洲最大情网站在线观看| 久久中文字幕2021精品| 日本午夜影院| 国产激情无码一区二区三区免费| 最新痴汉在线无码AV| 久久这里只有精品2| 日韩视频免费| 在线观看国产精美视频| 无码高潮喷水在线观看| 成年人视频一区二区| 久久久久久久久久国产精品| 色婷婷在线影院| 丁香婷婷激情网| 国产成人综合在线视频| 少妇精品久久久一区二区三区| 日韩欧美中文在线| 亚洲婷婷丁香| 日韩中文无码av超清 | 亚洲永久色| 亚洲黄网在线| 青青青国产视频| 亚洲黄色网站视频| 美女被狂躁www在线观看| 爱色欧美亚洲综合图区| 精品国产aⅴ一区二区三区| 国产一在线观看| 国产一区二区人大臿蕉香蕉| 欧美综合中文字幕久久| 亚洲综合色区在线播放2019| 国产啪在线| 黄色网页在线观看| 久久久黄色片| 亚洲AⅤ综合在线欧美一区| 亚洲av日韩av制服丝袜| 色婷婷成人| 精品国产91爱| 999精品在线视频| 九九热精品在线视频| 国产成人一区免费观看 | 五月综合色婷婷| 欧美精品1区| 一级香蕉视频在线观看| 亚洲成人动漫在线观看| 久久久久中文字幕精品视频| 伊人精品成人久久综合| 国产黄在线观看| 久久一级电影| 欧洲极品无码一区二区三区| 伊人激情久久综合中文字幕| 亚洲天堂成人| 日韩国产欧美精品在线| 免费精品一区二区h| 久久99国产综合精品1| 国产欧美日韩综合一区在线播放| 亚洲精品久综合蜜| 热久久综合这里只有精品电影| 一个色综合久久| 极品尤物av美乳在线观看| 欧美成人免费午夜全| 久久狠狠色噜噜狠狠狠狠97视色 | 亚洲色无码专线精品观看| 欧亚日韩Av| 美女内射视频WWW网站午夜 | 亚洲91在线精品| 2020最新国产精品视频| 日韩精品中文字幕一区三区| 国产日韩精品一区在线不卡| 五月天综合网亚洲综合天堂网| 国产欧美日韩在线一区| 国产色爱av资源综合区| 欧美、日韩、国产综合一区| 欧美一级黄色影院| 成人亚洲国产| 找国产毛片看| 国产精品区视频中文字幕|