999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遠程學習的關鍵詞提取技術研究

2021-11-19 03:25:08曹聰慧漆為民
電腦與電信 2021年8期
關鍵詞:文本系統

曹聰慧 蘭 強 侯 群 漆為民*

(1.江漢大學人工智能學院;人工智能研究院,湖北 武漢 430056;2.東風汽車財務有限公司,湖北 武漢 430056)

1 引言

近年來,互聯網已經成為全球最大的分布式的信息庫,據不完全的統計顯示,全世界每年出版的各種文獻資料和新發表的論文總數突破1000萬,互聯網上已有超過400億張網頁。而文本的形式仍然是大部分信息的表現形式[1],如何準確高效地提取出對用戶有用的信息成為急需要解決的問題。

目前,利用文本聚類、關鍵詞提取、自動文摘、信息搜索等計算機技術對文本信息進行處理,再將其直觀地呈現給用戶是一個較熱門的研究方向。基于統計學的聚類算法包括有Fisher提出的COBWEB算法以及Gennari等人提出的CLASSIT算法等[2],但是精確度都不高。首都師范大學的王少鵬等人將LDA算法和TF-IDF相結合,雖然能夠較好地利用文本聚類對輿論新聞等進行簡單分析[3],但是該方法的數據僅僅來自于網絡輿情分析,對其他應用場景的適應性差。對于英文關鍵詞提取的研究,華人科學家ZHANG K等利用支持向量機來建立分類的模型來判斷文檔中的詞是否是關鍵詞,這個方法最大的缺點是需要大量的訓練語料,需要大量的人力去進行標注[4]。TRIESCHNIGG D等利用詞性和TF-IDF構建SVM模型,用這個生成模型來提取關鍵詞,效果要強于TF-IDF方法,但是這種方法只選擇了單詞作為關鍵詞,局限性很大[5]。對于中文語言關鍵詞的提取,2008年,方俊等提出了采用詞義代替詞,來對待選詞的語義進行代表以此來提高算法的各項指標[6]。錢愛兵,江嵐增加了詞性、詞語長度、詞語位置等屬性來對傳統的TF-IDF進行改進抽取了關鍵詞[7],但是該方法沒有考慮到分詞詞典的豐富性和未登錄詞的識別問題,會導致許多重要關鍵詞的遺漏。關于遠程學習,目前有關將遠程學習技術應用到關鍵詞提取領域的研究極少。僅有的研究有,福州大學的王姬卜利用百度百科遠程學習構建了中文地理實體關系的語料庫,并通過實驗驗證了所建語料庫的有效性[8]。俞霖霖利用遠程學習結合語義匹配和機器學習設計了候選答案抽取算法,但該方法缺少標準中文語料,通用性較差[9]。楊文通過網絡爬蟲對百度百科進行爬取,利用遠程學習方法構建了知識圖譜,但其爬取的數據量固定,知識更新有一定的局限[10]。

綜上,現有的文本聚類或關鍵詞提取技術通常都有應用范圍小、適應性差或需要大量語料標注浪費人力等缺陷,并且準確率得不到保證。鑒于此,本文不需要語料標注,先使用基于LDA算法的文本聚類建立了模型,再用FP-growth算法進行關鍵詞提取,能夠實現對大數據文檔的聚類,并能計算出聚類之后的關鍵詞集,同時還利用網絡遠程學習對最終的結果進行篩選,提高篩選準確度,應用范圍較廣。

2 基于遠程學習的關鍵詞提取系統總體設計

基于遠程學習的關鍵詞提取系統開發設計的主要目的是實現對于中文文本的聚類和關鍵詞精準抽取的功能。系統結構圖見圖1。

圖1 基于遠程學習的關鍵詞提取系統結構圖

本系統的設計中利用了隱含主題模型中的LDA算法模型對文本進行聚類,利用停用詞刪除方法實現了文本的去噪預處理,利用LDA算法模型的結果和FP-growth算法對聚類之后的關鍵詞進行了抽取,并且使用遠程學習算法結合百度百科知識對最終結果進行了精確篩選,以提高關鍵詞提取系統的各項性能。

3 系統實現的關鍵技術和方法

3.1 基于LDA算法的文本聚類

LDA是一種假定某些隱含參數的生成模型,是一個包含有文檔集、主題、詞語的三層結構,把主題看作是對應的文檔集中所有詞匯的混合分布,把文檔集中的文檔看作是對應的所有主題的混合分布。

步驟為如下四步:

(1)從Dirichlet分布α中取樣生成文檔i的主題分布θi;

(2)從主題的Multinomial分布θi中取樣生成文檔i第j個詞的主題zi,j;

(3)從Dirichlet分布β中取樣生成主題zi,j對應的詞語分布

LDA算法是依據這里已經有的數據來對θ和φ進行再計算,就是估算文檔—主題和主題—詞語的概率。其中z是一個隱藏的變量,即對于每一個單詞來說,它所對應的主題是不確定的。而θ和φ都是含有超參數的Dirichlet分布,因此對于LDA算法的本身也是估算α和β這兩個參數值。概率模型可表示為:

對上式進行計算可以得出:

其中D代表整個文檔,M代表文檔中語句的總數。

由于上式中的α和β是不能夠直接得到的,所以LDA的作者使用了變分推理的方法來計算函數的最小值,并且采用了中間值的辦法來讓LDA計算過程更簡單,然后用EM算法求出α和β的值。現在通常都采用Gibbs采樣的辦法來計算估計值。

3.2 基于停用詞刪除方法的去噪預處理

本文采用了刪除多數停用詞的方式來進行文本的預處理,對本文獲得到的數據進行清洗,去除垃圾詞匯和數據,提高了文本挖掘的準確性。

停用詞可以分為兩類,一類是使用十分廣泛的單詞,還有一類是出現概率很高但是實際意義不大的詞。如“啊”“比”“你”“的”等[11]。文本挖掘中碰到這樣的詞語就無法保證系統能夠給出真正的最準確的答案,會使文本挖掘的效率和準確度降低。同時,過多的標點符號也會對文本挖掘的結果有很大的影響,標點符號也是需要去掉的停用詞。因此,將停用詞刪除是有效的去噪預處理方法。

3.3 基于FP-growth算法的關鍵詞抽取

FP-growth算法是把頻繁項集的數據用一定的辦法壓縮到一個FP-樹里面,然后再通過對葉子節點和父節點數據的判斷來對信息進行適當的挖掘和分析。基于FP-growth算法的關鍵詞抽取的輸入是事務數據庫D和最小支持度閾值min_sup。該算法的輸出是頻繁模式的完全集。構造FP-樹的步驟為:

(1)掃描事務數據庫D一次。收集頻繁項的集合F和他們的支持度。對F按支持度降序排序,結果為頻繁項集L。

(2)創建FP-樹的根節點,用“null”來進行標記。對于D中的每個事務Trans,執行:

選擇Trans中的頻繁項,并按L中的次序排序。設排序后的頻繁項集表為[p|P],其中p是第一個元素,而P是剩余元素的表。調用insert_tree([p|P],T)。該過程執行情況如下,如果T有子女N使N.item-name=p.item-name,則N的計數增加1;否則創建一個新節點N,將計數設置為1,鏈接到它的父節點T,并將其鏈接到具有相同item-name的節點。如果P非空,遞歸調用insert_tree(P,N)。

而FP-樹的挖掘則通過調用過程FP-growth(FP-tree,null)實現,調用Procedure FP-growth(tree,α)函數,其具體步驟為:

(1)如果tree包含單個路徑P,那么遍歷路徑P的每個節點組合(記為β);

(2)產生模式β∪α,支持度support=β中節點的最小支持度;

(3)對每個節點αi在Tree的頭部都執行:

1)產生模式β=ai∪β,它的支持度是support=αisupport;

2)構造β的條件模式基和條件FP-樹treeβ,若treeβ不為空,調用FP-growth(treeβ,β)。

3.4 基于遠程學習算法的關鍵詞篩選

3.4.1遠程學習

遠程學習指的是利用開放資源的信息和數據來提高關鍵詞的準確度。本文利用網絡資源,將得到的短語結果放到網上,基于百度百科知識庫的應用進行搜索。這種方式的好處就是網絡資源豐富,而且數據更新快,更容易發現新詞,網絡上的數據涵蓋各個方面,免去了建立字典的麻煩。

3.4.2字符串匹配度

對于兩個字符串String1和String2之間的匹配度用百分比的形式表示為:

其中,Str=String1∩String2表示的是字符串String1和String2之間共同擁有的最長子串。size(Str)表示的是字符串String1和字符串String2之間最大子串的長度。size(String1)表示的是字符串String1的長度,size(String2)表示的是字符串String2的長度。

3.4.3漢語比對算法

本文設計了基于百度百科和匹配度公式的漢語比對算法,來對上面通過LDA算法進行文本聚類和FP-growth算法提取得到的關鍵詞進行篩選。該算法的輸入為:用制表符隔開的短語數組S1和閾值p。輸出為:刪除了一些噪聲詞的用制表符隔開的短語集合S2。算法如圖2所示。

圖2 基于百度百科和匹配度公式的漢語比對算法

3.4.4算法測試

為了測試漢語比對算法的效果并選取出合適的閾值,從中國人民大學的網絡與移動數據管理實驗室所提供的領域分類(CCF目錄)論文收錄(http://cdblp.ruc.edu.cn/)中的論文中隨機選取了50篇論文,人工隨機選取了1038個正確短語以及600個錯誤短語作為實驗語料進行實驗。

該漢語比對算法的攔截成功率呈現一定的規則。在閾值為30%左右的時候,對正確短語和錯誤短語的攔截率成功率相等,為96%。隨著閾值的增加,對于正確短語的攔截成功率下降較為明顯,錯誤短語的攔截率趨于100%。當閾值過高時,雖然攔截錯誤短語的能力提高了,但一些正確的短語會被攔截,這是因為有一些我們認為正確的短語在百度百科中還沒有被收錄。當閾值為交點坐標30%時就可以基本滿足篩選的需求。因此,該漢語比對算法在選擇合適閾值0.3用來進行關鍵詞的篩選。

4 系統實現及實驗

4.1 系統實現

基于遠程學習的關鍵詞提取系統的實現流程如圖3所示。

圖3 基于遠程學習的關鍵詞提取系統的實現流程

首先該系統輸入主題詞參數n,用于LDA算法的主題建模和生成詞典文件(pt網絡文件)。其次,輸入最小置信度閾值λ和最小支持度閾值min_sup,FP-growth算法要用這兩個參數挖掘詞與詞之間的關系來生成詞和關鍵詞集。最后,篩選閾值p用于短語比對算法對噪聲詞進行篩選。通過上述的三個步驟,來生成需要的關鍵詞集。

4.2 實驗

4.2.1實驗數據來源

選擇中國人民大學的網絡與移動數據管理實驗室所提供的領域分類(CCF目錄)論文收錄(http://cdblp.ruc.edu.cn/)中的論文數據11490條論文標題作為實驗語料。其中包含了計算機網絡分類的3314條數據,模式識別分類的2276條數據,軟件工程的2880條數據以及算法理論分類的2520條數據。

4.2.2實驗步驟

(1)將采集到的語料先進行去噪處理。

(2)將語料和主題數n,最小置信度閾值λ,最小支持度閾值min_sup和篩選閾值p輸入到系統中。這里本文采用的主題數為4,λ為0.5,min_sup為5[3]。篩選閾值p初值為0.3。

(3)改變篩選閾值p的值,進行重復試驗。

4.2.3實驗結果和分析

對于沒有使用遠程學習篩選的關鍵詞提取算法,在圖像、軟件、算法和網絡四個場景上的準確率分別為0.7415、0.9255、0.7738和0.8472,召回率分別為0.5824、0.7248、0.5432和0.6128,F值分別為0.65239006、0.81294601、0.63831155和0.71118378。準確率、召回率和F值的平均值分別為0.822、0.6158和0.70370785。

增加使用了遠程學習篩選之后的關鍵詞提取算法,在圖像、軟件、算法和網絡四個場景上的準確率分別為0.9178、0.9654、0.9385和0.9621,召回率分別為0.5792、0.6972、0.5336和0.6131,F值分別為0.71020676、0.80966784、0.68036627和0.74893792。準確率、召回率和F值的平均值分別為0.94595、0.605775和0.7372947。

可以看出,在篩選閾值p為0.3的時候,對于這個文本的每個分類之下的關鍵詞提取的準確率有明顯的提高,對于召回率的影響不大,F值有較為明顯的提高。實驗結果說明增加了基于百度百科的遠程學習篩選之后,提高了系統的整體性能。

對比了6個不同的p值0、0.1、0.3、0.35、0.5和1,系統準確率的平均值分別為0.822、0.8569、0.94595、0.9687、0.9867和1,系統召回率的平均值分別為0.6158、0.6432、0.605775、0.5096、0.30786和0.019,系統F值的平均值分別為0.703707852、0.7348、0.73729470、0.66786、0.46929和0.03。可以看出,隨著p值的增加準確率在不斷增加,當p值為1時準確率達到了百分之百。召回率和F值隨著p值的增加有小幅度的上升之后顯著降低,這說明p值過高系統的整體效果會很低。對于一個文本挖掘的系統,準確率很高但是有很多有用的信息會被過濾掉,這樣的系統并不是我們想看到的。

因此,對于本文的基于遠程學習的關鍵詞提取系統,在其他的值都是經驗最佳值的情況下,p值的最佳值是0.3左右,由于百度百科里面的資料不是一成不變的,針對每一個類別的知識也不盡相同,p值的最佳值由語料的種類決定。對于增加的百度百科篩選,在召回率波動不大的情況下,對關鍵詞集的準確率提高較為明顯。

5 結語

本文針對大數據處理中數據類別混亂、關鍵詞模糊的問題,設計了基于遠程學習的關鍵詞提取系統。利用LDA主題模型進行文本聚類,使用停用詞刪除方法進行去噪預處理,利用FP-growth算法進行關鍵詞的初步抽取。并且利用遠程學習的思想結合了百度百科資源提出了漢語比對算法對關鍵詞進行精確篩選。通過實驗對比,證明使用遠程學習的關鍵詞提取算法可以提高準確率。對篩選閾值進行分析,證明閾值在0.3左右時可以進一步提高系統對關鍵詞的提取準確率。但本系統對于不同語料種類仍存在一定的局限性,閾值要在0.3的左右做相應的微調以達到最佳效果。

猜你喜歡
文本系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
基于PowerPC+FPGA顯示系統
在808DA上文本顯示的改善
半沸制皂系統(下)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品林美惠子在线观看| 欧美午夜理伦三级在线观看| 91网站国产| 久久国产V一级毛多内射| 天堂av综合网| 日韩av无码DVD| 98精品全国免费观看视频| 亚洲精品成人片在线观看| 日韩精品成人在线| 人妻出轨无码中文一区二区| 91麻豆精品视频| 人妻丰满熟妇啪啪| 亚洲天堂福利视频| 欧美日韩高清| 亚洲品质国产精品无码| 韩国v欧美v亚洲v日本v| 看看一级毛片| 国产超碰在线观看| 91精品啪在线观看国产60岁| 欧美国产日产一区二区| 一本色道久久88亚洲综合| 国产成人超碰无码| 黄色网站在线观看无码| 97狠狠操| 在线播放国产一区| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 无码免费视频| 亚洲欧美在线综合图区| 日本亚洲欧美在线| 99国产在线视频| 免费观看欧美性一级| 精品视频一区在线观看| 亚洲一区二区三区麻豆| 欧美日韩一区二区三| 欧美色视频网站| 国产一区亚洲一区| 精品亚洲欧美中文字幕在线看 | 97精品国产高清久久久久蜜芽| 国产精品55夜色66夜色| 色久综合在线| 2021天堂在线亚洲精品专区| 欧美三级不卡在线观看视频| 成人韩免费网站| 日韩精品一区二区三区大桥未久 | 色欲不卡无码一区二区| 国产成人综合网在线观看| 亚洲无码日韩一区| 国产激情在线视频| 婷婷成人综合| 亚洲 日韩 激情 无码 中出| 欧美中文字幕在线播放| 国产在线观看99| 一本久道久久综合多人| 亚洲丝袜中文字幕| 中文字幕调教一区二区视频| 无码中文AⅤ在线观看| 国产制服丝袜91在线| 亚洲成av人无码综合在线观看| 欧美成人免费午夜全| 露脸真实国语乱在线观看| 亚洲精品无码日韩国产不卡| 色亚洲激情综合精品无码视频| 国产亚洲视频中文字幕视频| 精品亚洲国产成人AV| 亚洲国产中文在线二区三区免| 日韩AV手机在线观看蜜芽| 98精品全国免费观看视频| 国产日本欧美亚洲精品视| 亚洲中文无码av永久伊人| 久久青青草原亚洲av无码| 青青草原国产av福利网站| 亚洲国产日韩视频观看| 97超爽成人免费视频在线播放| 99人妻碰碰碰久久久久禁片| 成年午夜精品久久精品| 久久精品免费看一| 国产第一页第二页| 久久精品国产精品一区二区| 欧美日韩综合网| 女人18毛片久久| 成人在线观看不卡| 国产精品私拍99pans大尺度|