999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多層次聚類的文本知識挖掘

2021-01-20 07:57:24席永軻錢茛南顧麗紅
計算機工程與設計 2021年1期
關鍵詞:分類文本

劉 昕,席永軻,何 杰,錢茛南,顧麗紅

(1.中國石油大學(華東) 計算機與科學技術學院,山東 青島 266580;2.中電科大數據研究院有限公司,貴州 貴陽 550022;3.中國電子科技集團公司信息科學研究院 提升政府治理能力大數據應用技術國家工程實驗室,貴州 貴陽 550022;4.中國電子科技集團公司信息科學研究院,北京 100081)

0 引 言

隨著各行各業數字化進程的發展,各類文本信息不斷積聚,如何在大量的文本中提取用戶感興趣的、潛在有用的信息并且能夠針對不同層次、不同類別的信息進行分類處理對于用戶決策有重要的參考價值[1]。

文本挖掘[2](text mining,TM),又稱為文本知識發現(knowledge discovery in texts,KDT),是指從大數據文本中挖掘出隱含位置的潛在有用模式的過程,文本知識挖掘是涉及多個學科的研究領域,其中包括數據挖掘、機器學習、數據統計、自然語言理解、信息檢索、信息提取、可視化和數據庫技術等。隨著文本知識挖掘技術的不斷進步,相關算法已經不僅僅局限于分類、文本特征提取等簡單模式的文本知識挖掘,也可以探索更豐富的文本知識挖掘,如主題發現、情感分析、語義規則發現、趨勢分析等。

但目前大多數機器學習與數據分析方法,都無法從多層次對同一語料數據進行不同粒度的快速高效知識挖掘,隨著網絡的不斷發展,互聯網上的信息越來越豐富,更多的文本數據已經不單單僅限于一個層次,對單個層次的文本數據進行知識挖掘已不能滿足人們對知識的需要。因此,為了更加精確發現不同層次語料數據所表征的不同層次的文本知識,我們提出了一種基于多層次聚類的文本知識挖掘方法。

1 相關工作

文本知識挖掘處理的并非是少量文本,而是大規模文本集合,可以發現隱藏在大量文本中的隱藏知識,通常是以前未知的模式或關系。這些模式和關系對于解答某個特定問題很有價值,或者是某用戶特別感興趣的知識。同時由于文本數據噪聲大及結構不規則,要求文本知識挖掘算法具有較強的算法魯棒性[3]。聚類算法是數據分析與挖掘中的一個比較常見的手段,將其用于文本知識挖掘,進行文本知識聚類,可以將文檔數據集聚為不同簇,并且需要同一簇中的文本特征盡可能相似,不同簇中的文本特征盡可能差異大。因為中文文本數據大部分為非結構化或半結構化數據,這使得基于結構化數據的聚類算法不適用于文本聚類。

從1995年Feldman正式引入文本挖掘的概念之后,盡管只有20年左右,但國內外有關文本知識挖掘的相關研究已經得到了迅速發展。國內外的各相關研究主要圍繞文本挖掘模型、文本特征抽取與文本中間表示、文本挖掘算法[4]等,目前在文本知識挖掘領域國內外已經形成了較為成熟的理論體系與技術手段,并已應用于多個應用領域。如在微博文本知識挖掘中,張茜等[5]提出一種用于評論集褒貶態度和方面觀點挖掘的新模型,該模型加入了表情符號層與文本情感層,實現評論集方面和褒貶態度的同步檢測。黃賢英等[6]根據詞形相同與詞義相近尋找微博短文本中的公共塊,提出一種基于多視角的微博短文本相似度算法。鐘文良[7]提出了一個基于Pitman-Yor過程模型的文本聚類算法用于文本知識挖掘。秦永彬等[8]結合用戶興趣與微博信息的特點,提出了一種文本聚類與興趣衰減的微博用戶興趣挖掘(TCID-MUIM)方法,具有更好的主題區分度,且更貼合用戶的真實興趣偏好。

隨著相關研究的不斷深入,文本聚類成為文本知識挖掘的一項關鍵技術。Hang等[9]提出了一種局部同步聚類算法(G-Sync算法),該方法基于重力學中的中心力優化方法,將其用于文本知識挖掘并取得了良好效果。Zheng等[10]提出了一種基于語料庫的短文本聚類方法,主要在短文本文檔中給可能未出現的新單詞添加虛擬詞頻,該虛擬頻率是從給定該文檔中所有單詞的新單詞的后驗概率中獲得。Mohammad等[11]提出了一種目標函數和混合KH算法(稱為MHKHA)相結合的方法來解決文本文檔聚類問題。Ghai等[12]提出了一種有效的方法,即使在復雜背景下,也可以使用DWT和k-means聚類以及投票決策過程來提取文本區域。Soares等[13]提出了頻率Google Tri-gram測度,以根據比較文檔中術語的頻率以及作為附加語義相似性來源的Google n-gram語料庫來評估文檔之間的相似性,以此來改善文檔聚類的質量。Mozhgan等[14]采用基于最小生成樹的聚類算法來發現文檔的各種子主題。Song等[15]提出了一種模糊控制遺傳算法(GA),并結合一種新穎的混合語義相似度度量進行文檔聚類用于知識挖掘。Alguliyev等[16]提出了一種基于聚類和優化技術的兩階段句子選擇模型COSUM用于文本知識挖掘,取得良好效果。Xu等[17]提出了一種用于短文本聚類的靈活的自學卷積神經網絡框架(稱為STC2),成功地合并更多有用的語義特征。Sangaiah等[18]提出了3種方法:在無監督、半監督技術和降維半監督下,為阿拉伯文本文檔構建基于聚類的分類器。Qiang等[19]提出了一種基于Pitman-Yor過程的新型模型來捕獲集群分布的冪律現象。Alanko等[20]設計并實現了一種節省空間的聚類算法框架解決無監督元基因組聚類中的許多核心原語。Kushwaha等[21]提出了一種無監督文本聚類的特征選擇方法,稱為基于鏈接的粒子群優化算法(LBPSO)。

目前的中文文本知識挖掘只是在某些方面(如特征抽取)和某些應用領域(如分類與聚類)展開,是零散的、孤立的。沒有同時從微觀和宏觀層次進行知識挖掘,不能多層次展示特定領域語料的特征。

2 基于多層次聚類的文本知識挖掘方法

2.1 數據預處理

數據分詞是把連續的漢字序列劃分成一系列單獨的詞語,之后將詞語作為文本數據的基本單位。例如“中印洞朗的對峙事件持續了兩個月”被分割為“中印/洞朗/的/對峙/事件/持續/了/兩個/月”的形式。本文使用的分詞原理是基于前綴字典實現高效的詞圖掃描,獲得所有可能的詞,由這些詞生成有向無環圖(DAG),然后再使用動態規劃算法以尋找最大概率路徑,最終找到基于詞頻的最大拆分組合。本文使用Jieba分詞,并將分詞結果用于后續分析。

分詞之后仍然存在大量的停用詞諸如“的”、“了”、“呢”等,和無意義詞、錯誤用法詞匯等,本文使用自定義詞表,包含超過4000個不同的停用詞、無意義詞、錯誤用法詞、特殊符號,基于詞表對分詞結果進行匹配,去除詞表中存在的詞匯,從而進一步得到文本具有實際意義的詞集。將文本進行預處理后得到高質量的詞集,有助于提高后續文本知識挖掘效率和準確率。

2.2 詞向量訓練

本文所采用的詞向量訓練模型建立在分布假說的基礎上,假設詞的語義由其上下文決定,上下文相似的詞,其語義也相似。本文中利用人工神經網絡對詞向量進行訓練與二維空間映射。

本文的詞向量訓練過程為:首先將某一層次所有文本數據作為一個文檔集合,并對文檔集進行數據預處理操作;然后使用word2vec詞向量訓練方法,為每個詞語構建詞嵌入矩陣并將其所有詞語轉換成one_hot獨熱碼編碼;將詞嵌入矩陣送進word2vec中的CBOW神經網絡模型中進行訓練,同時將輸出的預測值與標簽計算loss值,并計算預測值與標簽之間的損失偏差用以優化網絡[22];最終將訓練后的詞嵌入矩陣采用TSNE算法進行降維,將其映射到二維空間。

2.3 基于局部密度的快速聚類算法

為滿足多層次文本知識挖掘的任務需要,本文采用基于局部密度的快速聚類算法對數據文件進行聚類,將語義相近的文本數據聚為一類作為一個分類主題。

本文所采用的基于局部密度的快速聚類算法,通過計算數據節點的局部密度與相對距離來確定聚類中心與孤立點,然后對剩余數據節點進行聚類,其具體過程如下:

(1)針對基于word2vec詞向量訓練后的文本數據集合Dc,將原始文檔集Ds中每條文本數據的關鍵詞抽取結果與Dc中的詞向量結合,將Ds中每條文本數據的關鍵詞對應的Dc中詞向量坐標累加求和,得到每一條文本數據的二維坐標作為一個數據節點的坐標,將所有的數據節點作為數據節點集Dd;

(2)計算Dd中每個數據節點的局部密度,式(1)如下

ρi=∑jx(dij-dc)

(1)

其中,ρi為第i個數據節點的局部密度,dij為第i個數據節點與第j個數據節點間的歐氏距離,dc為截斷距離。

局部密度描述了一個數據節點周圍數據的聚集程度,局部密度越大說明該節點周圍的其它數據節點數量越多,分布越密集;反之則分布越稀疏。

(3)計算每個節點的相對距離,式(2)如下

(2)

其中,ρi是第i個數據節點的局部密度,ρj是第j個數據節點的局部密度,dij為第i個數據節點與第j個數據節點間的歐氏距離。

相對距離描述了一個數據節點與其它具有較大局部密度的數據節點的距離,當一個節點是局部密度最大的節點時,它的相對距離就是與該點距離最遠的節點的距離;當一個節點不是局部密度最大的節點時,相對距離便是大于該點局部密度的數據節點與該節點的距離。

(4)設定中心局部密度閾值Ld與中心相對距離閾值Rd, 統計Dd數據節點中局部密度大于Ld且相對距離大于Rd的數據節點作為聚類中心;若一個節點的局部密度值較小,但相對距離較大,則認為其是一個遠離群體的孤立點,在聚類過程中不對孤立點進行聚類操作。

(5)根據步驟(4)確定的聚類中心,將數據節點集合Dd中剩余點進行分配,分配原則為按照節點間距離將其分配給與其具有較高密度的最近節點相同的類簇。

2.4 各層次文本定義

針對不同規模的數據,根據其數據分布,使用不同的方式對數據進行劃分,進行不同粒度的聚類,實現各個層次知識的挖掘。共有以下幾種形式:

(1)將所有數據歸為一個層次,即將所有數據進行最廣義文本知識挖掘。

(2)根據規范化后數據所屬的不同類別,可以根據不同類別層次將數據劃分為不同類別,并根據不同類別進行文本知識挖掘。

(3)若想獲取自定義類別數據,首先自定義類別標簽關鍵詞,然后對所獲取規范化數據進行遍歷,并通過類別關鍵詞對每一條數據進行類別相似度賦值權重,最終通過權重大小獲取到自定義類別數據。

2.5 多層次文本知識挖掘算法描述

算法流程如圖1所示。

圖1 算法流程

(1)基于所獲取的原始文本數據進行數據預處理操作,主要包括基于前綴詞典的數據分詞、去停用詞及無意義詞、清除空值數據、數據規范化等操作。

(2)根據規范化數據的不同特征以及在數據表中所屬的不同類別,將所有規范化數據作為最廣義層次,根據規范化數據所屬類別將數據分為多類,每一類作為子級分類層次,根據規范數據的關鍵詞標簽將其歸為自定義分類層次。

(3)基于不同層次的文本數據,采用word2vec算法進行文本詞向量訓練,將文本數據處理為二維并在空間標識。

(4)基于詞向量訓練結果,將每條文本數據的關鍵詞抽取結果與詞向量結合,將關鍵詞對應的詞向量坐標求和,作為一個數據節點的坐標。

(5)計算所有數據節點的相對距離,并不斷動態更新截斷距離。通過計算每個數據節點的局部密度與相對距離確定各個聚類中心,并根據各個聚類中心,將不同數據聚為一類,保存聚類結果。

(6)針對不同層次的文本聚類結果進行各層次文本知識挖掘。針對最廣義層次的文本知識挖掘可在已獲取全體數據的基礎上對其劃分為多個主題,實現其各主題事務的劃分;針對子級分類數據的文本知識挖掘可發現下一層次主題分類;針對自定義層次的文本知識挖掘,可針對某一個具體事件進行知識分類,發現該事件中存在的具體細節。

3 實 驗

3.1 實驗數據

本文采用訴求數據進行測試,其中涉及一級到五級分類,共約30萬訴求工單數據。首先將文本數據進行預處理,然后采用word2vec進行文本詞向量的訓練,將所得數據分詞結果簡化為K維向量空間中的向量運算,并最終映射到二維空間;通過所得文本詞向量,使用多層次文本聚類方法,針對各不同層次數據,通過局部密度與相對距離的計算,自動挑選聚類中心,基于聚類中心將剩余數據按照空間距離進行聚類,實現不同層次的文本知識挖掘。

3.2 聚類算法截斷距離設置

本文對基于局部密度的快速聚類算法中的截斷距離閾值進行設置,通過計算全部數據節點間的歐式距離,取其平均距離作為截斷距離。若截斷距離閾值設置較大,則所有數據就會聚為一類。若截斷距離閾值設置較小,則聚出類別過多,無參考價值。

3.3 實驗結果及分析

3.3.1 最廣義層次知識挖掘

對全部實驗數據分詞并進行詞向量訓練之后,使用基于局部密度的快速聚類算法對表達上下文關系的詞向量進行聚類,通過計算數據節點的局部密度與相對距離來確定聚類中心與孤立點,并對剩余數據節點進行基于局部密度的快速聚類,將語義相近的數據聚在一起,可以將包含全部數據的語料基于語義分為多類,從而實現多主題文本知識挖掘。

采用多層次聚類知識挖掘方法,在已知所有數據的基礎上對其一步劃分為多個主題,實現其各業務科室管理事物的劃分。針對文本聚類結果,通過分析不同類別間的核心特征詞從而確定不同類別所代表的不同問題及其問題所屬部門,并將分析結果經由專業業務人員進行測評準確性。

最廣義層次所采用的數據為所獲取全部語料數據,約24萬條,對其進行數據聚類分析,得到數據聚類結果如圖2 所示。每一類別包括多條訴求數據。

圖2 最廣義層次聚類

聚類結果見表1,這些分類可以為每個部門辦理哪些類型的訴求提供建議。

表1 最廣義層次聚類結果分析

3.3.2 子級分類層次知識挖掘

子級分類層次所采用的數據為所獲取數據中拆遷安置類訴求數據,約10萬條,對其進行數據聚類分析,得到數據聚類結果如圖3所示。每一類別包括多條訴求數據。

圖3 拆遷安置聚類

聚類結果見表2,通過所得各不同類別可對訴求數據進一步發現下一層次主題分類。

表2 拆遷安置類聚類結果分析

子級分類層次所采用的數據為所獲取數據中農村工作類訴求數據,約10萬條,對其進行數據聚類分析,得到數據聚類結果如圖4所示。每一類別包括多條訴求數據。

圖4 農村工作聚類

聚類結果見表3,通過所得各不同類別可對訴求數據進一步發現下一層次主題分類。

表3 農村工作類聚類結果分析

3.3.3 自定義分類知識挖掘

自定義層次知識挖掘主要以當前實驗數據的各末級分類數據進行聚類,其目的在于挖掘當前類別之下更加細致的問題分類,針對某一個事件相關數據聚類,可發現該事件中存在的具體細節問題。

自定義層次所采用數據為所獲取數據中末級分類農村低保類訴求數據,約5萬條,對其進行數據聚類分析,得到數據聚類結果如圖5所示。每一類別包括多條訴求數據。

圖5 農村低保數據聚類

聚類結果見表4,可發現該末級分類中存在的具體細節問題,將挖掘出來的細致分類提供給相關人員便于發現社會中存在的微問題。

表4 農村低保類聚類結果分析

自定義層次所采用數據為所獲取數據中末級分類商業噪音類訴求數據,約5萬條,對其進行數據聚類分析,得到數據聚類結果如圖6所示。每一類別包括多條訴求數據。

圖6 商業噪音數據聚類

聚類結果見表5,可發現該末級分類中存在的具體細節問題,將挖掘出來的細致分類提供給相關人員便于發現社會中存在的微問題。

表5 商業噪音類聚類結果分析

4 結束語

本文提出了一種基于多層次聚類的文本知識挖掘。該方法主要包含5個模塊,即數據預處理模塊、層次劃分模塊、詞向量訓練模塊、多層次聚類知識模塊、結果知識分析。這5個模塊構建了該文本知識挖掘方法的整體架構。其中,在層次劃分模塊將數據分為多個不同層次,根據規范化數據的不同特征以及在數據表中所屬的不同類別,使用不同的類別判別方式對數據進行劃分層次,使數據的類型更加明確。對不同層次的數據分別進行詞向量訓練,根據訓練結果進行距離計算、聚類,從而挖掘多個層次的知識,實現對事物的多個不同層次的多角度的刻畫。

實驗以訴求數據進行多層次文本知識挖掘實驗,獲得了有價值的理論和實驗效果。在最廣義層次訴求數據中本文方法將已知所有數據劃分為多個主題,通過文本結果分析實現其各業務科室管理事務的劃分;在子級分類層次訴求數據中本文方法發現下一層次訴求的主題分類;在自定義層次的文本知識挖掘中本文方法針對某一個具體訴求事件進行知識分類,發現了該訴求事件下社會中所存在的具體細節問題,并經由專業業務人員對本文方法所挖掘出來的結果進行測評。通過本文方法所挖掘出的訴求數據辦理部門分布、各子級分類及末級分類下的社會微問題與實際情況下業務進行對比評測發現,基于多層次聚類的文本知識挖掘可準確對訴求工單數據進行多層次知識挖掘,并為政府及相關部門提供精準的分析和決策支持。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 日本草草视频在线观看| 日韩毛片在线视频| 欧美在线精品一区二区三区| 伊人网址在线| 欧美h在线观看| 伊人天堂网| 毛片在线播放a| 日本不卡在线| 日本免费福利视频| 最新亚洲人成网站在线观看| 日韩二区三区无| 亚洲中字无码AV电影在线观看| 国产在线观看人成激情视频| 多人乱p欧美在线观看| 国产自视频| 国产www网站| 欧美精品三级在线| 亚洲一区二区在线无码| 国产呦精品一区二区三区下载| 99在线小视频| 国产精品成人久久| 狠狠色婷婷丁香综合久久韩国| 久久国产精品国产自线拍| 午夜国产大片免费观看| 欧美成人精品在线| 青青草欧美| 国产噜噜在线视频观看| 亚洲系列无码专区偷窥无码| 成人福利在线视频| 老司国产精品视频91| 人妻中文久热无码丝袜| 久久综合色播五月男人的天堂| 99视频精品全国免费品| 国产精品99久久久久久董美香 | 欧美一级在线播放| 国产麻豆va精品视频| 亚洲不卡网| 永久免费无码日韩视频| 72种姿势欧美久久久大黄蕉| 中文字幕资源站| 日韩欧美国产三级| 亚洲欧美色中文字幕| 欧美一区精品| 国产尤物jk自慰制服喷水| 国产女人爽到高潮的免费视频| 亚洲女同一区二区| 国产xxxxx免费视频| 国产激爽大片高清在线观看| 国产成+人+综合+亚洲欧美| 亚洲永久精品ww47国产| 国产青榴视频在线观看网站| 99re热精品视频中文字幕不卡| 欧美无专区| 国产自视频| 中文字幕在线观| 中国国语毛片免费观看视频| 欧美精品二区| 精品国产美女福到在线不卡f| 日本精品视频一区二区| 五月天久久综合| 午夜爽爽视频| 国产麻豆91网在线看| 国产成人精品免费视频大全五级| 青青青视频91在线 | 国产免费黄| jizz亚洲高清在线观看| 精品无码一区二区在线观看| 91精品专区国产盗摄| 8090成人午夜精品| 成人在线天堂| 亚洲精品不卡午夜精品| 婷婷亚洲天堂| 色屁屁一区二区三区视频国产| 综合五月天网| 免费国产高清视频| 第一页亚洲| 被公侵犯人妻少妇一区二区三区| 99久久精品美女高潮喷水| 欧美中文字幕第一页线路一| 四虎影视永久在线精品| 欧美色视频日本| 国产成人免费|