999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題詞和LDA模型的知識結構識別研究

2022-03-11 06:55:21黃月張昕
現代情報 2022年3期
關鍵詞:數據挖掘

黃月 張昕

關鍵詞:知識結構;LDA模型;主題詞;共詞分析;數據挖掘

文獻數據知識發現的研究對象一般是學術檢索系統提供的科學文獻題錄,包含題目、作者、摘要、關鍵詞、分類號、來源、參考文獻等元素,這些元素分別作為檢索系統的檢索項提供檢索入口,此外通用的學術檢索系統還提供了包含題目、關鍵詞、摘要3種元素構成的“主題詞”。

知識結構(IntellectualStructure),指根據某一領域的科學文獻進行分析,通過對基于某種關系構成的文獻矩陣進行聚類而得到的組群及其關系。其中,每一組群對應該領域的一個研究子領域(或稱研究主題)[1]。

針對科學文獻題錄信息進行知識結構識別是文獻計量分析的一項重要任務,有助于幫助該領域的研究者了解研究主題及其關系。相比于關鍵詞,學術檢索系統中的主題詞更能反映作者關于這篇文獻主旨的概括。與傳統的知識結構識別方法相比,LDA模型可以有效挖掘文獻詞語之間的語義關系,彌補傳統文獻計量在詞語間處理能力的不足,對題目、摘要等長文本進行主題提取可以在更大程度上保留文獻原始信息,能在一定程度上解決關鍵詞無法很好概括文獻信息的問題。本文探索基于主題詞和LDA模型的知識結構識別,以數據挖掘領域頂尖期刊論文為例,并通過實驗證明了其有效性。

1相關工作概述

1.1知識結構識別

傳統學科知識結構識別方法是二步式的,即首先構建文獻元素相似性矩陣,然后對該矩陣進行結構識別。常見文獻元素相似性矩陣構建方法包括:文獻共被引、作者共被引、文獻耦合、作者文獻耦合和共詞分析等。這些思想已被廣泛應用于知識結構識別,并獲得了有效性驗證。其中,通過共同詞語聯系到一起的文獻可能表示一個共同的研究主題[2],共詞分析常以高頻關鍵詞作為分析對象,在研究過程中沒有涉及到文本中包含的語義信息,得到研究結果比較粗略。

越來越多的學者開始利用主題模型構建方法,對文本語義內容進行分析,對學科主題進行研究。隱含狄利克雷分配(LatentDirichletAllocation,LDA)模型,是一種比較成熟的主題模型[3],是一種無監督學習技術,可被用來識別大規模文檔集中潛在主題信息,與針對某一領域進行知識結構識別的本質一致。LDA已被廣泛用于科學文獻情報分析,既包括主題識別[4]、主題演化[5]、新興主題發現[6]、學科交叉主題識別[7]等將LDA應用于不同領域的研究,也包括不同語料下主題抽取效果分析[8]、最優主題個數確定[9]等利用LDA優化主題識別研究。

1.2LDA模型

LDA模型,在2003年由BleiDM等[10]提出認為一篇文檔是由一組詞組成的集合,詞與詞之間沒有前后順序關系,且語料庫中的文檔也沒有順序關系。它是一個關于文檔、主題、詞語的3層貝葉斯概率生成模型,其核心思想是把文檔看成隱含主題的一個概率分布,主題看成詞語的一個概率分布。文檔到主題服從多項式分布,主題到詞服從多項式分布,而該多項分布的參數服從Dirichlet分布。

LDA模型首先由Dirichlet分布得到主題分布的參數的分布,然后隨機生成一個文檔的主題分布,之后在該文檔的每個位置,依據該文檔的主題分布隨機生成一個主題;然后由Dirichlet分布得到詞語分布的參數的分布,再得到主題的詞語分布,在該位置依據該主題的詞語分布隨機生成一個詞語,直到文檔的最后一個位置,生成整個文檔;最后重復以上過程,生成所有的文檔。

2研究設計

2.1研究思路

為探究考慮主題詞和LDA模型進行知識結構識別的有效性,本文進行3步研究,如圖1所示。首先,根據選定領域特點確定數據源、獲取原始數據、進行數據預處理,以得到格式統一、主題詞(題目、摘要和關鍵詞)齊全的實驗數據。然后,以關鍵詞或主題詞為實驗對象,利用共現聚類或LDA模型分別進行知識結構識別,即進行4組知識結構識別實驗。其中,利用文獻計量網絡可視化軟件VOSviewer的共現聚類進行知識結構識別,利用自編的Python程序構建關鍵詞或主題詞語料庫作為LDA模型輸入,使用開源GibbsLDA++工具包進行LDA模型訓練得到知識結構識別結果。最后,結合數據挖掘領域知識,對上述4組實驗結果進行兩兩有共性分析元素的對比分析,獲得基于關鍵詞和主題詞進行知識結構識別的差異、基于共現聚類和LDA模型進行知識結構識別的差異。

2.2基于LDA模型的知識結構識別方法

本文結合目前主流做法,提出如下基于LDA模型的知識結構識別方法。

步驟1:根據實驗目的獲取實驗數據。本研究針對兩種數據進行基于LDA模型的知識結構識別,一種是針對論文的關鍵詞,另一種是針對由題目、摘要和關鍵詞得到的切分后的主題詞。

步驟2:語料庫的數據預處理。因為題目和摘要是短句和短篇形式,需要針對實驗數據進行分詞、去符號、詞性還原和去停用詞處理。

步驟3:參數估計和推斷。利用LDA開源工具GibbsLDA++進行模型訓練,得到兩個超參數α、β的值。

步驟4:最優主題個數K的確定。觀察不同主題個數下困惑度[11]的變化,利用拐點來確定K。

步驟5:計算在確定α、β、K下的研究主題情況。

3實驗數據

3.1數據源選取

數據挖掘作為一個相對新的研究領域還不是一種現有學科的子類別,因而采用在“谷歌學術指標(GoogleScholarMetrics,GSM)”的“工程和計算機科學”類別的子類“數據挖掘與分析”中出現的出版物作為數據源。

GSM主要使用h5指數和h5中位數兩種指數來幫助研究者去評估近期學術出版物中文章的可見度和影響力。2019版GSM涵蓋2014—2018年發表的文章,指標基于2019年7月在谷歌學術搜索中索引的所有文章的引用,這也包括來自谷歌學術指標本身未涵蓋的文章的引用[12]。在2019版GSM中列出了數據挖掘領域的9種學術期刊[13],進行統計,如表1所示,數據挖掘頂尖期刊的歷史都不是很長。《IEEETransactionsonKnowledgeandDataEngineering》是這里的第一個專業期刊,創刊于1989年,也比計算機其他領域(如:人工智能)的頂尖期刊歷史要短。此外,只有3種數據挖掘頂尖期刊創刊于21世紀之前,其余期刊創刊時間全部在2007年之后。

綜上,本文以2019版GSM中“數據挖掘與分析”類別下的9種學術期刊在2014—2018年的題錄作為數據源。

3.2原始數據獲取及預統計

本文數據獲取策略:首先從文摘數據庫中WebofScience數據庫(WOS)中進行檢索,檢索不到的以Scopus數據庫作補充。在WOS核心合集,利用基本檢索精確匹配出版物名稱,時間跨度為2014—2018年,選擇全記錄與引用的參考文獻進行題錄下載保存為.txt文件。在Scopus中按ISSN進行精確檢索,出版時間為2014—2018年,選擇所有字段進行題錄下載保存為.ris文件。最終,共計下載3341條題錄。

通過對2014—2018年9種數據挖掘領域頂尖學術期刊的年度發文量(599篇、691篇、712篇、663篇、676篇)統計發現,總體呈現先上升后下降趨勢。2014—2016年發文量增長率逐年降低,2016年發文量達到了最高點(712篇),這說明2016年是數據挖掘領域的一個重要轉折點,2016年之前數據挖掘領域一直是研究的熱點。之后在2017年發文量達到最低點,2018年略有回升,但仍低于2015年的發文量數據,說明數據挖掘領域研究已經逐漸成熟,發文量逐漸趨于平穩。

3.3原始數據預處理

由于本文獲取的原始數據來源于不同科學文獻數據庫(WOS和Scopus)的題錄格式不同,需要對此異構數據進行預處理。

1)把Scopus題錄格式轉換為更為普遍的WOS題錄格式。利用CiteSpace對從Scopus獲取的原始題錄將.ris轉換為.txt格式,獲得3341條具有統一WOS格式的題錄。

2)保證WOS和Scopus中的關鍵詞字段含義相同。已知WOS包括作者關鍵詞DE和擴展關鍵詞ID,而Scopus中只提供作者關鍵詞KW。經核實發現,經過格式轉換過的題錄將Scopus中作者關鍵詞的縮寫由KW變為ID,這與Scopus本意不一致,因此將格式轉換過的題錄文本中的作者關鍵詞縮寫由ID替換為DE。至此,獲得本文實驗數據共計3341篇文檔。

4 實驗結果與分析

4.1基于關鍵詞和共現聚類的知識結構識別結果

利用VOSviewer針對實驗數據中的作者關鍵詞進行關鍵詞共現聚類分析,結果采用圖譜顯示。結合領域知識,得到2014—2018年數據挖掘領域頂尖期刊研究,可以歸納為7個研究主題(如圖2所示,括號里數字為類規模)。

研究主題1為“聚類分類算法研究”,包括:clustering、classification、machinelearning、featureselection、informationretrieval、sentimentanalysis、datastreams、transferlearning等。研究主題2為“復雜網絡和圖挖掘”,包括:socialnetworkanaly?sis、communitydetection、graphmining、anomalydetection、complexnetwork、communitystructure等。研究主題3為“大數據和云計算”,包括:bigda?ta、queryprocessing、mapreduce、cloudcomputing、hadoop等。研究主題4為“社會媒體語義分析”,包括:socialnetworking(online)、socialmedia、onlinesocialnetwork、website、semantics等。研究主題5為“社會網絡預測和影響力分析”,包括:so?cialnetwork、forecasting、linkprediction、socialin?fluence、informationdiffusion等。研究主題6為“算法設計與實現”,包括algorithms、experimentation、performance、design等。研究主題7為“推薦系統研究”,包括:collaborativefiltering、recommendersystems、matrixfactorization等。這7個研究主題之間,聚類分類算法與大數據和云計算、復雜網絡和圖挖掘、社會媒體語義分析聯系較為緊密,復雜網絡和圖挖掘與社會媒體語義分析、社會網絡預測和影響力分析聯系較為緊密,推薦系統研究與社會網絡預測和影響力分析聯系較為緊密。

4.2基于主題詞和共現聚類的知識結構識別結果

把實驗數據中的作者關鍵詞部分整理為分詞詞典,利用自編的正向最大匹配算法對題目和摘要進行分詞,并對每一條題錄內容中篩選出的關鍵詞部分通過自編算法進行去重,用Notepad++對篩選出的關鍵詞添加作者關鍵詞DE及VOSviewer軟件讀取數據必須識別到的縮寫內容。經多次共現次數實驗,基于主題詞共現聚類得到的網絡結構均不是十分清晰,大致可以得到5個主題(如圖3所示,括號里數字為類規模)。

研究主題1為“大數據管理與算法效率研究”,包括:datamining、bigdata、scalability、pri?vacy、effectivenessandefficiency、semantics、exper?imentalevaluation等。研究主題2為“分類和預測研究”,包括:classification、prediction、optimiza?tion、machinelearning、regression、featureselection等。研究主題3為“社會網絡分析和圖挖掘”,包括:socialnetwork、socialnetworks、twitter、socialmedia、theory、communitydetection、socialnetworkanalysis等。研究主題4為“推薦系統研究”,包括:ranking、recommendersystems、collaborativefil?tering、matrixfactorization、experimentation、baselinemethod、crowdsourcing、recommendersystem等。研究主題5為“聚類和時間序列分析”,包括:cluste?ring、timeseries、realdataset、datastreams、cluste?ringmethod、anomalydetection、knowledgediscovery、clusteringalgorithms、datastream等。在這5個研究主題中,社會網絡分析和圖挖掘與推薦系統研究這兩個研究主題聯系較為緊密。

4.3基于關鍵詞和LDA模型的知識結構識別結果

1)利用自編Python程序抽取實驗數據中的關鍵詞作為語料庫。

2)語料庫的數據預處理。利用Python語言在JupyterNotebook軟件環境下,自定義Clean函數,對實驗語料庫進行分詞、去符號、詞性還原處理,最終得到本實驗語料庫的詞規模為37013。

3)參數估計和推斷。在Linux環境下,基于開源工具包GibbsLDA++實現模型訓練,設置迭代次數1000次,得到超參數α=1.430000、β=0.100000。

4)最優主題個數確定。困惑度計算結果如圖4所示,在主題個數為35時困惑度最小,因此得到最優主題個數K=35。

根據模型輸出文件獲得每個主題下與該主題最相關的詞語以及權重。主題1“軌跡數據挖掘”包括mining、image、trajectory、probabilistic等。主題2“復雜網絡拓撲結構分析”包括network、com?plex、degree、topology、coefficient等。主題3“隱私安全保護”包括privacy、spatial、service、secur?ity、trust等。主題4“文本語義抽取”包括seman?tic、extraction、text、pattern等。主題5“動態圖算法設計”包括design、dynamic、algorithm、graph、multiview等。主題6“矩陣分解”包括matrix、de?tection、factorization、nonnegative等。主題7“模糊分類算法”包括fuzzy、classification、statistic、rank等。主題8“自然語言處理概率語法模型”包括language、sentiment、natural、probabilistic、clas?sification等。主題9“時空數據挖掘”包括meth?od、location、network、performance、factor、spatio?temporal等。主題10“推薦系統研究”包括system、filtering、recommender、collaborative、design等。主題11“復雜網絡節點中心性度量”包括model、centrality、feature、network、computational等。主題12“信息檢索中的相似度分析”包括analysis、re?trieval、similarity、discovery、cluster等。主題13“在線社交媒體互動語義分析”包括social、medi?um、twitter、online、interaction、sentiment等。主題14“基于約束的距離聚類算法”包括clustering、learning、set、distance、algorithm、model、constraint等。主題15“最近鄰算法研究”包括query、pro?cessing、bayesian、neighbor、nearest、summarization、network、skyline、object、parallel、approximate、da?tabase等。主題16“搜索流分析”包括search、temporal、space、stream、analytics等。主題17“基于眾包的深度學習”包括algorithm、learning、ontology、crowdsourcing、deep等。主題18“機器學習及人工智能在文本上的應用”包括learning、machine、text、intelligence、artificial等。主題19“分布式計算模型及分布式數據庫”包括compu?ting、database、distributed、model、machine等。主題20“馬爾可夫隨機場模型及最大似然算法研究”包括system、markov、random、likelihood、estima?tion等。主題21“主題模型及文本分類”包括modeling、topic、management、event、classification等。主題22“復雜網絡社團結構發現”包括com?munity、network、detection、dynamic、structure等。主題23“基于分解的網絡優化方法”包括optimi?zation、social、network、learning、decomposition、structural、unsupervised等。主題24“特征選擇及用戶行為研究”包括selection、feature、user、be?havior、reduction、learning、profile、social等。主題25“圖聚類分析”包括graph、detection、sampling、latent、clustering、similarity等。主題26“社交網絡中的異常檢測”包括social、online、network、exper?imentation、rank、anomaly、spam、influence等。主題27“決策樹算法”包括algorithm、tree、per?formance、decision、ensemble等。主題28“時間序列分類”包括classification、time、series、visualiza?tion、kernel等。主題29“網絡度量和行為檢測”包括network、detection、behavior、metric、meas?ure、linear、database等。主題30“圖表征研究”包括graph、quality、representation、optimization、embedding等。主題31“數據不平衡及增量問題研究”包括analytics、concept、imbalanced、incre?mental、subgraph等。主題32“頻繁模式挖掘”包括pattern、rule、frequent、experimentation、utility、sequential、association等。主題33“基于回歸的鏈路預測”包括prediction、regression、link、stream、online等。主題34“擴散理論及演化模型”包括model、influence、theory、diffusion、analysis等。主題35“基于半監督的排序研究”包括ranking、local、semisupervised、selection、measurement等。

4.4基于主題詞和LDA模型的知識結構識別結果

1)利用自編Python程序抽取實驗數據中的主題詞作為語料庫。利用Python庫re模塊的正則表達式對字符串進行處理,根據文本格式選擇multi?line模式,篩選出題目TI、關鍵詞DE、摘要AB3部分內容。

2)語料庫的數據預處理。利用Python語言在JupyterNotebook軟件環境下,自定義Clean函數,對實驗語料庫進行分詞、去符號、詞性還原和去停用詞處理,最終得到本實驗語料庫的詞規模為377408。

3)參數估計和推斷。在Linux環境下,基于開源工具包GibbsLDA++實現模型訓練,設置迭代次數1000次,得到超參數α=1.470000、β=0.100000。

4)最優主題個數確定。困惑度計算結果如圖5所示,在主題個數為34時困惑度最小,因此得到最優主題個數K=34。

根據模型輸出文件獲得每個主題下與該主題最相關的詞語以及權重。主題1“復雜網絡節點中心性度量”包括network、node、measure、complex、sampling、centrality、degree等。主題2“事件進程監測”包括event、process、temporal、technique、management、natural、source、news、monitoring等。主題3“時空數據挖掘”包括service、spatial、ap?proach、probabilistic、propose、effectiveness等。主題4“文本語義相似性研究”包括similarity、text、document、semantic、method、retrieval等。主題5“聚類算法研究”包括clustering、algorithm、meth?od、matrix、proposed、distance、subspace、vector等。主題6“優化算法研究”包括method、space、solution、concept、constraint、optimization等。主題7“信息擴散影響度研究”包括influence、metric、diffusion、based、propagation等。主題8“動態社交網絡鏈接預測”包括network、social、interac?tion、link、relationship、dynamic等。主題9“分類算法研究”包括learning、classification、machine、label、domain等。主題10“知識系統應用研究”包括knowledge、system、technology、application、computing、study、cloud等。主題11“時間序列分析”包括time、series、study、product、method、dy?namic等。主題12“特征選擇及分類研究”包括feature、classification、selection、classset等。主題13“社團結構發現算法研究”包括community、de?tection、structure、anomaly、algorithm等。主題14“分布式任務性能研究”包括task、performance、distribution、result、sample、mechanism等。主題15“在線社交媒體網絡行為研究”包括social、us?er、online、medium、networking、behavior等。主題16“醫療數據挖掘”包括framework、predictive、patient、compared、video、record、accuracy、medi?cal、health、result、condition、disease等。主題17“圖像表征研究”包括approach、technique、multi?ple、representation、image、visualization等。主題18“分布式計算研究”包括algorithm、framework、distributed、rule、datasets、processing、mapreduce等。主題19“軌跡數據挖掘”包括pattern、mining、discovery、trajectory、frequent、traffic、sequence等。主題20“異構數據挖掘”包括topic、type、paper、object、finding、heterogeneous、inference、relation?ship等。主題21“回歸模型研究”包括method、model、regression、variable、paper、proposed、sta?tistical、linear等。主題22“搜索排序研究”包括search、ranking、framework、question等。主題23“數據庫查詢處理”包括query、database、stream、object、processing等。主題24“決策樹算法”包括approach、method、set、tree、decision、strategy等。主題25“基于移動通訊數據的人類行為研究”包括mobile、human、activity、article、impact、pa?per、tag、identification、phone等。主題26“推薦系統研究”包括user、system、recommendation、i?tem、preference、approach、rating、filtering、recom?mender、collaborative等。主題27“定位預測”包括prediction、location、application、resource、paper等。主題28“隱私安全保護”包括privacy、utili?ty、technique、control、access、security等。主題29“情感分析”包括analysis、sentiment、tweet、language、mining等。主題30“圖算法研究”包括graph、algorithm、edge、path、vertex等。主題31“數據集處理研究”包括approach、dataset、size、estimation等。主題32“大數據分析工具”包括data、paper、analytics、level、challenge、tradition?al、tool、massive等。主題33“算法性能研究”包括algorithm、efficient、application、result、perform?ance、scheme等。主題34“潛在混合模型研究”包括modeling、role、latent、factor、hierarchical、pa?rameter、mixture等。

4.5結果對比分析

在上述4組實驗基礎上,進行兩兩有共性分析元素的對比分析,包括以下4個方面。

1)分別基于關鍵詞、主題詞進行共現聚類的知識結構識別對比。4.1和4.2實驗結果表明,在關鍵詞基礎上,加入了分詞后的題目、摘要,得到的聚類個數變少,研究主題不夠突出,因為針對一篇文獻而言,其主題詞涵蓋的詞組往往比其關鍵詞范圍廣,故文獻之間的共性會變大,基于主題詞共現得到的聚類個數會變少。

2)基于關鍵詞分別進行共現聚類、LDA模型的知識結構識別對比。4.1和4.3實驗結果表明,前者得到的研究主題個數遠遠小于后者得到的研究主題個數,前者得到的研究主題更概括。例如,前者的研究主題2“復雜網絡和圖挖掘”與后者的研究主題2“復雜網絡拓撲結構分析”、研究主題11“復雜網絡節點中心性度量”、研究主題22“復雜網絡社團結構發現”和研究主題29“網絡度量和行為檢測”緊密相關。

3)基于主題詞分別進行共現聚類、LDA模型的知識結構識別對比。4.2和4.4實驗結果表明,前者得到的研究主題個數遠遠小于后者得到的研究主題個數,后者得到的研究主題更為細分和具體。例如,前者的研究主題5“聚類和時間序列分析”對應后者的研究主題5“聚類算法研究”和研究主題11“時間序列分析”。再如,后者可以識別得到“文本語義相似性研究”“信息擴散影響度研究”“醫療數據挖掘”等細粒度研究主題。

4)分別基于關鍵詞、主題詞進行LDA模型的知識結構識別對比。4.3和4.4實驗結果表明,二者得到的研究主題規模接近,均得到了細粒度的研究主題,二者存在大量共同或相關的研究主題和少量有差異的研究主題。例如,研究主題“軌跡數據挖掘”“隱私安全保護”“時空數據挖掘”“推薦系統研究”“復雜網絡節點中心性度量”均被二者識別出來。又如,前者的研究主題34“擴散理論及演化模型”和后者的研究主題7“信息擴散影響度研究”很接近。此外,前者的研究主題6“矩陣分解”、后者的研究主題20“異構數據挖掘”是二者有差異的研究主題。

進一步根據數據挖掘背景知識,分析這4組實驗,基于關鍵詞(或主題詞)和共現聚類的知識結構識別獲得的研究主題粒度更大,得到的研究主題更具概括性,例如:聚類、分類、推薦系統研究,并且可以獲得研究主題之間的關系,例如:社會網絡分析和推薦系統研究聯系較為緊密。而基于關鍵詞(或主題詞)和LDA模型的知識結構識別獲得的研究主題粒度更小、更具體,提供的語義信息更多。具體而言:①研究主題結合具體應用領域,能夠體現數據挖掘與其他領域的結合情況,例如“醫療數據挖掘”;②研究主題更細致,例如可以識別出“復雜網絡節點中心性度量”和“異構數據挖掘”這樣的具體研究主題;③研究主題涉及面更廣,包括“軌跡數據挖掘”“情感分析”“時間序列分析”“基于眾包的深度學習”等主題。這應該是由于主題詞包括題目、關鍵詞、摘要3部分,相較于關鍵詞共現聚類只利用文獻的關鍵詞信息,前者產生的可解讀信息更多。

綜上,若針對同樣的關鍵詞(或主題詞),基于關鍵詞的共現聚類效果要好于基于主題的共現聚類效果,基于共現聚類獲得的研究主題較為籠統,但可以獲得研究主題之間的關系,而LDA模型獲得的研究主題涉及具體應用更廣、主題更加細分。

5結論

針對科學文獻挖掘知識結構兼具研究價值和實際價值。已有進行知識結構識別的方法鮮有從主題詞包括的題目、摘要和關鍵詞3方面入手,而考慮詞語間語義信息的知識結構識別十分重要。本文充分考慮作者定義的具有高度語義概括的題目、摘要和關鍵詞,提出了基于主題詞和采用LDA模型的知識結構識別方法,即首先要保證語料庫包含文獻的題目、摘要和關鍵詞信息,然后對語料庫進行分詞、去符號、詞性還原和去停用詞預處理,再利用開源工具GibbsLDA++進行LDA模型的超參估計,最后利用困惑度來確定最優主題個數。以基于谷歌學術指標獲得的2014—2018年數據挖掘頂尖學術期刊論文為數據源,進行基于關鍵詞(或主題詞)、采用共現聚類(或LDA模型)的4組交叉實證分析。結果表明,基于關鍵詞共現聚類不僅可以獲得聚類結果,還可以獲得類之間的關系,而基于主題詞和LDA模型的知識結構識別有效且相對于傳統的基于關鍵詞共現聚類得到的研究主題更結合具體應用領域、更細致,可以提供更多的信息用于研究主題解讀。在未來研究中,考慮對LDA模型進行改進以發現具體領域的新興研究主題。

3576500338220

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美成人日韩| 国产精品区视频中文字幕| 日韩在线视频网站| 国产高清在线观看91精品| 精品无码专区亚洲| 国产一区二区人大臿蕉香蕉| 免费国产一级 片内射老| 人人爽人人爽人人片| 日韩成人在线一区二区| 国产制服丝袜91在线| 3344在线观看无码| 精品国产免费人成在线观看| 丁香婷婷综合激情| 18禁黄无遮挡免费动漫网站| 2021国产乱人伦在线播放| 毛片在线播放网址| 国产精品一区二区久久精品无码| 亚洲日本精品一区二区| 99精品一区二区免费视频| 91精品国产91久久久久久三级| 中美日韩在线网免费毛片视频 | 麻豆精品国产自产在线| 天天做天天爱夜夜爽毛片毛片| 亚洲最猛黑人xxxx黑人猛交 | 日韩在线永久免费播放| 国产亚洲精品97在线观看 | a级毛片在线免费观看| 中文字幕佐山爱一区二区免费| 国产精品视频观看裸模 | 欧美精品v| 天堂亚洲网| 91青青在线视频| 四虎在线观看视频高清无码| 国产区福利小视频在线观看尤物| 欧美色香蕉| 久热re国产手机在线观看| 国产精品无码翘臀在线看纯欲| 色噜噜在线观看| 国产午夜看片| 免费99精品国产自在现线| 国产99视频精品免费视频7| 欧美色99| 欧美日韩在线国产| 国产丝袜第一页| 日韩精品亚洲一区中文字幕| 欧美不卡二区| 精品国产成人三级在线观看| 国产精品成人免费视频99| 国产黄视频网站| 欧美专区在线观看| 这里只有精品在线| 色有码无码视频| 一本大道无码高清| 欧洲日本亚洲中文字幕| 黄色网在线| 国产96在线 | 国产乱人伦AV在线A| 久久亚洲国产一区二区| 欧美69视频在线| 天天色综网| 久久熟女AV| 日韩a级毛片| 久久熟女AV| 日本五区在线不卡精品| 久久国产黑丝袜视频| 欧美一级专区免费大片| 中国成人在线视频| 毛片免费试看| 五月综合色婷婷| 日本成人福利视频| 91福利片| 亚洲欧洲日韩综合| 国产精品9| 99在线视频免费| 永久免费无码成人网站| 这里只有精品在线播放| 91久久偷偷做嫩草影院电| 免费国产黄线在线观看| 精品国产一区91在线| 美女无遮挡免费视频网站| 毛片基地美国正在播放亚洲| 欧美激情,国产精品|