尊敬的讀者朋友,您好!在作者和編輯老師的共同努力下,本專欄又和您見面了!文獻大數據分析和重疊社區發現是大數據與社會計算領域的研究熱點,也是本期關注的兩個主題。文獻大數據分析的研究目的之一,就是幫助廣大研究人員快速進入目標領域,敏捷追蹤其中的方向、方法和工具等,從而有效降低研究成本,縮短成果周期;重疊社區發現是復雜網絡挖掘領域的基礎性工作,成果應用于社交網絡、通訊網絡、蛋白質相互作用網絡、代謝路徑網絡、交通網絡等各種網絡的數據分析中,可服務于人力資源管理、新藥研制、交通規劃、傳染病防治、輿情控制等領域。
本期“數據分析與計算專欄”共推出2篇文章。
[JP2]第1篇是翟君偉等撰寫的“基于LDA主題模型的文獻特征項多重共現可視化方法”。共現網絡分析是文獻計量研究中分析文獻特征項數據關系的一種可視化方法,為解決多重共現網絡中節點過多、連線密度過大、不利于發現數據的價值以及可視化效果較低等問題,引入LDA主題模型,采用空間劃分的方法,將特征項全域可視化的問題轉化為子空間可視化問題。首先,使用SATI文獻題錄信息分析軟件抽取文獻關鍵詞,進行TF-IDF計算,以計算結果作為實驗數據;其次,使用Python構建主題模型,對目標文獻集合進行主題聚類分析;最后,使用Ucinet軟件對不同主題子空間文獻進行多重共現分析,并將子空間分析結果疊加和重構,完成多重共現可視化系統的結構化表達。結果表明:與原多重共現可視化方法相比,基于LDA主題模型的多重共現可視化改進方法降低了共現網絡中的節點數量和節點間連線密度,使得多重共現可視化系統的結構更為清晰,增加了數據的可讀性,突出了數據價值,有效提升了多重共現可視化效果。
第2篇是張妍等撰寫的“基于社區森林模型的分布式重疊社區發現算法”。針對傳統單機重疊社區發現算法已經不適于大規模復雜網絡挖掘,以及不能支持網絡表示學習任務相關要求的問題,提出了一種基于社區森林模型的分布式重疊社區發現算法(distributed community forest model,簡稱DCFM算法)。首先,將網絡數據集存儲到分布式文件系統,將數據分塊,使用分布式計算框架在每個數據分塊上執行CFM算法;然后,執行社區合并;最后,匯總社區劃分結果,使用真實的DBLP數據集將算法運行于Spark集群上,采用F均值和運行時間對算法進行評估。結果表明:DCFM算法的F均值稍遜于CFM算法,但其運算時間隨著節點的增加接近線性下降,在犧牲小部分F均值的同時,DCFM算法具備處理大規模網絡數據的能力;分割份數對計算時間的影響也很大,在com-dblp.ungraph.txt數據集上,CFM算法處理數據需要192 min,而DCFM算法在將數據分成6份時,需要約91 min,分成100份后僅需要約13 min。因此,在大數據平臺上采用分布式計算骨干度,進行社區劃分、合并的DCFM算法是一種可行的大規模復雜網絡挖掘方法,通過對網絡進行分割,可以大幅加快社區劃分速度,提高社區發現效率。
限于學術水平,以上文章定有可進一步完善之處,歡迎各位朋友不吝指正!
主持人簡介:
劉濱,男,1975年出生,教授,碩士生導師,河北科技大學大數據與社會計算研究中心主任,主要研究領域包括網絡新媒體、大數據、社會計算等。已發表學術論文100余篇,主持國家級科研課題2項、省級科研課題9項。