劉 濱

數據,泛在于自然、社會和人文空間,在記錄歷史軌跡的同時,也蘊藏著推動發展的力量。隨著信息、通訊、網絡等技術的演進,互聯網、移動網、廣電網、物聯網、社交網等現代網絡及衍生業務迅速生長,數據體量、增速、復雜性等都達到了前所未有的高度。分析數據的特征和規律,計算出信息和知識,已經成為多學科理論交叉融合、共同面對的任務,更是一個協同創新的命題,需要計算機、數學、管理、信息、心理等多專業人才協作研究、解析問題、建立模型、設計算法、實施方案和評價結果。
承蒙河北科技大學學報編輯部為我們DARG組(Data Analysis Research Group,數據分析研究組)開辟本專欄,提供了一個與國內外優秀同行交流成果、切磋業務、探索問題、共同進步的寶貴平臺。DARG組教師(詳見主頁:http://www.bigdatacn.org)主要來自河北科技大學、清華大學、北京理工大學和北京交通大學,具有在劍橋大學、清華大學、日本國立岐阜大學、北京理工大學、天津大學、南開大學、重慶大學等國內外知名學府的博士教育背景和博士后工作經歷。
本期“數據分析與計算專欄”共推出3篇文章。
第1篇是劉濱撰寫的《分布式數據挖掘綜述》,關注如何將泛在于網絡空間的分布式計算環境和分布式數據資源相結合,提高分布式挖掘的效率和質量問題。文章根據系統設計思路和主要依托技術,對當前國內外主流分布式數據挖掘系統進行了分類,歸納出各類別的特點和局限,提煉出當前研究的共性問題,提出了利用本體度量數據源語義距離改善挖掘方式和結果質量的思路。
第2篇是楊彥波等撰寫的《信息可視化研究綜述》,關注數據分析和計算的過程與結果展現問題。信息可視化是可視化技術在非空間數據領域的應用,可以增強數據呈現效果,讓用戶以直觀交互的方式實現對數據的觀察和瀏覽,從而發現數據中隱藏的特征、關系和模式。文章對信息可視化的數據對象和技術進行了綜述,對當前研究熱點進行了整理,探索性提出了信息可視化未來的研究方向。
第3篇是許云峰等撰寫的《基于三元閉包和會員閉包的社區發現算法研究》,關注以微博為代表的現代社交網絡中的社區發現問題。由于社交網絡中人數眾多,關系錯綜復雜,因而產生的社交數據和傳統的數據相比具有數據量大、結構復雜、語義豐富的特點。針對此種情況,文章根據用戶之間的關系,提出了一種基于三元閉包的社區劃分算法,并通過與寬吻海豚網和Zachary俱樂部的社區網絡進行比較,證明了該算法的有效性和可行性。
限于學術水平,以上文章定有可進一步完善之處,歡迎各位朋友不吝指正。大數據時代已經來臨,讓我們共同為推進數據的分析與計算工作而努力奮斗!