楊雄 李曉芳 謝光前 肖賢建


摘要:數據挖掘在本科層次計算機人才培養方面的應用研究方興日盛,建設高效的實驗平臺和實訓方案是推動提升人才培養質量的必由之路。基于igraph的網絡數據挖掘實驗平臺,定位于本科層次創新型人才培養體系建設,依托R語言和igraph開源項目,深入分析在創新實踐教學和大數據技能競賽背景下,如何無縫銜接校內理論課程與校外實訓項目之間的技能應用,更好滿足跨學科、跨專業、跨年級的多元化教學要求,為培養學生創新思維、激發學習興趣、提升再學習能力提供了新的一體化教學實訓環境。
關鍵詞:igraph;數據挖掘;實驗建設;創新思維;開源
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)21-0029-03
開放科學(資源服務)標識碼(OSID):
進入21世紀以來,我國高等教育事業蓬勃發展,為加快發展壯大現代產業體系做出了重大貢獻;但受多種因素影響,人才培養供給側和產業需求側在結構、質量、水平上還不能完全對接。新一代信息技術和大數據時代背景下[1],具備數據分析能力和商業洞察能力的人才將供不應求,但是當前本科院校在培養相關人才方面仍然存在一定的短板,特別是地方應用型本科院校在師資力量、教學實驗配置、實訓內容開設等方面存在著不少差距[2]。實訓教學可以有效改變傳統理論課程內容單一、“學不識用、用不識學”的尷尬,在深化產教融合,促進教育鏈、人才鏈與產業鏈、創新鏈有機銜接,推進人力資源供給側結構性改革方面顯得尤為重要。
數據挖掘是從大量隨機數據中發現未知的、具有潛在意義的信息的過程,是傳統分析技術的延伸和擴展[3]。與傳統的統計分析相比,數據挖掘是在沒有明確假設前提下進行分析,所得到的信息是先前未知的、有效的和實用的。R語言既是一種用于數據分析建模及繪圖的語言,又是一個具有統計分析功能及強大作圖功能的軟件系統,主要包括核心R標準包和各個專業領域的開源包,該語言在數據挖掘分析領域已具有明顯的優勢[4]。近幾年,R語言在國內也進入了飛速發展階段,被廣泛應用于各大行業,例如互聯網銷售平臺阿里巴巴、京東等都將R語言應用到了各自的銷售網站上,并開發了自動補貨系統。在此背景下,地方應用型本科院校在開設數據科學相關課程時,構建貼近產業技術需求、擁有低成本靈活性能的數據挖掘實驗平臺就具有十分重要的現實意義。
1 網絡數據挖掘實驗平臺定位
互聯網技術的創新和發展實現了網絡信息分享的便捷性和數據傳播的海量化,促進了信息應用領域的空前繁榮,這些傳播于網絡的信息形成了網絡大數據的重要部分,對事件分析有著無可比擬的作用。然而,面對“多源、量大、內容復雜、實時性”的網絡數據,關鍵問題在于如何有效獲取并處理分析這些數據,從而滿足現實需求。開源的網絡數據挖掘實驗平臺在經濟性、直觀性、擴展性、便捷性等方面擁有得天獨厚的優勢,采用這種實訓教學模式可以有效降低實驗平臺的搭建成本,快速衍生功能模塊的便捷嵌入,直觀展示數據挖掘的可視化成果[5]。
Igraph[6]是Gabor Csardi基于R語言開發的一款網絡和圖論分析開源軟件包,它能夠快速處理大規模網絡并對隨機網絡、小世界網絡、無標度網絡等提供分析和可視化功能。Igraph包含了R、C、Python等語言接口,方便提供了下列功能:(1)網絡可視化;(2)傳統圖論算法,如最小生成樹、網絡流、最短路徑等;(3)復雜網絡處理算法[7],如隨機網絡生成模型、K核分解、PageRank排序、社區發現算法等。該實驗平臺通過plot.igraph函數、tkplot函數、rgl包和OpenGL提供可視化分析結果,并且保存處理JPG、BMP、TIF等各種格式的圖形文件。基于igraph的網絡數據挖掘實驗平臺不僅能夠對數據結構圖論、網絡仿真、社會網絡分析等課程提供有效的實訓支撐,同時還能鍛煉學生編程動手能力,提高創新水平,激發對科研的主動積極性。
2 Igraph網絡數據挖掘實驗平臺建設
Igraph在傳統圖論方面提供了特征中心、割點、割邊、度分布、圖遍歷、最小生成樹、最小割點集、最短路徑等經典算法;復雜網絡方面igraph則具備了節點中心性排序、邊中心性度量、網絡生成和社團挖掘、信息傳播動力學等多種應用接口。安裝完igraph包的RStudio啟動界面如圖1所示,該界面由代碼編輯、命令控制臺、資源欄和其他欄組合而成。代碼編輯欄通常進行代碼編輯及打開R語言腳本;命令控制臺顯示相應的代碼執行結果;位于右下角其他欄中的Packages目錄可進行R包的安裝及加載(每次使用前需加載包到內存中,也可在控制臺輸入library命令加載);資源欄用于數據源的導入加載,igraph可以從外部文件讀取原始數據并支持多種格式,如:excel、txt、csv、SPSS、SAS等,同時還支持MySOL等常用數據庫的數據讀取。
2.1 Igraph實驗平臺解析
Igraph主要用來計算關系網絡的相關內容,它提供了大量函數來創建、布置和生成圖。以社會網絡分析(Social Network Analysis)為代表的網絡數據挖掘本質是利用各樣本間的關系(也稱為關系網絡)來分析整體樣本的群落現象,并找出單個樣本節點在群落形成中的作用以及群落間的關系。Igraph關系網絡可以抽象為如表1所示的網絡基礎概念,并利用R語言和igraph自帶函數進行可視化結果分析,如表2所示。
基于igraph的網絡數據挖掘實驗平臺從功能上可分為編輯層和顯示層兩部分,編輯層功能主要是代碼編輯和調試,顯示層則提供分析結果的可視化。由于igraph集成了多種圖論算法和網絡應用接口,學生在簡化經典算法編程工作量的同時,針對特定需求可對項目模塊進行自主設計,不再像Gephi等軟件僅僅停留于平臺參數設置及受限于算法功能不足的窘境。該平臺最低要求系統CPU為Intel P42.0GHz以上,內存1G以上,操作系統可為Windows XP 32位或Windows 7 64位,編程語言為R或Python,對應IDE為RStudio或Pycharm。
2.2 Igraph實驗項目設置
打造面向地方應用型本科院校的網絡數據挖掘平臺[8]能夠激發學生的學習動力、更靈活地發揮開源平臺的實力。傳統網絡數據挖掘軟件Gephi和Pajek雖然也能一定程度鍛煉學生的編程能力,但主要局限在軟件提供的原有項目設置規則層面,因此具備開源特征,同時簡化基礎算法實現的教學實訓平臺就顯得意義重大。Igraph采用模塊化設計思想提供了功能完善的網絡應用接口,R語言簡潔明了的語言風格即使沒有編程經驗的學生也能快速掌握網絡數據的統計分析和功能開發[9],實現具有創新思維的“自主學習”。Igraph支持的現有項目設置體系如圖2所示[10],常州工學院物聯網工程、通信工程、軟件工程等專業在開設的數據結構、數據可視化分析、網絡仿真等多門課程已開始自主設計相關實訓類課題,反饋顯示設置的項目不僅能夠培養學生的綜合能力,更能夠突顯專業素養的形成,通過產教融合的培養過程為學生提供創新思維,無縫銜接校內理論課程與校外實訓項目之間的技能應用。
3 Igraph網絡數據挖掘實驗平臺的教學模式
3.1 教學方案
定期開展交叉課程的交流學習活動,形成各學院專業系部匯集的數據結構、網絡仿真、數據可視化分析等多學科融合的討論環境,能夠有效推動數據科學人才培養的技術起步和實驗平臺的建設成效。R語言在數據分析和機器學習領域已成為一款重要的工具,并且與工業界和學術界保持著強大的聯動效應,因此學生在學習igraph實驗課程內容的同時能夠掌握貼近產業需求的前沿技能,改變傳統理論課程內容單一、“學不識用、用不識學”的尷尬。學生可根據自身不同階段靈活選擇專攻的實驗項目,教師也可以通過課堂教授、研討會、分組PK、答疑等多種形式推進教學效果。
3.2 運行機制
由于igraph支撐的實訓關聯課程大部分為高年級的專業基礎課或專業選修課,因此基于igraph平臺教學首要考慮的原則就是自覺、開放。與其他工程類實訓平臺不同,igraph平臺沒有額外耗材的開支,主要通過下載數據源進行網絡結構分析和數據挖掘,因此該平臺的教學及考核運行機制主要可以分為以下四個方面:
(1)搭建特色鮮明、凸顯專業能力建設的開源實訓平臺,為多學科關聯課程的實驗教學奠定基礎,致力培養具有工程能力的“雙師型”教師。
(2)建立具備創新能力和技戰術水平的數據技能競賽團隊,重點針對考核排名靠前的選手遴選參加比賽,通過各種國際國內賽事,提升人才培養質量,形成良性循環運作。
(3)強化創新思維,更新在線項目,銜接產業界技術需求,形成具有自生長因子的實訓教學平臺,通過該平臺檢驗人才培養成效,反饋培養方案存在的不足。
(4)依托平臺繼續做好產教融合工作,結合地方經濟和社會發展、企業發展的技術需求,建成高標準、高水平、開放兼容的創新教改基地,進一步探索知識、素質和能力的協調統一。
4 總結與展望
“知行合一”理念將會貫穿整個實訓平臺的建設和使用過程,基于igraph的網絡數據挖掘實驗平臺能夠很好地滿足跨學科、跨專業、跨年級的多元化教學要求,緊密結合產業界項目的工程能力要求,為培養學生創新思維、激發自主學習興趣、提升再學習能力提供了一體化教學實訓環境。
該平臺支持相互獨立的各功能模塊,提供圖論、復雜網絡、信息動力學、社團挖掘、動態網絡等多種網絡應用接口,學生可以通過實際項目上機演練,多方位學習訓練,做到與企業需求無縫銜接,真正解決網絡數據分析人才缺口的問題。同時,igraph整合了數據采集、數據清洗、數據建模、數據視圖等功能,提供了行業數據及相關案例用于研究設計,教師科研工作也可融合該系統方便地對相關行業進行統計分析,生成可視化數據報表。
Igraph網絡數據挖掘實驗平臺建設運行2年來,團隊獲得了多種榮譽,競賽學員在2018年全國首屆大學生大數據技能競賽中獲季軍1項、發表科技論文2篇、授權軟件著作權3項、獲校級優秀畢業設計一等獎1項、二等獎3項;教師團隊依托平臺在校級中青年教師教學比賽中喜獲二等獎,獲批國家級大學生實踐創新訓練項目1項、江蘇省大學生實踐創新訓練計劃項目3項、教育部產學研合作協同育人項目2項。在今后的教學實訓過程中,我們仍將積極探索平臺功能,開發設立更貼近產教融合需求、凸顯專業能力培養的新項目,鼓勵教師和學生充分利用平臺提升教學效果,滿足企業對數據人才日益增長的迫切需求。
參考文獻:
[1] 李雍頡.面向大數據信息時代計算機科學的應用[J].電子技術與軟件工程,2018(2):166.
[2] 馮秀清,司杰.數據挖掘在高校人才優化配置方面的應用[J].科技與創新.2018(14):158-159.
[3]張良均,云偉標,王路.R語言數據分析與挖掘實戰[M].北京:機械工業出版社,2015.10.
[4] 周蕓韜.基于R語言的大數據處理平臺的設計與實現[J].現代電子技術.2017,40(2):53-56.
[5] 王善勤,吳昌雨,陳業斌.大數據挖掘技術在高校專業內涵建設中的應用研究[J].佳木斯大學學報: 自然科學版.2016,34(5):827-830.
[6]Gabor Csardi. Igraph: Network analysis and visualization[EB/OL].https://cran.r-project.org/web/packages/InteractiveIGraph/index.html. 2019-02-13.
[7] 賀定龍,張功萱,李晨,等.復雜網絡仿真軟件設計與實現[J].計算機工程與設計.2014(8):2764-2768.
[8] 王濤.基于數據挖掘的智能開放實驗室系統的研究與設計[J].軟件導刊.2012,11(1):160-162.
[9] 岳強,胡中玉,文瑾,等.基于R語言的數據挖掘課程實驗設計[J].微型電腦應用.2016,32(5):31-34.
[10]Wook-Shin Han, Wook-Shinm Lee, Jinsoo Pham, et.al. iGraph: A Framework for Comparisons of Disk-Based Graph Indexing Techniques[J]. PVLDB.2010(3):449-459.
【通聯編輯:王力】