陳鳳妹
隨著移動互聯網、物聯網、社交網絡等應用的快速發展,傳統教育基礎設施存在安全性低、配置復雜、升級成本高等一系列問題,數據的集中管理和維護變得困難,對組建新的基于云計算的教育信息化基礎設施提出新要求——進一步建立教育信息化公共服務平臺。隨著大數據技術的快速發展,其在社會各個領域中得到了廣泛的應用,主要用于數據分析和處理,這樣不僅可以滿足時代發展需求,而且還可以更好的推動經濟社會發展。
國務院常務會議于2015年通過了《關于促進大數據發展行動綱要》,其中明確提出:“創新人才培養模式,建立健全多層次、多類型的大數據人才培養體系 ”,強調了大數據這一基礎性戰略資料的重要性,教育部高等教育司也于 2016年面向高職院校的專業設置中增加了“大數據技術與應用”專業。為此,一些高校也設置了大數據的相關專業,在一定程度上推動了大數據產業的發展。由于大數據專業屬于時代發展的新型專業,雖然一些高校已經開設了該專業,并對其進行了不斷的摸索和創新,但是缺乏可供直接借鑒和套用的模式。因此,本文將會立足于大數據人才培養要求和社會人才需求,結合硅湖職業技術學院大數據相關課程和大數據實驗室來對大數據實訓平臺建設與應用情況進行分析和探究。
一、大數據實訓平臺設計
(一)大數據處理平臺
Apache開發的 Hadoop分布式系統基礎架構,能夠為整個實訓平臺提供所需要的數據支持。該處理平臺除了提供包括分布式文件系統和分布式計算框架MapReduce。HDFS和MapReduce分別為海量數據提高數據存儲和數據技術,實現了計算與存儲的高度耦合。伴隨Hadoop項目結構的不斷發展,逐漸形成了一個豐富的Hadoop生態系統,主要有:安裝部署工具Ambari、作業流調度系統Oozie、數據倉庫Hive、內存計算Spark、資源調度管理框架YARN、數據庫TEL工具 Sqoop、分布式海量日志分析工具Flume、分布式協調服務Zookeeper、分布式數據庫HBase、分布式文件存儲系統HDFS、離線計算MapReduce、DAG計算Tez、等主流組件。為了確保實訓工作的順利進行,并能夠從大量無序的海量數據中更準確、更穩定、更快速、更可靠地挖掘有價值的信息,則需要在易管理性、安全性、高可用性等領域來進一步優化大數據處理平臺。
(二)在線教學管理平臺
該平臺對現有在線學習系統的功能進行了借鑒和引用,并選擇了B/S架構,從而實現對實訓教材、教學課程、教學資源庫等開展訪問授權和集中管理。同時,也增設了在線測試、在線評估等輔助功能,從而使教學質量得到有效提升。
(三)云件服務平臺
在大數據領域,云計算技術屬于一項關鍵技術手段。該平臺可以借助互聯網技術來為用戶提供云端服務,與傳統郵箱、網盤和在線辦公等軟件進行對比發現,云服務平臺不僅對桌面軟件進行了改造,而且本地軟硬件需要依賴于大量的計算支持。實際上,云服務平臺也是一種SaaS的服務方式,其通常將終端的運行環境和操作系統遷移到云端。并借助統一的交互平臺來確保交互功能的順利實現。同時,云服務平臺還能夠像在線互動教學平臺一樣,借助虛擬教學桌面來為廣大師生提供在線測試、資源共享、分組討論等功能,從而確保課堂教學活動的順利進行,有效提高教學質量;虛擬實驗桌面還可以為師生提供實驗應用環境和Hadoop部署環境,以確保大數據基礎理論教學和實訓工作的順利進行。
(四)虛擬化實訓平臺
通常情況下,大數據技術需要依賴于虛擬化技術的支撐,并且在開展實訓操作階段,各類大數據組件的數據分析、安裝部署等操作都是在虛擬機上開展的,該平臺可以提供虛擬化網絡環境設置、虛擬機的創建與配置、存儲資源分配等管理功能,以確保實訓人員能夠順利的完成實訓操作。
(五)算法建模平臺
數據可視化建模和大數據分析一般是大數據技術具體應用的直接表現。數據可視化的主要工具有:Excel、SPSS、Tableau。算法建模分析平臺集數據可視化建模功能和大數據分析功能為一體,并支持典型的數據分析算法,以確保實訓人員能夠直接通過以拖拽方式、圖形化組件等方式搭建數據分析模型,使大數據建模難度有效降低。
(六)教師、學生和管理員用戶平臺
教師端。包括:實訓課程內容、實訓管理、管理學生、查看學生算法、成績管理、上傳實訓文件、實訓報告管理。教師可以登錄教師用戶平臺,來查看實訓課程、系統運行環境及實訓內容。課程管理涉及到一系列的基礎課程,此時教師就可以根據實際情況來篩選課程內容,以確保課堂教學活動的順利進行;同時,教師還可以借助課程內容管理模塊,來編輯和管理課程知識點內容,并做好課程的拓展和維護管理工作。
學生端。包括:查看和閱讀實訓指導書、算法和實訓報告提交、算法對比和算法演示分析、修改學生個人信息、查看成績。通過登陸賬號,學生可以查看與本人相關的課程情況,并完成對相關課程的學習。課程一般包含實訓系統、實訓指導書及實訓成果等相關內容;進入實訓菜單,能夠對實訓文檔、實訓手冊填寫情況、實訓的視頻文件進行查看;實訓報告提交后,也可查看到任課老師的具體評分及實訓筆記等情況。
管理員用戶平臺。包括:學習資源、運算節點的管理、學生計算作業、查看具體進度進展、強制關閉系統。通常情況下,管理員在登錄管理員平臺后,能夠查看課程、內容、賬戶、系統等選項。系統管理模塊通??梢圆榭催\行設備、檢測系統、容器環境等的狀態;內容管理模塊通常是對教師和系統提供的內容進行管理與維護;課程管理模塊通常是對基礎和拓展內容進行管理與維護;用戶管理模塊通常是對學生和教師的賬號進行管理。
二、大數據技術
(一)大規模并行處理(MPP)數據庫
在數據庫非共享集群中,任何一個節點都有獨立的內存系統和磁盤存儲系統,根據應用特點和數據庫模型可以把業務數據劃分到各個節點上,并借助商業通用網絡或專用網絡實現每臺數據節點的互相連接和彼此協同計算。實際上,非共享數據庫集群具有高可用、高性能、可伸縮性、資源共享、優秀的性價比等優勢。在MPP中,數據加載可以并列運行,并保證所有節點能夠同時對數據進行讀取,并根據散列算法,來獲取自己所需要的數據信息,然后以網絡的方式把節點數據傳輸給目標節點,從而實現對高速數據的有效加載。
(二)分布式數據挖掘(DDM)
在20世紀90年代后期DDM開始被人所關注,其一般是借助分布式計算機來對分布式數據資源進行有效的挖掘,并對局部結果進行整合。通常情況下,DDM的實施并非都以站點間純粹獨立挖掘方式為主,如果某個(些)站點的計算、存儲和通信能力比較強時,能夠對其他站點的數據資源進行有效的匯聚,從而形成“局部集中、全局分布”挖掘方式。同時,DDM中的數據并非全部來自于分布式數據源,對于既擁有分布式站點,又擁有海量集中數據的組織而言,其能夠把數據分散到各站點,并借助站點資源來開展分布式挖掘,從而有效提高數據的挖掘效率。
三、大數據技術分析工具
(一)R語言
R語言是一個用于數據處理、統計計算和統計制圖的優秀工具,具有卓越的作圖功能的軟件系統。是屬于GNU系統的一個自由、免費、源代碼開放的軟件系統。對于R語言而言,其具有比較強大的統計分析功能,可以更好的滿足大數據處理環境。通常情況下,語言一般是以R軟件包的方式來對統計分析和數學計算工具進行發布,以確保開發者可以在開放環境中對各類數據進行靈活地處理,并結合用戶特點來構建統計計算模型,以確保數據處理工作的順利進行。例如在 Hadoop中,通過對TB和PB量級數據的處理,能夠得到GB量級數據,其可通過MapReduce處理,將被縮小后的數據再放在R語言中利用信息傳遞接口MPI進行計算處理,大大提高了數據處理的效率。
(二)Python語言
Python是一種完全面向對象的語言。任何計算機編程語言都有其相對比較適用的領域,例如,R語言在數據分析與制圖領域廣泛應用,Java在系統開發領域廣泛應用,Matlab在數值計算及矩陣運算領域廣泛應用,Python語言在大數據的策略分析領域廣泛應用。其中,Python語言也包含了R語言所具備的數據挖掘功能,在進行大規模數據處理過程中發揮著重要的作用。為了更好的方便于更多的人員能夠使用大數據支撐平臺,Python還融入了Jupyter開發環境,此時可以借助Jupyterlab編寫Python代碼,進而實現與大數據平臺的有效交互,完成對復雜大數據的系統分析。此外,Python語言還能夠有效的集成Fortran、C/C++語言的代碼,并對其應用功能進行了有效的擴展。
(三)Spark
Spark是通過Scala語言實現的,Scala語言是能夠像操作本地集合對象一樣輕松地操作的分布式數據集,是一種面向對象、函數式編程語言。Spark是向無環圖DAG執行引擎,以支持循環數據流與內存計算。它在內存中處理數據的速度相較于MapReduce快大約100倍,它在磁盤中處理數據的速度相較于MapReduce快大約10倍。
Spark不僅支持Scala編寫應用程序,而且支持Java、Scala、Python、R、SQL。它提供了80多種高級特性用于交互式并行計算。
S p a r k可以運行在多個地方,例如可以運行在 Hadoop的Yarn上、Apache Mesos上、Kubernetes上、standalone或云上。Spark還可以訪問多個數據源,比如:HDFS、Cassandra、HBase、Hive等數百個其他數據源中的數據。
四、結語
總之,隨著物聯網、云計算、大數據、移動互聯網等科學技術的發展,有效的推動了教育信息化建設的發展,而大數據技術實訓平臺的建設,充分利用了在線學習平臺的應用功能,將大數據實訓的各個環節連接到一起,使得大數據實訓服務變得更方便便捷,隨時隨地可用、迅速啟動和完成。有利于提高學生專業素質和就業技能,培養立足社會需求的大數據人才,達成良好的社會經濟效益等。