馬鴻健 張耘凡 王關祥 車路 王嬌
【摘 要】隨著高校信息化應用范圍的逐步擴大,以及物聯網、云計算、移動互聯等新型信息技術的廣泛應用,高校信息化建設逐漸進入了大數據時代。面對迅速增長的教育信息資源,海量信息的存儲和利用問題日益嚴峻,各大高校對于數據采集整合、集中管理、分析挖掘的需求日益明顯,都在探索和思考新的應對策略。
【關鍵詞】數據管理;數據采集;數據分析
Thinking of University data management in the Big Data era
MA Hong-jian ZHANG Yun-fan WANG Guan-xiang CHE Lu WANG Jiao
(Shandong Agricultural University, Taian Shandong 271000, China)
【Abstract】The university information system is gradually entered the era of big data, with the widely application of information, as well as networking, cloud computing, mobile Internet and suchlike new information technology. Facing the rapid growth of educational information resources, the problems of storage and utilization of magnanimity information resources is becoming more seriously. With the urgent requirement in data collection, centralized management, analysis and data mining, all of them are thinking and exploration of the new strategies.
【Key words】Data management; Data collection; Data analysis
0 引言
自21世紀以來,我國高校數字化校園建設得到快速發展,大致經歷了基礎設施建設階段、應用系統建設階段和信息數據整合階段,提升了高校信息化的整體水平。如今,數據中心在承載著越來多和越來越重要的應用與業務系統的同時,也積累了大量的數據資源,數據管理漸行漸近。
大數據技術的目的不在于掌握龐大的數據信息,而在于對這些蘊藏知識的數據進行專業化處理,通過分析得出大量額外的有價值信息和數據關系,幫助人們優化自身的決策和行為方式[1]。高校中的數據是多源的、異構的,需要利用大數據技術進行整合,挖掘數據潛在的價值,進而幫助學校進行決策分析及管理,大數據技術的應用在高校教育信息化中起到越來越重要的地位。
1 數據管理
高校數據資源是高校各職能部門產生的業務數據及相關數據,包括教學資源數據、網絡行為數據、無線認證數據等,從數據來源上涵蓋教學、科研、人事、資產、財務等各個方面,從數據類型上有數據庫、圖像、報表、公文、音頻、視頻、日志等形式。
數據管理的概念最早提出于20世紀80年代,指利用先進的管理手段和計算機硬件、軟件,實現對數據資源進行規劃、設計、使用、維護與控制的全面管理,其目的在于充分有效地發揮數據的作用[2-5]。當前高校數據管理的工作主要包括三個方面:
1.1 數據的管理及共享服務
根據高校應用系統的數據需求,規劃數據庫結構和內容,將各種異構數據源進行統一,對外提供統一的訪問接口和數據發現、檢索等服務;建立統一數據庫平臺,存儲各應用系統數據交換所需要的信息,并通過數據交換功能獲取應用系統權威數據,根據需求定期回寫到其他數據使用部門的應用系統,實現各個業務部門之間的數據共享。
1.2 制定相應數據標準和數據規劃
建立高校數據標準規范,將學校各類數據資源集成,實現單一數據源管理和有授權的數據訪問,保證學校主數據庫中數據的實時性、準確性、一致性;對全校范圍的數據資源進行統一規劃,確定各類數據對應的權威數據生產部門,明確共享數據內容。
1.3 數據統計分析與應用
對集成的數據進行數據清理、數據分析及數據展示工作,除去冗余、重復的數據,提高數據質量;對高校教育大數據進行數據挖掘,發現數據中的價值,實現教學評估、學生個體分析、輿情預測等大數據分析與應用。
2 數據采集
高校信息化建設過程中,各個部門根據自身的業務需求建立了各自的業務系統,并收集了大量的、不同類型的數據,如教學、人事、科研、財務等部門的基本業務數據,教學課件、視頻等多媒體數據,論壇、微博、微信等網絡行為數據,校內無線網感知的位置數據等,從數據類型上可分為應用關系數據、文檔、操作日志、圖形數據、XML數據、流式數據等,這些數據在數據采集時可以分為兩類,即結構化數據和非結構化數據,大數據采集架構如圖1所示。
2.1 結構化數據采集
結構化數據采集即數據集成,將互相關聯的分布式異構數據集成到一起。其實現方式是在各業務系統與數據中心之間做接口,并完成對接,實現抽取與推送數據的目的。根據實際應用的需求,數據交換分為數據庫級數據交換和應用級數據交換,數據庫級數據交換適合數據集實時要求高數據量不大的數據;應用級數據交換適合數據實時性要求不高但數據量較大的數據。高校中數據集成的部門和需要集成數據項名稱如表1所示。
2.2 非結構化數據采集
高校產生的數據大多是半結構化和非結構化數據,在進行數據采集時,將存儲于數據庫以外的數據作為非結構化數據進行研究。高校中,將各種不同類型和格式的數據進行集成時,需要使用與非結構化的數據相關聯的鍵或者標簽,這些非結構化數據通常包含了與主數據相關的數據。通過分析包含了文本數據的非結構化數據,可以將非結構化的數據進行關聯。如圖所示,存儲在數據庫外部的數據,如文檔、音頻、視頻文件,可以通過教師、學生、課程或者其它主數據引用進行搜索,將主數據引用作為元數據標簽附加到非結構化數據上,在此基礎上實現與其它數據源和其它類型的數據進行集成。
3 數據分析
數據采集獲取到高校大數據之后,需要進行數據分析、挖掘工作。數據分析方式主要有兩種,一種是傳統的SPSS、SAS數據分析,另一種是采用大數據架構及相關工具進行分析,如Hadoop、Spark。
大數分析技術可以應用于高校大數據的各個方面,分析結論也可以應用于教育、教學的多個方面。通過對學生成績數據、圖書借閱數據、課外活動數據、一卡通消費數據、體能測試數據進行分析,可以綜合性地分析學生的全面發展狀況;在以上基礎上,增加學生興趣數據、科學研究及實踐數據、就業數據,可以分析得出各類學生對就業的方向選擇及社會對學生的認可程度,進而幫助學校在教學模式、培養方案上的優化,更加準確高效地培養出更多優秀的、為社會服務的高水平人才。
4 數據管理思考
從高校數據的來源及匯聚方面,高校中的數據很大一部分來源于各職能部門,而高校內部對于各職能部門間數據資源規劃缺位、缺乏共享共建意識,導致了各部門建設進度不同、數據標準不統一,增加了數據資源共享共用的壁壘。因此,大量的數據分布在各個互相獨立的系統中,無法有效流動形成規模效應,數據價值得不到有效挖掘。
從大數據時代的數據管理思想上,傳統的數據管理只是采集基本數據,使用數據自身含義,沒有利用數據的附加價值;而大數據時代的數據管理更強調數據之間的關聯性,主要研究數據間的關系,以挖掘內在關系及預測為核心思想,通過對海量數據進行分析,得到未來發展趨勢或者推斷將來的可能性,進而為高校決策提供數據支持。
從大數據時代的隱私保護上,多項案例表明,即使無害的數據被大量收集后,也會暴露個人隱私。高校大數據覆蓋高校、學科、教師、學生的方方面面,如學校課程體系、學科目錄、教師的工資收入,學生的生活習慣、閱讀習慣、檢索習慣等。因此,需要在大數據采集、分析、決策開展的同時,做好用戶隱私的保護。
5 結論
綜上所述,大數據的出現,給高校的數據整合和數據管理提供了技術支持。利用大數據技術做好高校數據管理工作,讓數據更好的為教學、科研、學生管理等提供決策支持,是大數據時代高校數據管理發展的方向。
【參考文獻】
[1]趙玉潔.大數據在高校教育信息化中的應用探究[J].中國教育信息化,2015,19:38-41.
[2]孫曼,王全.大數據及其處理架構在高校中的應用探究[J].現代經濟信息,2015,12:96+98.
[3]石峻峰,周俐霞,樊澤恒,王麗.大數據時代高校數字檔案資源管理研究[J].現代教育技術,2015,01:19-24.
[4]向禹.高校檔案資源異構數據采集研究與實現[J].農業圖書情報學刊,2015,06:18-21.
[5]曾凌靜.大數據系統架構及技術發展研究[J].石家莊學院學報,2015,06:38-43.
[6]余水清,潘黎萍.大數據管理-數據集成的技術、方法與最佳實踐[M].機械工業出版社,2014∶2-9.
[7]王益.數據中心信息交換平臺的研究與設計[J].中國教育信息化,2010,21:16-17.
[8]鄧佳,詹華清.莫納什大學科研數據管理實踐及對我國機構知識庫建設的啟示[J].情報理論與實踐,2014,05:136-139.
[9]趙亮.大數據在高校教育信息化中的應用[J].黑龍江教育學院學報,2014,09:14-15.
[10]舒忠梅,屈瓊斐.大數據時代高校信息管理與決策機制研究[J].華南理工大學學報:社會科學版,2013,06:96-101.
[11]孫洪睿.高校數據信息平臺的研究與設計[J].應用科技,2009,07:41-46.
[12]陳琴,耿植.構建高校信息管理數據倉庫[J].福建電腦,2008,03:183+159.
[13]潘奇.基于Hadoop技術的高校學生行為分析系統研究與實現[D].北京郵電大學,2015.
[責任編輯:楊玉潔]