(江蘇聯合職業技術學院徐州財經分院,江蘇徐州,221008)
大數據及其處理架構在高校中的應用探究
尚 博
(江蘇聯合職業技術學院徐州財經分院,江蘇徐州,221008)
本文先對大數據做了簡要介紹,進而分析了結合高校大數據結構的特點,進而以學生就業情況為例,分別作了高校數據采集、高校數據清理、高校數據存儲及管理、高校大數據分析、高校數據可視化顯化等環節的應用做了深入探討,以便更好的為高校在教學任務、課件等教學信息、科學研究數據、師資信息、招生就業信息等方面借助大數據分析技術,分析學生在高校和社會活動中產生的大數據,形成數據庫,進而為高校制定更好的教學內容和教學模式。
大數據;數據分析;清理方式 Hadoop
隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。早在1980年,著名未來學家阿爾文?托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。大數據(Big data),指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。海量數據技術,能夠有效地處理大量的容忍經過時間內的數據。大數據的技術應用,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
大數據本身是一個比較抽象的概念,但是僅僅數量上的龐大顯然無法看出大數據這一概念和以往的“海量數據”(Massive Data)、“超大規模數據”(Very Large Data)等概念之間有何區別。大數據可以更好的預測高校學生學習發展趨勢以及學生教育就業情況等,用戶通過電腦、筆記本、手機等方式接入數據中心,然后數據中心通過分析個人的各類信息,如微博、微信等社交信息中的抱怨,學生在選課、借閱圖書種類、成績變化等學習信息,盡可進行綜合性的分析判斷。
高校大數據按照信息處理環節包括高校數據采集、高校數據清理、高校數據存儲及管理、高校大數據分析、高校數據可視化顯化等五個環節。大數據(Big data)的處理流程和傳統的數據處理流程區別不大,主要的區別是,傳統的數據處理流程不能在處理大型非結構化數據,在每個加工環節都使用MapReduce并行處理的方式,而大數據就可以采用每個加工環節都使用MapReduce并行處理的方式。
2.1 高校大數據采集
大數據采集可通過RFID射頻數據、傳感器等采集到數據,也可以通過社交網絡交互數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,關鍵的高速度和高可靠的分布式爬行或采集,取得高速數據映射,數據采集技術的突破;利用高速數據分析,轉換和加載等數據集成整合技術,設計質量評價模型。由于大數據散布于不同的物理機上的,所以可以采用Hadoop等大數據挖掘工具進行數據采集,通過指向需要的信息內容存儲空間,形成數據 倉庫。所有的數據都是存在于云數據中心的資源池內,根據實際需求選擇數據采集方式,所以首要的任務是定義CIO的數據需求。

圖1 就業分析模型

圖2 高校大數據清理方式
高校大數據比較復雜,以高校學生就業分析情況為例,過去的就業分析數據主要來源于學生的簽約單位、學生的就業薪資待遇,學生就業分布的區域、學生畢業前所在院系專業排名、性別等維度來采集學生就業信息,通過上述采集,得到統計表格,然后高校就業指導辦老師,根據自己的經驗指導在校學生應對下一年的就業情況,無法預測在校的某個學生的就業情況,但是利用大數據采集,就可以采集學生更好的和就業相關的特征,比如學生在校的成績排名變化,學生參加校內校外活動的情況,學生的戀愛情況,以及學生應聘實習的情況,學生圖書館的借書種類,借書頻率,甚至可以采集學生在微薄等微信社交工具中所展示的對日常行為等,通過對歷屆學生在應聘單位薪資待遇等等眾多的信息進行收集。以徐州財經學院為例,可以從圖1所示的各類系統中采集學生的各類信息,構成大數據下的就業分析模型所需的各類數據。
2.2 高校大數據清理方式
大數據下的數據清理方式,高校數據來源復雜多樣,對于不同的數據源,數據提取采取不同的方式,對于非結構化數據,如網頁通過Nutch的工具抓取,數據被Solr的工具索引后存儲在HBase數據庫,對每個結構良好的信息系統中的數據,可以使用ETL工具將數據提取到HBase的數據庫;如圖2所示示意圖。HBase的數據庫是一個分布式的,開放源碼的面向列的數據庫,不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。該技術來源 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”。
2.3 高校數據存儲及管理
根據高校大數據中的分散性,復雜性,本文建議采用虛擬存儲技術解決高校數據存儲和管理,存儲虛擬化可以提高存儲利用率,降低成本,簡化存儲管理,而基于網絡的虛擬存儲技術已成為一種趨勢,它的開放性、擴展性、管理性等方面的優勢將在數據大集中、異地容災等應用中充分體現出來。本文建議利用云環境架構搭建用戶視圖更好的方便數據的存儲,同時高校大數據的數據源比較多,既包括傳統的關系型數據庫,也包括XML 等新的半結構化數據,以及以文字、視頻等其他形式存在的各類非結構化數據。利用云環境架構搭建用戶視圖更好的方便數據的存儲,可以更好的囊括現有的高校已經建立大數據系統,如學校的管理信息系統、學生學習管理系統等,這樣的好處還在于可以在統一數據中心資源池中積累大量的結構化數據。

圖3 高校云環境存儲架構
2.4 高校大數據分析
在數據分析方面可選用SAS及SPSS等工具,也可以使用基于開源軟件基礎構架Hadoop的數據分析,經過數據清理得到的數據,需要進行數據分析挖掘。針對學生的生活信息,選課、借閱圖書、成績等學習信息,可以更好的使高校在可以在教學任務、課件等教學信息、科學研究數據、師資信息、招生就業信息等方面為學生提高服務和指導。以學生就業情況為例,將就業分析模型所需的數據存儲在Hbase 數據庫后,可以使用Hive 對Hbase數據庫中的各類數據進行查詢和分析。通過Hive 可以更好的實現對高校就業數據的現狀分析,且可以更容易的通過對現有就業情況較好的學生的數據進行研究,預測在校學生的就業情況。通過協作篩選,分析已就業學生的成績、參加過的社團活動、愛好特長,喜好職業、性格特點等,將在校學生和就業生的情況進行相似比對計算程度,通過建立綜合評判模型,可以更好的在校學生就業提供指導方案,其次是聚類分析,將未能就業學生通過不同的維度進行分析,通過對影響學生就業的問題就行研究分析,對在校學生的不利于就業的行為及時給出就業預警,能夠更好的發揮高校就業指導中心的作用。如圖3所示
Research on the application of large data and its processing architecture in Colleges and Universities
Shang Bo
(Xuzhou Jiangsu Xuzhou branch of Jiangsu Lianhe Technical Institute of Finance and Economics,221008)
In this paper,the author first of Big data gives a brief introduction,and then analyzes thecombination of characteristic of big data structure in Colleges and universities,the employment situation of students as an example,are described in detail by five aspects of data acquisition,data cleaning,data storage and management,data analysis, data display and etc.,in order to better for the colleges and universities with big data analysis techniquesin the task of teaching,courseware,teaching in formation,teachinginformation,scientific research data, enrollment and employmentinformation and other aspects,Students analyze large data generated in universities and social activities, the formation of a database,and then develop better teaching content and teaching mode for college.
Big data;data analysis;Cleaning method Hadoop