王扉
摘 要:采用互聯網+、云計算、大數據相結合的技術,建立學生事務大數據平臺,對接現有的業務數據庫和文件數據,通過優秀的ETL工具對中心業務有幫助的各種不同的存儲格式的數據源進行集中整合,建立集中數據倉庫,深入挖掘,實現智慧分析提供決策依據。
關鍵詞:云計算 大數據 數據中心
中圖分類號:G645 文獻標識碼:A 文章編號:1674-098X(2018)02(a)-0158-02
學生事務中心通過10余年的信息化建設,已建成以業務條線為主體的“2+8+2”的12個平臺的建設,包括學生學籍信息、學生就業信息、學生資助信息,非上海生源落戶信息等各類信息累計已超過千萬條,在各個系統數據庫中橫向還不能通過數據庫層直接調用。希望在建設大數據平臺,打通各個系統間的數據壁壘,建設一個學生事務中心的統一數據中心。
1 建設學生事務中心大數據平臺的意義
大數據重在實時處理與應用,以獲得所需要的信息和知識,從而實現商業價值以及為學生事務管理服務。數據挖掘和人工智能等應用工具在大數據處理中發揮著重要作用,現代信息技術是大數據賴以存在和發展的重要支撐力量。解決信息孤島,通過大數據分析,挖掘歷年沉淀的學生信息數據,意義重大。
2 基于云計算架構的大數據運算分析平臺
2.1 大數據基礎硬件平臺建設
平臺運行硬件環境:服務器群、大數據集中存儲、萬兆網絡等。
平臺運行軟件環境:Linux、服務器虛擬化軟件、數據庫、地圖、可視化BI軟件等。
平臺運行技術:采用分布式云計算技術,彈性擴張平臺運算能力。
2.2 分布式大數據管理層軟件
(1)對接現有的業務數據庫和文件數據。
(2)融合各類業務系統數據資源。將分散在各個業務子系統中的數據歸集起來(包括自有數據、上級數據、外部數據等),通過建立大數據平臺,進而充分挖掘數據價值,提供全員使用的檢索功能,提供多維度數據支持。通過優秀的ETL工具對中心業務有幫助的各種不同的存儲格式的數據源進行集中整合,建立集中數據倉庫:文本格式、oracle數據庫、sql數據庫、sysbasee數據庫、access數據庫、txt文件、excle文件、data文件等;建設可配置的自動抽取方案。
(3)建立分布式文件系統。建立分布式大數據數據倉庫,包括分布式關系型數據庫、對象存儲、圖數據庫。對不同來源的每條數據給予40位唯一哈希值,避免數據的重復性。建立數據索引,便于快速查詢以及快速調用。元數據管理。數據的安全管理和審計。
2.3 數據感知與數據處理建設
數據標簽的建立,多達數百種標簽的定義。表關聯定義。關系發掘。搜索引擎,包括全文檢索、漸進式搜索、單表查詢等。算法庫建設,數據的分析挖掘、比對碰撞。可視化建設,包括地理位置展現,儀表盤,圖表建設。
2.4 數據分析及應用模型建設
指標模型:結合學籍管理經驗,自定義各類指標,系統自動計算匯總異常指標,并發送給應用系統及相關警員。比對模型。通過比對模型比對出來的預警信息,系統可以根據設定自動發送到指定的單位。學生管理。知識管理。
2.5 API建設
平臺向應用系統提供豐富的API接口,應用層可以通過大數據平臺獲取綜合信息及數據分析的結果。
3 基于云計算的大數據平臺設計
大數據支撐體系架構如下。建設基于云計算的大數據平臺管理軟件,對大數據底層軟件進行統一管理,既要管理服務總線,又要統一管理大數據底層各類軟件。各個業務系統需要通過服務總線獲取數據查詢信息或者數據分析結果。
3.1 大數據軟件平臺建設
如圖1所示,采用業界先進的理論體系,支撐各類數據結構及大批量數據的存放、查詢、分析,并且大數據平臺能主動學習,發現數據價值。所以,大數據平臺融合MPP數據庫、Hadoop、搜索引擎、圖數據庫、消息總線、內存數據庫、NOSQL等先進的技術,形成統一管理的數據平臺。
大數據平臺對業務系統的支撐方式主要包括兩大類:數據查詢服務、數據分析服務。為了實現對應用的支撐,大數據平臺需要具備的功能架構分為三層:基礎數據層、數據感知層、學習層。
3.2 數據管理層
(1)數據采集:由于數據類型豐富,需要專門的ETL模塊,將來自Oralce\SQL Server\DB2\MySQL,以及Excel\PDF\Word文件,甚至還有錄音錄像文件采集到大數據平臺,而且ETL工具采集過來后,要和大數據文件系統及數據倉庫對接起來入庫。
(2)元數據管理:元數據是主數據的基礎,元數據對數據進行分類存放,追溯數據的血緣關系,建立數據之間的關聯,以及對每條數據的屬性做管理,實現數據的生命周期管理。
(3)數據標準化:由于數據來源不同,格式不同,存放方式不同,所以從采集入庫的裸倉,到可以使用的數倉,需要做數據標準化處理。否則系統呈現的格式以及方式都不同,比如有些表定義“男”“女”,有些表定義成“1”“0”。有些定義成數值,有些定義成字符。這個是較大的數據治理過程。
(4)數據標識:每條數據給予40位哈希值唯一標識符,不能重復。每條數據建立唯一索引。
(5)分布式文件系統:分布式存放,使得系統具備動態可擴充的彈性架構。
(6)分布式數據倉庫:大數據的數據倉庫是數據分析挖掘的基礎,支持超大規模的數據量。數據倉庫是由內存數據庫,大規模并行處理數據庫及Hbase等構成。
(7)圖數據庫:存放大量的實體、對象之間的關系。
(8)安全審計:大數據平臺的安全,審計,權限管理。
3.3 數據感知層
(1)標簽定義:通常是數據庫中沒有存在的表示方式, 經過某些指標對應,給實體對象一個屬性標志。或者通過某些事件,給實體一個事件標識。
(2)關聯定義:同樣包括屬性關聯和事件關聯。建立數據關聯,要經過需求調研,對數據結構進行分析,制定關聯規則等系列過程。在眾多表之間,眾多對象之間,要定義是可以被關聯的,關聯定義是關聯分析的基礎。關聯分析又稱關聯挖掘,就是在交易數據、關系數據或其他信息載體中,查找存在于項目集合或對象集合之間的頻繁模式、關聯、相關性或因果結構。
(3)知識管理:有關實體的非結構化文檔管理方法。
(4)搜索引擎:在數據分類之后,提供全文檢索功能。
(5)條件篩查:用戶自定條件,發現符合多重條件的結果。
(6)時空特征:實體對象的屬性改變或事件發生的時空排序,用于梳理實體的演變。比如某學生什么時候取得了某項獎勵,什么時候參加實習等等。
(7)報表可視化:為分析預警的可視化呈現提供了編程接口工具。
(8)地址數據庫:按國家標準要求,重新將地址入庫。在很多系統里由于填寫不規范,地址信息比較亂,導致分析不方便。
3.4 學習模型層
(1)指標建模:包含指標定義工具,即彈性指標機器學習。指標是預警分析的啟始條件之一。不同應用預警,需要不同指標模型。比如對于圍標嫌疑分析,除了做關系模型外,還需要指標模型。
(2)比對模型:在多維表之間做比對分析,尋找多個對象出現的相近相同的值,要求性能快,數據挖掘的功能。
(3)關系模型:首先根據業務需求,定義關系,關系有很多種大數據系統自定義運行任務,不斷發現關系。關系模型是預警模塊的重要基礎。
(4)實體檔案:通過各類數據,發現實體背景檔案。
(5)語義分析:不同文本之間的關鍵詞詞頻分析,相似度分析。可以用于投標方案的雷同性比較。
(6)趨勢預測:通過訓練模型,分類分析或傅里葉算法等,市場預測。
4 結語
學生事務中心的數據可以通過建立分布式數據融合平臺,實現數據采集、數據治理、數據資產管理、建立數據倉庫、數據搜索、分布式計算等。自動實現數據實體的維度建立、大數據自動關聯。自動適應日益變化的數據源,為大數據分析及輔助決策提供支撐。學生事務大數據平臺的數據將會為不同層面提供數據支撐,將來還要建設市—校間的數據交換將大數據平臺的數據結果推送到各個學校,讓學校了解各學生數據的走勢。
參考文獻
[1] 李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015(1):1-44.
[2] 俞立平.大數據與大數據經濟學[J].中國軟科學,2013(7):177-183.
[3] 秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(6):23-28.