譚保華,任志鵬,王鵬,趙建平
(長春理工大學,長春 130022)
校友資源是學校的寶貴財富,隨著大數據時代的到來,高校對校友資源的管理更加科學化、智能化[1]。本文利用大數據處理技術對校友信息數據進行挖掘、整理、分析,通過對主要數據模型的梳理,提供統一的基于云的大數據整合共享平臺,實現校友數據信息的整合和共享,同時結合微信公眾平臺進行信息的搜集與分析,實現了智能化、科學化管理,充分發揮校友資源的效用,形成功能完善、消息及時、管理方便、服務到位的校友信息整合分析平臺,提升了校友對學校的認同感和滿意度,有效地加強了校友與母校之間的動態聯絡與溝通,極大地增進了雙方之間的情感,為學校教育事業的發展起到了非常重要的推動作用。
本平臺設計思想旨在為校友建立一個在大數據技術基礎上的信息整合分析平臺,為校友信息收集、信息管理、信息交流等提供一體化服務[2]。管理模塊主要包括對數據、新聞信息、校友名片、企業招聘、企業產品和校友互動的六大模塊,此外,在系統維護模塊中可以設置每個功能模塊的權限,實現特定的權限控制功能。各個模塊既是彼此獨立的,與整個系統又是密切相關的。系統功能如圖1所示。
(1)基礎數據管理模塊:融合角色用戶、系統參數、系統日志、機構單位的基礎數據,建立統一的數據模型,進行數據管理和維護。應用Hadoop分布式計算、Hbase分布式數據存儲系統解決大規模結構化和非結構化數據的讀寫問題,以MapReduce并行計算引擎為核心,實現對海量數據以一種可靠、高效、可伸縮的方式進行數據處理。

圖1 系統總體設計
(2)新聞信息管理模塊:校友會基本信息、校友活動、校友刊物等信息的編輯展示功能。對校友信息、活動等進行數據挖掘,為校友認證、校友互動提供依據。針對數據來源的不同,采取不同的數據抽取方式;針對目標數據中缺失值,以及噪聲數據進行數據清洗,同時對數據進行規范化,將數據變換或者統一成適合挖掘的數據。
(3)校友名片管理模塊:校友注冊、信息管理、信息交互、校友圈、校友活動、e卡通等功能。結合傳統挖掘算法、機器學習和深度學習,分析校友數據內在隱含的信息,建立算法庫完成諸如聚類、分類、推薦過濾、頻繁子項挖掘等數據挖掘算法。
(4)企業招聘管理模塊:登記校友企業、招聘信息、網上招聘、智能分析、企業校友互動等功能。研究適合校友信息特征的具有廣義關聯特征的大數據分析挖掘算法,針對校友信息智能分析做重點分析。
(5)企業產品管理模塊:產品管理、產品銷售、訂單服務等功能。該模塊可實現對企業相關信息進行管理和服務,系統中的數據根據決策需求經過ETL轉換(數據集成、清理、轉換及歸約等)導入到數據倉庫中,提高挖掘效率。
(6)校友捐贈管理模塊:捐贈項目、捐贈相關新聞、以及對捐贈信息的統計等功能。
(7)系統維護模塊:包括對系統相關參數的設置、各用戶的權限設置、以及對所有管理模塊的控制等功能。以系統安全為基礎,遵循先進性和擴展性原則實現本系統維護功能。
數據存儲采用基于Hadoop的Hbase分布式存儲技術來實現集群式存儲,充分發揮分布式集群存儲的開放式架構以及高擴展性,為多源數據的統一存儲使用提供完備的技術支持。Hbase具有高可靠性、高性能、可伸縮性的優點,適合于非結構化數據的存儲,方便讀寫大規模數據。同時,它可以利用廉價的PC Server搭建大規模結構化存儲集群,并充分利用現有資源[3]。利用Hive對Hbase中的數據進行查詢和分析。通過Hive不僅能夠實現傳統數據庫對數據的統計分析,而且對存儲了計算能力具有擴展功能。本項目采用基于Hadoop的分布式存儲技術搭建數據存儲平臺,構建數據存儲管理框架,最終解決多源數據統一存儲和管理的問題。
針對校友數據模式構建分析數據集,包括教育部發布的教育信息化行業標準在內的參考模型及數據、公共的標準以及滿足各業務部門需要的校級標準模型及數據、各項業務活動的共享數據集模型,將數據進行主題式分析,構建各主題對應的多種維度,提高多維數據的可擴展性并使之能夠提供對非結構化數據的支持。本項目考慮到校友數據來源的復雜性,根據數據來源選擇不同的方式抽取數據。對于結構化數據,使用數據抽取工具把源數據放入Hbase數據庫;對于非結構化數據,首先使用Nutch來抓取數據,再使用Solr處理數據并存儲到Hbase數據庫。將多維分析數據集構建在HBase分布式數據庫中,保證維度創建和維護的靈活性,提高多維分析數據集的可擴展性并提供對非結構化數據的支持。
數據整合工作流技術主要包含創建整合任務和任務調度兩個方面。整合平臺數據來源于多個獨立的業務系統。業務系統之間不存在數據共享,因此需要針對每個業務系統開發獨立的數據整合任務,負責將數據從業務系統拉取到整合平臺中,并完成數據的清洗工作。為了保證多整合任務之間的協調性,使用了任務調度引擎來管理任務的定時執行,方便整合任務的擴展和維護。本項目通過使用Sqoop和Chukwa技術來建立數據整合任務,使用Oozie技術來構建任務調度引擎,為數據處理提供技術支持。
根據不同的數據性質,采取適合的算法進行諸如預測、分類、聚類操作,找到數據深層次的含義,提供決策的數據支持。針對這些數據分析工作,本項目基于MapReduce和Mahout技術的數據分析平臺建立數據分析模型作為。數據處理在Hadoop分布平臺之下,實現對海量數據以一種可靠、高效、可伸縮的方式進行數據處理。具有高可靠性、高擴展性、高效性、高容錯性和低成本等優點。Hadoop通過在計算機集簇間分派數據來并行完成計算功能,這些集簇能夠便利增添到節點中。此外,節點之間可以實現動態數據移動,進而確保每個節點的動態平衡,并具有高速的處理速度,能夠自動保存數據的多個副本,自動將失敗的任務重新分配,為大規模數據處理帶來便利。
數據可視化,能夠加強對數據形式的分析,使校友及其他用戶可以更直觀的觀看數據,并方便了解數據中的隱藏信息[4]。實現數據和用戶的溝通,以便用戶對數據進行管理,進而有效的實現人機交互。同時滿足數據大規模、高維度的展示效果。如何提高數據展示的維度、滿足易操作的人性化交互方式,同時兼容高維度數據的展示,是本項目要解決的關鍵技術之一。
基于大數據技術的數據整合分析臺關鍵技術:搭建分布式數據存儲平臺和構建數據存儲管理框架,對多源數據進行統一的存儲和管理,并提供良好的可用性和可擴展性。根據校友數據特征設計多維分析數據集,將數據按照多個主題進行分析,支持多維度大規模的數據分析,同時提供對結構化和非結構化數據的支持。研究數據整合調度技術,利用任務調度引擎將原有各個系統的數據遷移工作設計成獨立的任務執行,提供定時定期的計劃任務執行方式。在數據整合任務中,研究了對歷史數據的清洗和補齊的相關規則,保證了數據的可用性。利用大數據分析技術,設計多種數據分析模型,對數據提供諸如預測,分類,關聯等深層次的數據分析功能,輔助管理層進行決策。研究大數據可視化技術,利用先進的用戶交互技術,改變傳統報表式的數據展示方式,滿足多維度的數據展示和易操作的交互方式。
基于大數據技術的高校校友信息整合,該平臺采用的總體功能架構設計為“1+1+4+N”(1個校友基礎數據源,1個大數據基礎運行平臺,4大平臺,包括數據采集存儲平臺、綜合分析挖掘平臺、數據整合調度平臺、安全掌握平臺,N大應用包括校友互動、信息共享、決策支持等),如圖2所示。

圖2 平臺總體功能架構
數據采集與存儲平臺的主要職責是對校友信息相關大數據進行收集,并將采集到的數據進行結構化存儲和清洗。而分析與挖掘平臺的主要職責則是先對采集到的校友大數據進行專門的分析建模,然后再深入對數據進行挖掘和智能分析。安全管控平臺的主要職責是負責對整個的系統數據進行監控和管理,確保校友的數據資產安全和可控。數據整合調度的主要指責是創建整合任務和任務調度,以用來整合不同數據來源獨立的系統。
基于大數據技術的多維度高校學情分析平臺采用的是典型的三大層次大數據技術架構,所謂三大層次包括源數據層、數據處理層和應用層。系統技術架構如圖3所示,該架構是基于分布式數據計算平臺和大數據算法的結構,可用于支撐整個大數據的應用功能與體系。
(1)源數據層設計
源數據層主要是指為整個業務分析系統提供各種源數據的錄入、數據的抽取和組合。源數據平臺在設計過程中重點在于對源數據管理設計,該系統是應用大數據和云計算等多種技術和手段對系統所需的各種數據進行廣度和深度分析,并應用指標、規則管理等工具實現對數據信息的收集與分析,然后借助大數據技術手段來達成數據管理的目標,以提升分析預測水平。

圖3 系統總體功能架構
系統設計思路:第一步,建立統一的信息模型,以進行數據的抽取和整合,主要包括統一信息數據模型定義、數據抽取、數據加工和數據轉換等過程,從計量自動化系統中將相關數據及其他外部數據等抽取接入到系統中,然后轉換規則則是依據統一信息模型的定義進行轉換、輕度匯總等;第二步,對元數據進行質量和安全控制,數據質量主要是對數據值域、編碼正確性、唯一性、外鍵和業務規則進行檢查,安全方面主要控制對數據的訪問權限,包括表級級記錄級權限控制;第三步,利用云存儲技術將存儲資源放在云上,以便隨時為使用者提供存儲,這是一種新興方案,本系統使用的云存儲技術框架如圖4所示。

圖4 采用的云存儲技術框架
(2)數據處理層
數據處理層主要是對框架及平臺的實現,為業務應用平臺提供包括神經網絡模型,決策樹模型,KNN模型,關聯規則模型等多種分析預測模型。
在大數據基礎上,從源數據平臺得到數據,為構建和分析預測系統模型做準備。主要提供基于校友會及校友各類信息,校友會信息包括:校友會基本信息、校友會活動信息、校友刊物、校友企業、招聘信息、產品管理、產品銷售等。校友信息包括:校友交互、e卡通信息等。
①神經網絡的獨特性是它能夠在不了解數據來源的情況下,對非線性過程建立模型,有著實時優化、非線性映射和學習分類的特征,為非線性分類和模式識別等研究提供了新的方法。本文基于校友及校友會數據,采用深度學習算法融合灰色關聯度的基礎上,構建神經網絡優化算法模型,并應用于高校校友行為的捐贈預測中。
②針對校友行為信息數據的參與校友活動、與校友交互進行統計,根據共現次數和群體行為數據進行強化學習,得到相應的校友群體,從而得到更接近真實的校友朋友關系[5]。
③以大數據分析為技術手段的精準定位,將會在很大程度上保證招聘工作的有效性,借助大數據分析技術構建招聘“大數據”應用格局,為全面把握招聘現狀,實現高效招聘和為準畢業生提供最合理的就業幫助提供依據。采用開源的數據挖掘工具來分析校友行為數據,并提出K-means聚類算法來輔助校友的招聘工作,直觀反映校友企業招聘狀況。實現大數據分析與企業招聘的高度耦合,有針對性地引導校友企業對準畢業生的最大化了解,對校友企業招聘進行規劃和提供科學決策。
④對現有異常檢測方法進行比較,指出現有異常檢測算法的優缺點,針對校友活動信息、校友交互等行為數據,本文采用改進的模糊C均值聚類算法對其進行異常行檢測。
(3)業務應用層設計
業務應用層主要是用來提供系統和應用業務功能,能夠使用此平臺模塊進行各類功能應用分析數據,如圖5所示。

圖5 系統展示
基于大數據技術的高校校友信息整合分析平臺很好地應用到了我校校友工作管理過程中,它對校友們日常行為習慣、興趣愛好、社交圈、校友互動以及校友活動的參與度和支持度等信息進行科學的分析,充分挖掘其中潛在的優質校友、熱心校友及公益捐贈校友等,并能夠及時的跟蹤、跟進并進行適當的信息推送與反饋,同時結合微信公眾平臺進行功能的整合與綁定,信息完善速度快、發布及時、傳播范圍廣泛、數據智能匹配程度高,功能強大,極大地提高了校友工作者的信息化管理與操作水平,促進我校校友工作走進科學化、信息化時代。
基于大數據技術的高校校友信息整合分析平臺開發與應用,使校友資源得到了更為科學的利用,采用智能信息管理手段,可以最大化校友資源的利用效率,加以友好的界面設計,極大地提高了校友工作者的工作效率和操作水平,使其可以更好的服務校友,服務學校,推動學校發展。