谷洪彬 楊希 魏孔鵬



摘? 要: 針對高校本身業務系統帶來的不同結構海量數據的存儲管理和高效利用問題,通過比較新興的數據湖技術和傳統的數據倉庫的區別,構建了基于數據湖的高校數據管理體系和數據處理機制,為高校的數據治理提供了數據層的存儲支持,為使用機器學習方法進行大數據分析提供了非結構化數據來源。
關鍵詞: 高校大數據; 數據湖; 數據管理體系; 數據處理機制; 機器學習
Abstract: Aiming at the problems of storage management and efficient utilization of massive data of different structures brought by the university's own business system, after comparing the emerging Data Lake technology with the traditional data warehouse, this paper constructs a Data Lake based university data management system and data processing mechanism. The data management system and data processing mechanism provide university's data governance with data layer storage support, and provide unstructured data sources for big data analysis using machine learning method.
Key words: university big data; Data Lake; data management system; data processing mechanism; machine learning
0 引言
物聯網、大數據、云計算、移動計算、人工智能正越來越多地進入人們的日常工作和生活中,這些技術潛移默化地影響著人們的生活和工作方式,也對高校的信息化建設提出了更高的要求。高校信息化建設過程中各種網絡設備和應用系統產生了大量的數據,“以數據為核心資產、以數據驅動業務革新”的發展方式已成為高校邁進更高層次的必然趨勢。對于傳統的來自事務系統、運營數據庫和業務應用的關系型數據,數據倉庫可以滿足高校數據治理和存儲的要求,但是隨著信息化建設的進展,來自物聯網設備、網站、移動應用程序、社交媒體和企業應用程序的非關系型數據越來越多,很難存儲在數據倉庫中,而且隨著人工智能在高校中的發展和應用,人工智能需要處理的多數是這些非關系型數據,對數據治理和存儲提出了更高的要求。近年出現的數據湖技術能同時滿足關系型數據和非關系型數據的存儲,同時在性價比、數據質量、適用用戶類型、數據分析領域、靈活性等方面也優于數據倉庫。本文探討了如何利用數據湖技術構建高校數據管理機制和數據處理機制。
1 數據湖的概念
數據湖是一個集中式存儲庫,允許用戶以任意規模存儲所有結構化和非結構化數據。用戶可以按原樣存儲數據(無需先對數據進行結構化處理),并運行不同類型的分析-從控制面板和可視化,到大數據處理、實時分析和機器學習,以輔助管理者做出更好的決策。
對于高校的應用,對傳統業務系統之外的數據,比如來自物聯網、移動設備、網絡日志、視頻監控等的數據——多數是半結構化或者非結構化的,而人工智能技術所擅長處理的正是這些類型的數據,機器學習和深度學習算法可以對這些數據進行建模、訓練和驗證,得出數據之間的關聯性或者因果推斷關系來建立模型進行分析和預測,為高校管理和決策提供數據支持。
2 數據湖與數據倉庫
數據倉庫和數據湖可以滿足不同組織的不同需求和使用案例。
數據倉庫是一個優化的數據庫,用于分析來自事務系統和業務應用程序的關系型數據。事先定義數據結構和Schema,以優化快速SQL查詢,其結果通常用于報告和分析。經過清理、豐富和轉換的數據可以充當用戶可信任的“單一信息源”。
數據湖有所不同,它存儲來自業務應用程序的關系型數據,以及來自移動應用程序、物聯網設備和社交媒體的非關系型數據。捕獲數據時,不事先定義數據結構或Schema。這意味著用戶可以存儲所有數據,而不需要精心設計也無需知道將來用戶可能的數據需求。數據湖中存儲的數據可以包括結構化數據(關系數據庫)、半結構化數據(CSV、XML、JSON的日志)、非結構化數據(電子郵件、文檔、PDF)、二進制數據(圖像、音頻、視頻)[2]。用戶可以對數據使用不同類型的操作(如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習)來獲得分析結果。
用數據湖替代數據倉庫作為高校數據存儲的技術手段,是因為當前高校所擁有的和希望分析的數據類型不再只局限于關系型數據。表1列出了數據湖和數據倉庫在數據來源、數據存儲結構等方面的區別[1,3,4]。
組織構建數據湖和分析平臺時,需要考慮以下的關鍵功能。
⑴ 數據移動
數據湖允許用戶導入任何數量的實時數據。用戶可以從多個來源收集數據,并以其原始形式將其移入到數據湖中。此過程允許用戶擴展到任何規模的數據,同時節省定義數據結構、Schema和轉換的時間。
⑵ 安全地存儲和編目數據
數據湖允許用戶存儲關系數據(例如,來自業務應用程序的運營數據庫和數據)和非關系數據(例如,來自移動應用程序、物聯網設備和社交媒體的運營數據庫和數據)。它們還使用戶能夠通過對數據進行爬網、編目和建立索引來了解湖中的數據。最后,必須保護數據以確保用戶的數據資產受到保護。