基于云計算的數字化校園數據集成系統研究

2013-12-17 07:42:28

中國科技信息 2013年22期

湖北中醫藥大學信息工程學院

數字化校園是以數字化信息和網絡為基礎，利用計算機技術、網絡技術，對教學、科研、管理和生活服務等校園信息資源進行全面、規范的收集、處理、整合、存儲、傳輸和集成應用，使數字資源得到充分優化利用，構成統一的用戶管理、資源管理和權限控制，以實現教育信息化、管理規范化[1]。

就當前各高校的信息系統發展狀況而言，各部門系統相對獨立，大部分以自身需求應用為主體，未綜合考慮學校各部門系統之間的交互性、集成性、統一性以及擴展性，不僅造成資源浪費，而且仍存在信息更新的滯后等問題。因此，為盡可能充分利用現有資源，避免重復開發，本文提出了基于云計算的數字化校園數據集成系統，目的在于充分利用整合學校現有信息系統資源，提高各系統的綜合運維能力。

1.云計算的應用基礎

云計算(Cloud Computing)是一種近年來提出的新型計算模式，是一種基于互聯網的計算方式，通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備，是分布式計算、并行計算和網格計算的發展結果[2,3]。

2.基于云計算的數字化校園數據集成系統基本結構

“基于云計算的數字化校園數據集成系統”是在數字化校園的基礎上，實現對云計算環境中各種關系型、非關系型異構數據進行智能集成，根據不同部門用戶所提出的不同需求，滿足各用戶高并發、高負載及高速處理海量數據的復雜多表關聯的查詢請求[4]。

該系統的功能從適用范圍上可分為兩大類，一類是使用面較廣、適應較強、使用環境較復雜，但操作相對較少的簡約型，例如面向廣大師生、實驗技術人員和某些行政部門的功能需求；另一類是使用面相對較窄，但數據操作量大、操作頻繁、要求穩定，對硬軟件要求較高的集中型，例如針對少數內部管理人員使用的部分業務。因此，系統充分利用B/S 結構的子系統部署簡便，維護成本低，C/S 結構的事務處理能力較強，保證數據操作的速度、可靠性、穩定性的特點，采用B/S 三層結構的子系統和C/S 結構的子系統相互結合的混合部署方式，根據不同類別的功能需求采取不同的結構模式。部署結構圖如圖1所示。

圖1 部署結構圖

圖2 系統整體邏輯框架圖

從系統的整體結構而言，可分為應用層、中間層、云層3 個層次，其中應用層包括教務管理、圖書館、科研、不動產管理等應用；中間層即面向數字校園數據集成交互的核心服務過程層，包括資源服務以及應用反饋，是數字校園應用服務數據支撐的重要載體；云層負責提供中間層在資源調度時需各類資源的使用分配工作。

在此3 層中，涉及云端數據交互接口、數據分析與任務調度功能接口、數據集成接口、云數據存儲管理以及數據安全管理5 個功能，統一在云數據存儲管理功能的管理與協調下工作，系統整體邏輯框架圖如圖2。

2.1 云端數據交互接口

云端數據交互接口作為系統對外調用的統一接口，主要功能在于根據用戶提出的功能需求，完成用戶查詢等功能語句的預處理以及處理最終結果的展示。

對于分布式數據庫、傳統關系數據庫和非關系型的數據庫（noSQL），系統應支持統一自定義的查詢語言，滿足不同類型的數據查詢要求。各用戶根據自身功能需求情況，定義標準SQL 接口和shell 接口提交查詢分析請求，該分析請求經預處理后傳達到數據分析與任務調度功能，調用數據集成接口，得到最終數據分析結果返回用戶。

2.2 數據分析與任務調度功能接口

該接口的主要功能在于接收從遠端數據交互接口預處理后的數據后，將各用戶查詢任務按設定要求作相應的邏輯操作，根據虛擬數據庫結構將邏輯操作自動生成為相對應的子任務集合，最后將子任務集合傳輸給數據集成接口。

在數據分析與任務調度過程中，對數據查詢處理采取的生成子任務集合的方式，因此需要涉及數據獲取分析任務管理和數據獲取分析用戶管理等模塊，用于對用戶數據起到相應的控制和監視作用。

2.3 數據集成接口

該接口是整個系統最根本的核心，主要功能在于完成數據分析與任務調度后傳輸的查詢子任務集的具體實現和結果反饋，并通過異構數據語義集成方式將現有校園公有云中存在的各種異構數據動態集成，構造實時最新的校園公有云。

此接口不僅要完成針對特定數據源的數據訪問調用，形成處理后的一個個原子操作，再將這些操作傳遞給云計算處理接口統一執行，并向上層反饋處理結果，而且還要考慮到云計算環境中各種不同數據存儲方式、不同數據處理模式等數據之間的同步性，確保系統在延展性方面的要求。

2.4 云數據存儲管理

該功能模塊是保證整個系統正常穩定運行的基礎，借助云計算環境下的資源數據管理技術方法，實現為所需各功能提供數據存儲管理和系統資源動態配置，以及云計算環境下的高并發、高負載、海量數據的查詢與存儲的管理功能。

該功能的實現，必須依靠云計算環境下的元數據和服務管理技術。在底層可采取分布式數據庫和傳統關系數據庫等各種存儲結構，以求能夠符合對于不同的各個數據源配置要求的存儲架構，使得各類用戶在使用時都有一個適合的方式存儲和管理用戶數據。

2.5 數據安全管理

該功能模塊是整個系統穩定運行的重要保障，主要在于完成本系統運行過程中所涉及的用戶認證、權限管理、安全維護、異常處理和日志管理等系統安全服務。

3.系統構建的關鍵技術

3.1 元數據獲取

掌握數據源的元數據，即被集成數據源的相關信息，是進行異構數據源的集成操作的前提條件[5]。

根據數據集成元數據現有結構，按統一標準描述設計相應的數據庫，數據庫字段按描述集分類制定，以確保數據集成元數據結構不存在失真現象。

3.2 集成模式建立

由于各數據源的應用目的和背景均不相同，以至于各元數據在構造過程中的語法、語義、模式等方面都存在異構。由此，數據集成的功能目的就是從現有數據源出發，將其中具有相同概念、被定義為主鍵的元數據作為匹配鏈接的關聯點，根據不同的應用業務查詢需求從各數據源取得數據，并將數據做相應的匯總與整合，為減少在整合時因為數據源對字段類型定義的不同而導致集成失敗，所以在進行實際的集成過程之前，必須根據實際的查詢需求建立相應的集成模式，以具有相同語義的元數據重新定義用戶能夠理解的名稱、類型和長度等信息標準進行轉換。

3.3 集成模式與元數據之間關聯關系的建立

相同語義的元數據在不同數據源中表達形式基本都不一樣，常規的集成模式是一種范圍相對較窄的統一方式，唯一能確保僅有直接與相對應元數據相聯系的查詢過程才可能得到所需數據結果，為進一步擴展相關功能，借鑒集成模式特點，加強系統與用戶之間的交互關系，直接將整合表的主動權交給用戶，讓用戶確定整合模式及范圍，使得元數據最終的關聯關系更加集中明確，也進一步簡化了異構數據源的查詢過程[6]。

3.4 集成查詢

通過分析集成模式及其對應的映射關系，將集成模式的查詢分解處理為一個個對各異構數據源的查詢，再將各數據源的查詢結果歸并整合形成最終的集成結果。基本步驟如下：

1）按需求對集成模式作預處理，生成用戶視圖，并匹配相應的映射關系。

2）根據用戶視圖結果,做進一步分析處理,通過“字段”以及相應的映射關系確定每個數據源需要查詢的字段，以用戶視圖的“字段”作為數據源表的字段的別名，若不存在用戶視圖“字段”在數據源中的映射關系，則以NULL 值進行代替數據源字段。

3）生成各數據源的查詢語句，建立臨時表保存查詢結果，準備集成。

4）對臨時表排序并按關聯關系生成新的臨時表，迭代重復直到最后一個臨時表，即為集成查詢的初步結果。

5）對最終的臨時表進行整理，反饋用戶并輸出，完成數據集成。

4.總結

基于云計算的環境下提出一種數字化校園數據集成系統的框架，借助云計算環境下統一的數據獲取、分析、應用接口和異構數據集成、訪問接口，可實時將學校各系統數據匯總統計，減少高校建設數字校園開支，充分利用各部門原有的設備和系統，提升教育科研資源共享，為學校領導提供最及時的決策支持，增加學校綜合競爭力。

[1]蔣東興.大學資源計劃的方案研究[J].清華大學學報:自然科學版,2004,44(4).

[2]Danielson,Krissi.Distinguishing Cloud Computing from Utility Computing.Ebizq.net.[2010-08-22].

[3]Gartner Says Cloud Computing Will Be As Influential As E-business.Gartner.com.[2010-08-22].

[4]鐘將,宋娟.基于本體的異構數據集成框架[J].計算機工程，2011，7(14):44-46,49.

[5]丁一琦.異構數據訪問中間件的設計與實現[J].科技資訊，2011 (1):43.

[6]楊森,夏燕等.語義異構生物數據源中的數據集成與更新.計算機工程,2008,348)38-40.