卜南翔 徐述 王吉祥 曾海洋
摘 要:數據集成是實現數據共享的有效手段,目前實現數據集成的主要方法有數據倉庫等,而在這些方法中都存在數據使用的耦合問題,文章對此進行研究,通過對SDO的概念闡述以及對高校數據集成平臺中SDO的應用分析,進而提出SDO在該平臺中的實現方法。
關鍵詞:高校;數據集成;應用分析;SDO
近年來,信息技術在我國各行業的應用不斷深入,我國數字化建設得到快速發展。高校作為科研與知識傳播的前沿,也需加快對數據集成平臺的建設與服務數據對象(Service Data Objects,SDO)的應用。SDO在數據集成平臺中的應用,主要是為數據集成平臺提供一個良好的解決方案,提升高校的數字化與精細化管理水平。
1 案例概述
某高校為提高精細化與數字化管理水平,在數據集成平臺中應用SDO,以此對高校的教學、管理等資源進行有效的整合,對用戶管理進行統一,并實現對資源的合理分配與利用。高校在進行集成平臺建設中有諸多困難,比如規劃無法有效落實,關鍵數據歸屬管理無法明確等均制約著集成平臺的建立。因此,針對高校自身存在的問題,依托數字校園新契機,制定合理的設計方案。
本次數據集成平臺的建設以實現管理效益最大化為目的,在建設中應用現代管理思想,并加強對精細化的設計延伸。高校在進行精細化管理與數據集成平臺建設中需遵循:數據化原則、程序化原則、操作性原則與標準化原則。高校在數據集成平臺建設中,為強化對數據的集成與應用,在數據集成平臺中應用SDO,促進精細化建設與數字化校園管理。本文對高校數據集成平臺中SDO的應用分析都是建立在此基礎上的。
2 SDO相關技術分析
2.1 SDO概述
SDO技術可以方便地實現對程序數據的統一訪問,并且能夠實現編程模型的共同建立[1]。在對該技術的有效應用下,數據操作方法得到統一,在進行應用程序查詢等過程中數據訪問變得更加輕松。SDO已成為我國高校數據集成平臺應用的重要支撐。
SDO具備以下兩個方面的特征:(1)支持動態與靜態編程模型。靜態接口應用,使得編程模型簡單,且十分適用元數據明確的情況[2]。但動態查詢中,查詢產生的某些結果數據無法進行明確,從而無法使用靜態接口。所以在進行數據編程的時候,需同時支持動態與靜態數據API。
(2)支持離線編程模型。SDO主要通過對客戶端數據讀取,即時將數據保存并對這些數據進行相應的操作,然后將其提交至數據源。即使客戶端不在線,系統也可以實現數據的修改。
2.2 SDO體系結構
SDO體系結構是由數據源、數據圖等要素構成的,具體包含:(1)數據源。SDO能實現對多種數據源的訪問與更新。(2)數據中介服務。在不同的數據源中SDO采用不同的中介服務來保證不同數據的中介服務。(3)數據對象。數據對象是SDO的核心內容,包含了各種數據、序列操作等,能夠實現對非結構化數據的有效支持。(4)數據圖。數據圖是依據元數據進行封裝。SDO在進行數據源訪問時,會對數據圖進行更新操作。(5)元數據。元數據描述數據的類型及關系,是數據圖創建的基礎。
3 高校數據集成平臺中SDO應用技術
3.1 HDFS分布式存儲
分布式存儲系統(Hadoop Distributed File System,HDFS)具有高容錯與低成本的特點。HDFS由DataNode(實際數據存儲)與NameNode(文件系統元數據管理)組成。在HDFS單集群中只有一個主節點NameNode,其他節點是從節點DataNode。
對文件進行存儲時,HDFS將對文件進行數據塊分割,每個數據塊大小默認為128 Mb。每個小數據塊默認復制兩次,因此,每個數據塊在分布式存儲系統中有3份相同數據副本。然后NameNode會對數據塊進行存儲位置隨機分配,選擇合適的DataNode節點進行存儲,保證數據塊均衡地分布在HDFS中[3]。
3.2 Spark生態集成環境
Spark是一個能夠實現快速運算的集群計算平臺,建立在內存計算之上,對大數據環境下的數據能進行高效的處理,同時還能保證高容錯性。Spark的適應性較強,在不同的分布式平臺中都能得到有效應用。
Spark的生態集成環境包含Spark Core,Spark SQL,SparkStreaming等,并能夠為大數據云端提供一站式解決平臺。Spark集成開發環境的典型安裝是加載scala 2.9.3:對features和plugins兩個目錄下的文件進行拷貝并壓縮,重新啟動Eclipse,在Eclipse中依次選擇“Help”,最后完成安裝。
3.3 Python大數據開發
Python作為一門年輕、優雅又簡潔的計算機語言,在大數據開發與集成、深度學習的應用中得到了廣泛應用。Python對大數據進行分析時最常使用NumPy庫與Pandas庫。
4 高校數據集成平臺中SDO的應用實現
4.1 元數據
4.1.1 數據源元數據
數據源元數據是一種描述性文件,通過對數據源的驅動類型、端口與數據結構等進行描述[4]。在SDO2.1中還尚未對數據中介服務的相關內容進行涉及,對數據源的定義也相對較少,所以對SDO元數據擴展設計可以定義為元數據的數據源描述,將其簡稱為動態系統開發方法(Dynamic Systems Development Method,DSDM)。DSDM對數據源進行定義時,主體結構有:根元素(DSInof)、驅動類型(DSDrive)與主鍵(DSKey)等。
4.1.2 對象元數據
對象元數據是對數據的組成結構與關系的描述,這也是SDO創建與數據處理的基礎,而中介服務封裝數據圖也是以此為標準進行工作的。對象元數據也需建立起元模型DOM,DOM是通過對DSDM的擴展得到。DOM模型主要有兩個方面的內容,分別是數據集成與數據結構描述。
4.2 數據服務中介
在進行多種數據源集成時,要通過不同的數據中介服務對數據源進行連接,提高高校對系統開發效率[5]。通用模塊主要有元數據解析器。元數據解析器對元數據的解析,并對信息進行提取。通過數據圖封裝模塊的應用,可以將數據序列轉化為數據圖。
數據圖的請求工作流程為:數據圖請求→解析元數據文件→連接數據源→生成本地數據→生成目標數據圖。
4.3 統一訪問界面設計
集成系統化為異構數據源提供進行訪問的統一界面。數據源在異構分布中對用戶是透明的,形成一對一的數據源操作。用戶登錄到界面后,點擊數據查詢,在界面中進行條件檢索,檢索條件可以是關鍵字、數據源名稱與類型等。
4.4 數據源的配置信息
數據集成平臺在收到系統任務后,會根據不同的數據源進行信息的轉換與集成[6]。用戶在進行數據源的添加或者刪除等操作時,只需對相關的信息進行配置更改便可完成。
5 結語
本文基于高校進行精細化、數字化校園建設,緊緊圍繞數據集成平臺中SDO的應用進行分析,結論如下:SDO應用中,通過SDOAPI替代數據接口,實現對數據的獲取,并對數據進行處理,而系統中的數據中介服務被當作包裝器;SDO元數據在功能上與中間件等基本相同,也即利用公共模型,對不同的數據源實現統一數據視圖。
高校數據集成平臺中的SDO應用建立在良好的軟件與硬件環境中。SDO應用的實現主要通過元數據、數據服務中介、統一訪問界面設計與數據源信息配置等完成。高校在進行數據集成平臺建設中有效應用SDO,有助于實現高校管理的精細化與數字化,提高現代化高校管理水平。
[參考文獻]
[1]唐春波,郭文明,嚴靜東,等.FHIR數據集成平臺研究及其在連續醫療中的應用[J].生物醫學工程研究,2017(2):178-182.
[2]萬歆,姚晴虹.基于異構系統的數據集成平臺的搭建和應用[J].醫療衛生裝備,2016(2):61-63.
[3]肖培根,李海濤,朱凌,等.配網自動化規劃設計之數據集成平臺的研究與應用[J].電子設計工程,2016(11):38-41.
[4]李景奇,卞藝杰.基于大數據挖掘的高校知識管理系統[J].計算機系統應用,2017(9):54-61.
[5]吳振濤.基于數據倉庫技術的數據集成在數字化校園中的應用[J].電子設計工程,2016(9):28-31.
[6]馬國耀,孫勇韜,馬玉玲.數據采集模板化技術在醫療大數據集成建設中的應用[J].中國衛生信息管理雜志,2016(4):414-416.