劉麗娜
(中國電子科技集團有限公司電子科學研究院,北京100041)
目前比較流行的集中數據集成共享模式主要有集中式集成共享模式、統一訪問式集成共享模式、數據融合集成共享模式。本文主要對數據融合集成共享模式進行了詳細研究。
集中式集成共享模式是指,使用數據采集工具,定制數據采集任務,自動化導入異構數據源數據信息,或將異構數據源數據打包成數據文件進行手工導入。然后將數據集中存儲起來的一種數據集成共享方式。這種集成共享方式的優點在于可以將數據物理集中起來,方便后續進行統計挖掘分析。缺點是難以實現實時更新,對系統硬件環境要求較高,需要較大的數據存儲空間,并且需要系統能夠提供數據量持續增長對存儲空間的需求。
統一訪問式集成共享模式是指,異構數據源將數據訪問接口封裝成服務,集成共享平臺通過訪問異構數據查詢接口,調用數據信息資源,從而實現異構數據信息邏輯上的集成共享以及統一訪問,這種集成共享的模式好處在于可以實時獲取數據信息資源,數據信息準確度和時效性很高,減少了對硬件系統的需求。
數據融合集成共享模式是指,在集中式集成共享模式或統一訪問式集成共享模式的基礎上,在集成異構數據時,根據需求或業務數據源的特點對數據信息進行整合后,再進行集成共享的一種模式,該種模式能夠提高數據信息集成共享后的可用性以及提高集成異構信息數據質量。
XML技術(Extensible Markup Language可擴展標記語言)是一種由萬維網協會創建的自我描述性的語言。創建XML的最為重要的目的是實現數據采用一種合適的文本方式進行傳輸,XML可以創建其他的語言和描述其他語言采用的數據結構,并且將其構成一個由標記符和屬性描述的層次結構,這種自我描述的特性可以使XML具有自我解釋的能力,更容易讓系統理解和接收,同時由于XML語言具有文本特性,可以方便地進行運行維護和數據交換[1]。
Web Service是一種跨編程語言和跨操作系統平臺的遠程調用技術。它是一種輕量級的信息處理技術,它使用SOAP(Simple Object Access Protocol)簡單對象存取協議在Web上提供的軟件服務,以WSDL(Web Services Description Language)文件作為說明文檔,并通過UDDI(Universal Description,Discovery and Integration)進行注冊。Web Service以HTTP協議為基礎,通過XML進行客戶端與服務器端的通信[2]。
本文提出的異構數據集成共享模式是一種基于數據融合的集成共享方法,采用Web Service的面向服務的體系結構設計的系統。這里的面向服務的體系結構的含義是系統構成包括三種角色,即服務提供者、服務請求者以及注冊中心。異構數據的融合主要通過按照XML標準進行數據轉換來屏蔽底層數據源的異構性,并基于此建立異構數據融合注冊中心。通過Web服務代理包裝異構數據源,通過數據融合注冊交換中心連接分布式的異構數據源,從而提供數據訪問服務。
數據融合中心首先建立一個注冊服務用來保存各數據源的連接信息、數據模式以及注冊服務中心與各數據源之間的映射關系。由于XML具有跨平臺性,所以采用XML技術進行數據之間的轉換,可打破數據之間的異構性。這里采用基于模板驅動的映射,不需要事先定義好XML文檔與其他數據之間的映射關系,而是在XML文檔中嵌入帶參數的SQL語句,這里的SQL語句可以根據用戶顯示需要拼接業務邏輯,這些SQL語句在數據交換過程中帶入并被執行,SQL語句的執行結果獲得到的數據集替換顯示到指令所指的位置,從而生成目標XML文檔。通過這種模式,將獲得到的目標數據集返回到數據集成共享系統前端界面,可以實現從異構數據源融合集成數據的需求。
這種基于XML的異構數據融合集成方法比較適合業務數據量不是特別巨大,但是數據較為廣泛地分散在不同的業務系統中,且對數據需求靈活多變的中小企業的信息系統。它不需要建立龐大的數據中心,不需要采購高性能的計算服務器,就可以實現多源業務數據融合集成,在數據集成過程中,不存在對數據的加工過程,很好地保證了數據的質量與可信度,對原有業務系統影響不大,建設開發成本較低,能夠很好地提高企業數據集成共享效率。