◆羅 穎
針對面向多源異構數據的數據集成中間件的設計與開發
◆羅 穎
(廣西交通設計集團有限公司 廣西 530029)
隨著企業競爭的日趨激烈,在企業經營和發展中數據的價值越發凸顯。企業高層管理人員在進行最終決策的時候,數據所提供的技術支持成為影響最終決策的關鍵性因素。為此在分布、自治的環境下,將產業鏈上多源異構的業務數據進行全面的集成與共享成為數據分析的關鍵核心問題,也是大部分研究人員的研究方向和前提所在。本文探討了針對面向多源異構數據的數據集成中間件的設計與開發,以期為相關從業人員的研究提供一定的方向和參考。
多源異構數據;數據集成;設計開發
高速發展的現代信息技術使得經濟全球化的程度不斷加深,未來的發展趨勢必然是信息化以及集群化。由此帶來了企業間競爭方式的演變,尤其是我國市場經濟“互聯網+”的提出,企業間全方位的競爭使得大數據的價值得以凸顯出來[1]。當前整合“小”數據,將節點從分散、分布的狀態,整合成能夠支持產業鏈各環節的“大”數據并提供有效的經營決策分析,是當前相關從業人員最為關心的關鍵問題。需要相關從業人員提供有效的手段,以解決數據的不完整性與數據的多源異構性這兩大問題。本文正是在此背景下,基于分布、自治的環境下,為跨企業、跨部門的數據整合與集成提供核心技術,以面向多源異構數據的數據集成中間件為依托,完成跨平臺的數據集成的實現。
設計數據集成中間件的最終目標,是整合訪問,進而實現統一平臺環境下的多地多源異構數據,以便在產業鏈的決策中,提供全面的數據支持。在構成多源異構數據集成中間件實現的關鍵需求中,由于數據模式的描述往往是通過數據進行,因此異構數據是異構模式所導致的必然結果。為此多源異構數據集成中間件實現的關鍵需求的首要前提是解決模式的集成。首先需要在數據集成過程中對異構模式進行有效的數據源的屏蔽,并且在之后的描述中,對底層異構數據進行統一的公共模式表示。
在多源異構數據集成中間件公共模式中,由對象模式、文本模式、關系模式以及XML 模式共同作用,一起構成。在此公共模式的基礎上,研究多源異構數據集成中間件實現的關鍵需求后,為實現模式集成技術體系,以及解決模式間沖突的消解問題和模式差異的屏蔽問題,實現公共模式集成難度的降低,提出“三類模式+兩級映射”的模式。
在研究中將“三類模式+兩級映射”描述為異構的局部模式、統一描述的輸出模式、全局模式及其之間的映射規則。具體而言對本地模式的分布式異構數據源的描述稱之為“局部模式”;對應“局部模式”,將對不同局部模式數據源數據的模式描述稱之為“輸出模式”;對應“輸出模式”,將面向用戶的虛擬全局數據集描述稱之為“全局模式”。三種模式之間,兩兩映射,互相對應,具體過程如圖1所示。
通過圖1可以實現對輸出模式間和數據源局部模式之間映射規則的預定義,從而將局部模式關聯上具體的數據源結構,通過輸出模式對各類異構數據的統一描述,解決了屏蔽模式差異問題。在此基礎上,構建局部模式和輸出模式的映射關系;構建全局模式和輸出模式的映射關系;構建輸出模式的公共模式的映射關系。以此三種關系,消解規則描述間的沖突。
針對產業鏈分布式協作環境下業務數據的不完整性和多源異構性,在深入研究數據集成技術的基礎上,提出一種分布式自主多源異構數據集成解決方案。并對其中的關鍵技術進行了研究,最后開發相應的跨平臺數據集成中間件,以支持產業鏈上分布式多源異構數據的集成。
不僅如此在用戶進行訪問的時候,依據全局模式,用戶請求被分作數個獨立的異構數據源,在操作的時候需要通過映射規則,將全局模式同全局請求進行統一映射,以解除對局部模式的請求分解,并最終通過適配器,進行序列分配的實際執行。
總之,數據集成中的關鍵核心是針對面向多源異構數據的數據集成中間件的設計由來,以及具體實現,需要針對數據源的子查詢命令序列進行全局模式的分解,以保障分解命令的準確無誤。
綜合上述分析,在進行針對面向多源異構數據的數據集成中間件優化設計的時候,需要具備以下功能:
(1)模式集成功能:由于數據集成者有必要集成異構的數據源,以借此實現對通過模式下的數據進行準確的描述,故而必須對數據的異構模式加以集成。
(2)統一通信功能:在完成對數據的異構模式加以集成后,基于不同軟硬件平臺,用戶在訪問的時候操作系統、網絡協議各不相同,因此有必要通過統一的方式,對訪問的異構數據資源進行高效管理,通過數據資源中心,透明異構數據源的數據,實現數據管理系統中各種分布的統一訪問和操作。
(3)數據遷移功能:該功能時非常重要的數據集成環節,是數據集成者為了保證結果的正確性,而采取的按全局模式要求,通過統一通信方式,將數據結果片段遷移,進而獲得數據源。
(4)集成管理功能:為了方便管理者通過中間件實現用戶管理,必須在中間件中,設置不同的權限以分配給不同的用戶,最終實現拒絕非法用戶的訪問,以及拒絕合法用戶的非法訪問。
(5)數據源通信適配功能:在數據集成的過程中,數據積分器可以通過匹配的數據源適配器來完成異構數據源的實際操作,以確保不同類型的異構數據源能夠被操作。
(6)為了方便軟件開發人員在此中間件的基礎上開發,有必要保留服務開發接口和數據源適配器,以確保良好的可伸縮性和適應性。
(7)其他服務功能:確保數據安全通過網絡傳輸,同時降低傳輸過程中的網絡需求。
為實現上述七個功能,本文設計了中間件的總體功能,如圖2所示。

圖1 三類模式+兩級映射的集成過程

圖2 中間件的主要功能
中間件通過接口分為數據源層、服務層、服務總線層、應用層和層間通信集成四個層,不受各層具體實現方法的影響。只要層間接口不改變,實現方法就可以任意更換,大大增加了軟件的可重用性,減少了層間耦合。如果未能成功調度,使用哈希圖存儲適配器與調度命令之間的對應關系。主要代碼如下:

綜上所述,在針對面向多源異構數據的數據集成中間件的設計與開發中,依據現有數據集成的要求,在綜合數據交互特點的基礎,為解決行業產業鏈的數據集成,提出了基于中間件的數據集成思路。為此分析了多源異構數據集成中間件實現的關鍵需求以及數據集成中的關鍵核心,進而完成了中間件的功能設計,并對其初步的應用進行了簡單的闡述。總之通過本文可以將多源異構數據的數據集成中間件推廣并應用到其他分布式多源異構環境的數據集成中去,具有重要的現實意義。
[1]劉婧.基于元數據的多源異構海洋情報數據交互共享研究[J].情報雜志,2016,35(09):168-173.