宋正德 魏震方 解放軍海軍兵種指揮學院,廣東 廣州 510430
云計算環境下信息資源的融合與集成
宋正德 魏震方 解放軍海軍兵種指揮學院,廣東 廣州 510430
本文在分析國內外在云計算環境下信息資源的融合與集成研究現狀的基礎上,提出了云計算環境下的信息資源的融合與集成方法,并對需要解決的問題進行了闡述,提出了解決方案。
云計算;信息融合;信息集成;本體
信息融合(Information Fusion)是取得同一對象一致性的認識。信息集成(Information Integration)是形成不同對象相關聯的整體。融合和集成的對象主要包括結構級和語義級。信息的融合和集成,本質上是數據的融合和集成,信息融合和集成的共性和最終目的是屏蔽數據源的復雜性,為用戶提供單一的數據視圖,而數據源可以分布在不同的地方,以不同的語義、格式存儲,訪問方法也各不相同。信息融合和集成中核心的問題是信息描述的標準化,主要解決信息的可理解性問題,包括人和機器對信息的理解。而且更重要的是機器對信息的識別,并能根據信息進行自動處理。
隨著應用需求的不斷增加,越來越多的用戶希望能夠透明地獲取和處理來自這些海量信息源中的有用信息,實現多個軟硬件系統以及不同信息源之間的互操作。然而,這些信息源物理上可能分布在異構環境的多個自治域中,有著不同的數據格式、存儲方式、訪問控制策略,邏輯上則可能在數據模型、操縱語言和數據語義等方面存在著很大差異[1]。同時,這些信息源的可共享性、共享方式、共享內容等也可能隨時發生變化。異構信息服務系統可以屏蔽現在已有的各種異構數據管理系統不同的訪問方法和用戶界面,給用戶呈現一個訪問多種異構數據源的公共接口,提供一個集成處理多種數據源、整合多種數據查詢結果的信息交互處理平臺。
云計算是指在互聯網上,信息提供者以服務的形式提供虛擬的信息資源,用戶通過互聯網按需獲取可伸縮的信息資源[2,3]。它是一種全新的網絡服務方式,它將傳統的以桌面為核心的任務處理轉化為以網絡為核心的任務處理,利用互聯網中的計算系統來支持互聯網各類應用。云計算強調需求驅動、用戶主導、按需服務、即用即付,用完即散,不對用戶集中控制,用戶不關心服務者在什么地方[3]。
國外相關的研究的主要有:IBM的DB2II (DB2 Infor-mation Integration)家族產品提供了訪問各種各樣、分布式的和實時的數據的能力;Stanford大學設計的Lore(Light-weight Object Repository)是一個專門用于管理半結構化信息的數據庫管理信息系統[4];同樣是Stanford大學設計的Ozone是一個可以對結構化和半結構化數據進行集成的模型[5]。國內相關的研究的主要有:東南大學開發的Versatile是一個基于CORBA的可擴展的異構數據源集成系統原型[6];中國科技大學開發的KD-IRIS系統[7],是為實現不同結構數據源(如關系、對象、空間地理數據庫)間數據融合和信息處理需求設計;浙江大學開發的WrapperBase 是一個基于CORBA網絡的Web信息集成系統[8],通過把各個網站的頁面信息表述成特定結構模式的XML語言,并通過DOM解析把Web站點上的異構信息集成起來;中科院軟件研究所提出的“基于本體的異構信息集成查詢劃分及轉換”方法將全局查詢劃分為局域查詢的方法,局域查詢結果經過集成和轉換后以統一的形式返回給用
戶[9]。
目前對異構信息融合與集成的研究,側重對結構化、半結構化和非結構化這種結構級的融合和集成,而在不同的信息源使用多種術語(詞匯)表示同一概念;同一概念在不同的信息源中表達不同的含義;各信息源使用不同的結構來表示相同(或相似)的信息;各信息源中的概念之間存在著各種聯系,但因為各信息源的分布自治性,這種隱含的聯系不能體現出來等,這種語義級的異構的融合和集成鮮有成熟的方法和技術,語義級的異構的融合和集成是異構信息有效融合與集成瓶頸。
2.1 云計算環境下異構信息的本體表達
首先從功能、領域、行業等角度對異構信息進行分類和聚類,區分每個類別信息的異構類型。針對結構級異構,主要采用XML中間件技術進行標準化;針對語義級異構主要采取如下方面進行本體表達:Class(類):具有某些屬性的個體的集合,對應于描述邏輯中的概念;subClassOf(子類):通過該原語定義一個類是另一個類或多個類的子類來創建類之間的層次關系,對應于描述邏輯中的概念包含;Property(屬性):用來表示個體與個體之間或者個體與數值之間的關系,對應于描述邏輯中的角色;subPropertyOf(子屬性):可以通過該原語定義一個屬性是另一個屬性或多個屬性的子屬性來創建屬性之間的層次關系,對應于描述邏輯中的;domain(定義域):一個屬性的定義域用來約束該屬性適用的個體;range(值域):一個屬性的值域用來限制哪些個體可以成為屬性的值;Individual(個體):個體是類的實例,對應于描述邏輯中的x∈C。
2.2 基于本體的異構信息的融合
通過本體的方式描述每個信息源的語義,采用單本體作為一個全局本體為語義的形式化提供了一個共用的詞匯庫,所有的信息源都和這個全局域本體有關;通過多本體方法來對域的不同表示,用本體間的映射來確定不同信息源本體在語義上對應的術語,建立術語間的對應關系;基于本體和聚類分析的方法如下步驟:
2.2.1 從觀測信息中選擇一組樣本;
2.2.2 定義特征變量集合以表征樣本中實體;
2.2.3 通過本體之間關系來計算信息的相似性,并按照一個相似性準則劃分信息集;
2.2.4 檢驗劃分成的類對子集應用是否有意義;
2.2.5 反復將產生的子集加以劃分,并對劃分結果使用第4步,直到再沒有進一步的細分結果,或者直到滿足某種停止規則為止。
通過上述方法來來發現和處理冗余,發現沖突和消解沖突來對異構信息進行融合。
2.3 異構信息服務的無縫集成與互操作
Web Service提供了一個位于應用層和傳輸層之間的抽象層,為異構信息的工作流管理系統之間的集成和互操作提供了一個基礎平臺見圖1。
異構信息服務的集成主要遵循如下原則:
基于云計算環境,面向跨空間、跨時間的工作流管理。
集成己有的各種信息服務資源,充分發揮這些資源的綜合潛力。
信息服務系統的集成要面向業務流程,并考慮云計算環境下的新特點。

圖1 異構信息服務的集成與互操作
Web Service提供的基于XML文檔和SOAP的抽象機制,為系統中異構信息服務的集成以及提供透明的服務提出了真正的解決方案。基于這一技術可以滿足異構信息服務系統之間信息服務集成的需求,Web Service使用基于文本的協議,與CORBA、消息隊列技術等通信中間件支持的分布式應用相比,XML文檔的解析將使基于Web Service分布式應用的性能降低
近幾年,云計算的發展越來越廣泛,已經滲透的互聯網的各個領域,世界各知名企業也都提出了自己的云計算發展戰略,在信息資源的融合與集成機制上,更多的是應用在地理信息系統中,本文在分析國內外在信息融合與集成的研究現狀的基礎上,提出了云計算環境下的信息融合與集成方法,并對需要解決的問題進行了闡述,提出了解決方案,旨在使得互聯網上的信息資源能更好的給使用者提供信息服務。
[1]Peter Fingar著.云計算21世紀的商業平臺[P].北京:電子工業出版社,2009.11
[2]Cloud computing. [EB/OL]. http://www.ibm. com/developerworks/cn/web/ar-cloudaws1
[3]Anastasios Kementsietsidis,Marcelo Arenas.Data Sharing Through Query Translation in Autonomous Sources.In Proceedings of the 30th International Conference on Very Large Data Bases(VLDB 2004), Toronto, Canada, 2004: 468~479.
[4]Zachary G. Ives: Efficient Query Processing for Data Integation,University of Washington, 2002
[5]T Lahir,i S ahitebou,l JW idom. Ozone: Integration Structured and Semi-structured Data.Techniques University, 1999: 95~106
[6]王寧,王能斌.異構數據源集成系統查詢分解和優化的實現[J].軟件學報, 2000, 1: 222~228
[7]岳麗華,韓愷,龔育昌.異構數據源集成系統KD-IRIS[J],計算機科學, 2001, 28: 252~255
[8]吳嘯鵬等.WrapperBase:基于CORBA網絡的Web信息集成系統[J],計算機科學, 2001, 28: 264~268
[9]李劍,宋靖宇,鐘華.基于本體的異構信息集成查詢劃分及轉換[J].軟件學報, 2007,18:2495~2506
10.3969/j.issn.1001-8972.2011.24.050