于 洋,張錫強
?
基于國際標準的企業信息資源目錄及ETL模型研究
于洋,張錫強
摘 要:雖然國內多個部門和組織建立了為自己所用的信息資源目錄,但企業各部門間還沒有建立完善共享的企業信息資源目錄。在企業信息領域的“信息孤島”問題的基礎上,探討如何實現企業部門間信息共享。結合ISO/IEC 19763中的信息模型注冊規范、映射信息注冊規范,結合信息資源目錄的特性、編目原則及其數據模型,設計了基于信息資源目錄的ETL技術模型,構建了基于信息資源目錄的企業信息資源共享系統架構。結合ISO/IEC 19763中的信息模型注冊規范、映射信息注冊規范,提出了基于企業信息資源的共享模型,打破各異構系統之間的隔閡,實現對企業信息資源的統一化管理,使企業間信息資源達到共享的目的,為企業人員和公眾用戶提供全面的檢索以及獲企業信息資源的管理及服務體系。
關鍵詞:企業信息化;信息資源目錄;ETL技術;企業信息整合
企業的“十一五”和“十二五”期間重點解決數據整合問題。目前,在電子政務領域,經過研究提出了關于“信息資源目錄”的信息整合理論與技術方法,并在多地政府的電子政務應用對它的可行性得到了驗證。并且電子政務就“信息資源目錄”發布了系列標準[1]。它的核心思想就是對數據服務實現邏輯上的集成。為了解決企業的各個專業信息系統之間彼此封閉,缺乏統一規劃,這些系統大多數為分散建設,系統間的數據不能進行交換,形成了一個個的信息孤島的問題。本著資源整合、盡量減少重復性建設的基本原則,使用結合國際標準體系的 ETL技術針對數據的獲取方式、轉換、加載過程進行詳細描述,將企業原有的各業務系統和信息系統的數據資源進行集成整合,能更好地描述和共享信息資源,以滿足企業信息共享的需求。從而使不同專業的用戶從不同的異構的數據庫中獲取想要的數據,實現對各個異構數據源的透明訪問。
數據 ETL(Data Extraction,Transformation and Loading)主要是用來實現這種異構多數據源的數據集成工作的[2],其概念模型如圖1所示:

圖1 ETL概念模型
ETL技術是把各個孤立的異構數據源中的業務數據抽取、轉換并加載到目的數據庫中。本文結合原有的ETL技術,結合企業信息資源目錄體系,以企業信息資源分級分類為基礎來實現企業信息資源的深度利用和共享,并采用統一標準對企業信息進行采集、分類、加工、存儲及發布。數據的抽取[3]從不同的網絡系統、不同的操作系統平臺、不同的數據庫系統及數據格式、不同的應用中抽取數據。在轉換過程中,將異構數據源中抽取的源數據按照ISO/IEC 19763中信息模型注冊規范注冊到源數據模型中,將目標數據注冊到數據模型中。根據ISO/IEC 19763中的映射信息注冊規范將源數據模型和目標數據模型建立映射模型,這樣使信息目錄更加的規范化和廣泛的應用化,并且語義交互性更強。最終將源數據加載到目標數據庫中。
例如某采油廠目前采油工程與地面工程的專業數據都存儲在 A數據庫中,該采油廠原有一些系統的運行需要有它自己的格式要求,另一方面在本地數據庫中保存數據的備份方便用戶的應用。因此,用戶要求開發將 A數據庫中的采油與地面工程專業數據同步到采油廠共享平臺中。這就需要運用 ETL技術將各地數據自動或手動方式上傳到采油廠數據中心,通過清洗、轉換,得到可供采油廠使用的數據,并存放于采油廠數據中心。將這些不同格式、不同位置、不同標準的數據整合到一起離不開 ETL技術。
ETL技術是將 A數據庫中(采油工程、地面工程)的數據以全量的方式抽取出來,根據定義的數據表映射關系和規則將數據進行轉換,最終加載到采油廠共享平臺(目標數據庫),ETL實現機制如圖2所示:

圖2 ETL機制圖
如下圖3所示:

圖3 目錄體系概念模型
企業信息資源目錄體系是以實現企業信息資源的深度利用和共享為目的,以企業信息資源分級分類為基礎,以企業信息資源元數據以及網絡平臺為技術支撐,采用ISO/IEC 19763中的信息模型注冊規范、映射信息注冊規范對企業信息進行采集、分類、加工、存儲及發布,實現對企業信息資源的序化管理,為企業人員和公眾用戶提供取企業信息資源的管理及服務體系[4]。它由標準、數據庫、目錄等要素構成,標準主要包括國際標準、信息元數據、資源分類、標識符編碼及安全等標準。企業信息資源元數據庫是企業信息資源目錄體系的組成部分,核心元數據來源于企業信息資源元數據庫,可直接來源于企業信息資源庫。結合國際標準ISO/IEC 11179元數據模型注冊標準將信息資源的核心元數據進行編目注冊,使得企業信息資源更加標準化、通用化并便于統一管理,核心元數據[5]由數據資源核心元數據以及服務資源核心元數據兩類組成。企業信息資源元數據庫是在企業核心元數據的基礎上,分為資源目錄和服務目錄,數據資源核心元數據形成資源目錄,服務資源核心元數據形成服務目錄。
例如某采油廠信息資源目錄的建立過程中,資源目錄是將具有代表性的專業數據按照相應的標準和規則,結合油田的數據特點,而應用在企業中則按照統一的標準規范,對分散在各級企業部門、各領域、各地區信息資源進行整合和組織形成邏輯上集中、物理上分散、可統一管理和服務的企業信息資源目錄,核心元數據包含6個必選的元數據實體和元數據元素[6],它們分別是:信息資源名稱、信息資源摘要、信息資源提供方、信息資源分類、信息資源標識符和元數據標識符來提供有關企業信息資源的標識、內容、管理、維護的描述信息。實現如表格1所示:

表1 信息資源目錄生成表

資源子項 Picklist表結構及內容或資源責任方 某油田公司資源描述井型PK_WELLTYPE,井別代碼PK_WEL_STAT,井口限制類PK_WH_CNTYP井口部件分組PK_WH_GRO,井口方式PK_WH_METHD井口名稱PK_WH_NAME,井口類型PK_WH_TYPE,采出方式代碼PC_PK_PROD_METHOD更新周期 實時更新、長期有效(年月日天周)數據采集途徑業務流程產生的數據/面向對象采集的數據/綜合統計形成可共享情況 可共享或不可共享或部門內可共享共享方式 數據庫或文件涉及的數據庫支撐 A主數據庫數據備注
(4)應用層是目錄服務向用戶的展示層。用戶使用應用層提供的各類工具進行信息資源的檢索、查詢、訪問,也可進行信息資源的著錄和注冊,以及對目錄庫進行管理。
目錄體系的體系結構如圖4所示:

圖4 目錄體系總體結構圖
企業信息資源共享系統可以為今后信息系統的開發提供一個統一的基礎信息平臺,即單一集中的、便于網絡訪問的信息平臺。通過信息資源共享系統來實現企業內部橫向部門和縱向部門間的信息目錄與業務功能目錄的相互轉換、掛接、交換與集成[8]。信息資源共享就是要解決分散在不同部門、不同地域的、不同類別的信息資源的集成增值問題。因此該整合系統的技術核心必須能夠解決數據一致性與集成化問題,從而能夠從所有傳統環境與平臺中采集數據。并利用一個單一解決方案對其進行高效的轉換,將分散的異構信息資源體系,在兼顧信息資源現有配置與管理狀況的條件下實現無縫集成。在新的信息交換與共享平臺上,開發新應用,實現信息資源的最大增值,ETL正是用來實現這種異構多數據源的數據集成。它是將異構分散的非結構化數據(文件、圖紙、圖片、錄像等)異構的結構化數據管理利用,集成不同應用系統[9]。
結合基于ISO/IEC 19763中的信息模型注冊規范標準中元數據標準[10],根據元數據設計原則,設計與資源類別相對應的元數據庫。元數據庫中的數據通過 ETL技術從企業信息資源數據源庫中抽取過來,針對每個元數據庫設計獨立的ETL過程,對于非數據庫信息資源根據其資源屬性抽取到相對應的元數據庫中。元數據庫與企業信息資源數據源存在著映射關系,當用戶通過統一入口提交查詢服務時,根據元數據庫提供的特征找到對應的信息資源[11],在映射關系的建議過程中,結合ISO/IEC 19763中的映射信息注冊規范標準提供了互操作性元模型框架(MFI),結合石油領域的映射需求,應用映射技術建立基本映射注冊元模型[12],并解決異構模型之間如何建立映射,并將映射與映射關系進行注冊。并對映射度進行了擴展,來解決多異構數據源間的互映射的復雜問題。
基于企業信息資源目錄的 ETL交換模型的構架如圖 5所示:
目錄體系總體技術框架[6]主要包括資源層、目錄層、服務層、應用層,具體描述如下:
(1)資源層是指各級企業部門可以公開用于部門間共享的企業信息資源,包括各類共享信息庫、共享文件庫、門戶網站等資源。
(2)目錄層包括專項資源目錄庫和共享資源總目錄庫。各級企業部門可以根據協同應用的需要建立部門間共享指標項目目錄庫;根據對公服務應用的需要建立門戶網站服務目錄庫;根據本領域應用特點建立相應的專項資源目錄庫。隨著專項資源目錄庫建設的不斷成熟,共享資源總目錄庫也逐漸形成。
(3)服務層主要包括目錄體系向應用層或其它應用系統提供各類應用服務接口,以方便應用的調用、目錄體系與交換體系的互通,目錄體系之間的信息交換和訪問。

圖5 基于企業信息資源目錄的ETL技術總體架構
主要分為5大部分:以資源目錄為入口、以交換平臺為工具、以數據中心為支撐、以認證授權系統為保障、以企業門戶為資源展現平臺的五位一體共享交換模式[13]。基礎層是由網絡,基礎資源管理和基礎資源目錄系統等為基礎,為平臺提供硬件的支撐。數據層相當于數據處理中心,通過審核和處理,運用ETL技術,將企業間的結構化數據、非結構化數據、半結構化數據抽取出來,并建立相應的映射關系,最終建立資源目錄庫,來提供數據訪問、管理等服務。應用層主要包括目錄體系向其他層或應用系統提供各類應用服務接口,來方便進行資源目錄的調用、目錄體系與交換體系的互通,各目錄體系進行、信息的交換和互訪[14]。展示層是企業門戶為資源展現平臺,用戶使用應用層提供的各類工具進行企業信息資源的檢索、查詢、訪問,也可進行企業信息資源的編目和注冊,以及對資源目錄庫進行管理。集成層[15]包含服務、數據、流程、門戶及內容等五方面的管理與集成能力,為本系統與周邊其它各業務系統的對接和應用的協同處理提供支撐數據管理與集成,提供元數據管理、數據整合等基礎數據管理功能。并為上層應用和外部系統提供數據共享服務,提供相應的信息標準體系,擔當各個業務系統間的服務總線,降低系統間交互的復雜性,為各業務系統數據的管控、共享和應用提供支撐服務管理與集成。
結合該采油廠的實際情況及其信息資源的特點,建立的基于企業信息資源目錄的多源 ETL系統已經得以應用,油田信息資源的目錄實現如圖6所示:

圖6 油田信息資源目錄ETL系統界面
油田數據信息資源目錄將以樹狀的結構展示出來,該系統可以對提供對專業分類下的數據表字段結構的查看功能,并對信息資源進行添加刪除和修改。
通過數據交換和整合系統,提出了一種信息共享架構,將 ETL技術應用于企業信息資源的管理和共享,制定數據交換任務,實現業務數據的采集、接收、抽取、傳輸、轉換等功能。最終將數據加載到整合資源庫中,并針對各數據主題,實現資源整合庫的目錄管理。該技術架構具有高度的數據集成性并能良好的處理異構型數據等特點,并在大慶石油有限公司某采油廠得以驗證并使用。該模型打破了企業間各異構系統之間的隔閡,實現統一入口訪問不同的信息資源。經過驗證使用,該理論可以得以廣泛應用,并可以真正為我國企業信息資源整合建設提供理論依據,并具有一定的可操作性。
參考文獻
[1] 苗地,商曉帆.對電子政務信息資源整合的理性認知[J].現代情報,2008.
[2] 孫水華,林志強. 企業決策支持系統ETL建構技術研究[J]. 福建工程學院學報. 2011.
[3] 密紅,何利力,楊秀梅. 煙草數據中心 ETL技術應用[J].計算機系統應用. 2011.
[4] 王寧.電子政務中信息資源整合的建模方法與應用研究[D].大連.大連理工大學,2005.
[5] 吳占坤.電子政務中的信息資源整合研究[D] .哈爾濱:哈爾濱理工大學,2007.
[6] 徐楓宦,茂盛 .政務政務信息資源目錄體系技術概述[M].CIO 時代.2008.
[7] 李慶陽,彭宏. 面向數據質量的ETL框架的設計與實現[J]. 計算機工程與設計. 2010.
[8] 彭曉軍. ETL 技術在數據遷移中的應用及特殊數據的變換[D]. 西安電子科技大學碩士學位論文.2007.
[9] Ralph Kimball.The Data Warehouse ETL Toolkit[C]. Wiley Publishers,2004.
[10] 國家電子政務標準化總體組 .GB/T19668.4-2007 信息化工程監理規范第 4 部分:計算機網絡系統工程監理規范 [S].中國國家標準化管理委員會,2007.
[11] 別坤.電子政務標準先行[J].計算機世界.2012.
[12] 趙鳳芝,王振雷,劉學爽等. 基于結構的異構數據模型映射方法研究[J]. 哈爾濱商業大學學報(自然科學版),20-10.
[13] 韓博,李衛.基于目錄服務的統一資源訪問控制[J].華中科技大學學報,2003.
[14] 賈立輝,傅瑞軍.企業信息資源整合的目錄服務解決方案[R].石油工業計算機應用,2003.
[15] 何蕾.Web信息資源整合系統的技術研究及實現[R].計算機工程與應用,2004.
中圖分類號:TP311
文獻標志碼:A
文章編號:1007-757X(2016)07-0056-04
收稿日期:(2016.04.05)
作者簡介:于 洋(1991-),女,黑龍江省,東北石油大學計算機與科學技術學院,碩士研究生,研究方向:軟件工程與軟件集成,大慶,163318張錫強(1992-),男,黑龍江省,東北石油大學計算機與科學技術學院,碩士研究生,研究方向:虛擬現實方向,大慶,163318
Research on Enterprise Information Resources Directory and ETL Model Based on International Standard
Yu Yang, Zhang Xiqiang
(Northeast Petroleum University, Daqing 163318, China)
Abstract:Although several domestic departments and organizations have established the information resources directory for their own use, but there is no perfect-shared information resources directory between various departments of enterprise. On the basis of ‘Information island’ problem in the field of enterprise information, it discusses how to implement information sharing between the corporate sectors. The innovation of this method is that it combines the registration specification of information models and mapping information in ISO/IEC 19763, integrates the characteristics, cataloguing principles and data model of the information resource, and then it designs the model of ETL technology based on information resource directory to build up the enterprise information resource sharing based on the information resource catalog system architecture. Combining the registration specification of the information models and mapping information in ISO/IEC 19763, it proposes the shared model based on the enterprise information resource, break the barriers between the heterogeneous system, and realize the unification of enterprise information resources management. It helps the enterprise to achieve the purpose of sharing information resources, and provides the enterprise staffs and the public users with the management and service system for comprehensive retrieval and obtainment of enterprise information resource.
Key words:Enterprise Information; Information Resources Directory; ETL Technology; Enterprise Information Integration