楊允志 陳佳 胡志亮 萬祥虎
摘要:以實現電力數據的全景可視化為目標,以數據基礎信息采集與資源目錄構建為主線,從業務資源目錄、數據資源目錄、技術資源目錄、管理資源目錄等4個方面開展,并按照業務流程、系統功能、數據庫和表之間的映射關系,構建企業級全景視圖,幫助用戶全面掌握公司數據資源及其映射關系。
關鍵詞:業數關系;資源目錄;映射關系
1、資源目錄構建方法
按照數據資產管理中各個要素和屬性,全面拆分全景視圖構成要素,從業務資源目錄、數據資源目錄、技術資源目錄、管理資源目錄等4個方面設計目錄體系。
1.1業務資源目錄
業務資源目錄是從業務角度對信息資源進行描述,主要包括業務系統、功能模塊、頁面菜單、業務寬表、業務標題等資源類型,通過遍歷業務系統前端頁面功能布局、理清各業務資源要素間層級關系,面向業務人員構建業務資源目錄。
1.2數據資源目錄
數據資源目錄是從數據角度對信息資源進行描述,主要包括數據庫、表空間、數據表、數據字段、主外鍵等資源類型,可通過元數據抽取方式自動獲取數據資源要素及相互間層級關系,面向開發人員構建數據資源目錄。
1.3技術資源目錄
技術資源目錄是從數據鏈路角度對信息資源的分布流轉情況進行描述,主要包括數據接口、數據表映射關系、數據字段映射關系等資源類型,通過梳理各系統間、各系統與數據中臺間數據集成關系,建立數據產生、存儲、流轉、使用關系清單目錄。
1.4管理資源目錄
管理資源目錄是從數據管理角度對信息資源進行描述,主要包括共享清單、負面清單、數據責任清單、開放清單等資源類型的在線共享流程管理,通過管理資源與組織、人員等資源目錄匹配,進一步豐富和完善信息資源管理屬性。
2、基礎數據準備
基礎數據是全景視圖構建的前提,依據數據來源不同,可采用集成已有數據、使用網絡爬蟲及其他專用工具、人工梳理及驗證等不同途徑獲取數據。
2.1通過數據接口獲取
目前電力公司信息化程度較高,部分基礎數據在公司各個管理系統中已有存儲,例如業務系統、數據庫表等,可采用數據集成方式直接獲取并保持同步。
2.2應用爬蟲工具獲取
業務系統頁面菜單、業務寬表、業務標題等基礎數據可通過爬蟲工具定期采集,并結合人工抽查驗證等方式不斷完善數據采集方案。
2.3使用解析工具采集
業務資源目錄與數據資源目錄間映射關系信息采集工作量大,但同時也存在一定規律性,結合系統頁面解析、SQL語句、頁面計算、模型計算等多種技術實現兩者映射關系的自動構建。如在業務系統前端,通過頁面解析和一系列AI算法將頁面文本解析為結構化的、機器可讀的信息,自動建立本領域內的信息(兩個實體都在業務領域內)聯系,跨領域與底層數據無法建立聯系的,預留標記,讓人工參與。在業務系統后端,通過數據字典、廠家提供的技術文檔等提取出實體、屬性以及本領域內實體之間的關系,跨領域的之間的關系預留標記。
3、業務和數據的映射構建
將業務和數據抽象為不同的領域(包含一系列相關的語義實體和意圖的場景),在上層領域為業務包含業務系統名稱、菜單名稱,頁面功能、數據寬表等業務實體,而底層的數據領域為數據庫、表,主外鍵,SQL視圖、接口等數據實體、無論業務實體還是數據實體、統一抽象為(語義實體,通過技術手段轉換為(實體)-[關系]-(實體),(實體)-[關系]-(值)等一系列條目(或者稱作知識),把大量的這種條目匯聚起來提供雙向檢索、邏輯推理,打通業務人員不懂數據庫,開發人員不懂業務的雙向壁壘。
4、結束語
打造數據全景視圖的關鍵是建立四類信息資源目錄,構建各目錄要素間映射關系。本文通過系統頁面解析、SQL語句、頁面計算、模型計算等多種技術實現前端系統與后端數據庫、前端業務表單與后端數據庫表、前端表單標題與后端數據表字段間映射,在一定程度上能實現公司級數據全景視圖的快速構建,實現數據資產管理的可視化管理。