申文





1.體系及架構
1.1體系框架
全面的工業數據治理體系包含四個方面:戰略、機制、專題和實現。
●戰略指企業愿景和規劃及決定企業工業數據治理的目標和原則,不同的企業愿景需要不同側重的數據治理;
●機制包括數據管理的組織和人員、流程和制度:
組織和人員構成了數據治理的各個相關方及其對信息的相關職責;
流程貫穿信息相關的各個項目或舉措的生命周期:從規劃到實施到維護到監控;
制度是對規范組織結構和職責、技術應用、流程的官方化文件;
●專題:指數據治理各項內容,包括數據標準、數據質量、元數據管理等;
●實現:使用技術實現數據治理規范制度、流程、各項治理內容的方法和手段;
數據管理的體系框架如下圖所示:
1.2總體系統架構
風電場數據治理系統實現了對各個業務系統包括大數據平臺中的元數據進行管理,制定數據質量標準和規則,根據數據質量標準對數據質量進行剖析,將最終剖析的結果通過評分卡的模式進行分析、打分,實現對整個風電場數據質量的管理。
為了滿足這些需求,風電數據治理系統需要實現對源數據層、數據導入層(ETL)過程、大數據存儲服務層、以及中間服務層中的數據進行管理。從數據治理的角度分析各個系統、軟件及對應存儲都屬于數據治理的源數據,通過適合不同數據庫或軟件的橋接器連接各個源數據,將采集的數據先存儲在緩存區,再通過系統的內部的數據處理邏輯分別按照業務元數據或技術元數據進行管理。
數據治理平臺的對外訪問以及報表分析都通過風電的統一認證體系進行管理,數據治理系統的用戶權限需要與風電系統單點登錄服務器進行集成。
整個數據治理系統與外部系統的關系如下圖所示:
總體架構圖主要顯示了風電場數據治理相關系統(數據標準管理系統、元數據管理系統、數據質量管理系統)在風電場現有技術架構中的位置及與各外圍源系統的關系,從圖中可以看出數據治理平臺與風電場生產環境的業務系統、大數據平臺、分析系統、BI工具和用戶都有數據交互。數據標準管理系統作為數據標準的維護系統,主要實現了對數據標準的管理流程,通過數據質量管理系統和數據外圍系統進行交互;元數據管理系統與外圍源系統的交互通過接口層實現數據交互;數據質量管理系統可以直接在需要監控的系統數據庫上直接運行監控語句,將運行結果返回,也可以將監控數據采集到緩存區域進行監控,并記錄監控結果;數據質量管理系統與外圍系統的交互通過內置的ETL工具或直連方式實現。下圖為數據治理系統邏輯架構展示:
交付層:信息交付層實現了數據治理成果對外發布的功能,主要滿足業務人員對元數據信息、數據標準和數據質量查詢需求。信息交付通過兩部分實現,對于數據標準查詢、元數據查詢、血緣分析、數據質量全景圖等數據質量信息和監控結果類的數據可以直接通過產品進行查詢和分析;而數據質量評估成果信息通過報表平臺進行查詢訪問。
接口層:在接口層產品提供了對外接口,滿足了元數據管理系統二次開發的需求。
系統管理層:系統管理層主要由產品中的元數據管理軟件、數據質量管理軟件、數據標準管理軟件為用戶提供基本功能完善的元數據存儲管理平臺,并支持基于平臺的應用服務定制。豐富的調用接口和強大的二次開發指南,保障產品良好的適用性。系統整體在功能上,劃分為存儲層、基本功能層。在存儲層主要實現了存放咨詢成果的產物,例如元數據分類框架、元模型、數據質量標準、數據質量規則等信息,在基本功能層實現對元數據的分類、元模型的創建、元數據的采集、數據質量監控、數據質量評估等功能。
數據獲取層:在數據治理系統中需要采集元數據、需要監控的數據和需要評估的數據,這些數據的采集工作的執行周期按照風電場的數據管理需求確定,實現時可根據需要進行配置,采集作業的調度由數據治理系統進行調度。對數據的監控規則可直接運行在源系統的數據庫中,不需要將數據抽取存放在數據治理平臺的數據庫中,減少流程環節;對于需要統計分析的數據,可直接從大數據平臺抽取進行分析,具體方法在數據質量評估功能數據流章節中詳細描述。
源數據層:主要描述數據治理體系的數據源信息,包括數據標準的業務元數據;數據庫;ETL系統技術元數據信息;大數據平臺相關技術元數據信息;模型設計文件元數據和其他標準元數據文件成果。
1.3物理系統架構
風電場數據治理系統一共由三臺服務器組成,分別是兩臺應用服務器和一臺數據庫服務器組成,數據庫服務器中的服務及數據存儲都在外掛存儲上,應用安裝在兩臺服務器上,由F5服務實現負載均衡。整個架構如下圖所示:
2.數據標準管理平臺
2.1系統功能框架
數據標準管理系統前臺主要提供數據標準查詢瀏覽、業務需求應用、系統設計應用、系統設計評審、數據標準新增及與變更的申請和審批流程支持。
數據標準管理系統后臺主要負責相關數據標準的存儲、歷史版本管理以及與其他數據治理系統和業務需求系統彼此對接互相提供支持等功能。數據標準系統以主題域,業務對象大類,業務對象子類,業務對象,信息項的邏輯結構對風電場數據標準進行存儲與展示。
系統采用業務前臺和業務后臺邏輯分離的方式,用戶通過瀏覽器操作業務前臺并得到所需的結果信息。業務前臺模塊調用業務后臺模塊為用戶提供數據服務。業務后臺與其他系統進行數據交換。
數據標準管理系統用戶端使用瀏覽器并通過統一登錄平臺統一安全認證后操作業務前臺的業務功能。用戶端可以在辦公網絡環境下使用,也可以通過安全控制在互聯網環境下使用,比如互聯網環境下不允許標準下載操作。
數據標準管理系統業務后臺與元數據管理系統、數據質量系統、風電大數據平臺可以進行數據交換。
3.數據質量管理平臺
數據質量管理系統通過對KPI指標信息進行采集,對監控規則進行設置,對異常信息進行告警,出具數據質量報告等功能,可以滿足風電集控平臺對指標進行監控的需求。
對于數據質量管理來說,對規則的靈活設置,對任務的及時反饋,對結果的剖析,以及和第三方工具緊密集合是一個產品成敗的關鍵。對于數據質量流程,一般框架如下:
●存儲管理
數據質量管理系統定義了支撐數據質量監控功能并符合風電場平臺標準的元模型結構,包括監控對象、采集項、采集規則以及監控規則等。其中所涉及的元數據信息如監控對象信息,需要從元數據管理系統獲取。質量管理人員也可以創建新的元數據,來滿足質量監控的需要。相關的質量信息存儲在數據質量數據庫中。
●采集管理
數據質量采集模塊由采集服務器和采集代理組成,采集代理支持分布式部署,采集服務器對采集代理進行集中管理,支持的功能如下所示:
代理啟動時向服務器注冊請求,注冊信息包含代理的IP地址、通訊端口、進程ID,啟動時間;
代理每個一段時間要向服務器發送心跳檢測信號,心跳間隔時間可配置;
代理在允許結束時向服務器發送注銷請求;
代理可以支持服務器對代理運行狀態的查詢;
代理在與服務器中斷連接后可以保留已運行完畢檢查報告和未運行完的任務狀態;
代理負責采集數據,將采集的格式化成質量平臺的數據格式,關聯相應的監控對象;
服務器集中保管所有的采集配置數據,代理自動從服務器獲取相關的采集信息。
●規則監控管理
數據質量管理系統的規則包括數據采集規則、監控規則以及告警規則等,因采集規則和告警規則相對較簡單。
為了實現監控規則的靈活調度及與業務分析過程相結合,規則調度部分支持時間觸發調度和規則依賴調度兩種方式,具體說明如下。
時間觸發方式,即按照定時觸發、循環觸發及間隔觸發的方式對規則進行調度。
規則依賴調度,即某規則是否執行調度需要判斷它的前置條件是否滿足,或某規則執行之后,根據其執行的結果,來決定另一個節點是否執行。此調度方式可支持數據質量問題的逐步探查式分析。
●告警管理
數據質量采集和檢查過程中發現數據質量問題時,系統會提示某些數據或者規則超過了指定閥值,系統就對這些數據做告警處理。告警流程,可以通過數據接口的方式,嵌入到數據質量管理流程中,便于后續做進一步的處理。
在告警時,客戶需分析查明告警原因,需要具體的明細數據,系統提供界面查詢的接口,也提供后端文件的接口,便于后續的檢查,也可以用于外部前端接口更深入的分析,或者檢查歷史趨勢。
●質量報告
數據管理系統提供數據質量日常管理各種報告,包括數據質量問題相關的各種明細及匯總報告。質量報告模塊集成了內置的圖形引擎,支持多種圖形的動態展示,如柱狀圖、餅圖、折線圖等,可輸出數據表格與圖形動態聯動的各種數據質量式樣,也可通過提供外部數據接口的方式,輸出復雜的質量報告。
4.元數據管理平臺
元數據接口采用高內聚、低耦合的組件式產品架構,豐富功能組件,為客戶搭建功能強大的元數據管理平臺。向用戶全面開放元數據功能調用接口,并提供整套實施方法論。使用戶在完成元數據管理、維護等基礎功能的同時,方便實現二次開發,滿足風電集控云平臺應用的針對性需求。
●元數據存儲庫
基于關系數據庫的元數據存儲庫,用于實現元數據的物理存儲。
●基礎應用分析
元數據的基本維護管理功能
●高級應用分析
通過元數據接口,調用元數據及相應功能,針對風電集控云平臺需求開發的應用。
4.1功能特性
產品理念,是為用戶提供基本功能完善的元數據存儲管理平臺,并支持基于平臺的應用服務定制。
●元數據存儲層
包含元數據存儲庫,負責承載不同領域的元模型以及相關的元數據。
●元數據基本功能層
實現系統對元數據的基本功能,針對元數據自身的維護和管理。包括元數據的維護管理、元模型維護管理,影響分析、差異分析等圖形展現功能,元數據版本管理、權限管理、日志管理、質量管理等。
4.2元數據管理系統范圍
涵蓋系統數據處理流程各個環節,各個環節中數據源所能提供的數據類型、結構都需要相對應的元數據獲取方法。元數據管理系統提供統一的數據源管理平臺,平臺中集成了針對不同數據類型的元數據獲取功能插件,可以將包括源系統信息、ETL過程、數據庫結構、數據模型、業務應用、前端展示和門戶管理等數據源進行統一管理,實現元數據的自動獲取。
4.3數據模型
元數據管理系統具有獨立的元模型管理,實現元模型的建立、關系的維護等功能。元模型架構支持用戶按需完全定制,從而保障用戶隨著時間推移對更多種類元數據的管理需要,以及完善現有元數據定義的需要,能滿足公司中長期發展的需求,提高數據管控效率。
4.4產品特性
●易操作性
系統的操作功能應具備界面友好、操作簡易的特征,體現在系統提供從元模型設計、元數據的變更管理、元數據的自動獲取,提供全套圖形化界面支持。對分析功能,例如元數據血統分析、影響分析、指標差異分析、一致性分析等分析功能,提供圖形分析界面,幫助客戶直觀理解元數據。
●實用性
系統應以參數驅動配置而非撰寫程序的方式工作,以使系統能夠靈活修改以適應風電自身內部需求變更的需要。元模型結構決定元數據的存儲,系統提供圖形化的元模型定義界面,用戶可以定義風電需求的元數據存儲模型,以去驅動風電的元數據需求建設。另外,提供用戶、安全、等基礎參數,驅動整個平臺。
●擴展性
通過定義過濾規則,可以對要抽取的對象進行過濾或轉換。通過規則的設置到達對數據源抽取、過濾、轉換的控制。在任務調度功能中進行設置,可以對抽取任務的運行時間、周期等執行情況進行控制。MIB提供元模型額輔助校驗功能,可對作業過程和入庫后的元模型進行校驗,并向用戶提供校驗結果。系統應能提供業務腳本編寫功能,減少相關業務需求實現對技術開發的依賴性,提高業務響應效率。
●可定制
根據風電集控云元數據管理模板、風險管理相關元數據模板,在元數據管理系統定制元數據模型,包括各類數據對象自身的元數據模型以及各數據對象與CWM元模型之間的各類關系。
需要定制元模型的數據對象包括:業務術語、業務指標、數據元素、基礎編碼。以上四類數據對象屬于業務元數據,元數據管理系統提供基礎模型,將根據風電集控云平臺實際需要進行調整。
5.系統外部連接設計
5.1輸入接口
數據質量監控系統與外部系統的數據交互方式有兩種,一種是通過SQL查詢數據庫方式從數據庫表中把需要的數據采集上來,進行規則校驗;另一種是通過檢查代理的方式進行數據的采集。
所謂的數據質量檢查代理(Agent)由多個模塊組成,可完成數據質量監控流程中的數據采集、檢查、報告等功能,是獲取運行狀態信息數據數的主要方式。
檢查代理分散在數據倉庫系統的各個環節上,定時或者實時將運行狀態數據通過基于RMI遠程調用方式傳給數據質量處理服務器。
5.2 輸出接口
數據質量監控系統對第三方提供了全面開放式的接口調用。中包括告警查詢、規則管理、任務管理等主要業務功能的豐富的第三方接口調用。