洪德華,張翠翠,徐敏,孫佳麗
(國網安徽省電力有限公司信息通信分公司,合肥230041)
信息系統和數據,是大數據建設的基礎[1-2]。國家電網公司高度重視信息化工作,始終將信息化作為公司核心戰略[3-4]。經過過年的信息化建設,信息化取得顯著成效,建成全球規模最大的電力通信網和一體化集團級信息系統,覆蓋各級單位、各項業務和各類人員,在能源互聯網公司建設中發揮了重要作用,多年來位居央企和國內各行業信息化水平前列[5-6]。當前,電力信息化已經進入“深水區”和“無人區”,各專業、各單位精益化管理、創新發展和數據價值挖掘需求呈“井噴”趨勢,需要進一步加強業務數據治理,促進數據共享,發揮信息化價值[7-8]。
目前電力企業已經全面開展數據綜合治理工作,圍繞數據梳理、數據管理、數據質量、數據應用四條主線開展數據綜合治理工作,并取得了一定成效。隨著信息化建設和應用不斷深入,用戶對數據的需求持續增長,用戶范圍從數據部門擴展到全業務全場景,數據治理不能再只是面向數據部門,需要成為面向全場景用戶的工作環境,從給用戶提供服務的角度,管理好數據的同時為用戶提供自助獲得大數據的能力,幫助企業完成數字化轉型。
數據基礎較為薄弱,電網積累了海量的數據,為電力大數據應用工作奠定了基礎。但電力信息化主要從各專業角度出發開展建設,信息系統中的數據內容、頻度僅考慮了各專業當前自身業務需求,未考慮后期分析應用和跨業務領域的需求,存在系統間數據標準不一致,以及數據缺失等數據質量問題,給大數據應用帶來困難。
數據治理能力不足,以往數據治理人為干預比較多,未形成了一整套以用戶為中心的大數據治理能力,最終為用戶直接使用數據提供了幫助,從而使數據治理完成了從以管控為中心到以業務為中心的轉變。
上述現象,是信息化發展到一定階段必然面臨的問題,信息化反映業務,信息系統固化流程,信息化與企業管理相互促進,螺旋上升。國內外領先企業的信息化成功實踐也經歷了類似過程,符合信息化發展的客觀規律。
數據整理技術是數據治理工作中一項繁重的工作,本文提出了基于知識圖譜的數據資產庫與企業級數據庫訪問管理要求,重點給出了數據資產庫和知識庫的自動補全算法。
數據資產梳理是構建數據資產庫的基礎,是保證數據安全使用和統一管理的重要手段,能夠實現數據安全保護、敏感數據管理和合規性的需求。數據資產梳理涉及相關的關鍵流程、內容和方法,具體數據資產梳理流程如圖1 所示。

圖1 數據資產梳理流程
數據資產定位是數據資產梳理的第一步,其目的是掌握目前企業已有數據庫和它們各自的組織方式,充分掃描發現數據庫后,由企業內數據管理技術人員建立數據資產的底單,以便為后續的數據資產標識和建立清單提供數據基礎。
數據資產標識是在數據資產定位和建立數據資產底單后,像整理企業實體資產一樣獲取數據資產的擁有者和訪問權限情況,使數據資產形成統一的數據資產標識,便于后續的數據管理和數據治理。因此數據資產標識的主要內容是定位數據資產的擁有者,同時獲得數據的訪問權限。
數據資產標識只是獲得了單個數據資產的信息,但是還需要形成體系,因此下一個難點就是要對數據類型進行標識,掃描數據資產的具體內容,對數據資產進行分類,按照統一標準進行數據類型的標識。
在掃描獲取數據資產標識和數據類型的標識后,首先確認前兩個步驟形成的數據類型和數據資產標識,并對整個電網企業進行數據資產統一梳理,形成數據資產目錄、數據資產清單。
由于數據資產也在不斷的增長,所以數據資產梳理不是一勞永逸的,而要對已梳理的數據資產進行持續監控,并設定定期數據資產梳理的機制,對新增的數據資產進行新的梳理,對整個企業的數據資產形成持續的監控。
根據電網企業數據資產庫的需求分析,采用雙向建模的設計思路。一方面,從現有系統的數據出發,梳理國網數據平臺所接入的數據實體,以及數據實體之間的關系,對其進行抽象、提煉,分析數據實體所屬的數據主題域并進行歸并,分析主題域之間關系,形成非結構化數據關聯模型。另一方面,從業務需求出發,基于SG-CIM 統一信息模型和現有業務系統,分析提煉和梳理各業務線條的非結構化數據的業務需求,根據業務流程,提煉關鍵實體,分析實體所屬主題域及實體間的關系,以及非結構化數據實體與結構化數據實體之間的關聯關系,形成數據關聯模型。
數據資產庫屬于非結構化關聯模型,其中主要描述的是非結構化數據實體與結構化數據之間的關聯關系。非結構化模型與結構化模型進行關聯,結構化數據中心的表中添加非結構化數據實體的編碼進行關聯。申請訪問數據資產庫中的數據的過程分為四步,數據資產庫的訪問過程如圖2 所示。

圖2 數據資產庫的訪問過程
業務應用調用數據資產庫管理平臺對外提供的服務,向結構化數據中心發送請求,查詢相關設備的基礎信息與非結構化數據實體編碼。結構化數據中心根據業務應用提交的請求,將設備等基礎信息和非結構化數據實體編碼返回給業務應用。業務應用根據結構化數據中心提供的非結構化數據實體編碼,向非結構化數據管理平臺發送請求,查詢相關文檔等信息。非結構化數據管理平臺根據業務應用的請求,通過數據實體編碼來獲取目標文檔,最終返回給業務應用。
知識庫補全是知識庫自動構建的重要技術,也是實現數據資產庫各實體間關系分類和鏈接預測的重要手段。知識庫補全的作用是,在數據資產庫中引入新的數據實體時,知識庫補全能夠通過已有的結構化三元組和實體集與關系集,推理與此數據實體存在關系的已有實體。
對于知識圖譜G,假設G 中含有實體集E={e1,e2,…,eM}(M 為實體的數量)、關系集R={r1,r2,…,rN}(N為關系的數量)以及三元組集T={(ei,rk,ej)|ei、ej 屬于E,rk 屬于R}。由于知識圖譜G 中實體和關系的數量通常是有限的,因此,可能存在一些實體和關系不在G中。記不在知識圖譜G 中的實體集為E*={e1*,e2*,…,es*}(S 為實體的數量),關系集為R*={r1*,r2*,…,rT*}(T 為關系的數量)。根據三元組中具體的預測對象,知識圖譜補全可以分成3 個子任務:頭實體預測、尾實體預測以及關系預測。對于頭(尾)實體預測,需給定三元組的尾(頭)實體以及關系,然后預測可以組成正確三元組的實體。數據資產庫補全算法流程圖如圖3所示。

圖3 數據資產庫補全算法流程圖
知識庫補全步驟:對于缺失的尾實體,將語義空間中頭實體的向量表示與關系的向量表示相加,得到預測的尾實體向量表示,從實體列表中選擇與預測尾實體最接近的實體作為預測結果;對于兩個實體之間缺失的關系,以尾實體的嵌入向量減頭實體的嵌入向量,然后將結果與備選關系的嵌入向量做差,選擇與預測關系向量最相似的關系作為預測結果。
本文選取公開通用的設備時序數據集,即凱斯西儲大學(Case Western Reserve University)的軸承數據庫來進行試驗[9-10]。作為對比,統計正確實體在所有實體中的平均排名(Mean Rank)以及正確實體在所有實體中排名前十的數據所占百分比(Hit@10%)作為實體鏈接預測評價指標。知識庫補全鏈接預測結果如表1所示。

表1 知識庫補全鏈接預測結果
為進一步驗證數據治理方法的可行性和有效性,選擇電網資產設備開展數據治理應用,針對輸變電數據設備臺帳與圖形存在不一致情況,選擇合肥供電公司所轄范圍內的輸變電設備,通過校驗數據與模型對應關系,核查系統垃圾數據,進行刪除或退役處理,臺帳與圖形對應率由85%提升至98%,大幅提升輸變電數據質量。生產管理系統與ERP 中設備帳卡物存在不一致情況,對主變壓器、斷路器、開關柜、組合電器及輸電線路五類設備展開治理,通過檢查錯誤字段、維護校驗規則,在大數據治理原型系統中實現帳卡物一致率100%。數據治理前后對比結果如表2 所示。

表2 數據治理前后結果對比結果
綜合來說,本文的數據資產庫補全算法相對其他傳統的算法在數據補全預測性方面指標方面表現更好,數據補全方法可以為數據治理工作提供可以遵循的方法,改變傳統人工方式開展數據治理工作,進一步提升數據治理的效率。除此之外,隨著數據的積累,數據補全算法模型的準確率能夠進一步提高。
為了解決當前電力大數據治理難題,本文提出了大數據治理中的數據整理算法,給出了數據資產梳理方法流程,闡述了數據資產庫模型構建過程,設計了基于知識圖譜的數據補全算法,通過實驗驗證了數據補全算法的可行性。