基于電網(wǎng)行業(yè)的主數(shù)據(jù)量化識別模式研究

2021-11-01 06:29:42梁盈威萬嬋楊朝誼

微型電腦應用 2021年10期

梁盈威，萬嬋，楊朝誼

(廣東電網(wǎng)有限責任公司信息中心，廣東廣州 510000)

0 引言

目前，某大型電網(wǎng)企業(yè)已完成對內部主數(shù)據(jù)的規(guī)劃設計、試點建設與推廣應用工作。但由于企業(yè)數(shù)據(jù)資源龐大，在建設推廣的過程中業(yè)務需求的不斷擴展，主數(shù)據(jù)的識別缺乏一種可量化的技術評判標準，導致業(yè)務人員在增補過程中產(chǎn)生不少分歧，最終導致主數(shù)據(jù)應用效果不佳。

主數(shù)據(jù)是作為企業(yè)核心主營業(yè)務數(shù)據(jù)的唯一可信數(shù)據(jù)源，為企業(yè)內部核心數(shù)據(jù)共享交換提供完整的、實時的、準確的、一致的核心主數(shù)據(jù)視圖。結合企業(yè)內部業(yè)務需求，須滿足統(tǒng)一標準化“誰產(chǎn)生、誰識別、誰維護”的三大原則。

1 主數(shù)據(jù)的量化識別模式

1.1 主數(shù)據(jù)的定義

主數(shù)據(jù)(Master Data)指的是各個業(yè)務系統(tǒng)間的共享數(shù)據(jù)(如，人員、供應商、組織部門、客戶等)，具有高價值、共享性、唯一性、基礎性、穩(wěn)定性、完整性、準確性的特點[1]。

1.2 主數(shù)據(jù)識別的工作流程設計

主數(shù)據(jù)識別是一項復雜的工作，結合企業(yè)主數(shù)據(jù)“誰產(chǎn)生、誰識別、誰維護”的三大原則情況，引入科學的分析方法論和主數(shù)據(jù)識別管理知識[2-4]，設計一套明確的主數(shù)據(jù)識別管理工作流程，才能有效并快速地實施識別工作。本文將主數(shù)據(jù)識別分為四大工作步驟，整體流程如圖1所示。

圖1 主數(shù)據(jù)識別流程

數(shù)據(jù)實體梳理[5-6]：從業(yè)務角度出發(fā)，分析目前業(yè)務流程中的數(shù)據(jù)內容，得出在業(yè)務流程中核心業(yè)務實體和對應的數(shù)據(jù)生產(chǎn)部門，以此作為主數(shù)據(jù)識別的對象和數(shù)據(jù)管理責任方，從業(yè)務層面規(guī)范數(shù)據(jù)標準唯一性。

主題域劃分：通過參考IBM的IFW模型并充分結合電網(wǎng)企業(yè)數(shù)據(jù)模型標準的業(yè)務情況，將梳理出來的實體劃分到對應的主題域中，如參與方、協(xié)議、位置等。

數(shù)據(jù)評分：數(shù)據(jù)評分分為4個步驟：① 識別數(shù)據(jù)對象是否屬于企業(yè)主營業(yè)務的重要實體；② 確認主數(shù)據(jù)識別指標與分數(shù)；③ 利用科學方法論量化識別得出主數(shù)據(jù)識別指標對應的權重；④ 根據(jù)識別指標和指標權重制作主數(shù)據(jù)識別評分表。

數(shù)據(jù)模型構建：將以需求為主導，方法論為指引，遵循企業(yè)既有標準,梳理主數(shù)據(jù)建模步驟。

1.3 主數(shù)據(jù)識別評分流程設計

主數(shù)據(jù)是企業(yè)數(shù)據(jù)資源利用的重要保障，而主數(shù)據(jù)的評判標準則是主數(shù)據(jù)識別工作的重點之一，科學的客觀評分決策機制為主數(shù)據(jù)識別提供客觀的決策依據(jù)。

1) 主營業(yè)務數(shù)據(jù)實體識別

電網(wǎng)內的主數(shù)據(jù)是描述現(xiàn)實世界中的核心對象，是參與企業(yè)運營獨立存在的業(yè)務對象，包含最重要、最穩(wěn)定、最基礎三大特征。

基于企業(yè)主數(shù)據(jù)的三大特征，本文優(yōu)先采用德爾菲法[7-8]，邀請業(yè)務專家對已梳理的業(yè)務數(shù)據(jù)實體進行投票識別。投票指標：主營業(yè)務∈(是，否)，若最終結果為“是”，則繼續(xù)進行后續(xù)的主數(shù)據(jù)識別工作；若結果為“否”，該對應的數(shù)據(jù)實體則不被列入主數(shù)據(jù)行列管理。

2) 構建主數(shù)據(jù)識別的評判指標

主數(shù)據(jù)評分指標項的選取是通過對企業(yè)的主數(shù)據(jù)識別標準與方法，同時參考電網(wǎng)企業(yè)集團網(wǎng)省兩級架構的特點，在確定主數(shù)據(jù)的評分指標中，需要綜合考評以下九大指標內容。

① 業(yè)務等級：分為“一般、重要、較重要、非常重要”，級別越靠后，越符合主數(shù)據(jù)的使用標準，也越能體現(xiàn)該數(shù)據(jù)的高價值性。

② 共享業(yè)務部門個數(shù)：主數(shù)據(jù)的共享性，主數(shù)據(jù)可以跨部門共享使用，記錄數(shù)據(jù)消費方個數(shù)。

③ 數(shù)據(jù)有效期：主數(shù)據(jù)的穩(wěn)定性，一般從產(chǎn)生到消亡的時間越長越符合主數(shù)據(jù)的穩(wěn)定性。

④ 主責級別：分為“省級共享、網(wǎng)級共享”，反應電網(wǎng)企業(yè)的行業(yè)結構，體現(xiàn)主數(shù)據(jù)的高價值性和共享性。

⑤ 業(yè)務唯一性：主數(shù)據(jù)的唯一性，能夠唯一識別業(yè)務屬性。

⑥ 系統(tǒng)跨度：主數(shù)據(jù)的核心價值在于各個系統(tǒng)之間的共享使用，系統(tǒng)跨度是共享性的體現(xiàn)。

⑦ 更新頻率：主數(shù)據(jù)的穩(wěn)定性的體現(xiàn)，如一個數(shù)據(jù)頻繁被更新，存在多個版本，則不符合主數(shù)據(jù)的特性，不利于主數(shù)據(jù)管理。

⑧ 使用頻率：主數(shù)據(jù)的高價值性體現(xiàn)，如一個數(shù)據(jù)被系統(tǒng)頻繁使用，該數(shù)據(jù)一定是系統(tǒng)中的關鍵核心數(shù)據(jù)。

⑨ 基礎性：主數(shù)據(jù)不是衍生數(shù)據(jù)，是生產(chǎn)之后未加工的基礎性數(shù)據(jù)，這樣才更利于共享使用。

3) 評判指標量化賦值

為確保評分指標在使用過程中能充分反映企業(yè)決策者意向，嚴格把控主數(shù)據(jù)識別的精細度，對于指標的評判分值將不采用簡單的是或否的評判基準，而是采用量化手段進行多維度的評判，步驟如下。

(1) 首先將評判指標細分等級，采用專家分析法[9]，將指標進行多維拆分，如業(yè)務等級指標不再是以前的“一般”或“重要”兩個評判基準，而是根據(jù)業(yè)務實際情況，參考行業(yè)的成果，經(jīng)專家分析拆分出“一般、重要、較重要、非常重要”四個等級。

(2) 等級量化賦值，每個指標采用10分總分制計分。在得出等級劃分后，我們將10分作平均分配法，分配到各個維度中去，如業(yè)務等級指標有4個維度，則維度平均基礎占比10/4=2.5分，分配結果為：“一般”=2.5分，“重要”=5分，“較重要”=7.5分，“非常重要”=10分。

(3) 分值校準，在最后我們還需要使用集體決策法，提供數(shù)據(jù)管理者的主觀能動性和專業(yè)性，將數(shù)學平均分析法的結果作最后的調整，原則如下。

? 評分分值最大值<10分；

? 根據(jù)主數(shù)據(jù)標準和行業(yè)業(yè)務性質調整分值，如業(yè)務等級指標為“一般”=2.5分，但重要性“一般”的數(shù)據(jù)實體在電網(wǎng)業(yè)務主數(shù)據(jù)標準是不被納入主數(shù)據(jù)范圍，所以經(jīng)過調整分值后，“一般”=0分；

? 調整其他評判基準等級分值，分值間隔的偏離量∈[-0.2,0.2]。如業(yè)務等級指標剩余分為：“重要”=5分，“較重要”=7.5分，“非常重要”=10分，分值之間間隔為2.5分；調整后“重要”=6分，“較重要”=8分，“非常重要”=10分，分值之間間隔為2分；(2-2.5)÷2.5∈[-0.2,0.2]，分值可用。

(4) 識別結果輸出，“一般”=0分，“重要”=6分，“較重要”=8分，“非常重要”=10分；

主數(shù)據(jù)識別評分的指標類別和分值對于主數(shù)據(jù)的識別工作具有重要意義，但并不足以支撐整個識別工作。主數(shù)據(jù)識別過程中的關鍵是確定識別指標的權重，這關系到主數(shù)據(jù)識別的精準度，必須采用科學客觀的確認方法，常見的有主成分分析法、因子分析法等。本文將使用主成分分析法[10-12]作為量化識別方法論。

主成分分析法(簡稱PCA)，通過降低維度的作用，把多個相關且復雜的指標數(shù)據(jù)進行矩陣降維的方式成為少數(shù)幾個相互無關的綜合主成分指標，使問題簡單化，在電網(wǎng)企業(yè)使用主成分分析法將九大指標維度進行數(shù)據(jù)評分降維、降噪、去冗余分析，利用大數(shù)據(jù)計算維度的占比權重。具體步驟如下。

① 梳理電網(wǎng)企業(yè)主題域中的數(shù)據(jù)實體分析樣本，如人力資源域中：人員、組織、崗位等實體，使用數(shù)據(jù)庫管理技術獲取樣本中所有九大維度指標的專家評分，再將評分結果羅列成矩陣形式，輸出隨機數(shù)據(jù)矩陣K，其中每一行代表一個數(shù)據(jù)實體的一條評分數(shù)據(jù)，每一列代表指標維度，如k11代表數(shù)據(jù)實體人員在指標業(yè)務等級維度的一條初始評分數(shù)據(jù)，如此類推得式(1)。

(1)

② 將矩陣K各個業(yè)務指標的原始數(shù)據(jù)進行標準化、歸一處理，將數(shù)據(jù)轉換成相同度量尺度的可比較狀態(tài)，具體方式通過每列變量值減去當前列的平均值，再除以當前列的標準差來完成，最終形成標準化集合矩陣X，如式(2)。

(2)

③ 求X矩陣的協(xié)方差矩陣，協(xié)方差矩陣用于對數(shù)據(jù)進行降噪，減少數(shù)據(jù)的干擾值，得到每個指標維度與其他8個維度的方差關系，形成新的矩陣C，矩陣C為i行j列，此時原始的數(shù)據(jù)將轉化為協(xié)方差數(shù)據(jù)，如式(3)。

(3)

④ 求C的特征值(主成分)，利用線性代數(shù)知識或是MATLAB中eig函數(shù)可以得到求矩陣C的特征值，用于去除總量數(shù)據(jù)中冗余量，特征值越大，原始數(shù)據(jù)在對應特征向量變換下的獨立數(shù)據(jù)量越多，更有利于分析工作，如式(4)。

特征值=λ1,λ2,…,λe

(4)

⑤ 由矩陣C中求到e個特征值，由大到小排列后，包含的信息量也是遞減的，所以進行實際分析時會選擇m個貢獻率大于85%的特征值，計算每個特征值的貢獻率，指某個特征值占全部特征值的比重，如式(5)。

(5)

⑥ 根據(jù)式(5)原則，選取出m個特征值后，根據(jù)式Cvm=λmvm的公式原則，求出對應的特征向量，排列成矩陣，如式(6)。

特征向量矩陣V=[v1v2…vm]

(6)

⑦ 計算指標維度對應主成分的得分系數(shù)，分別用對應的V×X矩陣得到矩陣Tm，其中每一列都是該主成分一個指標維度的評分系數(shù)，如式(7)。

Tm=[mt1mt2…mt9]

(7)

⑧ 計算每個維度的綜合評分系數(shù)，綜合每個特征值的評分系數(shù)Fl，l=1,2,…,9,為式(8)。

(8)

⑨ 計算每個維度的百分比權重Sl，為式(9)。

(9)

根據(jù)權重結果值，將信息綜合整理成主數(shù)據(jù)識別評分表，如表1所示。

表1 主數(shù)據(jù)識別評分表

1.4 仿真數(shù)據(jù)量化識別測試與分析

基于主數(shù)據(jù)識別的工作流程和評分流程設計，對某大型電網(wǎng)企業(yè)進行仿真數(shù)據(jù)測試與分析工作，得出主數(shù)據(jù)實體識別驗證。本文將嚴格遵守設計流程對測試數(shù)據(jù)進行數(shù)據(jù)實體梳理、主題域劃分、數(shù)據(jù)評分三大工作步驟，對比分析識別效果。

(1) 根據(jù)業(yè)務系統(tǒng)分析情況，分別從數(shù)據(jù)生產(chǎn)方篩選出數(shù)個測試用業(yè)務實體：供應商編碼、供應商名稱、員工薪資、員工編號、客戶訂單、客戶名稱。

(2) 參考IFW 模型并結合企業(yè)的實際情況，將數(shù)據(jù)主題域劃分為參與方、協(xié)議、位置、分類、資源和項目六大模塊，將測試數(shù)據(jù)實體根據(jù)業(yè)務屬性歸類參與方的數(shù)據(jù)主題域中，通過參照主數(shù)據(jù)識別評分表中的規(guī)范，進行初步專家評分后，得出參與方主題域中的相關實體和基礎指標分值，具體如圖2所示。

圖2 主數(shù)據(jù)識別測試實體基礎分值圖

(3) 參考然后再根據(jù)主數(shù)據(jù)識別評分表中的權重數(shù)據(jù)進行分值權重化，最終結果如圖3所示。

圖3 主數(shù)據(jù)識別測試實體最終分值圖

(4) 最后經(jīng)過企業(yè)需求和專家評估判斷，設定符合主數(shù)據(jù)識別的分數(shù)閥值為總分的60%，合格分數(shù)為6。所以本次測試實體中總分超過6的供應商編碼、供應商名稱、員工編號、客戶名稱為新識別的企業(yè)主數(shù)據(jù)。

1.5 主數(shù)據(jù)模型構建步驟

快速準確地完善建模，以規(guī)范好主數(shù)據(jù)服務的實施落地，是主數(shù)據(jù)識別工作最后也是最必要的工作。因此數(shù)據(jù)建模工作也是需要有先進的方法論和規(guī)范化的管理去落實。本文研究的建模方式將按照IBM建模方法論指引[6]、參考企業(yè)公共信息模型、遵循企業(yè)數(shù)據(jù)標準和實際需求梳理整體建模步驟。

(1) 梳理數(shù)據(jù)集：評分識別中已將主數(shù)據(jù)分到六大數(shù)據(jù)主題域中，在此基礎針對每個域梳理出對應的數(shù)據(jù)集，形成數(shù)據(jù)集工作件。

(2) 對每個數(shù)據(jù)集在信息資源規(guī)劃標準中找到對應的實體及其屬性，梳理對應的數(shù)據(jù)庫原始表、字段以及引用關系。

(3) 多渠道補充完善該數(shù)據(jù)集的數(shù)據(jù)元(屬性)，通過遵循IRP建立基礎屬性集、參考IBM實踐框架[6]、與企業(yè)內部交流的方式，進行補充完善工作，確保主數(shù)據(jù)實體選擇準確，屬性的含義描述合理，與企業(yè)公共信息模型映射正確性。

(4) 拆解數(shù)據(jù)集為對象：參考企業(yè)公共信息模型[16]，建立數(shù)據(jù)集的數(shù)據(jù)元在企業(yè)公共信息模型中的映射，按面向對象方法拆解出多個需最終落地的邏輯模型實體(對象)，形成數(shù)據(jù)字典工作件。

(5) 繪制模型關系圖：根據(jù)數(shù)據(jù)字典工作件，將拆解后的各個實體對象梳理出繼承及關聯(lián)關系形成對象關系圖。

完成以上五步主數(shù)據(jù)模型構建(邏輯建模)步驟，主數(shù)據(jù)管理可以按企業(yè)的實際數(shù)據(jù)庫環(huán)境進行落地實施(物理建模)工作，然而這已超過了主數(shù)據(jù)識別的研究范圍，進入了一個新的研究課題，本文不作過多敘述。

2 總結

本文對主數(shù)據(jù)識別中的管理方法、識別技術和建模技術進行了研究，提出了主數(shù)據(jù)識別工作流程的四大步驟，設計了主數(shù)據(jù)量化識別評分法，降低主數(shù)據(jù)的主觀性判斷分歧錯誤，科學地預防主數(shù)據(jù)識別的質量風險。通過仿真數(shù)據(jù)識別測試，驗證了量化識別法的高效性和可操作性，有助于企業(yè)對主數(shù)據(jù)識別工作的效率提升，減少管理成本。