梁盈威, 萬嬋, 楊朝誼
(廣東電網(wǎng)有限責任公司 信息中心, 廣東 廣州 510000)
目前,某大型電網(wǎng)企業(yè)已完成對內部主數(shù)據(jù)的規(guī)劃設計、試點建設與推廣應用工作。但由于企業(yè)數(shù)據(jù)資源龐大,在建設推廣的過程中業(yè)務需求的不斷擴展,主數(shù)據(jù)的識別缺乏一種可量化的技術評判標準,導致業(yè)務人員在增補過程中產(chǎn)生不少分歧,最終導致主數(shù)據(jù)應用效果不佳。
主數(shù)據(jù)是作為企業(yè)核心主營業(yè)務數(shù)據(jù)的唯一可信數(shù)據(jù)源,為企業(yè)內部核心數(shù)據(jù)共享交換提供完整的、實時的、準確的、一致的核心主數(shù)據(jù)視圖。結合企業(yè)內部業(yè)務需求,須滿足統(tǒng)一標準化“誰產(chǎn)生、誰識別、誰維護”的三大原則。
主數(shù)據(jù)(Master Data)指的是各個業(yè)務系統(tǒng)間的共享數(shù)據(jù)(如,人員、供應商、組織部門、客戶等),具有高價值、共享性、唯一性、基礎性、穩(wěn)定性、完整性、準確性的特點[1]。
主數(shù)據(jù)識別是一項復雜的工作,結合企業(yè)主數(shù)據(jù)“誰產(chǎn)生、誰識別、誰維護”的三大原則情況,引入科學的分析方法論和主數(shù)據(jù)識別管理知識[2-4],設計一套明確的主數(shù)據(jù)識別管理工作流程,才能有效并快速地實施識別工作。本文將主數(shù)據(jù)識別分為四大工作步驟,整體流程如圖1所示。

圖1 主數(shù)據(jù)識別流程
數(shù)據(jù)實體梳理[5-6]:從業(yè)務角度出發(fā),分析目前業(yè)務流程中的數(shù)據(jù)內容,得出在業(yè)務流程中核心業(yè)務實體和對應的數(shù)據(jù)生產(chǎn)部門,以此作為主數(shù)據(jù)識別的對象和數(shù)據(jù)管理責任方,從業(yè)務層面規(guī)范數(shù)據(jù)標準唯一性。
主題域劃分:通過參考IBM的IFW模型并充分結合電網(wǎng)企業(yè)數(shù)據(jù)模型標準的業(yè)務情況,將梳理出來的實體劃分到對應的主題域中,如參與方、協(xié)議、位置等。
數(shù)據(jù)評分:數(shù)據(jù)評分分為4個步驟:① 識別數(shù)據(jù)對象是否屬于企業(yè)主營業(yè)務的重要實體;② 確認主數(shù)據(jù)識別指標與分數(shù);③ 利用科學方法論量化識別得出主數(shù)據(jù)識別指標對應的權重;④ 根據(jù)識別指標和指標權重制作主數(shù)據(jù)識別評分表。
數(shù)據(jù)模型構建:將以需求為主導,方法論為指引,遵循企業(yè)既有標準,梳理主數(shù)據(jù)建模步驟。
主數(shù)據(jù)是企業(yè)數(shù)據(jù)資源利用的重要保障,而主數(shù)據(jù)的評判標準則是主數(shù)據(jù)識別工作的重點之一,科學的客觀評分決策機制為主數(shù)據(jù)識別提供客觀的決策依據(jù)。
1) 主營業(yè)務數(shù)據(jù)實體識別
電網(wǎng)內的主數(shù)據(jù)是描述現(xiàn)實世界中的核心對象,是參與企業(yè)運營獨立存在的業(yè)務對象,包含最重要、最穩(wěn)定、最基礎三大特征。
基于企業(yè)主數(shù)據(jù)的三大特征,本文優(yōu)先采用德爾菲法[7-8],邀請業(yè)務專家對已梳理的業(yè)務數(shù)據(jù)實體進行投票識別。投票指標:主營業(yè)務∈(是,否),若最終結果為“是”,則繼續(xù)進行后續(xù)的主數(shù)據(jù)識別工作;若結果為“否”,該對應的數(shù)據(jù)實體則不被列入主數(shù)據(jù)行列管理。
2) 構建主數(shù)據(jù)識別的評判指標
主數(shù)據(jù)評分指標項的選取是通過對企業(yè)的主數(shù)據(jù)識別標準與方法,同時參考電網(wǎng)企業(yè)集團網(wǎng)省兩級架構的特點,在確定主數(shù)據(jù)的評分指標中,需要綜合考評以下九大指標內容。
① 業(yè)務等級:分為“一般、重要、較重要、非常重要”,級別越靠后,越符合主數(shù)據(jù)的使用標準,也越能體現(xiàn)該數(shù)據(jù)的高價值性。
② 共享業(yè)務部門個數(shù):主數(shù)據(jù)的共享性,主數(shù)據(jù)可以跨部門共享使用,記錄數(shù)據(jù)消費方個數(shù)。
③ 數(shù)據(jù)有效期:主數(shù)據(jù)的穩(wěn)定性,一般從產(chǎn)生到消亡的時間越長越符合主數(shù)據(jù)的穩(wěn)定性。
④ 主責級別:分為“省級共享、網(wǎng)級共享”,反應電網(wǎng)企業(yè)的行業(yè)結構,體現(xiàn)主數(shù)據(jù)的高價值性和共享性。
⑤ 業(yè)務唯一性:主數(shù)據(jù)的唯一性,能夠唯一識別業(yè)務屬性。
⑥ 系統(tǒng)跨度:主數(shù)據(jù)的核心價值在于各個系統(tǒng)之間的共享使用,系統(tǒng)跨度是共享性的體現(xiàn)。
⑦ 更新頻率:主數(shù)據(jù)的穩(wěn)定性的體現(xiàn),如一個數(shù)據(jù)頻繁被更新,存在多個版本,則不符合主數(shù)據(jù)的特性,不利于主數(shù)據(jù)管理。
⑧ 使用頻率:主數(shù)據(jù)的高價值性體現(xiàn),如一個數(shù)據(jù)被系統(tǒng)頻繁使用,該數(shù)據(jù)一定是系統(tǒng)中的關鍵核心數(shù)據(jù)。
⑨ 基礎性:主數(shù)據(jù)不是衍生數(shù)據(jù),是生產(chǎn)之后未加工的基礎性數(shù)據(jù),這樣才更利于共享使用。
3) 評判指標量化賦值
為確保評分指標在使用過程中能充分反映企業(yè)決策者意向,嚴格把控主數(shù)據(jù)識別的精細度,對于指標的評判分值將不采用簡單的是或否的評判基準,而是采用量化手段進行多維度的評判,步驟如下。
(1) 首先將評判指標細分等級,采用專家分析法[9],將指標進行多維拆分,如業(yè)務等級指標不再是以前的“一般”或“重要”兩個評判基準,而是根據(jù)業(yè)務實際情況,參考行業(yè)的成果,經(jīng)專家分析拆分出“一般、重要、較重要、非常重要”四個等級。
(2) 等級量化賦值,每個指標采用10分總分制計分。在得出等級劃分后,我們將10分作平均分配法,分配到各個維度中去,如業(yè)務等級指標有4個維度,則維度平均基礎占比10/4=2.5分,分配結果為:“一般”=2.5分,“重要”=5分,“較重要”=7.5分,“非常重要”=10分。
(3) 分值校準,在最后我們還需要使用集體決策法,提供數(shù)據(jù)管理者的主觀能動性和專業(yè)性,將數(shù)學平均分析法的結果作最后的調整,原則如下。
? 評分分值最大值<10分;
? 根據(jù)主數(shù)據(jù)標準和行業(yè)業(yè)務性質調整分值,如業(yè)務等級指標為“一般”=2.5分,但重要性“一般”的數(shù)據(jù)實體在電網(wǎng)業(yè)務主數(shù)據(jù)標準是不被納入主數(shù)據(jù)范圍,所以經(jīng)過調整分值后,“一般”=0分;
? 調整其他評判基準等級分值,分值間隔的偏離量∈[-0.2,0.2]。如業(yè)務等級指標剩余分為:“重要”=5分,“較重要”=7.5分,“非常重要”=10分,分值之間間隔為2.5分;調整后“重要”=6分,“較重要”=8分,“非常重要”=10分,分值之間間隔為2分;(2-2.5)÷2.5∈[-0.2,0.2],分值可用。
(4) 識別結果輸出,“一般”=0分,“重要”=6分,“較重要”=8分,“非常重要”=10分;
主數(shù)據(jù)識別評分的指標類別和分值對于主數(shù)據(jù)的識別工作具有重要意義,但并不足以支撐整個識別工作。主數(shù)據(jù)識別過程中的關鍵是確定識別指標的權重,這關系到主數(shù)據(jù)識別的精準度,必須采用科學客觀的確認方法,常見的有主成分分析法、因子分析法等。本文將使用主成分分析法[10-12]作為量化識別方法論。
主成分分析法(簡稱PCA),通過降低維度的作用,把多個相關且復雜的指標數(shù)據(jù)進行矩陣降維的方式成為少數(shù)幾個相互無關的綜合主成分指標,使問題簡單化,在電網(wǎng)企業(yè)使用主成分分析法將九大指標維度進行數(shù)據(jù)評分降維、降噪、去冗余分析,利用大數(shù)據(jù)計算維度的占比權重。具體步驟如下。
① 梳理電網(wǎng)企業(yè)主題域中的數(shù)據(jù)實體分析樣本,如人力資源域中:人員、組織、崗位等實體,使用數(shù)據(jù)庫管理技術獲取樣本中所有九大維度指標的專家評分,再將評分結果羅列成矩陣形式,輸出隨機數(shù)據(jù)矩陣K,其中每一行代表一個數(shù)據(jù)實體的一條評分數(shù)據(jù),每一列代表指標維度,如k11代表數(shù)據(jù)實體人員在指標業(yè)務等級維度的一條初始評分數(shù)據(jù),如此類推得式(1)。
(1)
② 將矩陣K各個業(yè)務指標的原始數(shù)據(jù)進行標準化、歸一處理,將數(shù)據(jù)轉換成相同度量尺度的可比較狀態(tài),具體方式通過每列變量值減去當前列的平均值,再除以當前列的標準差來完成,最終形成標準化集合矩陣X,如式(2)。
(2)
③ 求X矩陣的協(xié)方差矩陣,協(xié)方差矩陣用于對數(shù)據(jù)進行降噪,減少數(shù)據(jù)的干擾值,得到每個指標維度與其他8個維度的方差關系,形成新的矩陣C,矩陣C為i行j列,此時原始的數(shù)據(jù)將轉化為協(xié)方差數(shù)據(jù),如式(3)。
(3)
④ 求C的特征值(主成分),利用線性代數(shù)知識或是MATLAB中eig函數(shù)可以得到求矩陣C的特征值,用于去除總量數(shù)據(jù)中冗余量,特征值越大,原始數(shù)據(jù)在對應特征向量變換下的獨立數(shù)據(jù)量越多,更有利于分析工作,如式(4)。
特征值=λ1,λ2,…,λe
(4)
⑤ 由矩陣C中求到e個特征值,由大到小排列后,包含的信息量也是遞減的,所以進行實際分析時會選擇m個貢獻率大于85%的特征值,計算每個特征值的貢獻率,指某個特征值占全部特征值的比重,如式(5)。

(5)
⑥ 根據(jù)式(5)原則,選取出m個特征值后,根據(jù)式Cvm=λmvm的公式原則,求出對應的特征向量,排列成矩陣,如式(6)。
特征向量矩陣V=[v1v2…vm]
(6)
⑦ 計算指標維度對應主成分的得分系數(shù),分別用對應的V×X矩陣得到矩陣Tm,其中每一列都是該主成分一個指標維度的評分系數(shù),如式(7)。
Tm=[mt1mt2…mt9]
(7)
⑧ 計算每個維度的綜合評分系數(shù),綜合每個特征值的評分系數(shù)Fl,l=1,2,…,9,為式(8)。
(8)
⑨ 計算每個維度的百分比權重Sl,為式(9)。
(9)
根據(jù)權重結果值,將信息綜合整理成主數(shù)據(jù)識別評分表,如表1所示。

表1 主數(shù)據(jù)識別評分表
基于主數(shù)據(jù)識別的工作流程和評分流程設計,對某大型電網(wǎng)企業(yè)進行仿真數(shù)據(jù)測試與分析工作,得出主數(shù)據(jù)實體識別驗證。本文將嚴格遵守設計流程對測試數(shù)據(jù)進行數(shù)據(jù)實體梳理、主題域劃分、數(shù)據(jù)評分三大工作步驟,對比分析識別效果。
(1) 根據(jù)業(yè)務系統(tǒng)分析情況,分別從數(shù)據(jù)生產(chǎn)方篩選出數(shù)個測試用業(yè)務實體:供應商編碼、供應商名稱、員工薪資、員工編號、客戶訂單、客戶名稱。
(2) 參考IFW 模型并結合企業(yè)的實際情況,將數(shù)據(jù)主題域劃分為參與方、協(xié)議、位置、分類、資源和項目六大模塊,將測試數(shù)據(jù)實體根據(jù)業(yè)務屬性歸類參與方的數(shù)據(jù)主題域中,通過參照主數(shù)據(jù)識別評分表中的規(guī)范,進行初步專家評分后,得出參與方主題域中的相關實體和基礎指標分值,具體如圖2所示。

圖2 主數(shù)據(jù)識別測試實體基礎分值圖
(3) 參考然后再根據(jù)主數(shù)據(jù)識別評分表中的權重數(shù)據(jù)進行分值權重化,最終結果如圖3所示。

圖3 主數(shù)據(jù)識別測試實體最終分值圖
(4) 最后經(jīng)過企業(yè)需求和專家評估判斷,設定符合主數(shù)據(jù)識別的分數(shù)閥值為總分的60%,合格分數(shù)為6。所以本次測試實體中總分超過6的供應商編碼、供應商名稱、員工編號、客戶名稱為新識別的企業(yè)主數(shù)據(jù)。
快速準確地完善建模,以規(guī)范好主數(shù)據(jù)服務的實施落地,是主數(shù)據(jù)識別工作最后也是最必要的工作。因此數(shù)據(jù)建模工作也是需要有先進的方法論和規(guī)范化的管理去落實。本文研究的建模方式將按照IBM建模方法論指引[6]、參考企業(yè)公共信息模型、遵循企業(yè)數(shù)據(jù)標準和實際需求梳理整體建模步驟。
(1) 梳理數(shù)據(jù)集:評分識別中已將主數(shù)據(jù)分到六大數(shù)據(jù)主題域中,在此基礎針對每個域梳理出對應的數(shù)據(jù)集,形成數(shù)據(jù)集工作件。
(2) 對每個數(shù)據(jù)集在信息資源規(guī)劃標準中找到對應的實體及其屬性,梳理對應的數(shù)據(jù)庫原始表、字段以及引用關系。
(3) 多渠道補充完善該數(shù)據(jù)集的數(shù)據(jù)元(屬性),通過遵循IRP建立基礎屬性集、參考IBM實踐框架[6]、與企業(yè)內部交流的方式,進行補充完善工作,確保主數(shù)據(jù)實體選擇準確,屬性的含義描述合理,與企業(yè)公共信息模型映射正確性。
(4) 拆解數(shù)據(jù)集為對象:參考企業(yè)公共信息模型[16],建立數(shù)據(jù)集的數(shù)據(jù)元在企業(yè)公共信息模型中的映射,按面向對象方法拆解出多個需最終落地的邏輯模型實體(對象),形成數(shù)據(jù)字典工作件。
(5) 繪制模型關系圖:根據(jù)數(shù)據(jù)字典工作件,將拆解后的各個實體對象梳理出繼承及關聯(lián)關系形成對象關系圖。
完成以上五步主數(shù)據(jù)模型構建(邏輯建模)步驟,主數(shù)據(jù)管理可以按企業(yè)的實際數(shù)據(jù)庫環(huán)境進行落地實施(物理建模)工作,然而這已超過了主數(shù)據(jù)識別的研究范圍,進入了一個新的研究課題,本文不作過多敘述。
本文對主數(shù)據(jù)識別中的管理方法、識別技術和建模技術進行了研究,提出了主數(shù)據(jù)識別工作流程的四大步驟,設計了主數(shù)據(jù)量化識別評分法,降低主數(shù)據(jù)的主觀性判斷分歧錯誤,科學地預防主數(shù)據(jù)識別的質量風險。通過仿真數(shù)據(jù)識別測試,驗證了量化識別法的高效性和可操作性,有助于企業(yè)對主數(shù)據(jù)識別工作的效率提升,減少管理成本。