蘇華權, 嚴宇平, 林躍曉, 馮志鵬
(1.廣東電網有限責任公司,信息中心, 廣東,廣州 510600;2.廣東電網有限責任公司,廣東,廣州 510600;3.廣東電力信息科技有限公司,廣東,廣州 510600)
電力企業干部資質畫像的構建可以提供更好的個性化服務[1-4],用戶畫像的準確性對電力企業干部資質評定至關重要,因此有必要設計和研究干部資質畫像的準確性評價體系。
顧兆軍等[5]提出基于可拓關聯度的畫像準確性評價系統設計方法,該方法建立畫像準確性評價指標子系統,在可拓關聯度的基礎上通過多級模糊評價方法量化處理評價等級,實現畫像準確性評價。金杉等[6]提出基于模糊小波聚類混合的畫像準確性評價系統設計方法,該方法在模糊小波神經網絡的基礎上設計畫像準確性評價系統,建立決策輸出子系統,篩選顯著低效覆蓋單元,通過k均值聚類算法對畫像準確性進行評價。但是上述方法在設計系統架構的過程中都無法實現實時流計算和離線批處理技術的聯合,存在系統的實時性和完整性較差、評價精準度低的問題。
為了解決上述方法中存在的問題,將用戶畫像應用到電力企業中,提出電力企業干部資質畫像準確性評價系統設計方法。
在Labmda架構的基礎上設計評價系統的整體架構。
首先,結合實時流計算和離線批處理,實現相互補充,其應用形式如圖1所示。

圖1 實時流計算和離線批處理技術應用形式
(1)數據來源
數據來源包括外部系統產生的補充數據、服務端中存在的業務數據和用戶數據。用戶數據為客戶端中用戶的行為數據,客戶端通常包括Web端、PC客戶端和移動App[7]。在構建電力企業干部資質畫像時,以上述數據為基礎數據,挖掘上述數據獲得用戶觸發的各種行為、位置屬性和設備屬性。
服務器端的業務數據描述了用戶在使用客戶端時產生的與業務相關的數據,通常包括社交關系、注意力關系和注冊信息。為了保證數據的真實性,需要對服務端業務數據的真實性進行驗證。
干部資質畫像的原始數據來源為服務端中存在的業務數據和客戶端產生的用戶行為數據。外部獲取的數據是構建畫像的重要數據來源。
(2)數據采集
在業務數據源中,采集電力企業干部資格肖像原始數據的過程就是數據采集。這一階段通常存在結構化數據,如業務方數據庫中的數據、業務協議上報的數據,在數據采集過程中也會采集到業務方的日志等非結構化數據[8]。電力企業干部資格畫像準確性評價系統的數據采集階段包括實時流數據、業務數據庫數據同步和移動SDK數據上報。
在電力企業干部資格肖像準確度評價系統中,需要深入挖掘干部的基本屬性、服務端業務數據和用戶行為,因此有必要建立一個面向在線分析處理的數據倉庫。電力企業干部資質畫像準確性評價系統將數據倉庫模型分為畫像應用層、DW層和ODS層,如圖2所示。

圖2 數據倉庫結構圖
因為時效性與業務場景要求之間存在差異,將計算階段分為兩個部分,分別是實時計算和離線計算[9]。
(1)實時計算
實時標簽在對接推薦系統中的應用較為廣泛,根據實時標簽推薦系統可以提高推薦效果。實時計算過程如圖3所示。

圖3 實時計算過程
(2)離線計算
在業務數據庫中同步的數據觸發時間通常都是固定的,屬于離線處理[10]。一些需要大量運算、統計時間較長的數據也需要離線計算。離線計算結構如圖4所示。

圖4 離線計算結構
采用Hive作為SQL解釋層,進行離線計算。
經過計算層處理后,根據用戶數據獲得標簽結果數據將其存儲在標簽結果存儲層中。實時運算和離線運算后的最終結果都存儲在標簽結果存儲層中,方便數據查詢[11]。
電力企業中干部資質畫像存在以下功能:
(1)面向運營團隊和產品的頁面功能類應用,為電力企業提供可視化數據。
(2)用戶其他系統如推薦系統的對接數據服務,提供數據導出。
電力企業干部資格肖像準確性評價系統的主要目的是對干部資格肖像的準確性進行評價,這是系統的核心。精度評價模塊包括系統評價分析、指標權重確定和指標標準化。
專家和評審員參與了干部資質畫像的準確性評價。專家組利用自己的歷史教訓、豐富的知識和經驗,對干部資格素質的各項指標進行評分。當干部資質畫像準確性評價結果出現偏差時,評價者對電力企業干部資格肖像準確性評價系統的設定參數進行修正和處理,并通過人工干預功能提高評價結果的準確性。
引入集值統計方法,對畫像準確性評價指標進行去模糊化處理。
通過S個評審專家對核心畫像準確性評價指標N進行估值,獲得S個區間估計值,通過估計值獲得集值統計序列{X1S,X2S},采用樣本投影函數Y(X1k,2k)(X)對集值統計序列進行描述[12]:
(1)

(2)
設Xmax代表的是最高值,Xmin代表的是最低值,利用下述公式對準確性評價指標N對應的評價值進行計算:
(3)

(4)
設Pi代表的是中間變量,其計算公式為
(5)
yi=(1-e-Pi)/(1+e-Pi)
(6)
在區間[-1,1]內指標進行二次變化:
zi=[(yi-yimin)/(eyimax-yimin)]-1
(7)
其中,i=1,2,…,m。
將畫像準確性評價指標變換到區間[0,1]內,保障了準確性評價指標數據的精度和數據之間存在的變動規律[13]。
(8)
式中,nk代表的是第k層子目標中存在的元素個數。令:
(9)
式中,P(k)代表的是關于第k-1層各元素,第k層子目標nk個元素構成的nk×nk-1矩陣。設W(k)代表的是關于總目標第k層子目標的組合優先權重向量,其表達式為
(10)
其中,k=1,2,…,n,利用分量的形式描述權重向量:
(11)
通過上述過程,獲得電力企業干部資質畫像準確性評價指標對應的權重W(a)為
(12)
設電力企業干部資質畫像存在s個不同的灰類、m個評價指標,xi代表的是畫像準確性評價指標對應的估計值。
劃分各畫像準確性評價指標的取值范圍[x1,xs+1],獲得s個區間[x1,x2],…,[xk-1,xk],…[xs-1,xs],[xs,xs+1],根據實際情況確定xk的值。

不同灰類對應的三角白化權函數的表達式分別為

(13)

(14)

(15)
設存在p個評估者對畫像準確性評價指標Xij打分,獲得評分aijp,A代表的是評估樣本矩陣,可根據第k個評估者的評分aijk獲得,其表達式為
A=(aijk)(n1+n2+…+nm)×p
(16)
式中,nm代表的三級評價指標在二級評價指標中的定性樣本得分數量。
將準確性等級劃分為5級,獲得對應的閾值λ1,λ2,…,λ5和白化權函數f1(x),f2(x),…,f5(x)。
所有評估者給出的評分都可以看做灰數[14],p個評價者針對畫像準確性評價指標Xij給出的評分為aij1,aij2,…,aijp,評價者認為畫像準確性評價指標Xij屬于第l個灰度評估類對應的白化權函數為fl(aij1),fl(aij2),…,fl(aijp)。


設rijl代表的是畫像準確性評價指標屬于灰類l時對應的灰色評價,其計算公式為
(17)
其中,l=1,2,…,g。
設rij=(rij1,rij2,…,rijg)代表的是畫像準確性評價指標Xij對應的灰色評價向量,由畫像準確性評價指標Xij屬于每個灰類對應的灰色評價構成[15]。
設WYi代表的是二級畫像準確性評價指標Yi對應的權重向量,二級指標的灰色綜合評價向量可通過下式計算得到:
Yi=WYi×Ri
(18)
式中,Ri代表的是灰色評估矩陣,其表達式如下:
(19)
通過上述過程,獲得電力企業干部資質畫像準確性評估向量Z:
Z=WYi×Ri
(20)
至此,完成電力企業干部資質畫像的準確性評價系統設計。
為了驗證電力企業干部資質畫像準確性評價系統設計方法的整體有效性,需要對電力企業干部資質畫像準確性評價系統設計方法進行測試。
本次測試所用的操作系統為Redhat Fedora Core 6。以2020年03月27日某電廠通過個人自評、黨員互評、民主測評、組織評定等環節組織開展的“畫像”評價工作內容為數據來源,數據樣本是該廠利用第一季度支部黨員大會對所屬黨員領導干部進行的測評數據,分別采用電力企業干部資質畫像準確性評價系統設計方法(方法1)、基于可拓關聯度的畫像準確性評價系統設計方法(方法2)和基于模糊小波聚類混合的畫像準確性評價系統設計方法(方法3)進行測試,通過評價時間和完整性系數δ對系統的實時性和完整性進行測試,對比結果通過圖5、圖6進行展示。

圖5 不同方法的系統實時性

圖6 不同方法的系統完整性
由圖5的數據可知,3種方法的評價時間隨著電力企業干部資質畫像的增多而增長,但方法1評價畫像準確性所用的時間遠遠低于方法2和方法3評價畫像準確性所用的時間,表明方法1的系統實時性較好。分析圖6的數據可知,在多次迭代中方法1的系統完整性系數高于方法2和方法3的系統完整性系數,系統完整性系數較高時,表明系統可以通過多方面對電力企業干部資質畫像的準確性進行評價,獲得的評價結果較為全面。通過上述測試結果可知,方法1的系統實時性好、完整性好,因為方法1在Labmda架構的基礎上結合實時流計算和離線批處理對畫像準確性評價系統的整體架構進行設計,提高了系統的實時性和完整性。
將評價精準度作為測試指標,對上述方法進行測試,測試過程中獲得的數據用直方圖進行表示(見圖7)。

圖7 不同方法的評價精準度
分析圖7可知,方法1的評價精準度在多次迭代中高于方法2和方法3的評價精準度,因為方法1聯合實時流計算和離線批處理實現了數據流之間的相互補充,并對畫像準確性評價指標進行了去模糊化和無量綱化處理,提高了評價結果的精準度。
用戶畫像通過不同維度的數據刻畫用戶,為了讓人充分了解用戶,根據不同的數據來源為用戶定義語義標簽,用多元化的任務標簽描述用戶的興趣偏好和具體行為,因此畫像的準確性極其重要,電力企業干部資質畫像準確性評價系統設計方法,在Labmda架構的基礎上實現電力企業干部資質畫像準確性的評價,提高了系統的實時性和完整性,得到的評價結果精準度較高,為電力企業干部資質畫像的應用提供了保障。