馮志鵬, 嚴宇平, 陳文安, 蘇華權
(1.廣東電力信息科技有限公司, 廣東, 廣州 510600;2.廣東電網有限責任公司, 廣東, 廣州 510600;3.廣東電網有限責任公司信息中心, 廣東, 廣州 510600)
用戶畫像是一種新型的數據分析方法,可以描述并分析多維數據,在個性化服務和精準營銷過程中具有重要作用[1]。電力企業干部資格畫像可以系統地分析分散的企業干部資格信息,并通過標注的方式直觀簡潔地展示電力企業干部的資格信息[2-3]。由于信息的缺乏,在進行干部素質畫像時,很難準確描述干部素質的特征。因此,研究電力企業干部素質門戶網站的建設方法具有重要意義[4-5]。
文獻[6]基于大數據建立用戶畫像的需求,概要性的介紹了基于阿里云平臺來構建電力用戶畫像的構建方法,并介紹了用戶畫像應用場景。但是該方法沒有對信息進行清洗,存在信息覆蓋率低和F1系數低的問題。文獻[7]提出一種基于大數據的電網用戶立體畫像構建方法,為用戶提供個性化服務的問題,獲取電網用戶信息,建立電網用戶行為標簽,提高了畫像覆蓋的信息量。但是該方法受干擾信息和噪聲的影響較大,構建畫像所用的時間較長,存在構建效率低的問題。
為了解決上述方法中存在的問題,本文提出了基于Agent模型的電力企業干部資質畫像構建方法。
首先,在Agent模型的基礎上構建信息采集系統,實現電力企業干部資質信息的采集。Agent模型的應用形式如圖1所示。

圖1 基于Agent模型的信息采集系統結構
利用堆棧式降噪自編碼器,對采集的電力企業干部資質信息進行清洗。


(1)
式中,g代表的是解碼階段存在的神經元激勵函數;W代表的是編碼階段中存在的權重系數;yn表示解碼器的實現過程,其表達式如下:
yn=f(Wxn+b)
(2)
式中,f代表的是編碼階段中存在的神經元激活函數。
目前Relu、Tanh、Sigmoid是常用的激活函數,基于Agent模型的電力企業干部資質畫像構建方法選用Sigmoid函數,該函數可以應用在復雜的場景中,將各個向量映射到[0,1]區間中[10],Sigmoid函數的表達式如下:
(3)


(4)
傳統自編碼器模型由于受模型復雜度高和訓練集數據量大等問題的影響,容易出現過擬合現象。針對上述問題,提出了降噪自編碼器,提高模型的泛化能力,增強傳統編碼器的魯棒性[11]。
隨機在降噪自編碼器中映射對初始輸出的純凈向量xn添加噪聲,獲得局部存在損壞的向量P(xn):
P(xn)=qD(xn)
(5)
式中,qD表示通過隨機映射方式處理向量的過程。
堆棧降噪自編碼器屬于深層神經網絡,由多個自編碼器構成。自編碼器隱藏層中存在的輸出向量為深層神經網絡下一層的輸入向量,特征的逐層訓練通過自編碼器的堆疊得以實現,為了判斷獲得輸入向量P(xn)是否具有更有價值、更高級的特征表示形式,結合Sigmoid函數,獲得輸出最終向量yr,實現電力企業干部資質信息的清洗:
yr=f(m)f(r)[S(xn)cost]
(6)
式中,f(r)表示頂層編碼階段中存在的神經元激活函數,f(m)表示第m層自編碼器編碼階段中的激活函數。
基于Agent模型的電力企業干部資質畫像構建方法采用隱半馬爾可夫模型在關聯規則的基礎上提取電力企業干部的行為特征。
在數據挖掘技術中,關聯規則是常用的算法,其主要目的是對數據之間存在的關聯性進行分析,關聯規則中存在的重要概念如下。
(1) 設C代表的是由子集事物構成的事物數據庫;用|C|描述子集事物在事物數據庫中的總數。
(2) 關聯規則。如果項集中存在A?C、B?C且A∩B≠?的關系,說明在A→B的情況下含有關聯信息,在關聯規則中,A屬于先導,B屬于后繼。
(3) 支持度。設Psupport(A→B)代表的是在事物數據庫C中A∪B項集組合同時出現的概率,其計算公式如下:
Psupport(A→B)=P(A∪B)=[ncount(A∪B)]/|C|
(7)
式中,ncount(A∪B)代表的是在事物數據庫C中A∪B項集出現的數目。
(4) 頻繁項集。當關聯規則對應的支持度符合設置的最小支持度時,表明項集在該關聯規則中屬于頻繁項集。
(5) 置信度。設Pconfidence(A→B)代表的是項集B同時出現在包含項集的子集事物中的概率,即項集B在項集A發生條件下對應的條件概率,其計算公式如下:
Pconfidence(A→B)=P(B|A)=P(A∪B)/P(A)
(8)
(6) 序列置信度和序列關聯度。為了對序列間存在的關聯性進行分析和監測,基于Agent模型的電力企業干部資質畫像構建方法在關聯規則的基礎上定義監測置信度和關聯度的表達式。如果監測序列A和B之間存在關聯規則,且符合最小支持度要求的關聯規則達到n條,則置信度和關聯度的計算公式分別如下:
(9)
(10)
對序列之間存在的關聯性進行監測和分析的過程中,序列間的關聯性隨著關聯度的增高而變強;引入置信度概念對序列關聯性對應的可信度進行衡量,如果關聯規則的監測序列對應的置信度接近于1,表明該規則的可信度較高。如果序列關聯規則的置信度和支持度都小于設定的閾值,表明該序列的關聯性較強;否則關聯序列之間不存在關聯或關聯性較弱[12-13]。
隱半馬爾可夫模型在關聯規則的基礎上提取企業干部行為特征的過程如圖2所示。

圖2 特征提取流程圖
1) 訓練部分
(1) 按照先后順序對電力企業干部行為特征進行預處理,構成包含隱含狀態序列的文本文檔。
(2) 預處理已標記的訓練樣本,采集客戶端和服務器中存在的數據,對其進行預處理,獲得文本序列。
(3) 計算隱半馬爾可夫模型中存在的參數。

(11)
式中,α1(i)表示在時刻t處向量處于狀態St的概率為前向變量,β1(i)代表的是后向變量。α1(i)和β1(i)的表達式分別如下:
α1(i)=P(O1,O2,…,Oi,qt=St|λ)
(12)
β1(i)=P(Ot+1,Ot+2,…,OT,qt=St|λ)
(13)
式中,qt表示向量所處的狀態,Oi代表的是觀察序列。

(14)
式中,bj(Ok)代表的是混合高斯分布函數。

(15)

(16)
式中,aij代表的是狀態i到狀態j對應的轉移概率。
設P(O|λ)代表的是待觀測序列對應的輸出概率,當已知隱半馬爾可夫模型參數λ時,其計算公式如下:
(17)
2) 提取部分
(1) 預處理待提取特征的電力企業干部行為文本,并對其進行掃描,獲得文本分塊序列。
(2) 采用Viterbi算法在訓練輸出的隱半馬爾可夫模型的基礎上獲得電力企業干部行為特征[14]。通過隱半馬爾可夫模型提取干部行為特征,將狀態輸出觀察值O=O1,O2,…,OT作為隱半馬爾可夫模型的輸出,尋找概率最大的狀態標簽序列,將其作為電力企業干部行為特征。
基于Agent模型的電力企業干部資質畫像構建方法利用長短期記憶網絡LSTM構建電力企業干部資質畫像。
長短期記憶網絡LSTM屬于循環神經網絡。基于Agent模型的電力企業干部資質畫像構建方法利用獲取的電力企業干部行為特征,進行序列建模。每個電力企業干部的行為數據長度都是不相同的,在構建電力企業干部資質畫像過程中,需要保持行為數據長度相同[15],因此,Agent模型在其他信息輔助決策基礎上,將數據長度不相同的電力企業干部行為信息輸入到長短期記憶網絡LSTM中,以長短期記憶網絡LSTM計算作為主決策方案,輸出電力企業干部資質畫像VAk,t:
VAk,t=a×VLk,t+(1-a)×VGk,t
(18)
式中,a代表的是電力企業干部行為特征的重要性,VLk,t代表的是t時刻每個電力企業干部的畫像標簽權重向量,VGk,t代表的是電力企業干部行為特征對應的權重向量。使得常規的神經元被存儲單元替代,保證其符合輸出的電力企業干部資質畫像VAk,t具有自有狀態即電力企業干部資質畫像的個體獨特性,此時的每個存儲單元由輸入、輸出、自有狀態組成,實現滿足電力企業干部資質分析的個性化建模分析。
為了驗證基于Agent模型的電力企業干部資質畫像構建方法的整體有效性,需要對基于Agent模型的電力企業干部資質畫像構建方法進行測試。
本次測試在Python語言開發的測試系統中完成,操作系統為CentOS 7,CPU為Intel i7-4790 @3.60 GHz,硬盤為1 TB機械硬盤,RAM為16 GB。
以某市《工業電力用戶復工復產監測周報》為數據來源,針對性地抽取了大工業用電、農業生產用電等工業用戶連續多日數據,作為數據樣本,將信息覆蓋率、F1系數和構建時間作為測試指標,對基于阿里云的電力用戶畫像構建方法研究(方法1)、基于大數據的電網用戶立體畫像構建方法(方法2)和基于RFM聚類的企業干部資質畫像構建方法(方法3)進行測試。
信息覆蓋率表示規模維度的概念,通過整體覆蓋率可以有效度量測試的范圍和工作量,以信息覆蓋率避免漏測顯現的出現,信息覆蓋率越高表明構建的電力企業干部資質畫像中包含的資質信息越多。三種方法的信息覆蓋率如圖3所示。

圖3 不同方法的信息覆蓋率
F1系數是基于查全率和查準率的調和評價,F1系數越高表明電力企業干部資質畫像越精準,F1系數的計算公式如下:
(19)
式中,R代表的是查全率,P代表的是查準率。
三種方法的F1系數如圖4所示。

圖4 不同方法的F1系數
三種方法的畫像構建時間如圖5所示。

圖5 不同方法的畫像構建時間
分析圖3中的數據可知,在多次迭代中方法1構建的畫像信息覆蓋率均高于方法2和方法3構建的畫像信息覆蓋率。由圖4中的數據可知,隨著圖像數量的增長,三種方法的F1系數隨之下降,但方法1的F1系數始終高于方法2和方法3的F1系數。由圖5可知,方法1構建電力企業干部資質畫像所用的時間少于方法2和方法3構建電力企業干部資質畫像所用的時間。因為方法1在構建電力企業干部資質畫像之前,利用基于Agent模型的信息采集系統獲取電力企業干部資質信息,并通過堆棧式降噪自編碼器對采集的信息進行清洗,消除了信息中存在的干擾信息和噪聲。在構建電力企業干部資質畫像的過程中消除了干擾信息和噪聲產生的影響,保留了有效信息,提高了畫像的信息覆蓋率、F1系數、減少了構建畫像所需的時間。
目前電力企業干部資質畫像構建方法存在信息覆蓋率低、F1系數低和構建時間長的問題。提出基于Agent模型的電力企業干部資質畫像構建方法,在Agent模型的基礎上采集電力干部資質信息,對信息進行清洗,根據清洗后的信息構建電力企業干部資質畫像,為用戶畫像在電力企業中的應用和發展奠定了基礎。