孫安黎 向 春 喻建波
(重慶電力設計院有限責任公司 重慶 401120)
三維設計主成分分析(Principal Component Analysis,3DPCA)通常使用于模式識別、特征提取等方面的一種統計學理論方法。該方法能夠有效、精準地提取出所需的主成分,去除非主成分[1]。電網工程算量信息包括對象化工程和非對象化工程計算的相關信息。由于電網工程算量包含的種類較多,且每個種類對應多個單項指標,指標之間又存在或多或少的關聯性,主要信息和非主要信息混雜在一起,使信息提取變得很困難。為了更好地管理電網工程的算量信息,如何確定幾個重要單項狀態量的權重顯得尤其重要[2]。
目前針對電網工程算量信息權重提取方法的研究有很多,例如:徐長寶等[3]研究的基于貝葉斯理論的繼電保護設備狀態評價權重更新方法,該方法依據繼電保護設備的各狀態指標,利用貝葉斯理論的先驗概率思想進一步提取、融合繼電保護設備實際運行數據特征得到權重的分布,但是該方法在獲取權重分布時的召回率略低;白恒遠等[4]研究基于拉格朗日函數的配電網評價指標權重,該方法利用拉格朗日函數的經濟學意義來確定指標權重,但是該方法確定的權重并非是原始指標的權重,而是經過分析之后的各個成分的權重,無法直接加以利用。因此,為了提高電網工程算量信息權重提取的效率,提出基于三維設計主成分分析算法的電網工程算量信息權重提取方法,更好地管理電網工程算量信息。
為了實現三維設計的空間中的電網工程算量信息權重的采集,需要確定三維設計空間內的電網工程算量信息的內容[5]。
設定3DPCA的協方差三維矩陣為:
(1)

1) 高維張量二維矩陣展開方式:以N=3為例,設置H∈Rb1×b2×…×bN的N維張量可開展為H1、H2、H3的三種二維矩陣。H的奇異值分解為:
(2)
式中:W是H的奇異值三維矩陣;×N為N模式乘法;D(N)是對應H的N模式的酉矩陣。
通過高階張量展開式(2)后得出:
H(N)=D(N)·W(N)·(D(N+1)?D(N+2)…D(N)?
D(1)?D(2)…D(N-1))T
(3)
式中:?為Kronecker乘積;T為階數。
式(3)能夠轉換為下述三種方式:
(4)


(5)


圖1 3DPCA算法流程
通過采集的電網工程算量信息,可進一步建立評判矩陣,以提取電網工程算量信息權重。
評判矩陣是電網工程算量信息權重提取的基礎,提取電網工程算量信息權重信息量,需要確定其重要指數的單項算量信息指標數量h,通過對電網工程算量具有豐富經驗的Q位專家人員(ZJ),得出h組算量信息Sh專家評分值Pi,j,i=1,2,…,Q;j=1,2,…,Q,其中每組數據中具備Q個元素,以此得出專家人員打分評判如表1所示。

表1 專家人員評分表
由于各專家人員所在的崗位和研究方向不同,導致評分結果存在誤差。但是經過研究發現,咨詢的專家人數越多,最終獲取的工程算量信息權重指數就越科學。因此,為保證所提取到的電網工程算量信息權重的精準性,通過各專家人員給出的指標評分之間的線性關系,簡化指標評分[8-9]。通過主成分分析法獲取電網工程算量信息權重。
電網工程算量信息權重獲取的過程就是利用主成分分析法,以提取到的電網工程算量信息內容為基礎,結合評判矩陣,獲取綜合評價函數的過程[10]。其核心是從新的三維矩陣中的獲取的電網工程算量信息的內容后,選擇幾種主成分指標,使這些主成分指標,盡量具有完整的原來指標的信息,并且指標之間沒有關聯[11]。保證主要工程算量信息不丟失的情況下,解決了指標間的共線性,其基本原理是:通過一個正交變換,將與指標相關的原始隨機變量X=(x1,x2,…,xp)T轉換成與其不相關的新的隨機多維變量C=(c1,c2,…,cp)T,并指向已選指標樣本點分布最大的p個方向,對多維變量U完成降維處理,使其轉換成一個精度很高的低維變量[12]。主成分分析算法計算電網工程算量信息權重,可以看作是通過因子載荷矩陣獲取原始指標變量的線性組合,將因子載荷矩陣中的每列系數矩陣與其相應特征值的平方根相除,得出指標在主成分中的比重,將每個主成分所對應的特征值,占所提取主成分總的特征值之和的比例,作為權重計算主成分綜合模型[12-15]。綜合模型中的比重,經歸一化處理得到因子在綜合模型中的權重。
權重模型就是主成分模型,其為:
(6)
式中:分析后取得的m個主成分和決策矩陣中的系數分別為K1,K2,…,Km和cQj,各指標i的權重指數為φi,(i=1,2,…,Q)。由于在主成分分析時,獲取的結果是一個初始因子載荷kQj,并不是決策矩陣中的系數,因此兩者之間的換算公式為:
(7)
式中:ξj為主成分特征值,j=1,2,…,m。
根據式(6)和式(7),建立綜合評價函數KZ為:
(8)
κ=ξ1+ξ2+…+ξm
(9)
式中:φ1,φ2,…,φQ為指標o1,o2,…,oQ在主成分中的綜合重要度;κ為所有主成分特征值之和。
結合式(9)和專家評分值,獲取原指標的綜合值SZi為:
(10)
根據式(9)獲取各指標權重指數為:
(11)
結合式(8)-式(11)獲取二級權重模型為:
(12)
綜上,通過高階張量奇異值分解方法保留主成分,根據新形成的三維矩陣,提取權重的信息的初始位置,獲取完整的電網工程算量的信息內容;依據電網工程算量的信息內容獲取電網工程算量信息主成分指標,通過建立權重模型獲取主成分特征值和初始因子載荷,完成各指標權重指數提取。
以某電網公司的工程算量中的對象化工程算量和非對象化工程算量兩大種類指標為測試對象。選取對象化工程算量中的5個相關單項指標為:電纜溝、檢查井、端子箱、線路塔桿和框架柱。選取的非對象化工程算量中的5個相關單項指標為:排水、電氣照明、零星砌體、地基處理和場地平整。采用本文方法提取該電網工程算量信息權重,并通過對比方法驗證本文方法優勢。
邀請5位專家人員根據單項指標算量信息和綜合算量信息之間的關聯度,完成單項指標算量評分,獲取評價得分表如表2所示。

表2 單項指標算量信息專家評分表(分)
表2中,1分為不重要;2分為不太重要;3分為一般重要;4分為比較重要;5分為非常重要。
將表2中的單項指標原狀態算量信息,進行主成分分析,獲取主成分單項指標初始因子載荷和成分特征值,分別如表3和表4所示。

表3 主成分單項指標初始因子載荷

表4 成分特征值
主成分數量提取原則是對應主成分特征值大于1,并且主成分貢獻率≥85%的前m個主成分。分析表3數據可知,該電網公司的工程算量中的對象化工程算量和非對象化工程算量均有兩個主成分,對于對象化工程算量而言,電纜溝、框架柱兩項單項指標在主成分2上的載荷較高,說明主成分2可以顯著體現電纜溝、框架柱的信息;線路塔桿、檢查井和端子箱等單項指標在主成分2上的載荷較高,說明主成分1主要體現這三種信息。同理可知在非對象化工程算量中,主成分1主要體現地基處理、場地平整、零星砌體和電氣照明4項信息,主成分2主要體現排水信息。綜上可知,主成分1和主成分2基本可以體現該電網工程算量的全部信息。
利用式(7)計算表4中的結果,可以得出cQj;結合表2、表4及式(6)得出的結果,一同代入式(12)中,得出對象化和非對象化工程算量中各單項指標算量信息的權重指數依照表4中的排列順序由上到下依次為0.115、0.1306、0.205、0.191、0.145 9、0.211、0.145 8、0.115 8、0.210 5和0.130 7。
2.2.1召回率測試
為驗證本文方法的提取性能,采用基于貝葉斯理論的繼電保護設備狀態評價權重更新方法(文獻[3]方法)和基于拉格朗日函數的配電網評價指標權重提取方法(文獻[4]方法)與本文方法作對比,選取召回率和F1-measure均值作為方法的測試指標。召回率越大表明提取結果越精準;F1-measure均值越大,提取效果越好。隨機選取對象化工程算量中的端子箱單項指標進行10次提取測試,測試結果如圖2和圖3所示。

圖2 三種方法的召回率對比結果

圖3 三種方法的F-measure均值對比結果
分析圖2圖3可以得出:本文方法的召回率和F1-measure均值分別為97.5%、97.0%左右,文獻[3]方法的召回率和F-measure均值分別為94%和93%左右,文獻[3]方法的召回率和F-measure均值分別為90%和89.6%左右,說明本文方法信息提取的查全性較好,具備明顯優勢。實驗結果表明本文方法的電網工程算量信息提取效果好,原因在于本文方法在信息提取時,去除了影響工程算量信息提取的冗余信息,獲取完整的電網工程算量的信息內容,使信息提取效果更好。
2.2.2準確率測試
為了驗證本文方法對電網工程算量信息權重提取的準確性,測試三種方法在沒有噪聲和有噪聲的情況下,對象化工程算量的5項指標的信息權重提取的準確率,測試結果如表5所示。

表5 五項指標信息權重提取準確率對比結果(%)
通過觀察表5可以看出:本文方法在沒有噪聲和有噪聲的情況下,提取不同的單項指標信息權重準確率均在98.5%以上,另外兩種對比方法在沒有噪聲的和有噪聲的情況下,準確率均在94%以下,且存在較大浮動。說明本文方法具備較高的電網工程算量信息權重提取準確率,且幾乎不受噪聲影響。
2.2.3效率測試
為了測試本文方法的提取效率,測試三種方法在15 s內,提取大小不同的對象化工程算量信息權重時的提取效率,對比結果如圖4所示。

圖4 三種方法提取效率對比結果
分析圖4可以看出:在相同的15 s的時間內,針對不同大小的算量,信息權重提取效率均在96%以上,即便信息大小為500 GB時,本文方法在15 s內依舊完成96.4%的算量信息權重提取;另外兩種對比方法,隨著算量信息大小的增加,提取效率明顯下降,當信息大小為500 GB時,分別完成了82.1%和78.2%的算量信息權重提取,明顯低于本文方法的提取效率。說明本文方法的提取效率較高,能夠快速地完成工程算量信息權重提取。
綜上所述,本文方法的召回率和F1-measure均值分別為97.5%、97.0%左右,在沒有噪聲和有噪聲的情況下,提取不同的單項指標信息權重準確率均在98.5%以上,在相同的15 s的時間內,針對不同大小的算量,信息權重提取效率均在96%以上,即便信息大小為500 GB時,本文方法在15 s內依舊完成96.4%的算量信息權重提取。主要原因在于本文方法引入三維設計主成分分析,得出要提取權重的信息的初始位置,并采用區域生長法,獲取完整的電網工程算量的信息內容,更好地管理電網工程的算量信息。
本文研究了基于三維設計主成分分析算法的電網工程算量信息權重提取方法,三維設計主成分分析算法能夠有效、精準地提取出所需的主成分,去除非主成分特點獲取電網工程算量信息內容,基于此信息內容,采用主成分分析法的權重指數確定方法,建立了權重計算模型,實現電網工程算量信息權重提取。然而,針對基于三維設計主成分分析算法的電網工程算量信息權重提取,還需不斷進行拓展研究,例如實現變電工程的量價聯合計算、自動計算、如何運用到輸變電工程甚至電網工程全面造價管理等問題,以及如何基于三維設計主成分分析,實現數字化的電網工程管理。