黃公躍 林思遠 董佩純 付婷婷 薛冰
(深圳供電局有限公司客戶服務中心,廣東深圳 518000)
電力企業的用戶計費檔案不僅包括的信息內容繁多,且隨著不同區域的用電需求不斷變化,用戶計費檔案不僅數量上與日俱增,其中的信息也不斷出現新的管理重點[1]。為檔案管理工作帶來了新的挑戰,如何實現對檔案的準確分類,為后續的應用和檔案提取提供更加快速的定位條件成為現階段電力企業用戶計費檔案管理工作中的重點[2]。由于電力企業一般以區域范圍為經營活動開展的基礎,需要通過對整體用電數據進行分析,為之后的發展決策提供參考,因此大多采用集中核算的模式對數據進行動態分析,這種核算模式的效率與用戶計費檔案資源管理的可靠性直接相關,由此可以看出,加強電力企業的用戶計費檔案管理具有十分重要的現實意義[3]。不少專家學者也就用戶計費檔案管理這一問題進行了相關研究,其中,文獻[4]提出了以信息內部之間邏輯關系為基礎的檔案管理方法,為檔案管理提供了一種新的思路,但其邏輯開發階段的時間成本較高,因此對于部分檔案規模較大的單位并不適用;文獻[5]借助大數據在信息計算中的優勢,對檔案信息進行分類,但在實際檔案管理中,數據是多樣化的,需要對其管理目標進一步優化。
基于此,本文提出集中核算模式下電力企業用戶計費檔案管理研究,利用集中核算的信息結果,實現對信息的融合處理,以此為基礎,實現對檔案的準確分類,并通過實驗驗證了所提方法在用戶計費檔案管理方面的優越性能。
在對檔案進行管理之前,考慮到集中核算產生的數據結果較多,且規模較大,導致用戶計費檔案中的信息具有多樣化的特征,在表現形式和信息類型上不具有統一性,因此,本文采用主成分分析法(Principal Component Analysis,PCA),對集中檔案中的數據集進行數據預處理,其主要是將具有相關性的不同維度數據投射到同一數據維度中,為后續的用戶計費檔案管理提供保障。
假設集中核算得到的待管理檔案的信息維度為a×b,檔案數量為n,首先需要計算出檔案信息的協方差矩陣,將n檔案分別表示為[D1,D2,…,Dn],那么檔案信息的平均維度可以表示為:

其中,λn表示檔案信息的維度,γ表示信息維度的最大差值。通過式(1)將用戶計費檔案信息歸一化,并按照極端得到的λn值的大小,將用戶計費檔案劃分到不同的聚類空間中,γ即為距聚類的最大中心距離。
需要注意的是,實際的用戶計費檔案資源聚類中心制定標準是不唯一的,可以根據電力企業的管理需求,以不同的指標作為中心。這樣就為用戶計費檔案的個性化管理提供了良好基礎。
實現對待分類檔案的歸一化處理后,需要對用戶計費檔案特征進行提取,并將其作為用戶計費檔案分類管理的依據。為此,本文采用關聯規則特征分布式挖掘方法,通過計算用戶計費檔案對目標特征的適應度,判斷其聚類結果。
首先,建立了用戶計費檔案信息特征統計分析模型,其表示為:

其中,T(*)表示用戶計費檔案信息特征統計模型,k表示目標特征參數,t表示用戶計費檔案生成時間。利用計算得到的結果將用戶計費檔案信息以目標特征值大小為標準進行重構,為了確保管理結果最大限度保留檔案之間的關聯性,對用戶計費檔案計算得到的所有特征值結果進行主成分劃分處理,其表示為:

其中,p為待管理的用戶計費檔案特征占比,對于用戶計費檔案中存在的難以準確提取的模糊特征分量,將其作為單獨個體獨立管理。當使用管理用戶計費檔案時,首先以特征為基礎在聚類中查找目標用戶計費檔案,如果無法匹配出對應的資料信息時,則在該聚類中匹配目標用戶計費檔案,并根據匹配結果完成對用戶計費檔案的聚類劃分,以此實現對集中核算中全部用戶計費檔案的特征提取工作。
在確定用戶計費檔案的特征提取之后,就可以按照提取結果對其進行分類管理。需要注意的是,由于不同電力企業的規模以及運營成本不同,因此對用戶計費檔案管理的要求也不同。為此,本文在對用戶計費檔案進行分類時,以動態的分類尺度標準進行,通過調整聚類用戶計費檔案特征值距離聚類中心的距離,提高管理靈活性。
假設企業對于用戶計費檔案管理要求的類別劃分為x,那在滿足該條件下,將特征提取結果中主成分因素前三的特征作為分類指標,此時聚類允許的最大距離可以表示為:

在此標準下,可以實現對大多數用戶計費檔案的分類,但也會存在部分用戶計費檔案到3個中心的距離均滿足要求,此時本文將用戶計費檔案的目標特征占比作為劃分標準,將最大占比特征作為分類結果;部分用戶計費檔案也會存在與3個聚類中心的距離都不滿足聚類要求的情況,此時本文將該類用戶計費檔案的特征與3個中心的關聯程度作為劃分標準,將關聯性最高的特征作為分類結果。
通過這樣的方式,實現對用戶計費檔案的有效管理,提高對用戶計費檔案的分類精度。
為了對本文提出的用戶計費檔案管理方法的應用性能進行測試,以某電力企業的用戶計費檔案為實驗數據,開展了測試,并將文獻[4]和文獻[5]提出的方法作為測試的對照組,通過對比3種方法的管理結果,提高對本文方法性能評價的客觀性。
測試使用的方案數據共包括5類,分別是用電時長、用電類別、密級、電壓等級以及所屬線路,每類數據1000份,要求分類的最大距離為0.6。以此為標準,分別采用3種方法對用戶計費檔案進行分類管理。
為了量化分類結果,將用戶計費檔案分類精度作為評價指標,其計算方式為

其中,Q為分類精度,Nr為分類結果中符合分類要求的檔案數量,N為待分類檔案的總量,在測試中,該數值為1000。以此為基礎,對3種方法的用戶計費檔案管理結果進行比較和評價。
在上述基礎上,分別對比了3種方法的對實驗數據的管理結果,具體如表1所示。

表1 不同方法的檔案分類精度
從表1中可以看出,在3種管理方法中,文獻[4]和文獻[5]對于用戶計費檔案的管理精度雖然表現良好,但與本文管理方法相比,對于用戶計費檔案的分類精度仍存在提升空間,特別是對于用電時長的檔案,由于其存在形式較多,文獻[4]和文獻[5]的分類結果均在0.9以下,并不理想。對于類型繁多,種類最為繁雜的用電時長,本文方法通過歸一化處理降低了特征提取的誤差,因此分類精度仍可達到0.939,對另外兩種檔案的分類精度均在0.950左右,表明本文提出的管理方法具有一定的研究價值。
電力企業用戶計費檔案資源的數量會隨著經營時間的推移而逐漸增加,檔案的多樣化程度也會不斷提高,在此背景下,提高對用戶計費檔案的管理精度十分必要。本文提出集中核算模式下電力企業用戶計費檔案的管理研究,實現了對不同類型檔案的高精度分類,提高了檔案管理工作的效果,以期為電力企業的資源管理工作提供有價值的參考。