張琳娟,許長清,王利利,李晨希
(1.國網河南省電力公司 經濟技術研究院,河南 鄭州 450000;2.華北電力大學,北京 102206)
2011年,國務院發布了《工業轉型升級規劃(2011-2015)》,大力推動園區建設,發展園區經濟,打造主導產業集群,從而促進調整產業結構、改變經濟增長方式,是較好的“經濟驅動器”。治理環境污染和緩解能源緊缺問題,促進了可再生能源的發展。2012年,國家能源局發布了《關于申報新能源示范城市和產業園區的通知》(國能新能[2012]156號),新能源成為園區中的重要供能資源。然而,由于園區數量的增多、用能需求的增大以及新能源帶來的隨機性,為電網企業的用能管理帶來巨大挑戰。此外,能源互聯網的發展推廣、電網各部分之間的緊密互聯以及用電數據的有效存儲,為供電服務信息化創造了有利條件,也為基于數據驅動模型提高電網用能管理和服務水平奠定了基礎[1]。
目前,畫像算法中最普遍的是用戶畫像算法。用戶畫像算法可以幫助使用者快速了解用戶特征并制定相應管理方法。該算法在互聯網領域應用較多,在圖書、旅游等領域也進行了較多的實踐探索,并建立了各式各樣的為用戶推薦商品和服務的基于內容的推薦系統、基于網站特征的推薦系統和基于隱變量的推薦系統等[2]~[7]。用戶畫像算法在電力領域也進行了相關研究。文獻[8]對客戶用電特征進行分類,建立客戶用電行為標簽庫,對用戶標簽采用模糊聚類算法實現用戶群體劃分,將劃分結果作為用戶畫像。文獻[9],[10]通過特征間的相似度分析完成客戶用電行為的特征優選,探索用戶聚類分析中聚類數量的最佳參數。文獻[11]提出了一種改進的K-means算法,對用戶用電數據進行分析,得到用戶典型用電特征曲線,實現對用戶的分類分析。文獻[12]基于95598大數據平臺分析電力用戶的用電特征,提出電力用戶的標簽體系,實現用戶畫像。上述方法均在特定場景較好地解決了相應問題。然而,受限于用戶層面,并沒有考慮群體的畫像分析,無法滿足園區層面提高管理水平的需要,也沒有考慮高比例可再生能源的接入情況對畫像結果的影響。
針對上述問題,本文提出了一種針對高比例光伏接入情況下的園區層次畫像構建算法,從用電類別、業擴報裝和需求響應3個維度綜合分析用戶畫像。本文基于聚類算法分析園區畫像結果,借助光譜雙聚類算法實現用電類別的分析,基于負荷數據及光伏數據特點,分別建立負荷業擴報裝需求評價指標體系、光伏業擴報裝需求評價指標體系和需求響應評價指標體系。本文基于河南省物流園區、科技園區和工業園區的用戶數據完成算例分析,結果表明,園區用戶畫像算法可以展現不同園區的差異性,從而可以幫助制定園區用能管理和服務政策。
畫像構建的第1步是數據的選取。本文提出的園區畫像算法旨在解決園區用能管理方面精準服務水平不足的問題,因此選取和園區服務相關的數據進行分析。選取園區用戶每天用電和園區用戶電力業務往來記錄兩方面的數據,前者包含用戶的用電行為和用能水平信息,后者包含與業擴報裝、需求響應等用電服務的相關信息。
畫像構建的第2步是構建用戶畫像,將其結果作為實現園區畫像的基礎。用戶畫像從用電服務涉及的用電類別、業擴報裝需求和需求響應3個方面進行分析構建。用電類別分析的是用戶用電習慣,幫助電網了解不同用戶的用電模式,指定供電方案;業擴報裝需求分析的是用戶用能水平、預估用戶后續用能增長情況,幫助電網提前進行規劃;需求響應分析的是用戶參與電網調節的能力,幫助電網挖掘電力調節的潛力,降低電網供電波動,提高用戶的用電體驗滿意度。這3個維度的分析,共同為園區服務方案的制定提供基礎。
畫像構建的第3步是園區畫像的構建。園區畫像是在用戶畫像的結果上,利用K-means聚類算法,劃分群落;然后,統計不同群落的用戶數量占園區用戶總數的比例,將比例構成的序列作為園區畫像分析結果。電網可以根據園區畫像,針對園區內群落構成情況,配置相應的服務方式,使園區服務更好地與園區情況相配合,利于園區生產及園區經濟發展。園區畫像整體構建流程如圖1所示。

圖1 園區畫像構建流程Fig.1 Park portrait construction process
用電類別分析的目的是區分不同用戶的典型用電行為模式,歸類總結用戶的用電習慣,從而幫助供電公司配合用戶用電習慣提供個性化的供能服務。
通過觀察分析,用于構建畫像的用電數據存在以下特征:園區中不同用戶的遷入遷出時間不同,數據的時間跨度不同;園區中用戶的用電數據量大,不同用戶包含的數據量不一致;園區中用戶用電數據缺乏專業的標簽作為方向指導。這些特征導致神經網絡和時間序列分析的相關算法難以應用于園區畫像分析中。聚類算法能有效處理數據量不一的無標簽數據,因此使用聚類算法分析用戶用電行為數據。傳統聚類算法是將數據視作一個整體,計算數據間的距離進行聚類,忽略了數據內部的結構差異,使傳統聚類算法無法滿足局部特征分析的需求。光譜雙聚類算法克服了傳統聚類算法的不足,可以在用戶用電日期和用電時間兩個方向對用電數據同時進行聚類,完成用戶用電波動的局部相似性聚類分析[13]。光譜雙聚類算法的流程如圖2所示。

圖2 光譜雙聚類算法流程Fig.2 The chart of spectral biclustering clustering algorithm
2.1.1雙隨機歸一化方法
雙隨機歸一化方法能對行和列同時進行歸一化。使用該方法能在不破壞用電數據局部特征信息的條件下降低全局特征信息對尋找局部特征信息的干擾。算法具體流程如下。
①設迭代次數為k,并令k=1,下列矩陣的上標代表第k次迭代。




④更新迭代結果。令Ak=Ank,此時迭代得到的結果即為Ak。
⑤當滿足Dik中任意值都小于ε或k=K時停止迭代,得到歸一化結果Ak,否則重復步驟②~④的計算過程。其中,ε為預設的閾值,K為預設的最大迭代次數。
⑥達到最大迭代次數的矩陣AK即歸一化后數據矩陣A。
數據矩陣A是剔除無關信息后的干凈數據,與后續算法結果結合,轉換到合適的代數空間中,用于聚類分析。
2.1.2奇異值分解算法
奇異值分解算法(SVD分解)可以將矩陣分解為特征向量組和特征值矩陣乘積的形式。使用SVD算法將用電數據的歸一化矩陣分解為3個矩陣U,V,Σ。其中,U和V是特征向量組,分別包含用電數據在用戶用電日期和用戶用電時間兩個方向上的數據特征信息;Σ為特征值矩陣,矩陣中特征值越大,所對應的特征向量包含的信息越多,對于構建數據矩陣越重要。由于最大特征值對應的特征向量包含的特征信息最多,其中有全年用電趨勢、電網整體波動等大量全局特征信息,對分析用戶不同用電時間下的局部特征無意義,所以須要將其剔除。
2.1.3用K-means聚類算法篩選用于數據變換的向量組
借助K-means聚類算法對分解得到的U,V矩陣進行K-means聚類,分別篩選得到在用電日期和用電時間分析所使用的特征向量組。其中,根據聚類的簇內差異,挑選聚類結果最緊湊的前N_best個向量,即用于進行數據變換的向量組V_tr,從而完成篩選。向量留存數N_best代表經過篩選保留的特征向量數目。保留的向量數量越多,則保留的用戶用電信息越多,越有利于后續分類。但是,數量過多會增加計算量,加大對全局信息的干擾。因此須要根據數據情況選取向量保留數量。
將通過U篩選得到的特征向量組V_tr和歸一化數據矩陣A相乘得到結果Pr。特征向量組V_tr將用戶用電的歸一化數據矩陣轉換到合適的代數空間中,便于對數據矩陣進行聚類分析。

對結果Pr進行K-means聚類,聚類結果為用戶每天用電情況的類別。對用戶每天的用電類別進行統計,出現次數最多的用電類別即為用戶的常見用電類別,代表著用戶的用電習慣。由于不同行業的用戶的無功、有功消耗方式不同,因此從無功和有功兩個角度進行聚類分析,將無功用電類別、有功用電類別作為用戶的用電類別畫像結果。
業擴報裝需求分析使用的數據主要包括新裝需求數據與增加需求數據。新裝需求是指用電的申請者就所需耗能,申請與供電企業建立新的供用能關系;增加需求是指原有用戶因原協議約定的用能容量或注冊容量不能滿足用能需求,申請增加用能容量。由于用戶擁有負荷及光伏發電裝置,因此須研究用戶負荷的業擴報裝需求及光伏發電的業擴報裝需求。負荷業擴報裝需求和光伏發電業擴報裝需求的分析方式相同,所以僅以負荷的業擴報裝需求分析為例介紹算法流程。
為了分析用戶負荷的業擴報裝需求增長趨勢,須要預測用戶中長期的負荷水平。然而,單獨使用某種預測方法得到的中長期負荷預測結果與實際結果的誤差較大,因此,本文采用基于等權遞歸理論的組合預測模型,將Logistic曲線模型和改進灰色Verhulst模型相結合,對電力用戶未來3年的用電量以及年最大負荷進行預測[14],[15]。
將預測得到的結果與當前用電負荷規模進行比較,得到評價用戶業擴報裝需求程度的年平均用電量增長率和年平均最大負荷增長率兩個主要指標。此外,當前最大負荷規模以及未來3年的最大負荷預測規模分別與當前合同運行容量進行比較,可得到另外兩個評價指標:變壓器當前負載率和變壓器未來3年預期負載率。上述4個指標的計算如式(5)所示。

式中:Grate1,Grate2分別為用戶年平均用電量增長率和年平均最大負荷增長率;Lrate1,Lrate2分別為變壓器當前負載率和變壓器未來3年預期負載率;Q,Q1,Q2,Q3分別為用戶當前年用電量和未來1,2,3年用電量的預測值;P,P1,P2,P3分別為用戶當前年最大負荷和未來1,2,3年最大負荷的預測值;Pmax為用戶當前合同運行容量。
園區用戶負荷業擴報裝需求評價結果評價指標體系如表1所示。

表1 業擴報裝需求評價結果的評價指標體系Table 1 Evaluation index system of business expansion demand
根據實際經驗賦予指標權重,并對指標進行加權求和,其結果命名為負荷業擴報裝需求評價結果。
海洋油氣資源開發是服務海洋強國戰略和“一帶一路”倡議的具體體現,對實現國家能源戰略、維護國家權益等具有重要意義。惠州海事局秉持提供專業優質高效的海事服務理念,積極采取多種有效措施,不斷提高海事監管服務水平,與有關企業共同努力解決存在的安全隱患,大力助推海洋石油勘探事業的發展。
光伏業擴報裝需求分析即是根據用戶光伏歷史出力、用戶年最大光伏出力預測未來3年的光伏出力、最大光伏出力。與負荷業擴報裝需求分析類似,分別得到年平均光伏出力增長率、年平均最大光伏出力增長率2個指標,實現園區用戶光伏業擴報裝需求評價分析。
需求響應體現了用戶參與電力系統削峰填谷過程中的調節能力。擁有光伏發電裝置的園區用戶除了通過調節負荷參與需求響應外,還可以與電網進行電力交易,售出多余光伏出力。因此,選取負荷模式、降負荷率、分時用電量變異系數、停電總時長和光伏出力交易量5個指標評估用戶的需求響應能力。負荷模式指的是用戶的典型用電波動;降負荷率是不同行業的可改變負荷水平占當前總負荷水平的比率;分時用電量變異系數是用電波動變化大小的評估結果;停電總時長是用戶一年里停電時間;光伏出力交易量是用戶一年內可與電網交易的光伏電量。
用戶的最小負荷用電模式是指用戶所有典型的日負荷模式中總負荷最小的負荷模式。用戶所有負荷用電模式和最小負荷用電模式之差的積分就是用戶潛在的用電負荷水平:

式中:Pmin(t)為用戶的最小負荷用電模式t時刻的功率;Cg(t)為用戶最小負荷用電模式t時刻的功率,其所有時刻功率的積分是M個日負荷模式里最小的;Cm(t)為用戶的第m類負荷模式t時刻的功率;M為用戶典型日負荷模式的總數量。
用戶的需求響應潛力為

式中:DRP1為用戶的基準負荷偏差;Nm為第m類負荷模式下相似日的總數量。
降負荷率是不同行業當前負荷水平的可改變負荷水平占總負荷的比率。基于降負荷率的用戶需求響應水平的計算流程見文獻[16]。根據文獻計算得到降負荷潛力DRP2。
分時用電量變異系數反映用戶在峰、谷、平3種時段的用電波動水平,用電量變異系數越大,用戶用電波動水平越大,負荷轉移的空間就越大,即需求響應能力就越高。
用戶峰、谷、平分時用電量的變異系數如式(9)所示。

式中:CV1為用戶峰、谷、平分時用電量的變異系數;SD1為用戶峰、谷、平分時用電量的標準差;MN1為用戶峰、谷、平分時用電量的平均值。
園區內電力用戶的停電總時長St在一定程度上也可以反映用戶的需求響應能力,用戶停電總時長越長,說明用戶更容易接受區域電網運營商下達的切負荷命令。
擁有光伏發電裝置的用戶通過售出多余光伏出力參與電力市場交易,實現需求響應。光伏出力交易量的計算式為

式中:pij為用戶第i天、第j時的光伏出力交易量,其值為光伏出力與用戶負荷之差,僅取正值。
園區電力用戶需求響應評價指標體系示于表2。分別賦予5個指標權重并進行加權求和,并將結果命名為需求響應評價結果E,作為用戶需求響應評價結果。
基于河南省鄭州市及焦作市的工業園區、科技園區、物流園區9萬條用戶用電數據進行算例分析。用電類別模型在python3.7.4的環境下,使用0.21.3版本的sklearn庫完成分析編寫。業擴報裝需求特征的分析模型、需求響應潛力特征的分析模型在MATLAB 2017a環境下完成編寫計算。首先須要對算例使用的數據進行預處理,由于不同用戶的用電等級不同,數據中的數值單位不同,要轉換為同一單位;其次,由于存在用電數據的缺失,即有部分記錄缺少無功消耗數據,須要將其剔除;最后,因部分用戶的用電數據極少,且波動極大,為避免對后續分析產生較大干擾,也將其剔除。
雙聚類算法簇的數量選為6,7時,分類結果的內部差異較大;選為9,10時,會出現較多相似類型的分類結果;因此,簇的數量選為8。分類結果如圖3所示。由于用電數據為每15 min采樣一次,圖3中橫軸共96個采樣點;將同一類用電數據按采樣點計算均值,即縱軸所示為功率。有功聚類結果的單位為kW,無功聚類結果的單位為kVar。

圖3 用戶用電數據聚類結果Fig.3 Behavior data clustering results
統計用戶每天有功用電類別出現次數,出現次數最多的類別為用戶有功用電類別。用戶的用電類別分類結果為無功用電類別、有功用電類別組合。此時,已經根據用電類別完成用戶群落劃分,所以不須要聚類,直接統計不同類別的用戶占園區用戶總數的比例。3個園區的計算結果如表3所示,其構成的序列作為園區用電類別畫像。表3中只列出3個園區中存在的用電類別。

表3 園區用電行為特征序列Table 3 Characteristic sequence of electricity consumption in the park
由表3可以看出,園區中大多數用戶屬于(1,1)類型。結合圖3分析可知,該類型多為用戶全天平穩生產的大工業用電用戶,其無功和有功用電都非常平穩。其中,(1,1),(1,5),(5,8),(7,7)占比較多,說明大部分用戶的有功和無功用電波動是趨于一致的。根據表3結果進行對比可知,3個園區中物流園區的用電最穩定,工業園區的用電模式最多樣,科技園區存在有功和無功用電波動變化較為劇烈的用戶。
利用業擴報裝需求特征分析的算法可以得到每個用戶的負荷業擴報裝需求評價結果和光伏業擴報裝需求評價結果。為了便于了解園區內用戶業擴報裝需求水平的分布情況,基于已得到業擴報裝需求結果,使用K-means聚類算法分析。當聚類數量為3時,類間誤差不再出現顯著下降,此時的聚類結果較好。因此選取聚類數量為3的結果作為園區聚類分析依據,聚類結果如圖4所示。

圖4 負荷業擴報裝需求評價聚類結果Fig.4 Clustering results of business expansion and installation demand evaluation
在此基礎上,計算園區內不同類型業擴報裝需求的用戶占園區用戶總數的比例。這3個比例構成的序列包含園區用戶的業擴報裝需求水平分布結構特征,作為園區業擴報裝需求畫像結果(表4)。
從表4可以看出,科技園區和物流園區低水平業擴報裝需求的用戶占大多數,說明園區內用戶的業擴報裝需求都處于較低水平;工業園區中業擴報裝需求位于中水平和高水平的用戶總數遠高于位于低水平的用戶的數量。這表明工業園區中大部分用戶有較高的負荷業擴報裝需求。
光伏業擴報裝需求分析與負荷業擴報裝的分析方式相同,部分用戶的光伏發電出力曲線如圖5所示。

圖5 部分用戶的光伏發電出力曲線Fig.5 PV output curve of some users
從圖5可以看出,用戶光伏出力曲線呈現出單峰型,出力的高峰在12:00左右;在0:00-6:00和20:00-24:00光伏出力功率基本為零。光伏發電裝置從6:00左右開始出力,出力功率不斷增加,到12:00左右達到高峰;之后不斷減小,出力功率在16:00-20:00接近為零。光伏出力功率曲線存在波動性,出力曲線不完全一致。
可以將用戶光伏業擴報裝需求結果劃分為低水平、中水平、高水平3類。光伏業擴報裝需求序列如表5所示。

表5 光伏業擴報裝需求序列Table 5 The business expansion and installation demand sequence of PV
從表5可以看出,3個園區中均是光伏業擴報裝需求為低水平的用戶占比較高,表明3個園區的光伏業擴報裝需求均較低。鄭州高新技術開發區中水平和高水平光伏業擴報裝需求用戶的占比均高于工業園區和物流園區,說明高新技術開發區與其他兩個園區相比,更傾向于使用光伏等清潔能源。
與業擴報裝需求特征中的分析思路相似,得到園區內所有用戶的需求響應評價結果后,對其進行K-means聚類,聚類數量選為3時,聚類效果較好。需求響應評價聚類結果如圖6所示。

圖6 需求響應評價聚類結果Fig.6 Clustering results of demand response evaluation
統計園區內不同需求響應水平的用戶數量占園區用戶總數的比例,其結果構成的序列作為園區需求響應畫像結果(表6)。

表6 需求響應序列Table 6 Demand response sequence
從表6中可見,3個園區中均是需求響應能力為低水平的用戶占比較高,表明3個園區的需求響應能力均較低。鄭州高新技術開發區中水平和高水平需求響應能力用戶的占比均高于工業園區和物流園區,說明高新技術開發區與其他兩個園區相比,更傾向于參與電力市場交易。
綜合考慮上述3個維度的分析結果提出3點建議。第一,焦作工業產業集聚區的負荷業擴報裝需求較高,可為其預先配置配電設備容量。第二,鄭州高新技術開發區的光伏業擴報裝需求較高,須提前考慮高比例光伏接入對電網帶來的影響。該園區中接近30%的用戶存在需求響應潛力,可以嘗試提出負荷轉移的相關合同。第三,鄭州國際物流園區在用電類別、業擴報裝、需求響應上表現出較高的穩定性,對其相關服務可以延后,無須投入較多人力物力進行提前準備工作。
本文提出了基于聚類的多維度園區畫像模型,并根據河南省鄭州市和焦作市的園區進行算例分析,得到以下結論。
①不同類型的園區具有不同的用戶分布特征,但園區內用戶在用能方面基本保持穩定。
②物流園區與其他園區相比,用能更穩定、需求響應評價結果和業擴報裝需求評價結果更低。
③高新技術園區具有更高的光伏業擴報裝需求及需求響應能力。
研究結論表明,基于聚類的多維度園區畫像模型可以實現高比例光伏接入下的園區多個維度特征的量化,其分析結果具有一定的現實解釋價值。供電公司可以基于園區畫像技術實現差異化、個性化的供電服務。