李富強(qiáng),朱晨烜,駱利勤
(上海電機(jī)學(xué)院 電氣學(xué)院,上海 201306)
隨著人工智能領(lǐng)域的技術(shù)進(jìn)步,一系列智能算法如專家系統(tǒng)、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等已被廣泛應(yīng)用于電力負(fù)荷行業(yè)。但是,對于高維數(shù)據(jù)集,傳統(tǒng)的智能算法計(jì)算過程過于復(fù)雜和耗時(shí),不能保證對形狀多樣性的數(shù)據(jù)集的計(jì)算準(zhǔn)確性[1]。近幾年,聚類分析方法已廣泛應(yīng)用于電力負(fù)荷預(yù)測領(lǐng)域,根據(jù)電力負(fù)荷的特性,許多更精確的聚類分析方法被提出[2-3],這在學(xué)術(shù)界產(chǎn)生了影響。
在一些研究中,如文獻(xiàn)[4]提出了結(jié)合K-均值(K-means)和反向傳播神經(jīng)網(wǎng)絡(luò)的聚類分析方法,降低了負(fù)荷預(yù)測的誤差。文獻(xiàn)[5]提出了一種可能性C-均值(Possibilistic C-Means,PCM)算法,但PCM 聚類分析方法的聚類結(jié)果同樣容易受到初始聚類質(zhì)心選取的影響,導(dǎo)致聚類一致性問題。為彌補(bǔ)PCM 聚類分析方法的缺陷,文獻(xiàn)[6-7]將PCM與模糊C-均值(Fuzzy-C Means,FCM)相結(jié)合,提出了一種可能性模糊C-均值算法。文獻(xiàn)[8]提出了密度峰值聚類算法,能將任意形狀的類簇進(jìn)行聚類且具有很強(qiáng)的魯棒性。文獻(xiàn)[9]提出了一種在語義分割基礎(chǔ)上,結(jié)合K-means和隨機(jī)森林的聚類分析算法,提高了模型的準(zhǔn)確性。文獻(xiàn)[10]提出了改進(jìn)K-means聚類分析方法,該方法減小了迭代次數(shù),提高了聚類效率。文獻(xiàn)[11]設(shè)計(jì)了一種基于最近鄰與局部密度的自適應(yīng)K-means聚類分析方法,通過結(jié)合近鄰矩陣和局部密度以獲取初始聚類質(zhì)心,提高了傳統(tǒng)K-means算法聚類效果。文獻(xiàn)[12]基于中心指標(biāo)和密度提出了Canopy二進(jìn)制K-means聚類分析方法,使得聚類結(jié)果更精確,同時(shí)算法運(yùn)行速度更穩(wěn)定。文獻(xiàn)[13]為解決傳統(tǒng)模糊均值聚類算法中初始聚類中心選取不準(zhǔn)確的問題,引入雙尺度度量以提高聚類效果。
綜上所述,上述算法仍有一些缺陷和局限性。例如,隨機(jī)選擇初始聚類質(zhì)心可能會(huì)導(dǎo)致聚類結(jié)果陷入局部最優(yōu)解,從而降低了聚類的準(zhǔn)確性。因此,本文引入皮爾遜相關(guān)系數(shù)對歐氏距離進(jìn)行改進(jìn),以獲取初始聚類質(zhì)心,然后使用FCM 聚類分析方法對聚類質(zhì)心進(jìn)行迭代更新,以獲得更高精度的聚類質(zhì)心。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模糊聚類分析算法比傳統(tǒng)的聚類分析算法更穩(wěn)定、準(zhǔn)確,可以有效地應(yīng)用于負(fù)荷調(diào)度計(jì)劃的制定,具有實(shí)際應(yīng)用價(jià)值。
畸變負(fù)荷曲線是指偏離聚類質(zhì)心曲線的樣本曲線。它們的存在可能會(huì)導(dǎo)致特征指標(biāo)權(quán)重計(jì)算出現(xiàn)誤差,并且還會(huì)影響聚類結(jié)果的準(zhǔn)確性。而拉依達(dá)準(zhǔn)則[14]在測量次數(shù)足夠大時(shí)有很好的準(zhǔn)確性,故本文采用該準(zhǔn)則識(shí)別畸變數(shù)據(jù)。假設(shè)1組檢測數(shù)據(jù)值含有隨機(jī)誤差,先計(jì)算出A′的列平均值和剩余誤差Ejs,然后計(jì)算標(biāo)準(zhǔn)差θ。當(dāng)|Ejs|>3θ,則此被認(rèn)定為畸變數(shù)據(jù)應(yīng)剔除。剔除畸變數(shù)據(jù)之后得到矩陣記為B。列平均值、剩余誤差及標(biāo)準(zhǔn)差的具體表達(dá)式如下:
式中:m為樣本數(shù)。
歸一化的目的是將不同量綱的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的標(biāo)準(zhǔn),以更好地進(jìn)行比較、分析。均值方差歸一化的公式為
式中:x為原數(shù)據(jù)集;μ為樣本均值;s為樣本的標(biāo)準(zhǔn)差。
通過減去均值對數(shù)據(jù)進(jìn)行中心化處理,即改變平均值使得數(shù)據(jù)的平均值為零。這一操作不會(huì)改變數(shù)據(jù)分布中各個(gè)點(diǎn)之間的距離。標(biāo)準(zhǔn)差可被視為每個(gè)點(diǎn)距離平均值的平均距離,因此將數(shù)據(jù)除以標(biāo)準(zhǔn)差可以將數(shù)據(jù)中每個(gè)特征的距離量綱統(tǒng)一為標(biāo)準(zhǔn)差的倒數(shù),從而保持?jǐn)?shù)據(jù)點(diǎn)之間的距離不變。最終,數(shù)據(jù)被轉(zhuǎn)換為具有零均值和單位方差的正態(tài)分布。將經(jīng)過歸一化之后得到的數(shù)據(jù)集記為矩陣C。
每小時(shí)采集一次原始數(shù)據(jù),導(dǎo)致數(shù)據(jù)量大且維度高。直接使用所有數(shù)據(jù)聚類時(shí)間成本高,為了提高效率和降低維度,采用特征提取,提取關(guān)鍵指標(biāo)如日負(fù)荷率、峰期負(fù)載率等,并對其進(jìn)行優(yōu)化處理。這樣可以精確描述負(fù)載曲線的特性,提高效率并保留重要特性。在此基礎(chǔ)上再進(jìn)行負(fù)荷曲線的聚類,將矩陣C通過特征指標(biāo)提取過后的數(shù)據(jù)矩陣記為矩陣D。
為了解決FCM 聚類分析方法中聚類質(zhì)心容易被劃分到樣本點(diǎn)密集區(qū)域的問題,對FCM 聚類分析方法進(jìn)行了優(yōu)化。然而,對于具有時(shí)序性和規(guī)律性的電力負(fù)荷曲線,如果兩條負(fù)荷曲線之間的相似度僅依賴于歐氏距離,則得到的聚類效果不能反映電力負(fù)荷曲線的時(shí)序性和規(guī)律性特征。本文針對電力負(fù)荷曲線的聚類,將皮爾遜相關(guān)系數(shù)與歐式距離相結(jié)合得到改進(jìn)的FCM 聚類分析方法。具體如下:
(1) 改進(jìn)的FCM 聚類分析方法的局部密度
其中,改進(jìn)后的歐氏距離為
皮爾遜相關(guān)系數(shù)
式中:dij為樣本向量Xi到樣本向量Xj的歐式距離;Nk(Xi)為數(shù)據(jù)點(diǎn)Xi的K個(gè)最近臨近點(diǎn);xis、xjs為樣本向量Xi、Xj的第s維元素;n為樣本向量的維度;γ為迭代次數(shù);β為模糊指數(shù);uij為第j個(gè)樣本向量屬于第i類的隸屬度。
改進(jìn)的FCM 集成聚類分析方法流程如圖1所示。

圖1 改進(jìn)FCM 聚類分析方法流程
本文以CH和XB聚類評價(jià)指數(shù)[15]目標(biāo)函數(shù)為聚類評價(jià)指數(shù)。CH 聚類評價(jià)指數(shù)是根據(jù)計(jì)算類中樣本向量到類質(zhì)心向量的距離平方和來衡量類內(nèi)相似度,其值越小代表相似性越高。通過計(jì)算CH 數(shù)據(jù)集樣本質(zhì)心向量與各類質(zhì)心向量間的距離平方和來衡量類間差異度,其值越大差異性越大。因此,當(dāng)目標(biāo)函數(shù)JCH越大時(shí),說明聚類精度越高。
XB聚類評價(jià)指數(shù)是根據(jù)各樣本中向量與質(zhì)心向量間的距離平方之和以及類質(zhì)心向量距離平方來衡量的,向量與質(zhì)心向量間的距離平方之和的值越小代表類內(nèi)相似性越高;而質(zhì)心向量距離平方的值越大代表類間差異性越大。因此,目標(biāo)函數(shù)JXB越小,說明聚類精度越高。
為了驗(yàn)證本文算法的有效性和優(yōu)越性,選取2022年某電網(wǎng)的實(shí)際負(fù)荷數(shù)據(jù)進(jìn)行仿真。對負(fù)荷數(shù)據(jù)預(yù)處理,包括去除畸變負(fù)荷向量、降維處理、歸一化處理、權(quán)重分配,然后提取最優(yōu)的聚類曲線并分析聚類結(jié)果,最后比較算法。
4.1.1 負(fù)荷數(shù)據(jù)預(yù)處理結(jié)果分析 用于實(shí)例仿真的電力負(fù)荷數(shù)據(jù)一共包含全年的實(shí)測數(shù)據(jù),每天每間隔一小時(shí)采集一次負(fù)荷值,共形成一個(gè)366×24的矩陣,構(gòu)成366條電力負(fù)荷曲線,其原始電力負(fù)荷曲線如圖2所示。

圖2 原始電力負(fù)荷曲線
4.1.2 畸變負(fù)荷曲線的剔除 根據(jù)式(1)~式(3)將原始電力負(fù)荷數(shù)據(jù)集中的畸變負(fù)荷樣本剔除,分析輸出的畸變負(fù)荷樣本向量,這些畸變負(fù)荷樣本向量分別出現(xiàn)在2月1日到2月6日,該時(shí)間段正好是春節(jié),6條負(fù)荷曲線相對于附近的負(fù)荷曲線,呈現(xiàn)出無規(guī)律性;4月3日至5日以及10月1日至7日分別是清明節(jié)和國慶節(jié)節(jié)假日,在此期間,大部分工廠、寫字樓、學(xué)校的用電量明顯下降;6月8日至6月10日溫度驟升,后又恢復(fù)到8日前的溫度,此期間,人們用空調(diào)比較頻繁,電量明顯上升。將剔除19個(gè)畸變負(fù)荷樣本之后的矩陣記為B,剩下的負(fù)荷樣本形成的電力負(fù)荷曲線如圖3所示。

圖3 剔除畸變負(fù)荷曲線后電力負(fù)荷曲線
對比圖2、圖3可知,圖2中無規(guī)律和雜亂的負(fù)荷曲線已被剔除,剩下的負(fù)荷曲線都呈現(xiàn)出很強(qiáng)的規(guī)律性和時(shí)序性特點(diǎn)。剔除畸變負(fù)荷曲線后得到矩陣B,根據(jù)式(4)對矩陣進(jìn)行歸一化處理,所得矩陣記為矩陣C。從歸一化后的矩陣C中提取特征指標(biāo)進(jìn)行降維處理,得到347×7的矩陣,記為矩陣D。
改進(jìn)FCM 聚類分析方法是先通過改進(jìn)聚類分析方法獲取初始聚類質(zhì)心,避免在FCM 聚類分析方法中由于隨機(jī)選擇初始聚類質(zhì)心而引起聚類結(jié)果陷入局部最優(yōu)解的問題。
導(dǎo)入預(yù)處理之后的矩陣D,在改進(jìn)FCM 聚類分析方法中輸入?yún)?shù)近鄰數(shù)k=5;模糊指數(shù)β=2,ε=0.00001,最大迭代次數(shù)γmax=200,其聚類結(jié)果如圖4所示。

圖4 改進(jìn)FCM 的聚類結(jié)果
由圖4可知,不同季節(jié)和場景下的負(fù)荷曲線呈現(xiàn)出不同的特點(diǎn)。在國慶節(jié)假日期間,第1類負(fù)荷曲線在11∶00~18∶00期間出現(xiàn)高峰,而在19∶00~24∶00之間,負(fù)荷變化相對平穩(wěn),這是由于服務(wù)業(yè)用電量急劇增加所致。第2類負(fù)荷曲線出現(xiàn)在冬季,兩個(gè)峰值時(shí)段主要在人們用餐時(shí)間段,相對于其他負(fù)荷曲線,此類曲線在19∶00左右的負(fù)荷處于全天最高峰,因?yàn)榇藭r(shí)段是人們集中洗漱的時(shí)間,對熱水的需求量特別大。第3類負(fù)荷曲線出現(xiàn)在夏季,盡管受制冷設(shè)備影響,但是由于生活用熱水需求量較少,熱水器能夠利用太陽能,因此負(fù)荷較低。此類負(fù)荷曲線沒有特別明顯的峰期時(shí)段,主要由于風(fēng)扇、空調(diào)等制冷設(shè)備的不間斷運(yùn)行所致。第4類負(fù)荷曲線更能反映人們的日常生活規(guī)律,分別在11∶00和19∶00左右出現(xiàn)兩個(gè)主要峰值,此時(shí)間段為用餐時(shí)段,人們?nèi)粘<矣秘?fù)荷較大;此外,20∶00~22∶00為夜生活用電時(shí)間,負(fù)荷相對較高,很明顯此類負(fù)荷曲線變化規(guī)律受溫度的影響較小,更貼近于人們的日常生活規(guī)律。
聚類效果的評估主要取決于能否合理分配所有負(fù)荷曲線,而負(fù)荷曲線的合理分配主要考慮同類負(fù)荷曲線的相似性和不同類負(fù)荷曲線之間的差異。CH 聚類評價(jià)指數(shù)和XB聚類評價(jià)指數(shù)都是基于這兩個(gè)方面進(jìn)行考慮。表1給出了不同聚類分析方法下CH 聚類評價(jià)指數(shù)和XB聚類評價(jià)指數(shù)的比較結(jié)果,表2給出了不同聚類分析方法在聚類過程中的迭代次數(shù)和程序運(yùn)行時(shí)間。

表1 不同算法下的聚類效果比較

表2 不同聚類分析方法的迭代次數(shù)和運(yùn)行時(shí)間比較
由表1、表2可知,單一聚類分析方法所得到的CH 聚類評價(jià)指數(shù)明顯低于改進(jìn)的FCM 聚類分析方法所得到的值,而得到的XB聚類評價(jià)指數(shù)則相對較高。這表明,單一聚類分析方法得到的聚類效果相對較差,而改進(jìn)的FCM 聚類分析方法則獲得了更好的聚類效果。因此,利用改進(jìn)的劃分聚類分析方法來獲得精確的初始質(zhì)心,能夠顯著提高聚類的準(zhǔn)確性。在迭代次數(shù)以及運(yùn)行時(shí)間方面,改進(jìn)的FCM 聚類分析方法明顯優(yōu)于K-means和傳統(tǒng)FCM 聚類分析方法,表明利用改進(jìn)的FCM 來獲取精準(zhǔn)的初始聚類質(zhì)心能夠提高聚類精度,并且能提升工作效率。
本文提出的改進(jìn)FCM 聚類分析方法,在傳統(tǒng)FCM 聚類分析方法的基礎(chǔ)上,將皮爾遜相關(guān)系數(shù)與歐式距離相結(jié)合得到改進(jìn)后的歐氏距離表達(dá)式并進(jìn)行聚類分析;對原始負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理,包括剔除畸變負(fù)荷曲線、對剔除畸變負(fù)荷曲線后的負(fù)荷數(shù)據(jù)進(jìn)行歸一化處理,并從歸一化后的數(shù)據(jù)中提取特征指標(biāo)進(jìn)行降維,提高了聚類分析的效率且保留了負(fù)荷重要特性。通過將本文方法與K-means、傳統(tǒng)FCM 聚類分析方法做仿真對比,驗(yàn)證了改進(jìn)FCM 聚類分析方法對電力負(fù)荷曲線聚類分析的有效性和優(yōu)越性。本文方法在實(shí)例中獲得了預(yù)期的聚類結(jié)果,但是對于日趨復(fù)雜多變的負(fù)荷數(shù)據(jù),仍然有一些地方需要優(yōu)化和改進(jìn),如對于不同來源的實(shí)際電力負(fù)荷數(shù)據(jù),可對特征指標(biāo)進(jìn)行優(yōu)化,加入一些必要的影響負(fù)荷變化的因素,例如溫度和天氣等。