楊冰芳,徐友剛,董 玥,孫 進(jìn)
(國網(wǎng)上海市電力公司青浦供電公司,上海 201700)
電力不良負(fù)荷的辨識和剔除是電力系統(tǒng)實時分析的重要組成部分,可為電力系統(tǒng)穩(wěn)定運行提供實時依據(jù),有利于電力實時評估與分析[1-3]。簡單的不良數(shù)據(jù)辨識方法容易對數(shù)據(jù)進(jìn)行漏判或者誤判,導(dǎo)致數(shù)據(jù)庫失真,不僅不利于精確地進(jìn)行負(fù)荷預(yù)測,同時也對電力系統(tǒng)的調(diào)度造成了困擾[4]。因此,對不良數(shù)據(jù)的辨識和剔除具有重要的意義。
傳統(tǒng)的不良數(shù)據(jù)辨識主要采用神經(jīng)網(wǎng)絡(luò)法和聚類分析法等。文獻(xiàn)[5]在云集群環(huán)境下,利用基于 Spark 的并行 K-means 算法對負(fù)荷數(shù)據(jù)進(jìn)行聚類分析出日特征曲線,并將其作為基準(zhǔn)值辨識和處理不良數(shù)據(jù),縮短了計算時間,在海量數(shù)據(jù)下具有明顯優(yōu)勢,但是在數(shù)據(jù)量不足時無法得出有效的特征值曲線。文獻(xiàn)[6]通過GSA肘形判據(jù)對量測數(shù)據(jù)進(jìn)行最優(yōu)聚類,獲得一組唯一確定正確的數(shù)據(jù)組,擬合負(fù)荷變化,但是在簡單的日負(fù)荷不良數(shù)據(jù)辨識的實際應(yīng)用中得不到較好的效果。文獻(xiàn)[7]利用ARMA模型擬合電力數(shù)據(jù),將具有較大擬合殘差的數(shù)據(jù)作為不良數(shù)據(jù)剔除,但是該方法具有較大的隨機(jī)性,不利于電力系統(tǒng)的穩(wěn)定運行。文獻(xiàn)[8]利用新息圖法,能夠單個量測壞數(shù)據(jù)和參數(shù)錯誤同時存在的情況進(jìn)行辨識,但在多不良數(shù)據(jù)情況下辨識效果較差。文獻(xiàn)[9]利用圖論的方法推導(dǎo)所給系統(tǒng)中量測值之間的數(shù)學(xué)關(guān)系,并且充分考慮其相互校驗作用,提高不良數(shù)據(jù)辨識的可靠性,但算法耗時較長。這些算法都通過大量的數(shù)據(jù)頻繁迭代來實現(xiàn)不良數(shù)據(jù)的辨識,算法的復(fù)雜度高,在多不良數(shù)據(jù)情況下無法有效辨識不良數(shù)據(jù)。本文基于多不良數(shù)據(jù)情況,對模糊C均值聚類(Fuzzy c-means, 簡稱FCM)算法進(jìn)行基于分化距離作為判據(jù)的改進(jìn)分析。
FCM方法是一種基于模糊隸屬度,根據(jù)有效性指標(biāo)聚類的無監(jiān)督學(xué)習(xí)算法,可以對數(shù)據(jù)庫進(jìn)行有效分類處理。在不良負(fù)荷數(shù)據(jù)辨識中可以將具有孤立特征的數(shù)據(jù)點分離,但在海量數(shù)據(jù)情況下計算量大,且容易模糊不良數(shù)據(jù)的類別,無法在多不良數(shù)據(jù)狀態(tài)下進(jìn)行有效地辨識和剔除。為了減少誤判漏判,準(zhǔn)確地識別出不良數(shù)據(jù),構(gòu)建一個更加完備優(yōu)秀的數(shù)據(jù)庫,本文提出一種分化距離改進(jìn)的FCM用于不良數(shù)據(jù)辨識。結(jié)果表明,該方法能夠有效識別不良數(shù)據(jù),所得數(shù)據(jù)庫對于提高負(fù)荷預(yù)測精度具有工程實用性。
對于電力負(fù)荷而言,有諸多影響因素如溫度、國民經(jīng)濟(jì)等。這些因素,通常具有較大的不確定性,例如國民經(jīng)濟(jì)發(fā)展水平、氣候條件;除此之外,用電單位和設(shè)備的特性以及用電方式變化,這些都是變化且難以預(yù)測的,并且對負(fù)荷的大小具有決定性意義。因此,綜合考慮影響負(fù)荷因素在不良數(shù)據(jù)辨識中尤為重要。
在進(jìn)行數(shù)據(jù)分析時,首先考慮溫度和氣候這些不可控因素。日最高溫、最低溫采集自中國天氣網(wǎng)。氣候因素如日照強(qiáng)度,濕度影響人體舒適度,部分參與影響人的用電行為,參考文獻(xiàn)[10],量化天氣類型如表1所示??紤]到本文針對日負(fù)荷不良數(shù)據(jù)辨識,一日中天氣類型并不單一的特點,細(xì)化兩兩氣象間關(guān)聯(lián)性關(guān)系量化天氣類型,量化特征指數(shù)如表2所示。根據(jù)量化出的天氣特征值表示日照強(qiáng)度、濕度等氣候因素對負(fù)荷的影響指數(shù)。

表1 天氣類型及其對應(yīng)的量化值

表2 天氣特征值數(shù)值表
除了這些影響因素外,還有一些其他因素如人均消費水平、項目經(jīng)費指標(biāo)等也對負(fù)荷的大小具有影響。對于日負(fù)荷來說,這些因素變化緩慢。對于長時間范圍的負(fù)荷大小記錄分析發(fā)現(xiàn),負(fù)荷的變化總體呈現(xiàn)穩(wěn)定的增長趨勢;而對日負(fù)荷影響因素而言,受這些因素影響變化趨勢基本為零,故忽略不計。
FCM算法是一種基于劃分的聚類算法,通過對數(shù)據(jù)對象之間的歐幾里德距離迭代計算,使得具有相似特征的數(shù)據(jù)聚成一類。它的主要思想使得劃分到同一類別中數(shù)據(jù)對象之間具有最大的相似度,而不同類之間具有差異性。相對于傳統(tǒng)K-means算法,F(xiàn)CM一種柔性的模糊劃分[11-12]。
2.1.1 模糊集基本知識
隸屬度函數(shù)表示一個對象x從屬于數(shù)據(jù)集合A的程度函數(shù),記做μA(x),對象x為集合A所在空間包含的所有數(shù)據(jù)對象,隸屬度取值范圍[0,1],即0<=μA(x)<=1。μA(x)=1表示x∈A,即x完全從屬于A。定義在空間X={x}上的隸屬度函數(shù)等價于定義了一個模糊集合A,即定義在論域X={x}上的模糊子集A。對于有限個對象x1,x2,……,xn模糊集合A可以表示為
A={μA(xi),xi} |xi∈X}
(1)
每個數(shù)據(jù)點隸屬于某類的隸屬度用[0,1]區(qū)間內(nèi)的值表示。
2.1.2 FCM算法及其缺點
FCM算法流程圖如圖1所示。FCM也稱作模糊ISODATA,通過隸屬度確定每個數(shù)據(jù)點屬于某個類的程度,從而劃分?jǐn)?shù)據(jù)點類別。FCM把n個向量xi(i=1,2,…,n)劃分為c個模糊組,求取使得非相似性指標(biāo)的價值函數(shù)達(dá)到最小時的每組聚類中心,從而得到最佳聚類。相較傳統(tǒng)聚類而言,F(xiàn)CM用模糊劃分類別,即樣本數(shù)據(jù)點對各個類別的隸屬矩陣U用[0,1]內(nèi)的值模糊定義。由于進(jìn)行歸一化處理,則一個數(shù)據(jù)集的隸屬度的和總等于1。

圖1 FCM算法流程圖
(2)
則FCM的價值函數(shù)如下:

(3)

構(gòu)造如下新的目標(biāo)函數(shù):

(4)
式(4)中,λj(j=1,2,…,n),n個約束式的拉格朗日乘子,通過對所有輸入?yún)⒘壳髮?dǎo),得到使價值函數(shù)達(dá)到最小的必要條件:
(5)
(6)
由這兩個必要條件可知,F(xiàn)CM是一個簡單的迭代算法。在進(jìn)行數(shù)據(jù)批處理時,F(xiàn)CM通過以下步驟確定聚類中心ci和隸屬矩陣U:
步驟1:用 [0,1]內(nèi)的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足式(4)等式約束。
步驟2:計算c個聚類中心ci,i=1,…,c。
步驟3:計算價值函數(shù)。當(dāng)滿足價值函數(shù)小于設(shè)定的閾值或所求價值函數(shù)相對上次值變化量小于某個閾值,則算法停止。
步驟4:計算新的U矩陣。返回步驟2。
本文通過Matlab實現(xiàn)FCM算法程序,流程圖如圖1所示。
單一的FCM算法無法準(zhǔn)確有效地剔除不良負(fù)荷數(shù)據(jù),在數(shù)據(jù)量不足的情況下,電力負(fù)荷的孤立點容易被作為離群數(shù)據(jù)剔除,真正的離群數(shù)據(jù)和優(yōu)秀的負(fù)荷數(shù)據(jù)容易由于特征值的選取被聚到同一類當(dāng)中。所謂的孤立點,即沒有足夠多的相似輸入的點。在后續(xù)離群點剔除中,由于沒有相似輸入,容易會被判定為錯誤數(shù)據(jù),其實是由于數(shù)據(jù)量不足造成的不具備有足夠的相似輸入。因此本文提出了基于分化距離改進(jìn)的FCM算法。
基于兩極分化的思想,綜合考慮對象之間的密度和距離,本文提出了分化距離改進(jìn)的FCM算法,在聚類的基礎(chǔ)上能夠精準(zhǔn)快速地發(fā)現(xiàn)離群點。雙重不良數(shù)據(jù)辨識屏障有利于構(gòu)建一個更加優(yōu)秀的電力負(fù)荷數(shù)據(jù)庫。
2.2.1 分化距離
經(jīng)過FCM處理后,分別計算各類別中任意倆個數(shù)據(jù)點xi和xj之間的實際歐式距離D(i,j)和最大距離Dmax,選取一個 [0,1]內(nèi)的數(shù)值作為分化度μ,對全部D(i,j)進(jìn)行分化計算[13-14], 即放大數(shù)據(jù)對象之間的距離,得到處理后xi和xj之間的分化距離為r(i,j),其關(guān)系式:
(7)
分化距離的思想實質(zhì)是比較分化度μ與D(i,j)與Dmax的比值,若比值小于μ,則會縮小比值使得分化距離小于實際距離;反之,分化距離會被放大。比值和μ的差值與分化距離呈現(xiàn)斜率增大的反比趨勢,即差值越大,其分化距離就會越??;差值越小,其分化距離反而越大。通過分化處理,聚類中關(guān)聯(lián)性大的數(shù)據(jù)更加緊密,同時分離具有差異性的數(shù)據(jù),使得離群點距離正常值更遠(yuǎn),從而達(dá)到兩極分化的目的。
2.2.2 算法流程
基于分化距離改進(jìn)的FCM不良數(shù)據(jù)檢測算法的基礎(chǔ)是基于數(shù)據(jù)密度和距離的離群點檢測算法。通過討論數(shù)據(jù)對象鄰居密度來判定其是不是不良數(shù)據(jù)點。
假設(shè)數(shù)據(jù)集質(zhì)心到所有數(shù)據(jù)點距離的平均距離為Adistance,定義R,代表數(shù)據(jù)對象周圍的距離大。
(8)
則對象周圍的鄰居密度即該對象R范圍內(nèi)其他數(shù)據(jù)點的個數(shù)。當(dāng)友鄰居密度即鄰居點個數(shù)小于設(shè)定數(shù)目Knum,則被認(rèn)為是離群數(shù)據(jù),即不良數(shù)據(jù)點。通過比較r(i,j)和R的關(guān)系,不用計算最大距離,即可判斷對象鄰居點的個數(shù),簡化算法流程,提高了算法的效率。
算法步驟如下。
(1)輸入聚類所得數(shù)據(jù)集,分化度μ,最少鄰居數(shù)Knum。
(2)計算聚類各類別中質(zhì)心及Adistance。
(3)計算數(shù)據(jù)集距離R1和數(shù)據(jù)對象xi的分化距離r1(i,j)。
R1=μ·Adistance
(9)
(10)
(4)比較r1(i,j)與R1的關(guān)系。若r1(i,j)
(5)不滿足K>Knum的數(shù)據(jù)對象作為不良數(shù)據(jù)剔除。
本文采用華南地區(qū)某大學(xué)126日負(fù)荷作為歷史數(shù)據(jù)庫分析。首先將負(fù)荷影響因素按聚類原則將負(fù)荷類型分類。在同類數(shù)據(jù)中,通過分化距離判斷數(shù)據(jù)是否異常,對該大學(xué)數(shù)據(jù)進(jìn)行不良負(fù)荷數(shù)據(jù)辨識,結(jié)果如圖2所示。圓點表示優(yōu)秀數(shù)據(jù),正方形表示不良數(shù)據(jù),不良數(shù)據(jù)如表3所示。

圖2 不良數(shù)據(jù)辨識

表3 聚類不良數(shù)據(jù)分析
由表3可知,用電量493.6 kWh和用電量292.0 kWh具有相似的特征值輸入,輸出均偏離該輸入下應(yīng)有的輸出,電量值具有離群特性,可作為不良數(shù)據(jù)剔除。通過查閱相關(guān)信息,用電量為493.6 kWh當(dāng)天,某試驗室通宵開放使用大功率實驗儀器;用電量為292.0 kWh當(dāng)天,某試驗室人員由于集體活動未在實驗室工作,因此出現(xiàn)用電量異常。因此本方法能夠識別出異常數(shù)據(jù)。
進(jìn)一步采用預(yù)測算法對原數(shù)據(jù)、簡單聚類不良數(shù)據(jù)剔除后的數(shù)據(jù)、分化距離剔除不良數(shù)據(jù)后的數(shù)據(jù),基于分化距離改進(jìn)FCM不量數(shù)據(jù)剔除后的數(shù)據(jù)庫分別進(jìn)行預(yù)測校驗,預(yù)測結(jié)果見表4。
由表4結(jié)果表明,通過本文所用方法不良數(shù)據(jù)個數(shù)為6,能在傳統(tǒng)聚類方法的基礎(chǔ)上,結(jié)合分化距離的優(yōu)點,準(zhǔn)確地辨識出隱藏的不良數(shù)據(jù)點,有效地提高了不良數(shù)據(jù)的辨識效果。所得歷史數(shù)據(jù)在預(yù)測校驗中的預(yù)測精度為7.91%,有利于負(fù)荷預(yù)測數(shù)據(jù)庫的構(gòu)建。從表4分析得出,本文提出的算法執(zhí)行速度優(yōu)于單方面考慮兩種算法,在改善辨識精度的同時提高了算法效率。

表4 算法結(jié)果比較分析
本文在對普通FCM應(yīng)用于不良負(fù)荷數(shù)據(jù)辨識的研究基礎(chǔ)上提出了一種以分化距離作為判據(jù)識別不良數(shù)據(jù),并將其與FCM相結(jié)合形成基于分化距離改進(jìn)的FCM算法。
本文將該方法應(yīng)用于某大學(xué)的不良負(fù)荷數(shù)據(jù)辨識,通過仿真對不同方法進(jìn)行簡化處理后的數(shù)據(jù)庫仿真可以發(fā)現(xiàn),與傳統(tǒng)的FCM方法相比,該方法可以尋找出隱藏的不良數(shù)據(jù)點,可以有效避免數(shù)據(jù)淹沒。與分化距離方法相比,該方法基于聚類,細(xì)分?jǐn)?shù)據(jù)類別,客觀準(zhǔn)確地識別不良數(shù)據(jù),并且相對原方法,簡化了算法運算范圍,提高了計算速度。在海量數(shù)據(jù)情況下,該方法能夠有效辨識多不良數(shù)據(jù),具有很好的應(yīng)用前景。