關 旭,王紫瑞,冀雯馨,郭一民
1(遼寧瀚石機械制造有限公司,阜新 123000)
2(遼寧省露天礦山裝備專業(yè)技術創(chuàng)新中心,阜新 123000)
3(遼寧工程技術大學 研究生院,葫蘆島 125105)
4(常熟理工學院 電子信息工程學院,蘇州 215500)
隨著我國經濟的快速發(fā)展,以及國家開始重視對環(huán)境的保護,節(jié)能減排和可持續(xù)發(fā)展的要求逐漸變高[1].從2015年開始,國家電網公司陸續(xù)發(fā)布了《國家電網公司大數據應用指導意見》等,在服務政府、電網生產、經營管理和優(yōu)質服務等領域進行大數據分析深入研究和應用[2,3].在國外,由于用電行為分析的研究起步的較早,在2011年,美國的頂級期刊《科學》上開辟了一個名為《Dealing with data》的專刊.此專刊的主題是圍繞在大數據問題而展開,用以表明大數據在現實的生產生活中有著重要的意義和指導[3].而電力行業(yè)是現代工業(yè)的基礎,電力的生產和數據有著天然的聯系,在近些年這種聯系表現得尤為突出.如在文獻[4]中,提出了一種基于海量數據的用戶用電行為分析方法.在文獻[5]中,提出了一種用電行為分析的聚類優(yōu)化策略,在研究了用電行為特征優(yōu)化選擇策略的基礎上分析早期,采用特征優(yōu)化選擇策略提取負荷曲線的最優(yōu)特征集,對用戶用電數據進行聚類,提出了聚類數的優(yōu)化策略.在文獻[6]中,提出了一種基于需求響應的基本用電分接頭確定方法.首先介紹了分時電價和分層電價的聯合定價.利用基本消費和舒適消費的不同價格彈性,建立了可計算的需求響應模型,分析了聯合定價引起的需求和支出變化.然后以最大化需求減少為目標,建立一個優(yōu)化模型來確定基本消費的層次.在文獻[7]中,針對連續(xù)(PCA)K-均值聚類問題,探討了穩(wěn)定性優(yōu)化在標準特征選擇過程中的作用.提出一種是基于稀疏PCA 方法,選擇以貪婪的方式最大化穩(wěn)定性的特征.
應對非常之疫,需舉非常之力.電力企業(yè)既要保障人民群眾和疫情防控機構的安全可靠用電,同時還要防止疫情在直接承擔保供一線的電力人員中蔓延.尤其是處于疫情核心區(qū)的電力企業(yè),其防控任務異常艱巨.本次主要選取居民用戶、超商用戶、工業(yè)用戶,雖然這并不是電網體系下包含的全部用戶,只是單獨列舉幾類,但這些是在疫情時期非常具有代表性的用戶.主要利用大數據技術對不同的用戶進行用電行為分析,構建不同的用戶體系的用電行為分析模型.針對特殊時期,特殊的“戰(zhàn)役”,分析不同用戶的用電行為,核心目標是為國家電網進行合理的電力分配提供數據支撐和技術支撐.
選取在某項流行病蔓延的2020年1月15日至3月31日期間,國家電網遼寧省某電力公司的內部數據,得到了每天每個測量點的功率曲線數據圖,其中覆蓋了基本數據測試點有6746 個,其中包含了用電人數有120 萬戶.結合電力系統(tǒng)當中的實際問題和實際業(yè)務,用電行業(yè)(用電類別)和用電客戶的實際核準不進行考慮,對于已經長時間沒有活動的用戶也不考慮.數據預處理主要進行以下5 個步驟:
1)測量基站處理
對在上文提到的電力數據進行初步的數據挖掘,發(fā)現有部分電力數據雖然是在2020年1月15日之后開始記錄數據,但是對于這些測量點需要進行是否是新舊測量點進行判斷,在1月15日之后開始進行記錄,這部分數據的參考價值是比較大.在1月15日之前有數據的定義為舊測量基站,則是舊的測量基站這部分數據的參考價值略低于前者.
2)全為負電力數據處理
全部為負的電力數據需要進行數據處理,通過咨詢電力系統(tǒng)工程師,這種數據大概率是智能電表的正負兩極互相接反,可以把這些數據上的負號去掉,并不影響數據的使用和試驗結果,以及模型的構建.
采用INPHO軟件的MATCH-AT模塊進行空中三角測量。平差采用嚴密的光束法區(qū)域網平差。在MATCH-AT上導入影像數據,建立金字塔影像,然后導入影像曝光點坐標數據、數碼相機參數和控制點成果,通過自動匹配相關影像產生自動匹配點,對于點位不足區(qū)域,人工添加加密點。
3)部分為負電力數據處理
對于部分是負的電力數據需要特別的數據處理,因為這部分數據和全部負電力數據的情況是不一樣的.首先要計算這類數據當中每一類的電力負荷,然后計算部分負電力數據的最小值,還要計算正電力負荷的最大值,則可以看出整體上最大值的絕對值應該是大于最小值的絕對值,在這部分數據計算中使用更為精確的最小值分布.
最終確定數據處理方案是將所有小于?0.05 的電力數據當中的負號去掉,然后對在?0.05~0 區(qū)間的電力數據利用前后一周的同一個測量基站做平均值替換.
4)缺失值電力數據處理
對于缺失值的電力數據則需要對同一個測量點,前一周和后一周的數據,計算某一時刻的電力負荷平均值,若前后一周的數據還是缺失的情況,還需要繼續(xù)延長一周,即兩周的電力負荷的平均值.如果兩周數據還是缺失的情況,需要丟掉該點數據,因為再次延長日期的話,這個點的數據價值是非常小的在7~15 天的周期里可以說明該測量點的價值,時間無限制延長是沒有價值的.
5)異常值的數據處理
異常值的處理需要分為3 個步驟,分別是縱向判斷、橫向判斷,在滿足前兩個判斷條件下,需要進行利用縱向數據進行替換[8-10].

橫向判斷是不同測量基站,在同一時間點獲取的負荷值進行比較.橫向判斷條件如下:設y(i,t)表示基站i,在當前日期t時刻負荷功率,m表示t時刻m個基站的檢測序列,t時刻m個基站的檢測序列的平均值是(1,2,···,m),標準差是σj(1,2,······,m).

如果y(i,t)同時滿足橫向判斷和縱向判斷兩個條件,就可以認為該基站測量數據異常,需要進行數值替換,替換方法為:

用電行為實際上是對用戶的用電行為分類進行評價,對現有的分類進行匹配,以實現用電行為分類結果的最優(yōu)解,實現用電行為的最優(yōu)化、電力損失最小化.
按照不同的分類規(guī)則,將電力用戶聚類類別分成居民用戶、超商用戶、其他用戶類比如表1所示;將電力用戶聚類類別分成居民用戶、超商用戶、工業(yè)用戶、其他用戶類比如表2所示;將電力用戶聚類類別分成居民用戶、超商用戶、工業(yè)用戶、辦公用戶、娛樂場所用戶、其他用戶類比如表3所示.

表1 電力數據聚類占比結果(聚類數3 個)(%)

表2 電力數據聚類占比結果(聚類數4 個)(%)

表3 電力數據聚類占比結果(聚類數6 個)(%)
通過對于表格中的數據進行對比,可以發(fā)現,聚類個數為4 個.即表2電力數據聚類結果分析可以發(fā)現,在疫情防控期間不同時間段負荷占比權重較大,各個類別之間的特點是比較明顯的.因此,對居民用戶、超商用戶、工業(yè)用戶、其他用戶進行比較較為科學完備.但其他用戶中涵蓋類型較多、用戶特征不明顯,故本文選取居民用戶、超商用戶、工業(yè)用戶進行分析.
工業(yè)用電是當前最消耗電力的行業(yè),其中高電力消耗的產業(yè)有鋼鐵產業(yè)、化工行業(yè)、汽車產業(yè)、紡織產業(yè)、造紙業(yè)、副食品加工等行業(yè),在這些產業(yè)當中,既有重工業(yè)耗電還有輕工業(yè)耗電,涉及到的行業(yè)種類是非常多的,而且由于每個產業(yè)都有自身的產業(yè)結構,導致每個產業(yè)都有各自的用電特性,并且這些產業(yè)之間的用電特性差別巨大.
本文選取的遼寧某地區(qū),其工業(yè)覆蓋電機制造、制藥、電子信息、成衣制造等行業(yè).根據遼寧省人民政府辦公廳通知,疫情防控必需(醫(yī)療器械、藥品、防護品生產和銷售等行業(yè))不得停工停產.其中一部分企業(yè)處于停產狀態(tài),但一些制造業(yè)緊急轉型防護和消毒用品,對用電負荷產生一定的影響.由于涉及企業(yè)比較多,因此必須通過K-means 聚類算法對不同的工業(yè)項目電力曲線進行聚類分析,從而精準地確定不同產業(yè)的用電規(guī)律,然后有針對地提供電力服務,其中包括可靠供電、信息通知、地址服務、設備租賃、供電渠道等服務.圖1是遼寧某地區(qū)疫情防控期間工業(yè)電力曲線圖.

圖1 工業(yè)電力曲線圖
在本文當中得到的內部數據,需要在內部數據當中利用大數據技術挖掘并分析出用戶的用電行為.但是從數據當中包含了多個特征,既有一些挖掘價值比較大的電力數據,也還有些挖掘數據比較小的電力數據.因此,從得到的電力數據當中挖掘和選擇出價值比較大的特征是研究用戶用電行為的前提.因此本文用式(1)~式(4)來處理數據特征[11-13].
最高值耗電率ΨH:

其中,SH為耗電高峰用量,S是耗電總量.
最低值耗電率ΨL:

其中,SL為耗電低峰用量,S是耗電總量.
正常耗電率 ΨF:

其中,SF是在正常時的耗電用量,S是耗電總量.每日耗電量峰值時刻Tmax:

其中,Pd.Tmax是一天當中的最大的運行負荷量[14-19].
在內部數據當中,提取到用戶特征之后,不同的特征值之間可能會有不同的值域.值域相差如果比較大的話,對整體矩陣的影響較大,這種影響會減弱數值比較小的特征值的作用,所以需要對特征值進行規(guī)范化的處理.首先,選取5 個特征值,將每個用戶設為一個向量矩陣X=[x1,x2,···,xn],然后需要對所有的元素進行統(tǒng)一化處理

把每個特征值規(guī)范化到區(qū)間[0,1]內,進一步得到標準化的特征矩陣Y=[y1,y2,…,yn].其中yi∈[0,1],i=0,1,2,…,n.
基于改進的K-means 算法的執(zhí)行步驟如算法1.

算法1.基于改進K-means 算法用戶行為分析算法.輸入:包含n 個數據對象的數據集S、聚類簇K 的數目、鄰域的半徑、最小的數據樣本數量Mins.輸出:滿足判斷條件,且函數收斂的K 個收斂結果.Step 1.計算數據集S 中數據對象之間的歐式距離.Step 2.計算每個數據值域所包含的樣本數據數,如果等于最小樣本數Mins,需要將這個對象放到高密度的集合當中.如果密度小于Mins 的數據就應該從數據集合當中刪除.Step 3.把高密度的數據區(qū)域集合中的最大數據當作第一個數據聚類中心,把這個聚類中心加入到聚類中心集合,然后把第一個數據聚類中心從高密度區(qū)域中刪除.Step 4.計算聚類中心和集合當中的剩余的所有樣本的歐式距離,找出權值最大的樣本點,然后在把最新的樣本點加入到聚類中心集合當中,然后在刪除原來的聚類中心.Step 5.對Step 4 反復迭代,直到找到K 個聚類中心,加入到最新的聚類中心集合當中.Step 6.組后利用得到的K 個聚類中心,輸出結果.
在本試驗中主要是利用改進后的K-means 算法對遼寧某地區(qū)流行病疫情爆發(fā)期負荷曲線進行聚類分析,利用改進后的K-means 算法將內部的電力數據主要分成了3 類.每個分類的曲線特征在形態(tài)上的特征都具有各自的特征,他們三者之間的峰值時也有著比較大的差異,第1 類的曲線特征和峰值明顯與第2 類特征和第3 類特征和峰值曲線不同.定義第1 類用戶為居民用戶,第2 類用戶為超商業(yè)用戶,第3 類用戶為工業(yè)用戶.
根據第1 類的用戶基本負荷曲線情況可以看出,曲線表現出近似于拋物線的態(tài)勢走向.這類用戶的用電高峰可以推斷出是在晚上的19 點-21 點左右開始,用電的低值大概是在凌晨2 點-6 點左右,用電最低值大概是在凌晨3 點左右,因為這個時間的居民用戶都在休息,能耗基本是低耗能的照明和不普及的大功率取暖設備.而在早上7 點開始出現用電高峰,整體趨勢呈現較明顯上揚趨勢,此時是使用高耗能較多的熱水器、電磁爐等設備的時刻.然后上午11 點開始到下午14 點左右,用戶的用電量開始趨于平緩,從下午17 點開始用電量開始增多,用電曲線呈現明顯的上揚趨勢,而在晚上21 點左右達到最高峰,此時居民用戶基本都在家庭中活動,熱水器、空調、電視、電腦等均在使用中.23 點開始用電量開始下滑,居民開始停止使用耗電設備,進入休息狀態(tài).
根據第2 類的用戶基本負荷曲線情況可以看出,用電曲線頁表現出一高一平一低的態(tài)勢走向.對于第1 種用戶來說,第2 類用戶的負荷量是比較高的.這類用戶的用電高峰可以推斷出是在早上8 點30 分左右開始,用電的低值大概是在晚上22 點到第二天早上8 點左右,其中用電最低值大概是在凌晨0 點到早晨7 點.而在早上8 點開始出現用電高峰,整體趨勢呈現明顯上揚趨勢,然后上午8 點開始到晚上22 點左右,用戶的用電量開始趨于平緩,期間都可以算作此用戶用電的最高峰,而且此時的峰值明顯超過第1 類的用戶.從曲線分析上可以看出第2 類用戶的峰值消耗電量明顯高于第1 類用戶,其用電負荷在高峰時比第1 類高,低峰時也比第1 類高的情況.第2 類用戶在此特征下具備比較大的用電行為調控.
根據第3 類的用戶基本負荷曲線情況可以看出,曲線上揚態(tài)勢走向,而且用電量也是非常高的,即使是在部分工業(yè)停工的條件下仍高于第1 類和第2 類用戶的用電負荷.曲線呈現出一高一低的態(tài)勢.這類用戶的用電高峰可以推斷出是在上午8 點到晚20 點左右,用電的低值大概是在晚20 點到第二天早8 點左右,整個時間段都為用電最低值.其中在中午11 點到下午13 點,會有短暫的負荷下降,那是由于這個時間是午休,設備及工廠處于待機狀態(tài).下午13 點以后開始出現用電高峰,整體趨勢呈現明顯上揚趨勢,整個峰值狀態(tài)可以持續(xù)到晚上20 點左右,用戶負荷高峰狀態(tài)平穩(wěn).晚上20 點以后,工人下班,廠區(qū)徹底處于待機狀態(tài),整個用戶設備和用電損耗都為最低.這種低谷狀態(tài)可以持續(xù)到第二天的工作開始時間.這種用電趨勢在工業(yè)用戶領域,尤其是在疫情防控期間,為了趕工期、多生產還是具有非常顯著特征的,如圖2.

圖2 內部數據聚類曲線圖
一般情況下正常的居民用電的高峰負荷向低峰轉移的能力非常小和手段也是非常少的.可以通過提高夜晚的負荷能力來平衡高峰始端的負荷.居民用戶可以通過口號宣傳節(jié)能用電等方式,讓其自主的響應降低峰值的手段和措施,可以通過縮短娛樂時間和縮短使用電器,包括電腦和電視等的時間,來降低高峰,讓全民都參與到節(jié)約用電,注重生活小處,例如隨手關燈、出門關燈等習慣.鼓勵居民參與調峰管理,提高居民的節(jié)約能源的意識.超商業(yè)用戶的用電峰谷明確,在疫情條件下有些許波動,都在負荷范圍之內.工業(yè)用戶在疫情中呈現明顯的縮減,部分用戶并沒有啟動高耗能設備,但其負荷趨勢仍然明顯,可以通過分時電價,并根據疫情期間生產品和生產能力給予電價優(yōu)惠政策來調節(jié)用電行為.電價政策調控表見表4.

表4 電價政策調控表
通過分析不同用戶體系的用電行為,不同的用戶體系,但這并不是電網體系下包含的全部用戶,只是單獨列舉幾類有代表的用戶.在用電行為分析的中,其實質是對電力數據的分析和處理過程,在分析和處理的過程中,主要包含:用電行為的分類、對用電行為分類進行分類診斷、根據用電日期,進行不同用戶的用電行為優(yōu)化和用電行為的相似度匹配技術.利用大數據技術對不同的用戶進行用電行為分析,構建不同的用戶體系的用電行為分析模型.并且對與電價的傾斜政策,給出了詳細的數據支撐,并給出了具體措施建議.