劉迪迪,程鵬鵬,王小華,李健昌,覃光鋒
(1.廣西師范大學電子與信息工程學院,廣西 桂林 541004;2.廣西科技師范學院,廣西 來賓 546199)
隨著分布式發電(特別是屋頂光伏)的蓬勃發展,擁有各種分布式能源的大量小規模終端用戶已經從傳統的被動消費者轉變為主動的產消者[1-2]。產消者指具有自身生產電能的消費者,即既提供電力,又接受電力的特殊用戶。在智能電網環境下,它們既可以出售過剩的電力給電網,也可以從電網購電供自己消費,進而實現與外部電網的雙向能量交易,以更有效地利用可再生能源[3-4]。但大規模可再生能源并入電網勢必給電力系統帶來波動,影響電力系統功率平衡[5-6]。為提高智能電網消納能力、實現電力供需平衡,需求側管理(DSM)成為電力系統規劃的重要組成部分[7-10],而基于實時電價的需求響應機制是最有效的需求側管理技術之一[11]。
另一方面,隨著智能電表、信息技術和網絡技術的發展及應用,供電商和產消者均可通過智能電表借助通信網絡(如5G網絡)獲取實時的電力市場經濟信息(如電力需求、實時電價等)[12],所有產消者均可參與到電力市場提供的平臺[13]。這樣,產消者則有能力管理他們的能源消費、生產和存儲,以參與電力市場和電力系統運營[14-15]。產消者基于時變電價、能量存儲等對電力使用進行控制和管理,可有效地減小產消者的電力成本或提高出售電力帶來的收益。
近年來已有很多工作對擁有可再生能源發電用戶的用電管理問題進行了研究。根據柔性負荷的靈活性,基于電價對負荷進行轉移(即改變用電模式)是用戶自身用電管理的手段之一。文獻[16]考慮分時電價對用戶的影響,用戶通過調度可轉移負荷,避開用電高峰期。文獻[17]提出日前電價下的電力調度策略,該策略將用戶的即時需求進行轉移,可將電網的高峰時段的負荷降至最低,從而減少系統總運行成本。文獻[18-19]中作者提出了在智能電網時變電價下具有彈性能量需求和即時能量需求的可再生能源用戶的動態電量管理方案,以最小化此類用戶的電費成本。但以上研究沒有考慮該類用戶出售電量給智能電網(即雙向交易)的問題。
文獻[20-22]考慮了產消者與智能電網之間的雙向電力交易問題,采用不同的方法設計產消者的能量管理和雙向電力交易方案,以最大化產消者的收益。文獻[20]提出一個混合整數線性規劃模型來預測電網中的電價和用戶需求,建立用戶與電網能量交易模型,以最大化消費者和電網的利益。文獻[21]運用模糊規劃理論,建立日前調度模型,最小化系統總運行成本。文獻[22]設計迭代自適應動態規劃方法實現對儲能設備的最優控制來實現電網端與用戶端的智能交互。這些已有的研究從方法上來講大多數工作基于日前電價、可再生能源發電以及負載需求可以被精準地預測未來的信息,或假設已知這些信息的概率分布,采用線性規劃或動態規劃的方法進行優化。然而,在實際中,這些系統參數受到各種因素的影響,它們的統計數據可能是非平穩的,有時候很難精確預測這些信息或獲取其先驗統計知識,此外,基于動態規劃的算法隨著系統參數的增加復雜度呈指數倍增加,因此已有的研究方案不適用于不確定性環境下電戶的電力管理。
目前有不少文獻采用無模型的深度強化學習方法研究產消者的能量調度方案[23-24],該方法雖然不需要系統參數的先驗統計知識以及能量動力學模型,但是所提的算法需要事先進行大量的學習訓練,一旦產消者行為習慣或所處環境發生變化(比如更換儲能設備),則需要重新學習。
此外,這些研究大部分工作主要針對配有儲能設備的產消者,但由于目前儲能材料昂貴,配備儲能設備需要不菲的購買成本和維護成本,實際中大部分家庭型產消者很少配備儲能設備。據研究家用電器的日常電力消耗占總電力消耗的百分之十以上,而家用電器智能化程度越來越高,比如熱水器、空調、烘干機、洗碗機等,其特點是它們的電力需求允許有一定的延遲,即只要在用戶可容忍的期限內滿足它們的電力需求,消費者就會滿意[25],這樣的負載稱為柔性負載。因此有必要開發一種適用于無儲能設備、電力需求靈活的家庭型產消者的電力管理方案。
本文主要考慮無儲能設備的家庭型產消者,充分考慮智能電網中電價的時變性、可再生能源發電出力的不確定性以及家庭柔性負載電力需求的靈活性,基于Lyapunov優化理論研究此類產消者的動態電力使用控制方案以及與電網電力進行雙向交易的管理方案,在滿足電力需求在時延容忍期限內,最大化出售電力所獲的收益。
本文所提模型不僅適用于無儲能設備的家庭型產消者,而且適用于具有生產和消費電能“雙重功能”的其他終端用戶,當負載為非柔性負載時,該模型同樣適用,只需要將此時負載所允許的時延設置為0即可。
無儲能設備的家庭型產消者的電力管理模型如圖1所示。產消者安裝了可再生能源裝置(如光伏電板),可從周邊環境中收集可再生能源轉化為電力供自身使用??稍偕茉窗l電出力因受環境、天氣等因素的影響而隨時間變化,由于產消者沒有儲能設備,所以通過智能電表與外部電網相連,從而獲取外部電網的實時電價信息,以便處理(賣或買)剩余的電量或不足的部分電量。外部電網的電價是時變的,產消者的電力管理系統則可根據實時電價和自身電力需求的時延容忍,控制電力的使用和對電力買賣進行管理,在滿足彈性電力需求的同時,最小化購電的成本或最大化賣電的效益。

圖1 家庭型產消者的電力管理模型Fig.1 Power management modelfor household prosumer without energy storage device
將該系統在時間上離散化,每個時間間隔固定為Δt,可為1 h,10 min或1 min等。假設t時隙產消者產出的免費電量為h(t),這里t∈{1,2,…,T}。外部電網在t時隙實時電價為P()t。產消者在t時隙決策的服務電量用d()t表示,決策從外部電網購買的電量用b(t)表示,賣給外部電網的電量用s(t)表示。
由模型可知,用戶任意時隙電力供需的關系滿足:

產消者的電力管理系統中每個時隙各變量受到硬件電路和線路容量的限制,即為常數。此外,由于產消者買電和賣電不能同時進行,因此有
對于家庭型產消者來講,其負載一般分為3種類型[17]:1)不可轉移的負載(如電視、電腦等);2)可轉移但不中斷負載(比如洗碗機、洗衣機、電車充電等);3)功率可控負載(如采暖、通風、空調系統等)。本模型考慮電力需求靈活的用戶,其負載為第二類型可轉移的負載。可轉移負載其運行功率是固定的,但用電時間可調節,因此該類負荷可以從電價高峰時段轉移至低峰時段被滿足。但可轉移負載有一定的時延容忍,需要在用戶可容忍的期限內滿足電力需求。
對于彈性電力需求,我們建立一個電力需求隊列,產消者t時隙的電量需求表示為a()t,進入電力需求隊列以先進先出的方式等待被服務,但電力需求隊列中a()t的等待時間不能超過可容忍的最大時延Tmax,需要注意的是,為簡化起見,這里a(t)為各彈性需求電器t時隙的總需求,Tmax為各負載允許的最大時延的最小值。電力需求隊列t時隙的服務電量為d(t),用Q(t)表示電力需求隊列的積壓,每一時隙對Q(t)的更新如式(2):

產消者的電力管理系統通過智能電表能實現與外部電網之間的雙向電力傳輸,決策交易量s()t和b(t)大小。當產消者從電網購買電力,購買的價格為P(t),Pmin≤P(t)≤Pmax。當產消者出售電量給外部電網,出售價格應嚴格低于購買價格,出售的價格為βP(t),這里β為(0,1)區間的常數,0<β<1的原因是避免惡性的套利行為[26-27];此外外部電網從產消者汲取電量進行傳輸管理,必然存在電量損耗,比如AC/DC轉化帶來的電量損耗以及傳輸線路帶來的電量損耗等。因此當產消者從外部電網購買電力,則花費的成本為P(t)b(t);與之相反,當產消者賣給電網電量,則獲得的收益為βP(t)s(t)。
產消者每時隙產出的電量h(t)和需求的電量a(t)均為隨機過程,同時智能電網中的電價P(t)是時變的,產消者的能量管理器基于當前時隙的系統狀態(P(t),Q(t),h(t),a(t)),需要決策服務電量d(t),并判斷從外部電網購買電量還是出售電量給外部電網,即決策s(t)和b(t)及其值的大小。本文的優化目標是尋找每個時隙的決策向量(d(t),s(t),b(t)),在滿足產消者的電力需求容忍時延內,最大化產消者電量交易的長期平均效益,該問題規劃如下:


其中式(3)為優化目標,將產消者t時隙的收益減去成本,E{·}為期望。約束(4)用于保證電力需求隊列穩定,即電力需求等待服務的時延為有限值;約束(5)進一步保證電力服務的時延不超過用戶的最大時延容忍Tmax;約束(6)、(7)限制產消者的電力供需平衡和決策變量的最大值;約束(8)表示產消者與外部電網在同一個時隙內買電、賣電不能同時進行。此外為保證以上問題可行,假設Emax>amax,其中amax為所有時隙中產消者的最大電力需求量。
為保證產消者等待電力服務的最大時延不超過可容忍的范圍,本文構建虛擬隊列Z(t)來保證以上約束(5)成立。定義Z(0)=0,η>0,虛擬隊列根據以下的公式進行更新:

式中:1{Q(t)>0}為一個指示函數,當Q(t)>0時為1,否則為0。參數η為虛隊列懲罰因子,意味著對虛擬隊列積壓的懲罰,用于調節虛擬隊列Z(t)的增長速度,η看上去像虛擬隊列的到達過程,在實隊列Q(t)積壓非空的情況下每個時隙到達η,而虛隊列的服務速率則跟實隊列相同(都為d(t)),這確保了如果Q(t)隊列中有長時間未得到服務的請求,Z(t)會增長。產消者控制電力管理系統使隊列Q(t)和Z(t)均穩定,即有限的上界,那么就可以確保所有電力需求都在時延容忍期限內被服務,其最大時延不超過Tmax個時隙,即滿足以上問題中的約束(5)。以下引理給出Tmax的值。
引理1:假設產消者對電力的使用進行管理,使所有時隙t,有Q(t)≤Qmax,Z(t)≤Zmax,Qmax和Zmax為正常數,那么電力需求隊列等待服務的時間,最大不超過Tmax個時隙。這里Tmax為:

具體證明可參考Lyapunov優化理論[28]。
調整參數η可改變電力需求隊列的最大等待時延Tmax,使其滿足產消者的時延容忍要求。現在原問題(3)—(8)中約束(5)則轉變為:

電力管理系統控制實隊列Q(t)和虛隊列Z(t)均穩定,來保證電力需求隊列的最大等待時延Tmax不超過產消者的容忍期限。
一般情況下,若想要電力需求隊列等待時延小,則η的值應當盡可能地大,但要滿足η≤E{a(t)},如果E{a(t)}給出,則可使η=E{a(t)}。其原因是實隊列和虛隊列有相同的服務速率都為d(t),要保證各隊列均穩定,根據隊列穩定的條 件 則 有:E{d(t)}≥max(E{a(t)},η)。若η>E{a(t)},則E{d(t)}≥E{a(t)},對于實隊列來說,隊列的平均服務速率則大于電力需求到達的平均速率,這樣實隊列很快為空隊列,則虛隊列中的指示函數1{Q(t)>0}為0,虛隊列的積壓則也不再增長,此時等待服務的時延降到最低,因此η>E{a(t)}將起不到相應的作用。
為求解以上問題,本文利用Lyapunov優化方法在滿足電力需求實隊列和虛隊列穩定,且保證電力請求的等待不超過產消者可容忍的時延的條件下,開發一種動態電力服務和電力貿易算法,使產消者與電網交易的長期平均效益最大。首先定義即實隊列和虛隊列的聯合矢量。為了標量化隊列積壓,定義李雅普諾夫函數:則一個時隙的李雅普諾夫漂移如下:

根據Lyapunov理論,最小化每個時隙的Lyapunov漂移,則能保證隊列Q(t)和Z(t)穩定,即隊列的上界有限,從而滿足約束(5)。我們的目標是在滿足約束的基礎上最大化目標函數(3),根據Lyapunov漂移加懲罰優化方法,最大化目標函數(3)等價于最小化每個時隙的Lyapunov“漂移加懲罰”函數,因此問題的求解可轉化為:

式中V為正數,會影響性能延遲折中。采取行動使最小化,就會將兩個隊列推向較低的積壓,但會產生較大的懲罰,因此我們的目標是最小化“漂移加懲罰”的加權和,經求解式(13)有界,滿足式(14)所示不等式:

這里B為常數,具體式(15)所示:

將待求解的問題轉化為最小化每個時隙的“漂移加懲罰”表達式(13),該表達式有界(式(14)),從而等效于最小化每個時隙的不等式(14)右邊的各項,將d(t)=h(t)+b(t)-s(t)帶入,除去決策變量(s(t),b(t))的無關項,整理得:

每一個時隙觀察(P(t),Q(t),Z(t),h(t)),根據決策變量的約束(6)—(8)即可得到實時電力管理算法。
利用Lyapunov優化方法,最大化產消者的平均收益最終轉化為最小化式(16),令Q(t)+Z(t)-VβP(t)=α,Q(t)+Z(t)-V P(t)=γ。因為0<β<1,因此總有α>γ。在約束條件(6)—(8)的約束下,最小化式(16),得到產消者在t時隙的決策如下。
1)若γ≥0時,最小化式(16),此時的決策為:

從物理意義上解釋:γ≥0,即Q(t)+Z(t)-V P(t)≥0,此時表明電力需求隊列積壓較大,或者外部電網的電價較低,此時產消者盡可能地買電以滿足積壓的電力需求;
2)若α≤0,最小化式(16),此時的決策為:

從物理意義上解釋:α≤0,即Q(t)+Z(t)-VβP(t)≤0,此時表明電力需求隊列積壓較小,或者外部電網的電價較高,此時產消者盡可能地賣電以獲得更多利益;
3)若α>0>γ,最小化式(16),此時的決策為:

從物理意義上解釋:α>0>γ,此時表明電力需求隊列的積壓適中,或者外部電網的電價適中,此時產消者不必要與外部電網發生交易,僅使用自身產出的電量;
可見,電力管理系統的決策取決于當前系統的狀態,即與表示電力需求積壓情況和電價的α和γ有關。確定產消者與智能電網之間的交易電量(即b(t)和s(t))后,則可得到產消者從外部電網購電花費的成本為P(t)b(t),出售電量給外部電網產生收益為βP(t)s(t)。
產消者與外部電網交易長期(t=1→T)平均效益最優的電力管理算法具體如表1所示。每個時隙只需要觀測系統當前狀態(電力需求的積壓情況Q(t)和Z(t),可再生能源發電出力h(t),以及電網的電價P(t)),即可以做出最優決策??梢娝崴惴ǖ膹碗s度低,僅隨T呈線性增加,且不需要電力需求、電價變化和可再生能源發電的先驗知識,可在線執行,易于實現。

表1 電力使用和交易動態算法Tab.1 Dynamic algrithm for power usage and trading
假設產消者的電力需求a(t)∈Λ,t=1,2,???,Λ落在問題的可行域。如果固定參數η,0≤η≤amax,且參數V>0,則提出的算法性能如下:
1)在所有的時隙中,隊列Q(t)和Z(t)的上確界分別為:

2)電力需求隊列等待服務的最大時延Tmax為:

3)若給定η,且η≤E{a(t)},基于所提的算法,產消者收益期望值的平均值跟最優值Copt的差值不超過即:

式中B為常數,在式(15)中已給出。其證明可參考Lyapunov優化理論[28]。
從所提算法的性能2)可看出,電力需求隊列中的電力需求等待時延(即隊列積壓)隨參數V取值增大而增大;而從性能3)可知,產消者的收益即目標函數,隨參數V的增大而減小。因此V是一個調節參數,通過調節參數V可優化目標無限接近最優值,但是電力需求的等待時延將會增加,因此參數V的取值根據產消者的可容忍時延進行折中設置。
為驗證所提算法的有效性,在MATLAB平臺上進行仿真驗證??紤]屋頂裝有光伏電板的某一普通家庭型產消者的售電收益情況,這里時隙間隔固定為1 min(算法的步長),研究時長為一個月(30 d,共43 200時隙),具體參數設置見表2。根據市場調研,電網電價波動范圍為0.5~2.0元;家庭型產消者安裝的光伏電板平均電力產出為35 kJ/時隙,產消者的平均電力需求為30 kJ/時隙。家庭型產消者的電力需求和電力產出過程分布的設置僅方便仿真演示,理論分析表明所提算法不受隨機過程概率分布的影響。

表2 參數設置Tab.2 Parameters setting
首先,將提出的算法與兩種已有算法和3種貪婪算法進行對比,幾種算法下產消者在43 200時隙(即30 d)內的累積收益對比如圖2所示。

圖2 不同算法下產消者的累積收益對比Fig.2 Comparison of cumulative revenue under different algorithms
其中,文獻[24]中提出了一種強化學習的算法;文獻[19]中所提算法沒有考慮產消者與智能電網的雙向電力交易(即只買不賣);其余3種算法均為貪婪算法,其中“最后期限滿足”是指產消者的彈性能量需求在可容忍的最后期限才被滿足,否則將收集的電量盡可能出售掉,這里最后期限設為20個時隙;“即時滿足、雙向交易”是指不管產消者的電力需求容忍有多大,只要有電力需求,就立即滿足,且產消者與智能電網之間的交易是雙向的;“即時滿足、單向交易”是指立即滿足產消者的電力需求,但與智能電網之間的交易是單向的。此時選取V=400,從圖2可看出,提出的算法明顯優于已有的兩種算法和三種貪婪算法,具體地,相比文獻[24]中的強化學習算法,產消者的收益平均每月增加了12%?;谖墨I[19]中的算法,產消者的收益或成本均為0元,原因是:產消者的平均電力產出大于其平均需求,在某個時刻若電力需求大于電力產出,產消者通過轉移負荷,使購電成本最小。
算法的時間對比:在同一臺(配置相同)個人PC機上運行本文所提的算法和文獻[24]中所提的強化學習算法(Pycharm平臺),本文所提算法的運行時間僅為20 s,而強化學習算法則需要10 h左右。其原因是本文所提算法不需要歷史數據的訓練,而且當系統環境發生改變時,該算法同樣適用,不受隨機過程概率分布的影響,不需要重新學習。
圖3給出了不同算法下產消者的彈性電力需求對應的時延分布,這里將圖2中產消者收益最高的3種算法相對比(參數與圖2相同),可見基于所提算法產消者電力需求的等待時延大多數為8~10個時隙,而基于文獻[24]強化學習算法,時延大多數為10~12個時隙,“最后期限滿足”算法對應的時延則大多數為18~20個時隙。

圖3 不同算法對應的服務時延分布Fig.3 Delay distribution corresponding to different algorithms
因此綜合圖2和圖3,所提算法不僅提高了產消者的收益,電力需求的等待時延相對較低。所提算法之所以優于其他幾種算法,原因是:所提算法綜合考慮時變的電價信息和用戶的容忍,在電價高的時隙,產消者盡可能地出售電量,而盡可能不購買電量(除非必要);相反,在電價低的時隙,則產消者盡可能地滿足電力需求。而“最后期限滿足”算法不考慮電網電價的高低,總是把電力需求積壓壓至最后期限才考慮購電。
為評估可再生能源電力產出對所提算法的影響,保持平均電力需求dav不變,圖4給出了3種電力產出情況下用戶30天末的收益直方圖,此時電力產出均值hav分別為40 kJ、30 kJ、25 kJ的3種情況。從圖4中可以看出:1)在發電出力均值不同的情況下,所提算法均優于已有的算法和3種貪婪算法;2)電量出力平均值越小,無論哪種算法產消者可用的免費電量均會減少,則收益均會減少;3)當電量出力均值小于產消者電量需求均值(30 kJ),則產消者需要從智能電網購買額外電量以滿足需求,則收益為負(即電力成本),可見所提的算法電力成本低于其他算法的成本,如圖4中的情況3所示。

圖4 不同電力收集均值下的收益Fig.4 Revenue comparison under different average energy harvesting
本文設置的調節參數V,用于折中產消者的收益和電力需求的等待時延,在表2參數設置下,不同V值對算法性能的影響如圖5所示,從圖5(a)可以看出,產消者的累積收益(30天末)隨參數V值的增大而增大,而圖5(b)可以看出產消者等待電力服務的時延分布情況,即隨著V值的增大,產消者電力需求的平均等待時延越大,這驗證了算法性能分析中式(19)和(20)這一結論。從圖5(b)可以看出當V=100時,電力需求一般等待2~3個時隙,當V=300時,可以看出平均時延為6~7個時隙,而當V=500時,平均時延為12~13個時隙。

圖5 參數V不同的取值下的收益和時延分布Fig.5 Revenue and delay distribution under different values of the parameter V
圖6給出了產消者的收益和平均等待時延隨著參數V變化情況,從圖6可以看出當V的值大于500后,產消者的收益和平均等待時延增加緩慢,逐漸趨于飽和(漸近最優),在實際中,產消者可根據自身的實際需求選擇適當的參數。

圖6 參數V對算法性能的影響Fig.6 The influence of parameters V on algorithm performance
圖7給出了虛擬隊列Z(t)的懲罰因子對電力需求隊列等待時延的影響。由前面的理論分析可知懲罰因子η用于調節虛擬隊列的增長速度,從引理1可知調節參數η可改變電力需求隊列的等待服務的最大時延。一般情況下,若想要電力需求隊列等待時延小,則η的值應盡可能地大,從前面的理論可知η≤E{a(t)},圖6給出了該參數在不同取值下(即對電力需求隊列等待時延的影響,從圖7可以看出,等待時延隨η值的增大而減小,當η>E{a(t)}時,等待時延不再隨η值的增大而減小,時延降到最小,這一結果跟前面的理論分析相一致。

圖7 虛隊列懲罰因子對時延的影響Fig.7 Effect of penalty factor of virtualqueue on delay
本文主要研究家庭型產消者的電力使用控制和電力交易方案,目的是最大化無儲能設備的產消者出售電力所獲的收益?;谥悄茈娋W中實時電價、可再生能源發電出力的不確定性以及家庭柔性負載的彈性電力需求,利用Lyapunov優化理論提出了一種復雜度低的動態電力管理算法,該算法復雜度低,不需要隨機過程的先驗知識,理論分析證明該算法可使產消者的長期平均效益無限接近到最優值,通過調節參數可保證服務時延滿足用戶的要求(在容忍范圍內),并通過仿真驗證了該算法的有效性,仿真結果表明所提算法可使普通家庭產消者明顯提高收益,并分析了不同參數對所提算法性能的影響,為無儲能設備的產消者如何選取合理的參數提供參考依據。此外儲能設備將為產消者帶來更多的利潤,但此類產消者的電力管理還需要考慮儲能設備的折舊成本這一復雜過程,這將是我們下一步的研究工作。