李 健,戴幸澤
(東北電力大學(xué) 自動化工程學(xué)院,吉林 132012)
基于多智能體強化學(xué)習(xí)算法的微電網(wǎng)優(yōu)化研究
李 健,戴幸澤
(東北電力大學(xué) 自動化工程學(xué)院,吉林 132012)
新型分布式可再生能源的發(fā)電技術(shù)具有綠色、經(jīng)濟、靈活等特點,微電網(wǎng)為其系統(tǒng)化應(yīng)用提供了可靠的技術(shù)支撐。為了實現(xiàn)微電網(wǎng)對經(jīng)濟環(huán)保性的更高要求,就要整合不同類型的微型電源的優(yōu)勢。因此,微網(wǎng)中微型電源的優(yōu)化調(diào)度、綜合經(jīng)濟效益是亟需解決的重要問題。多智能體系統(tǒng)在微電網(wǎng)中的應(yīng)用同樣具有重大的意義。微網(wǎng)中每一個微型電源均可以看成是一個智能體。基于此首先提出一種基于層次分析法與模糊綜合評價聯(lián)合方法的微型電源綜合性能指標(biāo)評價方法,用來評價分析微型電源的綜合性能;并采用多智能體強化學(xué)習(xí)算法實現(xiàn)了微型電源的優(yōu)化調(diào)度問題,即在滿足微網(wǎng)供需平衡的條件下,使各微型電源的綜合性能達到最優(yōu)。
微電網(wǎng);微型電源優(yōu)化調(diào)度;微型電源綜合性能指標(biāo);強化學(xué)習(xí)算法
相比傳統(tǒng)的火力集中式發(fā)電系統(tǒng),新型可再生分布式能源發(fā)電技術(shù)具有能源利用率高、環(huán)境污染少和安裝較為靈活等優(yōu)勢,同時有效的節(jié)省了運行費用,有非常可觀的經(jīng)濟性。微電網(wǎng)是由各種微型電源、負(fù)荷、儲能裝置以及控制設(shè)備協(xié)調(diào)運行的有機系統(tǒng),微電網(wǎng)為分布式新能源及可再生能源的規(guī)模化應(yīng)用提供了有效的技術(shù)途徑[1]。隨著微電網(wǎng)技術(shù)的日益發(fā)展,其優(yōu)化運行問題成為關(guān)注的焦點。微電網(wǎng)的優(yōu)化運行旨在通過調(diào)度微網(wǎng)中的分布式微型電源,在滿足供需平衡的前提下,減少污染物排放,優(yōu)化運行費用,降低發(fā)電成本。文獻[2]從利潤角度出發(fā),以電力公司的利潤最大化作為優(yōu)化目標(biāo);文獻[3~5]從多目標(biāo)角度出發(fā),即考慮了運行成本又考慮了污染物排放治理成本,以兩者之和的最小值作為優(yōu)化目標(biāo);文獻[6]提出了成本最小的機組組合模型,綜合考慮了環(huán)境因素、能源效率和售電價格等因素對微網(wǎng)經(jīng)濟效益的影響。
智能體是一種能夠在環(huán)境中自主的感知信息,通過決策推理生成相應(yīng)的規(guī)劃,最后作用于環(huán)境的計算實體或者功能單元[7]。微電網(wǎng)中的各種分布式微型電源均可看成是一個獨立的智能體結(jié)構(gòu),從而可以構(gòu)成一個多智能體的能量管理系統(tǒng)。因此利用多智能體的學(xué)習(xí)與協(xié)調(diào)合作能力,引入多智能體強化學(xué)習(xí)算法,可對微網(wǎng)中各微型電源的能量管理進行研究并應(yīng)用。
本文設(shè)計了微電網(wǎng)的四層智能體結(jié)構(gòu),分為基層、服務(wù)層、保護層和管理層。簡述了各層智能體的定義,重點研究基層中微電源Agent的優(yōu)化調(diào)度問題。考慮微型電源的綜合效益,提出一種基于層次分析法與模糊綜合評價聯(lián)合方法的微型電源綜合性能指標(biāo)評價方法。針對微型電源的各項性能指標(biāo),首先采用AHP方法確定其權(quán)重,然后通過FCE方法建立綜合評價矩陣,進行模糊綜合評價,根據(jù)模糊數(shù)學(xué)的最大隸屬度原則,評價分析微型電源的綜合性能。此外,本文將Q學(xué)習(xí)算法引入到多智能體的學(xué)習(xí)機構(gòu)中,根據(jù)所提出的AHP與FCE聯(lián)合方法,共同解決微電網(wǎng)中微型電源的優(yōu)化調(diào)度問題,在滿足供需平衡的基礎(chǔ)上,獲得最優(yōu)性能的各微型電源組合。
微電網(wǎng)是一個分布式系統(tǒng),各種不同的微電源的特性決定了其控制方式不能用統(tǒng)一的策略來進行控制。因此,將多智能體系統(tǒng)引入其中非常必要。利用系統(tǒng)的模塊化思想將整個微電網(wǎng)系統(tǒng)劃分成多個子系統(tǒng),即劃分成多層智能體結(jié)構(gòu)。智能體由感知模塊、信息處理模塊、通訊模塊、執(zhí)行模塊、任務(wù)表和知識庫組成。感知模塊的功能是感知環(huán)境信息;信息處理模塊的功能是分析環(huán)境信息;通訊模塊負(fù)責(zé)和外界進行交互;執(zhí)行模塊對外界環(huán)境產(chǎn)生一個反饋信息并執(zhí)行某個動作;知識庫用來存儲知識;任務(wù)表用來記錄任務(wù)量。這種結(jié)構(gòu)使得微網(wǎng)中每一個智能體都能采用最有效的方法解決特定的問題,不必強迫使用某一種統(tǒng)一的方法而讓步于整個系統(tǒng),從而達到分布式控制的目的。
本文設(shè)計了微電網(wǎng)的四層智能體結(jié)構(gòu),如圖1所示。

圖1 微電網(wǎng)的四層智能體結(jié)構(gòu)
所設(shè)計的多智能體結(jié)構(gòu)分為基層、服務(wù)層、保護層和管理層。基層智能體包括直接的分布式電源的控制、儲能元件的控制和可中斷負(fù)荷的控制。在基層智能體中,每一個智能體都分別控制著一個單元,例如光伏發(fā)電組,小型風(fēng)機組,可中斷負(fù)荷等。每一個智能體都能具備這樣的功能:1)電力元件的啟停控制;2)各個電源的信息存儲;3)與其他智能體的交互能力。服務(wù)層智能體的主要功能是為基層智能體提供必要的環(huán)境信息。包括微型電源運行所處的環(huán)境信息,比如實時風(fēng)速、光照強度和任務(wù)的需求信息等。保護層智能體的功能是保證整個微電網(wǎng)的安全運行,它主要是由一些電力電子器件構(gòu)成,實時監(jiān)控、協(xié)調(diào)并能夠控制微電網(wǎng)的斷路器開關(guān)。管理層智能體處在控制的最高層地位。它可以控制實現(xiàn)微電網(wǎng)與主網(wǎng)的連接或斷開,從而實現(xiàn)微電網(wǎng)并網(wǎng)運行和孤島運行兩種運行模式。
本文針對基層智能體中微型電源的優(yōu)化組合問題展開研究。在滿足供需平衡的條件下,使經(jīng)濟性、環(huán)保性及其技術(shù)性達到最優(yōu),同時擁有較低的平均電價,充分發(fā)揮微型電源的優(yōu)勢。
微電網(wǎng)系統(tǒng)存在多種微型電源,相比傳統(tǒng)的火力發(fā)電各自具有不同的優(yōu)勢,為了整合不同種類微型電源的優(yōu)勢,本文提出一種微型電源綜合性能指標(biāo)評價方法,從經(jīng)濟效益,環(huán)境效益,技術(shù)效益三個方面進行評價,從而得出最終的評價結(jié)果。
首先,根據(jù)層次分析(AHP)法建立層次結(jié)構(gòu)模型,AHP方法是一種定性分析與定量分析相結(jié)合的多目標(biāo)決策分析方法[8]。微型電源綜合性能指標(biāo)評價可分為兩層,即為一級指標(biāo)和二級指標(biāo),具體層次結(jié)構(gòu)如表1所示。
其次,采用AHP方法進行權(quán)重計算。因此先要確立各指標(biāo)判斷矩陣,依據(jù)所劃分結(jié)構(gòu)層次,共有四個判斷矩陣:一級指標(biāo)判斷矩陣,即總評價判斷矩陣J,三個二級指標(biāo)判斷矩陣,即經(jīng)濟指標(biāo)判斷矩陣JA,環(huán)境指標(biāo)判斷矩陣JB和技術(shù)指標(biāo)判斷矩陣JC。在各判斷矩陣中,矩陣元素Jij表示第i個指標(biāo)相比于第j個指標(biāo)的重要程度。

表1 微型電源綜合性能指標(biāo)評價體系
一級判斷矩陣表征各一級指標(biāo)的重要程度,可記為:

經(jīng)過一致性檢驗,求得矩陣最大特征值對應(yīng)的特征向量,即為一級指標(biāo)的權(quán)重向量W。
經(jīng)濟指標(biāo)判斷矩陣JA表征A1,A2,A3的重要程度,可記為:

經(jīng)過一致性檢驗,求得矩陣最大特征值對應(yīng)的特征向量,即為經(jīng)濟指標(biāo)的權(quán)重向量ω1。
環(huán)境指標(biāo)判斷矩陣JB表征B1,B2,B3的重要程度,可記為:

經(jīng)過一致性檢驗,求得矩陣最大特征值對應(yīng)的特征向量,即為環(huán)境指標(biāo)的權(quán)重向量ω2。
技術(shù)指標(biāo)判斷矩陣JC表征C1,C2的重要程度,可記為:

經(jīng)過一致性檢驗,求得矩陣最大特征值對應(yīng)的特征向量,即為技術(shù)指標(biāo)的權(quán)重向量ω3。


表2 RI取值表
最終,根據(jù)AHP方法得到了各指標(biāo)的權(quán)重向量。
再次,根據(jù)模糊綜合評價(FCE)方法確定微型電源綜合性能指標(biāo)。模糊綜合評價表由相應(yīng)指標(biāo)的隸屬度函數(shù)得出,模糊評判矩陣R如表3所示。

表3 模糊綜合評判矩陣

減少NOx收益 E21 E22 E23減少CO2收益 E31 E32 E33減少CO收益 E41 E42 E43減少灰收益 E51 E52 E53技術(shù)指標(biāo)T 供電可靠性 T11 T12 T13電能質(zhì)量 T21 T22 T23環(huán)境指標(biāo)E
根據(jù)文獻[9]提供的部分?jǐn)?shù)據(jù),微型電源的平均運行成本曲線如圖2所示,制定其隸屬度函數(shù)如圖3所示。

圖2 微型電源平均運行成本曲線

圖3 運行成本評價隸屬度函數(shù)
微型電源的平均維護成本曲線如圖4所示,制定其隸屬度函數(shù)如圖5所示。

圖4 微型電源的平均維護成本曲線

圖5 平均維護成本評價隸屬度函數(shù)
風(fēng)機與光伏的平均節(jié)能收益曲線如圖6所示,其對應(yīng)的隸屬度函數(shù)如圖7所示。

圖6 WT與PV平均節(jié)能收益曲線

圖7 WT與PV平均節(jié)能收益評價隸屬度函數(shù)
微型燃?xì)廨啓C的平均節(jié)能收益曲線如圖8所示,其對應(yīng)的隸屬度函數(shù)如圖9所示。

圖8 MT平均節(jié)能收益曲線

圖9 MT平均節(jié)能收益評價隸屬度函數(shù)
分布式發(fā)電與傳統(tǒng)火電廢氣排放情況如表4所示,我們可以分別得到各分布式電源的污染物平均治理收益曲線。PV與WT的平均治理收益如圖10所示,其對應(yīng)的評價隸屬度函數(shù)如圖11所示。

表4 分布式發(fā)電與火電污染物排放情況(g/kwh)

圖10 WT與PV的污染物平均治理收益曲線

圖11 WT與PV污染物收益評價隸屬度函數(shù)
由表4可以看出微型燃?xì)廨啓C發(fā)電所排放的氮化物與一氧化碳相比傳統(tǒng)的火力發(fā)電要更多。其污染物平均治理收益曲線如圖12所示。

圖12 MT污染物平均治理收益曲線
對應(yīng)的,其廢氣污染物平均收益評價隸屬度函數(shù)如圖13所示。

圖13 MT污染物均收益評價隸屬度函數(shù)
微型電源對微網(wǎng)供電可靠性的影響因素主要體現(xiàn)在其切換到孤島運行失敗的概率Pm及其重啟所需時間Ti。微電網(wǎng)的供電可靠性可以用式(1)表達:

式中V為供電可靠性指標(biāo),RIEAR為供電中斷損失率,κ為停電頻率,T為供電切斷時間。
當(dāng)Pm與Ti乘積即影響因子δ較小時,微網(wǎng)有較好的供電可靠性。而Pm與Ti隨著微源額定輸出功率的增加,分別呈現(xiàn)下降和上升的趨勢。在0~50kW這個區(qū)間內(nèi),δ約在19kW時取得最小值,此時對應(yīng)的對微網(wǎng)的供電可靠性影響最好。影響因子曲線如圖14所示,對應(yīng)的,其供電可靠性評價隸屬度函數(shù)如圖15所示。

圖14 影響因子曲線

圖15 供電可靠性評價隸屬度函數(shù)
微型電源容量的不同,對微電網(wǎng)孤網(wǎng)電壓水平具有不同的影響,從而影響其電能質(zhì)量。在由光伏、風(fēng)機和微型燃?xì)廨啓C這三種微型電源組成的微電網(wǎng)中,微型燃?xì)廨啓C存在最優(yōu)容量[10]。隨著其容量的增加,其電壓水平呈現(xiàn)先上升后下降的趨勢。而風(fēng)機與光伏隨著容量的增加,其母線電壓下降百分比呈現(xiàn)下降的趨勢,其孤網(wǎng)電壓水平得到提高,電能質(zhì)量增加。風(fēng)機與光伏的電能質(zhì)量評價隸屬度函數(shù)如圖16所示,微型燃?xì)廨啓C的電能質(zhì)量評價隸屬度函數(shù)如圖17所示。

圖16 WT與PV電能質(zhì)量評價隸屬度函數(shù)

圖17 MT電能質(zhì)量評價隸屬度函數(shù)
微型電源平均運行成本、微型電源平均維護成本、微型電源平均節(jié)能收益三個二級指標(biāo)評價值可根據(jù)式(2)得出:

式中B1為經(jīng)濟指標(biāo)單因素評價值,ω1為該指標(biāo)的權(quán)重向量,M為經(jīng)濟指標(biāo)模糊評判矩陣。
微型電源減少的SO2,NOx、CO2、CO以及灰的治理成本收益五個二級指標(biāo)評價值可根據(jù)式(3)得出:

式中B2為環(huán)境指標(biāo)單因素評價值,ω2為該指標(biāo)的權(quán)重向量,E為環(huán)境指標(biāo)模糊評判矩陣。
微型電源對微網(wǎng)的供電可靠性及電能質(zhì)量兩個二級指標(biāo)評價值可根據(jù)式(4)得出:

式中B3為技術(shù)指標(biāo)單因素評價值,ω3為該指標(biāo)的權(quán)重向量,T為技術(shù)指標(biāo)模糊評判矩陣。
這里,模糊合成算子均取為普通矩陣乘機算子。由此得出該微型電源綜合性能指標(biāo)如式(5)所示。

最后,根據(jù)最大隸屬度原則,可以得出該微型電源綜合性能指標(biāo)及其隸屬度μ。
綜上所述,本文首先運用AHP方法確定各項指標(biāo)的權(quán)重,其次將FCE方法運用到微型電源的綜合性能指標(biāo)評價,最后基于最大隸屬度原則得出最終的綜合評價結(jié)果。綜合評價結(jié)果是對該微型電源的經(jīng)濟性,環(huán)保性和其技術(shù)性的綜合評價。
3.1強化學(xué)習(xí)算法在調(diào)度管理中的應(yīng)用
強化學(xué)習(xí)又稱為再勵學(xué)習(xí)[11]。其核心問題在于:具有感知信息的自治Agent,如何根據(jù)其學(xué)習(xí)過程選擇最優(yōu)動作,使之達到其最終目的。采用強化學(xué)習(xí)算法求解大規(guī)模的優(yōu)化和調(diào)度問題具有廣闊的應(yīng)用前景。本文采用強化學(xué)習(xí)算法在考慮了各微型電源的綜合效益,使其綜合收益最大化,實現(xiàn)了微電網(wǎng)中微型電源的優(yōu)化組合。
3.2強化學(xué)習(xí)的基本原理
強化學(xué)習(xí)過程由學(xué)習(xí)情節(jié)和學(xué)習(xí)步驟構(gòu)成,其中情節(jié)是指從初始狀態(tài)到最終狀態(tài)的步驟序列,步驟是指一個確定的狀態(tài)以及該狀態(tài)下的動作執(zhí)行和報酬獲得。根據(jù)當(dāng)前環(huán)境給予的反饋信號,自主執(zhí)行某一動作,通過不斷的試錯學(xué)習(xí)達到自我完善的目的,考慮未來時刻的收益,從而去構(gòu)造控制函數(shù),使得所求長期函數(shù)值最大,可以廣泛應(yīng)用在自動控制及Multi-Agent系統(tǒng)中。
強化學(xué)習(xí)問題可用MDP建模。其可定義為一個四元組<S,A,R,T>。其中,S為系統(tǒng)所有可能的狀態(tài)所組成的非空集,也稱為系統(tǒng)的狀態(tài)空間,它可以是有限的、可列的或任意非空集;A為動作集合;R為即時獎賞函數(shù),它的意義在于對執(zhí)行動作的優(yōu)劣作一種評價,R通常是一個標(biāo)量;T為狀態(tài)轉(zhuǎn)移概率。其值函數(shù)通常定義為未來即時獎賞值通過折扣系數(shù)γ作用后的總和,如式(6)和(7)所示,通常0<γ<1。通過調(diào)節(jié)γ,可以控制學(xué)習(xí)系統(tǒng)對它自己行動的短期和長期結(jié)果考慮的程度。在極端情況,當(dāng)γ=0時系統(tǒng)是短視的,它只考慮行動的當(dāng)前結(jié)果。當(dāng)γ接近1時,未來的回報在采取最優(yōu)行動時變得更為重要。

強化學(xué)習(xí)的目的就是確定一個最優(yōu)行為策略π*,獲得最大的值函數(shù)如式(8)所示,從而選擇系統(tǒng)最優(yōu)的動作。

3.3Q學(xué)習(xí)算法
摘 要:高校教育資源體系生態(tài)化構(gòu)建戰(zhàn)略主要是按照生態(tài)化管理的要求,保證高校教育資源體系能夠以社會生態(tài)的和諧發(fā)展為根本目的,促進生態(tài)能源資源體系的科學(xué)構(gòu)建。其與傳統(tǒng)的高校教育資源體系的構(gòu)建有著本質(zhì)上的不同,注重生態(tài)化的高校教育資源開發(fā),通過科學(xué)、系統(tǒng)、合理的分析,實現(xiàn)高校教育資源的開發(fā)、整合以及利用,從而以保護生態(tài)環(huán)境、生態(tài)資源的再生性為根本目的,構(gòu)建生態(tài)化高校教育資源體系。
Q學(xué)習(xí)算法是一種典型的強化學(xué)習(xí)算法。Q學(xué)習(xí)算法不是去學(xué)習(xí)每個狀態(tài)的值函數(shù)V,而是通過狀態(tài)動作對的映射去估計行動的價值函數(shù)Q(s,a),從而求解具有不完整信息的馬爾科夫行動問題。Q函數(shù)的定義為:從狀態(tài)s開始執(zhí)行動作a,所獲得的最大折算累計回報,即Q的值為在狀態(tài)s執(zhí)行動作a的立即獎賞加上未來折算后的最優(yōu)策略的值,如式(9)所示。學(xué)習(xí)Q函數(shù)對應(yīng)于學(xué)習(xí)最優(yōu)策略,這可通過迭代逼近的方法完成。

Q學(xué)習(xí)的優(yōu)勢在于當(dāng)前狀態(tài)和動作的Q值在單個的數(shù)值中概括所有需要的信息,以確定在狀態(tài)s下選擇動作a時在將來會獲得的折算累積回報。其可直接根據(jù)Agent的實際經(jīng)歷的狀態(tài)來學(xué)習(xí),不需要知道狀態(tài)轉(zhuǎn)移函數(shù),與環(huán)境模型無關(guān)。不必考察當(dāng)前狀態(tài)下的所有后續(xù)狀態(tài),簡化了決策過程。
Q學(xué)習(xí)算法具體流程如下:
1)確定強化學(xué)習(xí)的過程,定義學(xué)習(xí)情節(jié),學(xué)習(xí)步驟及獎賞函數(shù);
2)初始化每個Agent的狀態(tài)集S及其Q值,設(shè)置折扣系數(shù)γ;
3)在感知模塊中,Agent i感知當(dāng)前環(huán)境下的狀態(tài)s∈S;
4)在信息處理模塊與執(zhí)行模塊中,Agent i將根據(jù)當(dāng)前環(huán)境狀態(tài)s,知識庫中存儲的其他Agent的執(zhí)行情況,設(shè)定的學(xué)習(xí)情節(jié)及步驟,選擇當(dāng)前最優(yōu)動作;
6)將以上數(shù)據(jù)帶入Q函數(shù)定義式,然后將得到的

由式(7)和式(9)可以將式(8)改寫成Q(s,a)的形式:結(jié)果Q值存入知識庫中,以表格的形式存儲;
7)根據(jù)任務(wù)表判斷學(xué)習(xí)過程是否結(jié)束,若結(jié)束則停止學(xué)習(xí),若否則返回第3)步繼續(xù)學(xué)習(xí),直至學(xué)習(xí)過程結(jié)束。
本文以微電網(wǎng)混合發(fā)電系統(tǒng)進行研究,采用多智能體的Q學(xué)習(xí)算法,結(jié)合所提出的微型電源綜合性能指標(biāo)評價方法,對微型電源優(yōu)化組合的學(xué)習(xí)過程進行分析。
該系統(tǒng)有發(fā)電機組10個,由4臺微型風(fēng)力發(fā)電機,3組光伏發(fā)電系統(tǒng),和3組微型燃?xì)廨啓C發(fā)電系統(tǒng)構(gòu)成,總?cè)萘抗?35kW,系統(tǒng)參數(shù)如表5所示。

圖18 微電網(wǎng)結(jié)構(gòu)示意圖

表5 系統(tǒng)參數(shù)
MDP決策過程定義:狀態(tài)集S為當(dāng)前所需任務(wù)量;動作集A為各微型電源是否選擇加入發(fā)電行列;立即獎賞函數(shù)定義為:其中p為平均電價,μ即為該微型電源綜合性能隸屬于該指標(biāo)的隸屬度,

首先對各微型電源的綜合性能指標(biāo)進行評價,得到其綜合性能及其隸屬度μ。根據(jù)AHP方法確定各指標(biāo)權(quán)重,具體矩陣信息定義如下:
1)一級指標(biāo)判斷矩陣
相比傳統(tǒng)火力發(fā)電,微電網(wǎng)最大的優(yōu)勢就在于其各種微型電源具有良好的清潔性和經(jīng)濟性。其一級指標(biāo)判斷矩陣可設(shè)定為:

計算得出,權(quán)重向量:

一致性檢驗:CI=0.0006,RI=0.58,一致性比率這表明其一級指標(biāo)判斷矩陣有非常滿意的一致性,由此計算出來的結(jié)果是非常可靠的。
2)經(jīng)濟指標(biāo)判斷矩陣

計算得出,權(quán)重向量:


3)環(huán)境指標(biāo)判斷矩陣
根據(jù)電力行業(yè)的污染物罰款等級,如表6所示,我們可以確立環(huán)境指標(biāo)判斷矩陣。

表6 電力行業(yè)主要污染物罰款等級($/kg)
通過兩兩比較,設(shè)定比值分隔點為:1,2,5,10,15,20,50, 100,200及以上,從而確定九個影響程度,最終得到環(huán)境指標(biāo)判斷矩陣:

計算得出,權(quán)重向量:

技術(shù)指標(biāo)判斷矩陣:

計算得出,權(quán)重向量:

一致性檢驗:因為判斷矩陣為二階矩陣,所以一定滿足一致性,由此計算出來的結(jié)果一定可靠。
由式(2)得到該微型電源經(jīng)濟指標(biāo)的各二級指標(biāo)評價值;式(3)得到該微型電源環(huán)境指標(biāo)的各二級指標(biāo)評價值;式(4)得到該微型電源技術(shù)指標(biāo)的各二級指標(biāo)評價值。最后,由式(5)并根據(jù)最大隸屬度原則得到該微型電源的綜合性能評價結(jié)果及其隸屬度μ。系統(tǒng)微型電源綜合性能評價結(jié)果如表7所示。

表7 微型電源綜合性能評價結(jié)果
以一次由負(fù)荷Agent請求140kW任務(wù)為例,根據(jù)Q學(xué)習(xí)算法,我們可以得到在滿足供需平衡的條件下,平均電價最低,綜合性能最高的微型電源組合。
學(xué)習(xí)過程:從系統(tǒng)請求任務(wù)開始,S記為140,各智能體開始進行Q值運算。在狀態(tài)發(fā)生改變后,選擇Q值最大的微電源Agent,將結(jié)果存在知識庫中。直到S=0,即滿足供需平衡關(guān)系為止,學(xué)習(xí)結(jié)束。仿真Q值運算結(jié)果如圖11所示。

圖19 Q值計算結(jié)果
微電網(wǎng)中多種微型電源互補的分布式發(fā)電技術(shù)是一種經(jīng)濟合理的供電方式。因此在微網(wǎng)中引入Multi-Agent技術(shù)具有重要意義。本文基于AHP與FCE聯(lián)合方法的微型電源綜合性能指標(biāo)評價方法,綜合考慮了微型電源的經(jīng)濟性,環(huán)保性及技術(shù)性,得出微型電源的綜合性能,并結(jié)合多智能體強化學(xué)習(xí)算法實現(xiàn)了微型電源的優(yōu)化組合問題。為微網(wǎng)中微型電源的優(yōu)化組合、綜合經(jīng)濟效益問題提供了較好的思路和技術(shù)手段。
[1] 王成山,李鵬.分布式發(fā)電、微網(wǎng)與智能配電網(wǎng)的發(fā)展與挑戰(zhàn)[J].電力系統(tǒng)自動化, 2010,43(2):10-14.
[2] N.M. MuhamadRazali, A.H. Hashim.A Profit-based Optimal Generation Scheduling of a Microgrid[A].The 4th International Power Engineering and Optimization Conference[C]. Selangor,2010: 232-237.
[3] A.F. Mohamed,N.H. Koivo. Microgrid Online Management andBalancing Using Multiobjective Optimization[A].Power Tech. Lausanne: IEEE[C].2007:639-644.
[4] A.F. Mohamed,N.H.Koivo.System Modelling and Online OptimalManagement of Microgrid using Multiobjective optimization[A].International Conference on Clean Electrical Power[C].2007:148-153.
[5] S. Conti,S,A.Rizzo.Optimal Control to Minimize Operating Costs and Emissionsof MV Autonomous Micro-grids with RenewableEnergySources[A].InternationalConference on Clean Electrical Power[C].2009:634-639.
[6] A.D. Hawkes,M.A. Leach. Modelling High Level System Design and Unit Commitment for a Micro-grid [J].Applied Energy,2008: 1-13.
[7] 高臘梅,吳捷,曾君,李敏.基于Multi-Agent協(xié)作強化學(xué)習(xí)的分布式發(fā)電系統(tǒng)的研究[J].能源研究與利用,2009(1):26-29.
[8] D.Q. Hung, N.Mithulananthan,R.Bansal. Analytical Expressionsfor DG Allocation in Primary Distribution Networks[J].IEEE Transactions on Energy Conversion. 2010,25(3):814-820.
[9] 徐青山.分布式發(fā)電及微電網(wǎng)技術(shù)[M].北京:人民郵電出版社,2011.
[10] 時珊珊,魯宗相,閔勇,王陽.微電源特性分析及其對微電網(wǎng)負(fù)荷電壓的影響[J].電力系統(tǒng)自動化,2010,34(17):68-71.
[11] 張汝波,顧國昌,劉照德,王醒策.強化學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論與應(yīng)用,2000,17(5):637-642.
Optimization of micro-grid based on multi-agent reinforcement learning algorithm
LI Jian, DAI Xing-ze
TP273
A
1009-0134(2016)02-0080-08
2015-10-13
國家自然科學(xué)基金(61403075;61503071)
李健(1982 -),女,遼寧人,副教授,博士,研究方向為微電網(wǎng)故障檢測。