999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的有源中點鉗位逆變器效率優化設計

2023-10-17 01:15:20王佳寧楊仁海姚張浩謝綠偉
電子與信息學報 2023年9期
關鍵詞:效率優化策略

王佳寧 楊仁海 姚張浩 彭 強 謝綠偉

(合肥工業大學電氣與自動化工程學院 合肥 230009)

1 引言

如何更快速、更好地設計電力電子變換器參數以提升變換器的整體性能一直是電力電子領域追求的目標。傳統的電力電子變換器設計主要采用順序設計的階段優化方法,但此類設計方法通常依賴于人工經驗。文獻[1]介紹了雙有源橋變換器效率-功率密度-成本的順序優化設計方法,設計人員需要憑經驗預估相關數據,或采用過設計,這將無法從理論上保證裝置的整體性能達到最優。文獻[2]提出了一種寬負載范圍下功率變換器效率的階段優化方法,但該方法需要進行繁瑣的數學公式推導過程和大量的人工試錯優化過程,計算負擔重且耗時長。

近年來,電力電子自動化設計可通過遺傳算法、粒子群算法、蟻群算法等元啟發式算法實現電力電子系統的優化設計而受到了研究人員的廣泛關注[3–5],此類算法在一定范圍內對設計變量進行智能搜索,并計算優化目標值,最后得到非支配最優設計目標集供設計者選擇[6–8],降低了尋優計算量。文獻[9]將人工神經網絡和遺傳算法相結合對功率變換器的電路參數進行設計,避免了復雜繁瑣的建模過程,提高了設計速度。但如果變換器的設計需求發生改變,如功率等級、電壓等級等,該算法需要重新進行整個優化過程,耗時且不方便,這將會對實際的工業運用造成障礙。

為了克服元啟發式算法因設計需求改變帶來的尋優耗時問題,強化學習(Reinforcement Learning, RL)因其能夠快速響應環境狀態變化提供最優決策得到了廣泛的應用[10,11],但RL只能學習低維、離散的設計變量數據[11]。在深度學習的影響下,深度強化學習(Deep Reinforcement Learning,DRL)的深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法采用了基于人工神經網絡的策略網絡和評價網絡,可以面向高維、連續的設計變量空間解決實際工業應用中的各類優化決策問題[12]。文獻[13]利用柔性行動器-評判器方法實現了電-氣綜合能源系統的優化調度,文獻[14]和文獻[15]采用DDPG算法求解雙有源橋變換器三重移相控制策略的最優移相控制角,實現了無功功率和效率的優化。但上述研究主要是利用DRL求解能源與電力系統的最優調度策略和從軟件層面優化電力電子變換器的控制參數,無法從硬件層面為變換器的系統設計提供思路,同時目前關于機器學習的電力電子變換器自動化設計鮮有研究。

本文以三相三電平有源中點鉗位(Active Neutral Point Clamped, ANPC)逆變器為研究對象,提出了一種基于DRL的逆變器效率優化設計方法。面向不同的設計需求,該方法均可以快速提供最大化效率的設計參數,從系統硬件的角度為變換器的優化設計提供了新的思路。本文首先介紹了基于DRL的逆變器效率優化設計框架,然后對逆變器的效率進行建模,并基于效率模型建立逆變器的環境模型,接著利用DDPG算法的智能體與環境模型不斷進行交互和自學習以求解最小化損耗的決策策略,最后對DRL的優化結果進行性能評估,并搭建了ANPC逆變器的實驗樣機,實驗結果驗證了所提方法的有效性。

2 基于DRL的逆變器效率優化設計

為了實現逆變器的效率優化設計,本文提出一種基于DRL的自學習優化設計方法,利用DRL的DDPG算法建立靈活的優化機制,該方法能夠快速響應設計需求變化,提供最小化功率損耗的決策策略,其優化設計框架如圖1所示。

圖1 基于DRL的逆變器效率優化設計框架

首先,根據設計需求建立DDPG算法所要探索的逆變器環境模型,該環境模型主要包括效率建模,狀態Sen,動作Aen和獎勵Ren的設定。其中,狀態Sen代表逆變器的設計規格,如輸入電壓、功率等級等,動作Aen代表影響逆變器效率的設計變量,如開關頻率、器件參數等,獎勵Ren用于對施加在逆變器上的動作進行打分,其主要與系統損耗有關,然后利用DDPG算法的智能體與逆變器環境模型進行交互學習,不斷優化動作,從而獲取最大化效率的優化策略。

在智能體與環境的交互過程中,效率優化設計問題可表述為RL的馬爾可夫決策過程[16],即智能體在某一時刻的狀態(即設計規格)下采取動作(即設計變量)得到逆變器環境模型反饋的獎勵,并進入下一狀態。智能體根據獎勵改進下一時刻所要采取的動作,利用RL的優化策略訓練策略網絡和評價網絡,直到獲取的累計獎勵達到最大并收斂,從而可以根據策略網絡得到任意設計規格下的最優設計變量實現效率最大化。

3 三相三電平ANPC逆變器效率建模

3.1 系統介紹

根據第2節的逆變器效率優化設計框架,本節將對三相三電平ANPC逆變器的效率進行建模,其拓撲結構如圖2所示。其中,UDC為直流側輸入電壓,CDC為直流側支撐電容。以A相為例,Ta2和Ta3是高頻工作的SiC開關管,Ta1, Ta4, Ta5, Ta6是工頻工作的Si開關管,Da1~Da6是開關管的反并聯二極管,本文采用載波同相SPWM調制策略。LCL濾波器由濾波電感L1、濾波電感L2和濾波電容CAC組成,三相負載為電阻RL,ia, ib, ic分別是逆變器A相、B相、C相的輸出電流,且設其有效值為I,系統規格如表1所示。

表1 三相三電平ANPC逆變器的系統規格

圖2 三相三電平ANPC逆變器的拓撲結構

由于直流側支撐電容和濾波電容產生的損耗在系統總損耗中所占的比例較小,故本文忽略兩者對系統總損耗的影響,將其作為固定參數,同時將開關管的開關頻率fsw、濾波電感L1和濾波電感L2作為系統的設計參數,其中L1和L2為非獨立的設計變量,濾波電感的設計與UDC, I, fsw和電流紋波系數有關[17]。

3.2 損耗分析

系統損耗由開關管損耗PT、電感損耗PL和其他損耗Pother組成。其中,其他損耗主要包括與溫度相關的SiC開關管通態損耗、直流側支撐電容損耗和濾波電容損耗,且由于其只占整體損耗很小的一部分,因此本文忽略其他損耗的影響,其他功率損耗分析如下所述。

3.2.1 開關管損耗

開關管損耗主要包括通態損耗Pcond、開關損耗Psw和驅動損耗Pg[18],具體的計算公式為

其中,Rdson為開關管的通態電阻,Eon_nom和Eoff_nom分別為標準測試條件下系統中SiC開關管的開通損耗和關斷損耗,Qg為柵極電容電荷,Vgs為柵極驅動電壓。系統含有18個開關管,因此開關管損耗為

3.2.2 電感損耗

電感損耗由繞組銅損Pcop[19]和磁芯鐵損Pcore[20]組成。其中,由集膚效應產生的交流繞組銅損忽略不計,磁芯鐵損包括工頻電流和開關頻率次諧波電流產生的鐵損,可根據斯坦梅茨公式計算得到,計算公式為

其中,Rcop為繞組的直流電阻,k, α, β為磁芯數據手冊中的斯坦梅茨參數,Bm為磁通密度最大值,VL為單個濾波電感的體積。系統含有6個濾波電感,因此電感損耗為

所以,整個三相三電平ANPC逆變器系統的總損耗Ptot為

Ptot=PT+PL(5)

綜上所述,系統效率η可通過系統總損耗Ptot和輸出功率Po計算得到,即

4 基于DDPG算法的三相三電平ANPC逆變器效率優化設計

4.1 環境模型的關鍵變量

由于逆變器輸入電壓、輸出電流和開關頻率對損耗有較大影響,且直流側輸入電壓和輸出電流有效值能夠反映逆變器的設計規格,所以環境模型的狀態和動作分別定義為

為了給智能體交互過程中采取的動作進行打分,需要根據采取動作后的逆變器損耗對智能體施加相應的獎勵,而最大化獎勵可以轉化為最小化損耗,因此獎勵Ren為

其中,?為獎勵系數且? > 0,它衡量對所采取動作的獎勵尺度。當系統功率損耗逐漸降低時,獎勵將會逐漸增加,因此在DDPG算法中,智能體通過最大化獎勵實現效率的最大化。

4.2 DDPG算法

本文采用DDPG算法求解最小化損耗的開關頻率,利用智能體與環境交互學習獲取的經驗數據訓練智能體,使其能夠在任意狀態下快速提供最優動作實現效率最大化,整體的優化設計框架如圖3所示。DDPG算法包括Actor策略網絡和Critic評價網絡兩部分,為了提高神經網絡的學習穩定性,每部分均包含在線網絡和目標網絡,因此整個DDPG算法共涉及4個神經網絡:在線策略網絡μ、目標策略網絡μ′、在線評價網絡Q和目標評價網絡Q′[12]。首先,在t時刻的狀態st= (UDC, I)t下,通過策略網絡得到動作at= (fsw)t,將其輸入至逆變器環境模型中,得到此時的獎勵rt= (–φ·Ptot)t和下一狀態st+1,然后將狀態轉換序列(st, at, rt, st+1)存入經驗回放池,最后根據小批量采樣策略隨機抽取N組數據訓練策略網絡和評價網絡。其中,動作at由式(10)計算得到

圖3 基于DDPG算法的ANPC逆變器效率優化設計框架

其中,μ(st)為在線策略網絡μ輸出的動作,δt為標準正態分布噪聲,可以避免優化過程陷入局部最優。

在線評價網絡Q和在線策略網絡μ分別通過誤差反向傳播算法和確定性策略梯度定理進行參數更新,目標策略網絡μ′和目標評價網絡Q′通過滑動平均方法進行參數更新[12],如式(11)、式(12)和式(13)所示

其中,yi為由目標策略網絡μ′和目標評價網絡Q′產生的目標評分值,L為損失函數,基于誤差反向傳播算法可以得到L相對于θQ的梯度?θQL,從而對參數θQ進行優化更新。Q(s, a|θQ)為動作值函數,μ(s|θμ) 為在線策略網絡μ輸 出的策略。和分別為更新后的目標策略網絡μ′參數和目標評價網絡Q′參數,τ為滑動平均更新參數,且通常取值為0.001。通過不斷采樣經驗回放池的狀態轉換序列數據,利用誤差反向傳播算法和確定性策略梯度定理按照最大化獎勵的目標迭代訓練策略網絡和評價網絡,最終得到優化的策略網絡,輸入任意狀態便能立即輸出動作使得智能體獲得最大獎勵,從而實現效率優化設計。

4.3 DDPG算法的訓練結果

在正式訓練之前,需要對DDPG算法的關鍵參數進行設置,如表2所示。另外,策略網絡和評價網絡均包含1個隱藏層,隱藏層神經元個數分別為6和3,最大訓練回合數M為5 000,每個訓練回合包含的步數T為20,詳細的算法訓練流程可參考文獻[12]。

表2 DDPG算法的關鍵參數

通過大量的迭代訓練,圖4(a)和圖4(b)分別為DDPG算法訓練過程中平均累計獎勵和平均動作的變化情況,兩者均為每個訓練回合內20步的平均值。從圖4可以看出,在訓練過程的前期階段,平均累計獎勵和平均動作均比較小,這是因為智能體在前期探索階段隨機執行動作,與環境進行交互并收集經驗數據,策略網絡和評價網絡的參數暫未更新。當經驗回放池里的數據達到最大容量后,網絡參數開始更新,智能體逐漸學習到最小化損耗的優化策略,平均累計獎勵和平均動作逐漸增加并收斂。訓練過程結束后,便得到優化的策略網絡,在狀態空間內向策略網絡輸入任意狀態,便能得到最優的動作。

圖4 DDPG算法訓練過程中平均累計獎勵和平均動作的變化情況

5 優化效果評估

根據DDPG算法訓練完成的策略網絡能夠得到逆變器不同狀態下的開關頻率優化結果。同時通過遍歷法能夠確定唯一的開關頻率使得系統總損耗最小,因此遍歷法的優化結果可以被視為最優值。選取逆變器的5個狀態,將DRL的開關頻率優化結果與遍歷法、遺傳算法和RL進行對比,如表3所示,其中,遍歷法所選取的開關頻率步長為Δfsw=100 Hz,遺傳算法采用了NSGA-II算法,RL采用的算法是Q-learning算法[16]。根據表3的優化結果計算得到5種狀態下的開關管損耗、電感損耗、總損耗和效率,如圖5所示。

表3 不同狀態下的開關頻率優化結果對比

圖5 不同優化方法之間的功率損耗和效率優化結果對比

由圖5(a)和圖5(b)可以發現:5個狀態下DRL和遍歷法優化后的開關管損耗均小于遺傳算法和RL,且遺傳算法優化后的開關管損耗最大;而DRL和遍歷法的電感損耗曲線均高于遺傳算法和RL,這主要是因為遺傳算法和RL優化后的開關頻率均大于DRL和遍歷法。與遍歷法相比,5個狀態下DRL的開關管損耗和電感損耗的誤差百分比平均值分別為2.83%和9.63%,分別低于遺傳算法的10.52%和21.83%以及RL的5.84%和14.79%。同時通過圖5(c)可以看出DRL的總損耗曲線均低于遺傳算法和RL,3種方法相比于遍歷法的總損耗誤差百分比平均值依次為0.31%, 3.32%和1.26%。圖5(d)為5個狀態下4種優化方法的效率優化結果對比圖,可以看出DRL的效率曲線均高于遺傳算法和RL,且更接近于遍歷法的效率曲線,3種方法相比于遍歷法的效率誤差平均值依次為0.004%, 0.042%和0.016%。因此,相比于遺傳算法和RL, DRL的優化結果更接近于遍歷法,且5個狀態下DRL優化后的效率均大于遺傳算法和RL。

改變DDPG算法的狀態空間范圍為400 V ≤ UDC≤600 V, 20 A ≤ I ≤ 60 A,然后重新進行訓練,并得到低功率等級下4種方法的開關頻率優化結果。通過計算得到3種電壓等級、2種電流等級下詳細的功率損耗分布,如圖6所示,其中UDC分別取值為400 V, 500 V, 600 V,I分別取值為30 A, 50 A;功率損耗包括通態損耗Pcond、開關損耗Psw、驅動損耗Pg、繞組銅損Pcop和磁芯鐵損Pcore。

圖6 不同優化方法之間詳細的功率損耗對比

以圖6(a)為例進行分析,3種電壓等級下不同方法之間的通態損耗、驅動損耗和磁芯鐵損均相近。遺傳算法的開關損耗較大,繞組銅損較小,而RL的開關損耗較小,繞組銅損較大。通過對比,3種電壓等級下DRL的開關損耗和繞組銅損更接近于遍歷法。這主要是因為遺傳算法優化后的開關頻率較大,RL的開關頻率較小,而DRL的開關頻率更加接近于遍歷法。相比于遍歷法,遺傳算法、RL和DRL優化后的各部分功率損耗如表4所示,3種電壓等級下DRL的損耗誤差百分比平均值分別為7.73%, 4.90%和4.29%,在大多數情況下均低于遺傳算法和RL。總體而言,DRL優化后的各部分損耗更接近于遍歷法的優化結果。

表4 I = 30 A時,相比于遍歷法,其他優化方法的各部分功率損耗對比

通過詳細對比不同方法優化后的功率損耗和效率,DRL與遍歷法的優化結果更相近,所以DRL具有更好的優化性能,能夠最大化系統的效率,且DRL優化后的效率大于遺傳算法和RL優化后的效率。同時,在表2的參數設置下,DRL的整個訓練過程耗時約40 min,優化后的策略網絡可以面向狀態空間內的任一狀態在3 s內輸出優化動作。當采用遍歷法時,每個狀態的優化過程耗時約110 s。RL的訓練過程耗時約為53 min,每個狀態輸出動作的耗時約為3.5 s。對于遺傳算法,單個狀態的程序運行時間約為5 926.3 s。另外,以上4種方法的程序代碼均運行在Win 10操作系統上,CPU型號為AMD Ryzen 5 3600X @3.8 GHz。

為了驗證DRL優化策略的快速性,根據表2的狀態空間取值范圍,以ΔUDC= 10 V和ΔI = 10 A為變量步長共選取40個設計規格,圖7為不同方法完成多個設計規格的逆變器優化設計的優化耗時對比。從圖7可以看出,任意設計規格數量下遺傳算法的優化耗時均高于另外3種方法,通過局部放大圖可以發現RL的優化耗時均高于DRL,當設計規格數量小于或等于22時,DRL的優化耗時高于遍歷法,但當設計規格數量大于22時,DRL的優化耗時逐漸低于遍歷法,且基本保持不變,即DRL不會因為設計規格數量的增加而大幅增加優化耗時,同時DRL的優化耗時遠低于遺傳算法,因此DRL能夠快速響應設計規格變化,輸出最優的設計參數。

圖7 不同方法之間的優化耗時對比

綜上所述,本文基于DRL的效率優化設計方法既能最大化系統效率,又能快速響應設計規格變化提供最優設計變量,建立了靈活的效率優化機制。

6 實驗驗證

為了驗證DRL的有效性,本文搭建了額定功率為140 kW的三相三電平ANPC逆變器的實驗樣機,如圖8所示。其中LCL濾波器位于電磁兼容(Electro Magnetic Compatibility, EMC)板的下方,CDC位于直流源的下方。由于實驗條件有限,本文將實驗樣機運行在4種低功率等級下,根據DRL、遍歷法、遺傳算法和RL得到相應的開關頻率優化結果,在此優化結果的工作條件下,采用型號為WT3000E的功率分析儀實測樣機的效率,實驗測試條件如表5所示,不同優化方法的理論效率和實測效率對比結果如圖9所示。

表5 實驗樣機的測試條件

圖8 三相三電平ANPC逆變器實驗樣機

圖9 不同優化方法的理論效率與實測效率

從圖9可以看出,隨著直流側輸入電壓UDC的增加,系統的效率逐漸增加,4種優化方法的效率測量值及理論值的變化趨勢相同。由于開關頻率優化結果存在誤差,DRL的效率理論值略小于遍歷法的效率理論值,4種電壓等級下兩者效率理論值的平均相對誤差為0.005%,同時DRL的理論效率曲線均高于遺傳算法和RL的理論效率曲線。高頻磁芯鐵損計算誤差的存在,以及未考慮的其他損耗的影響,使得遍歷法、遺傳算法、RL和DRL的效率測量值均小于其理論值,效率測量值與理論值之間的平均相對誤差依次約為0.145%, 0.168%, 0.165%和0.153%。另外,與遍歷法相比,4種電壓等級下DRL的效率測量值均較小,平均相對誤差約為0.013%;而相比于遺傳算法和RL, DRL的效率測量值均較大,平均相對誤差分別為0.025%和0.025%。

根據上述分析,DRL的效率測量值和理論值均接近于遍歷法,且大于遺傳算法和RL的效率測量值和理論值。實驗測量結果與理論計算結果基本吻合,兩者的誤差來源于忽略不計的其他損耗和計算誤差。因此,本文提出的DRL優化設計方法能夠最大化系統的效率,同時可以快速提供任意設計規格下的最優設計參數,打破了傳統算法優化設計過程耗時、計算量大以及無法快速響應設計需求變化的局限性。

7 結束語

本文提出一種基于DRL的ANPC逆變器效率優化設計方法。具體地說,通過DDPG算法與三相三電平ANPC逆變器環境模型進行不斷交互,利用交互過程中獲得的經驗數據進行自學習,逐漸改進智能體的動作決策以最小化功率損耗,從而獲得最大化效率的決策策略。首先,介紹了基于DRL的逆變器效率優化設計框圖;其次對逆變器的效率進行建模,并采用DDPG算法求解最小化功率損耗的開關頻率;然后將DRL的優化結果與遍歷法、遺傳算法和RL進行優化性能對比;最后搭建了三相三電平ANPC逆變器的實驗樣機進行驗證,實驗結果表明本文基于DRL的優化策略能夠最大化系統的效率。

綜上所述,本文以三相三電平ANPC逆變器的效率為設計指標,利用DRL的DDPG算法建立了靈活、快速的優化機制,且通過實驗驗證了優化策略的有效性。相比于遺傳算法和RL,實測效率平均提高了0.025%和0.025%。面向不同的逆變器設計規格,該優化策略均可以快速提供最優的設計參數實現效率最大化,從系統硬件的角度為電力電子變換器的優化設計提供了新的思路和方法,在電力電子變換器設計領域開展了有益的嘗試。

猜你喜歡
效率優化策略
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
跟蹤導練(一)2
“錢”、“事”脫節效率低
中國衛生(2014年11期)2014-11-12 13:11:32
主站蜘蛛池模板: 成人午夜久久| 国产区福利小视频在线观看尤物| 5388国产亚洲欧美在线观看| 久久不卡国产精品无码| 亚洲成A人V欧美综合天堂| 亚洲视频免费播放| 欧美日韩一区二区在线免费观看| 精品成人一区二区三区电影| 国产经典在线观看一区| 色网在线视频| 91网红精品在线观看| 国产办公室秘书无码精品| 国产免费精彩视频| 国产丝袜丝视频在线观看| 视频国产精品丝袜第一页| 日韩av电影一区二区三区四区 | 免费人成在线观看视频色| 91精品在线视频观看| 无码一区18禁| 精品丝袜美腿国产一区| 色首页AV在线| 日本不卡在线视频| 99这里只有精品6| 毛片免费高清免费| 国产精品无码AV中文| 国产欧美日韩另类精彩视频| 97免费在线观看视频| 91av成人日本不卡三区| 99久久精品免费看国产免费软件| 国产白浆在线| 草草线在成年免费视频2| 国产乱人伦AV在线A| 亚洲成a人片77777在线播放| 亚洲制服丝袜第一页| 18禁色诱爆乳网站| 国产96在线 | 中文字幕人成人乱码亚洲电影| 免费a在线观看播放| 91久久国产成人免费观看| 欧美在线免费| 日本不卡在线播放| 伊人无码视屏| 亚洲高清在线播放| 97视频免费看| 99国产精品免费观看视频| 日韩欧美中文在线| 色噜噜狠狠狠综合曰曰曰| 亚洲人成网站观看在线观看| 日本亚洲成高清一区二区三区| 免费观看男人免费桶女人视频| 99久久国产综合精品女同| 色噜噜综合网| 久久精品人人做人人爽97| 99re66精品视频在线观看| 亚洲aaa视频| 爱色欧美亚洲综合图区| 麻豆精品在线视频| 亚洲欧美精品日韩欧美| 国产精品久久久久无码网站| 婷婷99视频精品全部在线观看| 亚洲va视频| 欧美视频二区| 国产00高中生在线播放| 91福利免费| 99久久精品免费看国产免费软件| 色屁屁一区二区三区视频国产| 女人18毛片水真多国产| 亚洲三级视频在线观看| 国产精品大尺度尺度视频| 国产精品毛片在线直播完整版 | 亚洲国产精品无码AV| 欧美三级不卡在线观看视频| 亚洲日本中文字幕乱码中文| 天堂亚洲网| 少妇被粗大的猛烈进出免费视频| 狠狠色狠狠综合久久| 国产v精品成人免费视频71pao| 男女精品视频| 免费观看无遮挡www的小视频| 国产91小视频在线观看| 中文字幕在线日本| 精品自拍视频在线观看|