金 艷,閆孟婷,肖 楊,羅立軍,莫 凡,黃煒斌
(1.國家電投集團水電產業創新中心,湖南 長沙 410004;2.四川大學水利水電學院,四川 成都 610065)
近期,隨著習近平總書記提出把碳達峰碳中和納入生態文明建設整體布局,我國能源轉型加快,可再生能源迎來了快速發展的新時代。據統計,截至2021年年底,我國的水電總裝機容量約為3.91億kW,仍居世界第一。到2035年,預測可再生能源電力裝機容量占比將達到65%以上,常規水電裝機對應需求為4.5億kW;在可再生能源電力年發電量中,預計2025年、2035年、2050年水電發電量占可再生能源電力將達到31%以上[1-2]。可見,水電開發在中國能源轉型升級,實現碳減排和碳中和目標中仍將發揮重要作用;但仍需看到的是,目前常規水技術開發程度過半,水電站深入發展受限,水電發展的中心需要從開發新水電轉向對已建水電站的精細化管理。而成本支出作為反映水電站運營水平的重要因素,對其進行研究評價有利于實現存量水電的對標管理,促進水電行業的持續發展。
本文針對四川地區幾十座水電站重點探索了對水電站應支出成本回歸計算,對不同規模、不同特性的水電站定義了其標準支出成本值,為水電站考核管理提供新思路。
水電站具有個性化較強的特點。由于不同的電站機組、水工建筑物、地理地質條件等造成的運行復雜程度不一,很難形成一套評價標準考核水電站的成本管理水平;但由實際運行經驗可知,水電成本支出與水電站的運行復雜程度一般成正比分布。故本文針對水電站成本值進行研究,探索在既定規模下水電站的標準支出成本值。首先對成本進行解構,扣除稅收、折舊等無法通過人工努力改善的成本,著重研究能夠反映水電站運行期間的管理行為的人工成本、檢修成本、材料成本等軟性運營成本。定義水電站標準支出成本值為:在水電站機組、水工等已建條件一定的情況下,通過人工運營管理,水電站應該支出運營成本的平均水平值。通過對比實際運營成本值與標準支出成本值,可以體現水電站的運營管理水平。
為了使各水電站有統一可比基礎,目前國內外多采用以裝機容量為分母、水電站考核年總成本支出為分子進行計算;但單一的影響因素選擇忽略了水電站其他因素對成本的影響,如大壩維護、閘門防腐等都是水電站運行費用中重要組成部分。
目前,運用較廣泛的選取因子方法有3種:一是先驗判斷法,其缺點在于易受人為主觀意識的影響,在應對變量間數學關系的衡量上缺乏客觀性;二是逐步回歸法[3];三是相關系數法[4]。后2種方法適用于變量間呈線性關系的情況;而實際上,影響水電站成本的許多因素間存在非線性關系。信息論中的互信息(Mutual Information,MI)作為衡量變量相互含有信息量的度量,可運用于影響因素的選取中。各個影響因素實際上就是信息的載體,其中所含有有效信息的大小就是衡量其是否被選取以及選取順序的依據。互信息的值越大,說明輸入因子中有效信息越多,在建立相關關系時要優先選取。目前已有部分學者將互信息理論應用于水文當中,趙銅鐵鋼等[5]將互信息用于選取預測模型輸入變量;陳璐等[6]采用Copula熵計算偏互信息,并將其運用于徑流預報模型當中;紀昌明等[7]研究了基于聯合和條件互信息(Joint Mutual Information,JMI)的因子選取方法,以信息增長率最大準則對多個輸入因子進行選取,構建了JMI-BP模型進行預報。
本文首先采用皮爾遜相關分析,識別與水電站運營成本具有較強相關關系因素,采用皮爾遜相關系數及最大互信息識別與水電站運營成本相關關系較強的重要特征。
PCCs(Pearson correlation coefficient)即皮爾遜相關系數,在空間上表示為兩向量夾角的余弦值[8]。其內涵可從多種數學角度進行解釋,經過了長時間實踐檢驗,已得到廣泛認可。當變量為服從正態分布時,Pearson相關系數(積矩相關系數)描述線性相關效果好,其計算如下
(1)

對于觀測樣本,其統計值為
(2)
式中,xi、yi分別為對應樣本的第i個觀測值。
互信息定義為已知Y值而造成X不確定性的減小量。其基礎理論為信息熵,以“系統越無序(難以預測)、信息熵越大”作為數據信息容量判別標準[9]。
設2組隨機變量X、Y,由互信息定義可知:兩變量互信息可通過X信息熵與變量Y已知X信息熵的差值求解得到

(3)
式中,H(X)為隨機變量X的信息熵;H(X|Y)為已知Y條件下X的信息熵;p(x)為X的概率分布;p(x,y)為X、Y的聯合概率分布;p(x|y)為X在Y條件下的概率。
對于離散化變變量,其互信息可寫為

(4)

需要注意的是,由于信息熵是基于變量概率分布計算,有p(x)=[0,1],對于xlog2x當x→0時,利用求極限值的數學方法可得此時xlog2x等于0。
最大互信息(MIC)最初是由Reshef等人在《Science》上發表論文并提出的,其能有效刻畫大多數線性、非線性關系,且給予等值MIC的不同函數等量噪音,變化后的MIC仍保持一致。該方法通過識別數據集不同網格劃分情況下的互信息,并對互信息進行歸一化,使其范圍落于區間[0,1](當最大互信息值為0時,說明兩變量相互獨立,兩者相關性越強其值越接近1),最終篩選出最佳劃分方式,利用該條件下的歸一化互信息刻畫兩變量相關關系(見圖1)。對于隨機變量X、Y的最大互信息識別具體流程如下:
(1)對隨機變量X、Y形成的數據集合D進行劃分,在集合D的閾值中將x、y軸等分為i列j行形成初始網格劃分。
(2)由于網格總數在滿足ij (5) 令i=i+1并更新j值。 (3)重復步驟(2),直至j=2,篩選出最大互信息值MIC(D),此時最大互信息系數為 MIC(D)=optimal{M(D)i,j} (6) 選擇位于西南地區的65座水電站為研究對象,對其進行水電站標準支出成本的計算。在重要特征的篩選過程中,將影響水電站標準支出成本的因子稱作解釋變量X,運營成本數據序列作為因變量Y,對于水電站聚類集H={H1,H2,…,Hk};按照研究目的,將影響因素分為機組特性、壩型特征、水位特征、庫容特征、勞動力特征、調節性能,每類特性用至少1個因子進行描述,形成i電站影響因素數據集Xi={X1,X2,…,Xp},根據現有資料,設定15個因子(p=15),X1為裝機容量,X2為機組臺數,X3為正常水位,X4為死水位,X5為總庫容,X6為有效庫容,X7為壩高,X8為壩長,X9為職工人數,X10為平均單機容量,X11為水位差,X12為平均機組利用小時數,X13為投產時長,X14為壩面積,X15為調節性能。其中,X1至X9為單因子,單因子與水電站參數直接相關;X10至X15為復合指標,復合因子與水電站參數間接相關,通過多個參數計算得到。按照因子所屬特性,X1、X2、X10、X12為機組特性因子,X3、X4、X11為水位特征因子,X5、X6為庫容特征因子,X7、X8、X14為壩型特征因子。 輸入解釋變量序列X、運營成本數據序列Y,Pearson相關結果如圖2所示。圖2中右上部分的橢圓愈狹長代表對應變量間相關系數愈大,“×”代表未通過顯著性檢驗(P>0.05),左下部分展示PCCs的具體數值。 將PCCs值大于0.6定義為關系緊密,形成顯著相關變量對(見表1)。觀察解釋變量相互間關系可知,機組特性與大壩特征、勞動力特征相關關系顯著,庫容特征與機組特性、壩型特征線性相關,調節性能與水位特征線性相關,解釋變量與因變量運營成本的顯著相關性主要表現在機組特性、壩型規格、勞動力特征。 表1 PCCs大于0.6的影響因子、成本關系對 針對65個水電站的成本特性數據集C={Y1,Y2,…,Y65},15個影響因素的數據集X={X1,X2,…,X15},計算典型集中特征向量(影響因素數據集)X={X1,X2,…,X15}與(成本特性數據集)C={Y1,Y2,…,Y65}之間的互信息。 對于第e個影響因素,其與成本特性的平均互信息為 (7) 將因素數據集X={X1,X2,…,X15}分別與運營成本數據序列Y形成15個數據集(D1(X1,Y),D2(X2,Y),…,D15(X15,Y)),利用MIC分析各項影響因素與運營成本的相關關系。 以X10與Y的MIC計算過程中兩類網格劃分(見圖3)為例,說明不同劃分形式對同一數據集均一化互信息值的影響。圖3顯示,對單機容量與成本數據集而言,6行2列的網格劃分大于4行3列的均一化互信息值。觀察數據分布,圖3a中當已知均一化Y值落入[0,0.5)區間,有80%以上的把握可以認為均一化X位于區間[0,017);圖3b假設Y值落入[0,0.33)區間,X位于區間[0,0.25)的概率為52%,仍有大于20%的概率位于區間[0.25,0.5)。基于互信息的概念,即可解釋圖3a的均一化互信息大于圖3b的原因。 為進一步了解各影響因素與運營成本的關系,利用PCCs、MIC總結描述影響因素與運營成本的內在關聯,將PCCs絕對值大于MIC的稱為線性關系強勢;反之,為非線性關系強勢,需要說明的是,這里的“強勢”并不等同于“顯著”,只是兩變量間線性關系與非線性關系的比較,對于顯著關系仍用顯著來表示,具體如表2所示。 表2 影響因素與運營成本內在關聯描述 設定不同閾值PCCs、MIC篩選影響因素(特征值),認為線性關系強勢的影響因素與水電站標準支出成本的關系形如ax+b,而MIC值較大影響因素應呈非線性關系,則水電站標準支出成本模型 (8) 式中,xk為與運營成本非線性相關關系fk更顯著的第k個影響因子;xi為與運營成本線性相關性更強的第i個影響因子。由表2可知,正常蓄水位X3、投產時長X13、裝機容量X1、平均單機容量X10與運營成本非線性關系更明顯,其中裝機容量X1、平均單機容量X10非線性關系顯著;剩余11個影響因子呈線性關系,其中壩高X7、職工人數X9、壩面積X14線性關系顯著。 在擬合過程中,分別選擇相關系數大于0.1、0.2、0.3、0.4、0.5、0.6、0.7的影響因子,利用Levenberg-Marquardt算法開展回歸計算。Levenberg-Marquardt算法是牛頓法的一種改進,在計算時能夠避免牛頓法由于Hessian矩陣奇異而導致算法無法繼續迭代的情況,常用于非線性最小二乘問題的最優化實現[11-12]。分析計算發現,相關系數低限閾值<0.4時,由于變量較多,導致擬合關系無法收斂,故僅將擬合收斂的3種結果(相關系數>0.5、0.6、0.7)繪于圖4。從圖4可以看出,無論實際運營成本的高低,擬合值都與實際值較為貼近。由標準化殘差分布可知,當選擇相關系數>0.6的影響因子進行擬合時,其殘差最接近正態分布。 同時,對3種結果擬合性能進行量化,得到表3。分析訓練集的擬合性能發現,調整后R2在相關系數閾值為0.6時取值最大為0.930。此時,被選擇的自變量有裝機容量X1、壩高X7、人力X9、平均單機容量X10、壩面積X14,反映出運營成本主要與發電機組、大壩、勞動力特征有關;而MAPE和合格率均在閾值為0.5時最優。從測試集結果看,除了在相關系數閾值為0.7時最優,其余各指標均在調整后R2在相關系數閾值為0.5時取得最優。 表3 不同閾值相關系數下的特征數與擬合性能 然而,當相關系數閾值取0.5、0.6時,序號為42、55、60這類實際運營成本較小的水電站擬合值為負,嚴重違背運營成本含義。故認為,選擇影響因素與運營成本相關系數大于0.7的特征變量做非線性回歸時,擬合效果佳且結果更可靠,此時特征變量為裝機容量X1、平均單機容量X10、壩面積X14,水電站標準支出成本模型為 (9) 式中,Yul為非線性回歸模型擬合的水電站標準支出成本;其余符號含義如前述。 分析表3發現,當相關系數閾值取大于0.5時,無論對于訓練集或是測試集,非線性回歸擬合效果均較優。因此,通過PCCs、MIC值分析影響因素與響應變量是否呈線性相關,對模型構建具有一定指導意義。 本文通過對成本的結構及對成本和水電站運行復雜程度的關系分析定義了水電站標準支出成本,為了保證選取的自變量更大程度反映水電站運行特性,利用PCCS、MIC挖掘出于水電站運營成本關系相對密切的因素,針對不同表現關系,利用L-M回歸方法構建水電站標準支出成本模型,并對模型回歸效果進行分析。結果顯示該方法具備合理性,可為水電企業對標評價提供新思路。3 算 例




4 結 論