[摘 要]本文應用支持向量機算法,基于以往輸電線路典型工程量和造價之間的映射樣本數據,利用SVM自動選擇最優復雜度模型的能力,建立起分析影響輸電線路造價指標體系的模型。
[關鍵詞] SVM;輸電線路;造價指標
doi:10.3969/j.issn.1673 - 0194.2015.10.103
[中圖分類號]TM752;F426.61 [文獻標識碼]A [文章編號]1673-0194(2015)10-0-03
本文利用數據挖掘中的支持向量機算法,完全排除人為的干預因素,通過機器學習在高維空間中找到一個最優分類面,生成一個最優復雜度模型,得到影響輸電線路造價的主要指標因素并通過以往的經驗數據對模型進行自主學習和訓練,模型為今后電網建設全壽命造價管理和控制以及輔助決策提供一個理論指導和依據。
1 數據挖掘機器學習——支持向量機算法
支持向量機(Support Vector Machine,SVM)是Vapnik等人根據統計學習理論提出的一種針對小樣本的機器學習理論。與傳統的以神經網絡為代表的機器學習方法相比,通過實踐證明如果過于追求訓練誤差最小,會導致模型的泛化能力下降出現過擬合問題。Vapnik等人通過研究指出,需要同時控制經驗風險和學習機容量,才能使模型獲得良好的泛化能力,該理論的核心思想是通過引入結構風險最小化準則來控制學習機的容量。
SVM的算法很好的實踐了上述思想,通過引入核函數,甚至不需要知道非線性變換的具體形式,只需將核函數引入計算即可實現某種非線性變換,將低維空間映射到高維特征空間,再在高維特征空間中構造線性判別函數來實現原空間中的非線性判別函數。問題就轉化為如何在新的映射高維空間中求取最優分類面。最優分類面就是存在這樣的分類超平面,它不但能夠將所有訓練樣本正確分類,而且使訓練樣本中離分類面最近的點到分類面的距離(定義為間隔)最大。通過使間隔最大化來控制分類器的復雜度,實現較好的推廣能力,擺脫高維數的冗余,使其算法復雜度與樣本維數無關,這正是SVM的優勢所在。
支持向量機最關鍵的步驟是核函數的選取,也是影響模型擬合最重要的部分,常用的核函數有。
在實際應用中,關于核函數參數選擇的問題還沒有很好的解決,如多項式學習機器的階數問題,徑向基學習機器中的函數寬度問題,以及Sigmoid機器中函數的寬度和偏移問題等,統計學理論目前對這些問題只是給出了一些建議和解釋。
目前,SVM方法被越來越多地用于包括模式識別、回歸估計和密度估計等多個研究領域中。本文創造性的將該方法引入輸電線路工程造價指標影響因素的分析和輸電線路工程項目造價預測的研究中,由于其所具有的推廣能力強、解的唯一性與全局最優性等優點,使得以此方法為基礎的輸電線路造價模型具有較好的應用效果。針對本文所涉及的應用,其算法流程如圖1所示。
2 輸電線路工程造價指標的建立
2.1 110kV輸電線路造價指標體系
利用原始的國家電網公司110kV輸電線路典型方案工程量指標和造價的關聯建立造價指標體系。
圖2 輸電線路工程造價指標體系
其共有19個影響輸電線路工程項目造價的因素,其中地線型號基本一致,對于110 kV電壓等級的常規線路來說,基面開方、護坡、保坎產生的工程量很少,也很少用到間隔棒,除非大容量多分裂導線,從技術經濟的角度分析與其如此,不如新建更高一級電壓等級的線路,導、地線可歸一為線材,塔材、基礎鋼、接地鋼可歸一為鋼材,基坑、接地開方也可以合并,塔基數屬于后評價指標,對造價形成沒有影響。特別地,回路數、氣象條件、導線型號共有2×4×2=16種情況,可以將其三者合并用1~16的數據表示。
2.2 輸電線路工程造價的主成分分析和工程特性的選取
電網工程特性是決定工程造價的決定性因素,因此所選的工程因素首先要全面,如若考慮不全面,造價的特殊性和差異性就體現不出來。實踐證明,工程的任何一個特征都會影響到總的工程造價,如果將所有的因素都考慮進去,所建模型就沒有實際意義。因此,只能挑選那些對工程造價有較大影響的工程特性。因此,工程特性只有結合工程實際的客觀規律來挑選,它的選取要“全”而“精”,盡量選取獨立的因素,因素之間沒有任何相關度。本論文采用主成分分析法篩選決定電網工程造價的工程特性。
主成分分析(Principal Component Analysis,PCA)是一種數據壓縮和特征提取的多變量統計分析技術,能夠有效去除數據間的相關性。它的基本思路是降維,即保證數據損失盡可能最小的前提下,經過線性變換和舍棄一小部分信息,以少數新的綜合變量(稱為主成分)取代原始采用的多維變量,即對原來提出的p個指標綜合成盡可能少的m個綜合性指標,且要求這m個指標既能充分反映原來的p個變量反映的信息,又能使這m個綜合變量之間互不相關,運用這m個綜合變量進行樣本的綜合評價。在經濟研究中,主成分分析法在預測領域、評定綜合指標問題等領域都有廣泛的應用。下面就詳細展開介紹。
由于原始指標之間不可避免地存在信息量的重復,而且指標數量過多不利于直接計算,所以利用主成分分析的方法對原始指標進行篩選。設經過預處理的數據為n*m維矩陣,n為樣本數,m為評價指標數。
(1)首先對數據進行標準化
(4)
式中 , (5)
(2)計算樣本相關矩陣R=(rjk)n×m (6)
式中, (7)
(3)計算特征值和特征向量
由R的特征方程|R-λi|=0求相關矩陣R的m個特征值λ1,λ2,…,λm(λi≥0)及相應的特征向量C1,C2,…,Cm。
(4)計算主成分的貢獻率,每個主成分的貢獻率代表了原數據占總信息量的百分比
(8)
(5)篩選主成分
將各主成分貢獻率由高到低排列,當前s個主成分貢獻率的和(累計貢獻率)達到信息反映精度(一般累計貢獻率達到85%即可)的要求時,取這s個主成分Z1,Z2,…,Zs作為下一階段模型的評價指標。
(6)構造新的樣本矩陣
根據Zi=X*Ci(i=1,2,3,…,n),計算每一個主成分的各樣本值,構成新的n×s維樣本矩陣,其中,n為樣本數,s為指標數,即
根據介紹的主成分分析法,首先對原始數據矩陣進行標準化,再利用Matlab工具的princomp函數對標準化后的數據進行主成分分析,得出各成分的貢獻率以及各成分的累積貢獻率。
經過上述的處理,依據各成分的累積貢獻率由高到低排序,可以將支持向量機的輸入信號個數由19個減少到8個,分別是:線路綜合情況、導地線(t/km)、桿塔基礎接地鋼材(t/km)、基面基坑接地開方(m3/km)、混凝土(m3/km)、絕緣子片數(片/km)、防震錘(個/km)、掛線金具(t/km),輸出則是電力線路工程的單位路徑長度造價(萬元/km)。
2.3 指標數據的收集及標準化處理
由于選取的指標數據之間的量綱不同,數據差別較大,為使小的數據不被大的數據所淹沒,在對其進行樣本學習時,必須消除這些差別所帶來的影響。樣本數據的標準化處理利用線形插值,把輸入節點和輸出節點的信號控制在[0.1,1]之間。
取a=max{Xi}賦予相應的權值1,取b=min{Xi}賦予相應的權值0.1,對任意樣本xi的線形插值計算公式為:
(9)
表1是國家電網公司110kV典型方案工程造價樣本經過線性插值標準化后的數據。
3 數據仿真分析及預測
仿真數據來源于國家電網公司110kV典型方案工程,如表1所示,依據上文所預處理的樣本數據,在Matlab軟件平臺上利用工具箱的圖形用戶界面實現了SVM數據挖掘模型的建立。本文在輸電線路造價影響因素分析的基礎之上,把影響輸電線路造價的指標因素X1i,X2i,…,X8i作為SVM的輸入,把輸電線路的造價yi作為SVM的期望輸出,用SVM方法進行機器學習。選取前28組樣本數據作為訓練樣本,其余11組為預測檢驗樣本,核函數K(xi,yi)采用徑向基(Radial Basis)核函數。
(10)
具體的參數設置為:C=1 000、ε=0.001、σ=2,在Matlab軟件環境下用SVM進行仿真擬合,訓練結果見表2,擬合比較見圖3。
從以上仿真結果可看出,用檢驗樣本仿真評價的輸出結果和專家評價的結果基本一致,最大相對誤差為19.26%,最小相對誤差為9.58%。模型輸出值與實際的數值其平均誤差百分比(Mean Absolute Percentage Error)是13.886 36%,在檢驗集上預測誤差平方和(Prediction Error Sun Of Squares)是0.085 37,表明基于SVM的該模型有著良好的函數逼近能力,而且整體的推廣、泛化能力也很好。
主要參考文獻
[1]謝穎,高犁難,石振武.基于最小二乘支持向量機的公路工程造價預測模型[J].中外公路,2007(27):242-245.
[2]劉振亞.國家電網公司輸變電工程典型造價:110kV輸電線路分冊[M].北京:中國電力出版社,2006.
[3]陶樹人.技術經濟學[M].北京:經濟管理出版社,1998.
[4]顏七笙,徐輝.基于支持向量機的企業自我實現能力綜合評價方法[J].中國管理信息化,2007(10):55-56.