秦中伏,雷小龍,翟 東*,金靈志
(1. 浙江大學 建筑工程學院, 浙江 杭州 310058; 2. 杭州市發展規劃研究院, 浙江 杭州 310006)
?
基于SVM和LS-SVM的住宅工程造價預測研究
秦中伏1,雷小龍1,翟東1*,金靈志2
(1. 浙江大學 建筑工程學院, 浙江 杭州 310058; 2. 杭州市發展規劃研究院, 浙江 杭州 310006)
摘要:為在方案設計初期與工程造價相關信息很少的條件下,準確快速地預測住宅工程造價,在分析既往相關理論和方法優劣的基礎上,選取支持向量機構建住宅工程造價預測模型,并通過主成分分析對原始數據進行降噪處理. 選取住宅工程造價預測指標集與樣本,對輸入指標的數據進行主成分分析,消除指標相關性的同時對原始數據降維,將處理后的數據分別導入到“標準支持向量機”和“最小二乘支持向量機”模型中進行訓練和預測,并對預測結果進行對比分析,選取較為合理的預測模型,通過參數尋優進一步優化預測效果. 所構建預測模型的相對誤差均控制在±7%以內,預測精度較高,結果穩定.
關鍵詞:造價預測;主成分分析;支持向量機;最小二乘支持向量機
QIN Zhongfu1, LEI Xiaolong1, ZHAI Dong1*, JIN Lingzhi2
(1.CollegeofCivilEngineeringandArchitecture,ZhejiangUniversity,Hangzhou310058,China; 2.HangzhouDevelopmentPlanning&ResearchInstitute,Hangzhou310006,China)
建筑工程造價預測是建設項目可行性研究的重要內容,將直接影響建設單位對建設項目的投資決策. 建筑工程的造價預測最初是通過單位指標法[1]套用相應的估算指標計算并匯總而得. 由于估算指標統一,不能很好地適應各類市場經濟體制. 在傳統的統計分析方法中,線性回歸法是通過建立回歸分析模型來預測工程造價的,當該方法面對繁多的不確定因素且樣本數據較少時表現較差[2]. 時間序列分析法需要的樣本數量相對較少,但未能充分考慮建筑工程造價偶然因素繁多且難以估計的特點[3-4].
近年來,基于神經網絡、灰色理論等的工程造價預測研究逐漸成熟. 雖然,神經網絡算法與傳統的統計分析相比,預測效果有一定改善,但仍存在所需樣本數量多、訓練速度較慢、容易出現局部最優等問題[5-6]. 灰色理論雖然可以在一定程度上解決建筑工程造價預測所面臨的小樣本問題,但模型參數少,容錯性小,不適用于方案設計初期的工程造價預測[7-8].
支持向量機算法(SVM)是基于VAPNIK等[9]建立的統計學習理論(SLT)發展而來的.由于該算法引入了結構風險最小化原理和核函數,因此,與神經網絡等傳統的機器學習相比,其在小樣本學習和非線性問題上表現突出,泛化能力強[10-11]. 由于SVM訓練的復雜性,因此,以降低訓練時間和計算復雜性的SVM改進算法的研究居多,如塊處理算法、SMO算法等[12-13].最小二乘支持向量機(LS-SVM)也是SVM的一種改進算法,用于解決SVM面臨的維數災難,該算法在一定程度上保證SVM預測的魯棒性和精度的同時,可有效提高機器學習的效率[14-15]. SVM和LS-SVM在工程造價預測應用上各有優劣,研究者大多分別基于SVM和LS-SVM展開預測,很少對比分析兩者的預測效果,以選出較為合理的預測模型[16-17].
本研究通過主成分分析將降噪處理的樣本數據分別導入到“SVM”和“LS-SVM”模型中進行訓練和預測,并對預測結果進行對比分析,進而選出較為合理的預測模型;另外,由于應用SVM算法進行預測時,懲罰系數和核參數等的設定對預測結果影響較大[18-19],因此,本研究將通過參數尋優進一步優化模型的預測效果.
1支持向量機原理
1.1標準支持向量機
支持向量機(SVM)理論是從線性可分情況下的最優分類線[20]發展而來,可以很好地解決建筑工程造價預測所面臨的小樣本、非線性問題. 最優分類線不僅能夠將兩類不同的樣本分開,且分類間隔最大. 最優分類線上升到多維空間上就變成了最優分類面,尋找最優分類面是一個二次規劃問題. 支持向量機在尋找最優分類面時,通過運用核函數將原始空間上線性不可分的樣本映射到高維空間進行分類,并運用損失函數引入容錯率. 因此,SVM的優化問題為:

s.t.y1(ωxi+b)=1-εi,
(1)
i=1,2,…,l;εi≥0,
其中,ω為權值系數;b為常值偏差;C為懲罰系數;εi為松弛因子.定義Lagrange函數:


(2)
原二次規劃問題轉化為:


(3)
1.2最小二乘支持向量機
LS-SVM是SVM的一種改進算法,在優化問題的處理上對支持向量機進行了改進,選取了不同的損失函數,將不等式約束條件變為等式約束,因此,LS-SVM的優化問題為:

s.t.yi(ωxi+b)=1-εi,
(4)
i=1,2…,l;εi≥0,其中,ω為權值系數;b為常值偏差;C為懲罰系數;εi為松弛因子.
定義Lagrange函數:

(5)
令ω,b,εi,αi的偏導數等于0,并消去ω,ε可得:

(6)
其中,
ZT=[y1φ(x1),y2φ(x),…,ylφ(xl)],
YT=[y1φ(x1),y2φ(x),…,ylφ(xl)],
IT=[1,2,…,l],αT=[α1,α2,…,αl].
且根據mercer條件[21-22],存在核函數
K(xi,xj)=φ(xi)Tφ(xj)T,
(7)
因此,最小二乘支持向量機的決策函數為:

(8)


(9)
其中, σ為核函數的參數,與C同在Matlab里通過參數尋優得到.
2住宅工程造價預測指標選取
為了實現“方案設計初期的住宅建筑的毛坯造價”的預測,該階段建設工程的相關信息量較少,往往只能初步確定該工程的結構與基礎等參數.通過查閱文獻、結合相關專家意見,并參考文獻[25],本研究選取了用于住宅工程造價預測模型構建的指標,所選指標均反映方案設計初期建設工程的基本特征,具體如表1所示.
3基于SVM和LS-SVM的預測模型對比分析
3.1案例說明
本文共收集了26個杭州地區的住宅項目(分別來自不同的地產公司和施工企業).因建筑面積過小的項目其造價易受偶然因素影響,在綜合考慮專家意見的基礎上,淘汰了其中1個建筑面積小于3×104m2的建設項目,將其余25個項目作為樣本,對建筑工程造價預測模型進行仿真分析.
根據表1編號,25個樣本工程的造價數據的指標分布如表2所示.
表1住宅工程造價預測指標

Table 1 The indicators of residential construction
注由于本文是針對建設項目方案設計初期工程造價的預測,因此將文獻[25]中的“土方處理難度”指標刪除,同時補充“施工環境”指標,該指標信息在項目前期較易獲取.
表2樣本工程造價數據分布

Table 2 Cost of engineering data from different cases
續表2

樣本①②③④⑤⑥⑦⑧⑨⑩215.880.331192.8300112421216072211.812.6912232.80.17-0.0612133322306236.494.345374.23.90.17-0.0631231342391245.753.4952233.90.02-0.1611232342460255.972.7143433.90.070.1611232422701

3.2主成分分析
對25個樣本工程的輸入集指標數據進行主成分分析,每個樣本有15個變量,構成一個25×15階矩陣:

(10)

表3主成分的特征值、貢獻率和累計貢獻率

Table 3 The eigenvalue, contribution rate and the cumulative
各主成分的特征值和貢獻率從z1到z15依次減小. 一般累計貢獻率Qi≥85%時,認為前i個主成分可以代替原始指標信息[16-17,20]. 本研究選取前9個主成分(Q=93.3961%)作為建筑工程造價預測模型的新輸入集,用于“基于SVM和LS-SVM的預測模型對比分析”.
3.3預測模型對比分析
首先,將25個樣本進行分離,選取前20個樣本作為訓練樣本,剩下的5個樣本作為測試樣本;其次,在Matlab環境中,將處理后的輸入集數據和輸出集數據分別導入到SVM和LS-SVM預測模型中,2種支持向量機的起始參數均為:懲罰系數C=100,核函數的寬度系數σ2=0.25;最后,分別導出2種支持向量機的預測結果并進行對比分析. 其中計算機的運行環境為:(1)配置:4 G內存,intel酷睿處理器(i3,2370m),英偉達顯卡(GT610M,1 G);(2)軟件:Matlab 2009b,預裝SVM與LS-SVM工具箱.
圖1所示分別為基于SVM和LS-SVM的預測模型的預測曲線.

圖1 基于SVM和LS-SVM的住宅工程造價預測效果圖Fig.1 Forecast effect of housing project cost basedon SVM and LS-SVM
3.3.1精度分析
如表4所示,基于SVM的預測模型預測絕對誤差最大為53元·m-2,最小為-163元·m-2,基于LS-SVM的預測模型預測絕對誤差最大為159元·m-2,最小為-204元·m-2;基于SVM的預測模型預測相對誤差最大為2.15%,最小為-6.03%,基于LS-SVM的預測模型預測相對誤差最大為6.46%,最小為-7.78%.
從以上數據中可發現:(1)基于SVM和LS-SVM的住宅工程造價預測的相對誤差均控制在±10%以內,滿足實際生活中建筑工程造價快速估算的精度要求[24-25,27];(2)基于SVM的住宅工程造價預測模型在相對誤差控制上表現更好,因此,其預測精度更高.
3.3.2魯棒性分析
本研究將通過2種支持向量機模型預測相對誤差的極差分析,來進一步分析2種支持向量機模型預測的穩健度.
由表4可知,基于SVM模型預測的相對誤差分布區間為[-6.03%,2.15%],其極差為最大值-最小值,即2.15%-(-6.03%)=8.18%. 基于LS-SVM模型預測的相對誤差分布區間為[-7.78%,6.46%],其極差為6.46%-(-7.78%)=14.24%.
通過以上分析,可知“基于LS-SVM模型預測的相對誤差”的極差相較于“基于SVM模型預測的相對誤差”極差要大74.8%,因此,基于SVM的預測模型的預測精度更穩健.
3.3.3預測時間分析
由表4可知,基于SVM預測模型的預測時間為5.43 s,基于LS-SVM預測模型的預測時間為3.45 s;相較于前者,預測時間縮短了36.46%.因此,基于LS-SVM預測模型的預測速度較快,很好地實現了對標準SVM數據處理的算法優化,對SVM所面臨的數據災難進行了降維.
通過以上關于基于SVM和LS-SVM的模型的預測效果對比分析,發現基于LS-SVM的預測模型預測速度較快,其預測時間相較于SVM模型縮短了1.98 s,效率提升36.46%,但是該模型預測精度較低,預測結果也不夠穩健.
考慮到現實生活中,“1.98 s”對于一次住宅工程的造價預測影響較小,筆者認為“基于標準SVM的住宅工程造價預測模型”更適用于方案設計初期工程造價的預測.
表4基于SVM和LS-SVM模型的預測效果對比
4預測模型參數尋優
相關研究表明,影響支持向量機性能的關鍵因素是核函數的參數σ,懲罰系數C,而不是核函數的類型[21-22]. 因此,選擇合適的核函數參數和懲罰系數至關重要. 由于懲罰系數和核函數參數之間是相互獨立的,為此,本文以徑向基函數為核函數的SVM為例,采用“控制變量法”實現參數的尋優.
將25個樣本進行分離,選取前20個樣本作為預測模型的訓練樣本,剩下的5個樣本作為測試樣本;之后,將處理后的數據導入到SVM預測模型中;此時,分別調整該模型所選的參數,并對預測效果進行評估.
4.1懲罰系數尋優
控制核參數σ=0.5不變,懲罰系數C的取值為[50,150]中10的倍數. 本文以預測模型預測的“絕對誤差的絕對值的均值(即平均預測偏差)”為縱坐標,衡量模型預測效果與參數選擇的關系.
陳小華:是58到家旗下子公司,未來自己融資,自己做IPO。在中國的公司里面,一直講一拆就散,一合就死,戰略協同很難做。不過未來58到家的子公司,都會是58到家集團的一分子,所有戰略都會協同,各個業務的CEO首先是集團的高管,其次才是業務的CEO。
從圖2可見,隨著懲罰系數C的增大,預測模型的平均偏差逐漸減小,即模型預測效果逐漸變好. 但模型結構風險最小化趨向于經驗風險最小化,因此在模型預測精度提高的同時,其泛化能力卻逐漸降低,且模型復雜度逐漸提高. 為此,本文選取懲罰系數C=100作為模型參數尋優的結果.

圖2 懲罰系數C與預測平均偏差的關系Fig.2 Relationship between penalty coefficient Cand average deviation
4.2核參數尋優
控制懲罰系數C=100不變,核參數的取值為[0.1,1.0]中0.1的倍數. 本文以預測模型預測的“絕對誤差的絕對值的均值(即平均預測偏差)”為縱坐標,衡量模型預測效果與參數選擇的關系.
如圖3所示,隨著核參數的增大,預測模型的平均偏差先減小后增大,即模型預測效果先逐漸變好后又逐漸變差. 當核參數取某一中間值時,預測模型表現出最佳的預測效果. 根據圖3核參數與預測平均偏差的關系,本文選取σ=0.4為模型核參數尋優的結果.

圖3 核參數與預測平均偏差的關系Fig.3 Relationship between kernel parameterand average deviation
通過以上分析,所獲取的最優參數組合為:懲罰系數C=100,核參數σ=0.4.
4.3最優參數組合下預測模型仿真分析
取25個樣本中的前20個作為訓練樣本,其余5個作為測試樣本;在Matlab環境中,將經PCA處理后的數據導入到SVM模型中,設定參數:懲罰系數C=100,核參數σ=0.4. 預測結果如表5所示,可知懲罰系數C=100,核參數σ=0.4時,模型預測相對誤差在[-5.70%,2.07%]. 預測精度和穩健度較核參數σ=0.5時有進一步提高.
表5最優參數組合下模型的預測效果

Table 5 Prediction effect of the optimal parameter
5結論
基于SVM和LS-SVM 2種模型在造價預測上的優劣分析,將通過主成分分析進行降噪處理的樣本數據分別導入到“SVM”和“LS-SVM”模型中進行訓練和預測,并對預測結果進行對比分析,選取較為合理的預測模型,更好地實現方案設計初期的住宅工程造價預測.通過對比分析,發現基于標準SVM的預測模型的預測精度較高,且結果穩健. 另外,通過控制變量法實現了對標準SVM模型的懲罰系數C和核參數σ值的選取,進一步論證了懲罰系數與核參數對SVM性能的重要影響.
參考文獻(References):
[1]毛義華.建筑工程經濟[M].杭州:浙江大學出版社,2012:145.
MAO Yihua.Construction Economy[M]. Hangzhou:Zhejiang University Press, 2012:145.
[2]薛向陽.一種改進的線性回歸預測模型[J].科學技術與工程,2010,10(12):2970-2973.
XUE Xiangyang. Improved linear regression forecast model[J].Science Technology and Engineering,2010,10(12):2970-2973.
[3]KAYACAN E, ULUTAS B, KAYNAK O. Grey system theory-based models in time series prediction[J]. Expert Systems with Applications,2010,37(2):1784-1789.
[4]余昕.基于數據挖掘的時間序列預測的研究與應用 [D]. 北京:中國地質大學,2011.
YU Xin. Research and Application on Time Series Prediction Based on Data Mining Method[D]. Beijing:Chinese University of Geosciences,2011.
[5]陳智勇, 廉海濤, 吳星星.一種改進的神經網絡分支預測技術[J].微電子學與計算機,2014,31(11):152-155.CHEN Zhiyong, LIAN Haitao,WU Xingxing. An improved branch prediction based on the neural network[J]. Microelectronics and Computer,2014,31(11):152-155.
[6]祝文娟.基于遺傳模糊神經網絡的建筑工程造價估算模型[D].焦作:河南理工大學,2010.
ZHU Wenjuan. Building Project Cost Estimate Model Based on Genetic Fuzzy Neural Network[D]. Jiaozuo:Henan Polytechnic University,2010.
[7]YIN M S. Fifteen years of grey system theory research: A historical review and bibliometric analysis[J]. Expert Systems with Applications,2013,40(7):2767-2775.
[8]孫濤.灰色系統預測理論在建筑工程造價中的應用 [D].西安:西北工業大學,2006.
SUN Tao. Gray Forecast Theory in the Construction Costs[D]. Xi’an: Northwestern Polytechnical University,2006.
[9]VAPNIK V N. Statistical Learning Theory[M]. New York: John Wiley,1998:34-42.
[10]ALDRICH C, AURET L. Statistical learning theory and kernel-based methods[C] // Unsupervised Process Monitoring and Fault Diagnosis with Machine Learning Methods. London: Springer , 2013: 117-181.
[11]蔣麗娜.基于支持向量機的建筑工程造價預測研究[D]. 邯鄲: 河北工程大學,2009.JIANG Lina. Research on the Predict of the Construction Cost Based on Support Vector Machine[D]. Handan: Hebei University of Engineering,2009.
[12]白鵬,張喜斌,張斌. 支持向量機理論及工程應用實例 [M].西安:西安電子科技大學出版社, 2008:13-36.
BAI Peng, ZHANG Xibin, ZHANG Bin. Support Vector Machine Theory and Engineering Application Examples[M]. Xi’an:: Xidian University Press, 2008:13-36.
[13]PENG X. TSVR: An efficient twin support vector machine for regression[J]. Neural Networks,2010,23(3):365-372.
[14]SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letter,1999(3):293-300.
[15]邢永忠.最小二乘支持向量機的若干問題與應用研究[D].南京: 南京理工大學,2009.
XING Yongzhong. A Number of Problems and Applications of the Least Squares Support Vector Machine[D]. Nanjing: Nanjing University of Science and Technology, 2009.
[16]彭光金,俞集輝,韋俊濤,等.特征提取和小樣本學習的電力工程造價預測模型[J].重慶大學學報,2009,32(9):1104-1110.
PENG Guangjin, YU Jihui, WEI Juntao, et al. Cost forecast model for power engineering based on feature extraction and small-sample learning[J].Journal of Chongqing University,2009,32(9):1104-1110.
[17]申瑞娜,曹昶,樊重俊.基于主成分分析的支持向量機模型對上海房價的預測研究[J].數學的實踐與認識,2013,43(23):11-16.SHEN Ruina, CAO Chang, FAN Chongjun. Support vector machine model based on principal component analysis for the Shanghai real estate price of prediction[J]. Mathematics in Practice and Theory,2013,43(23):11-16.
[18]劉健. 基于支持向量機的在線學習算法研究[D]. 杭州:浙江大學,2013.
LIU Jian. Study on the Online Learning Algorithm Based on Support Vector Machine[D]. Hangzhou: Zhejiang University,2013.
[19]顧燕萍,趙文杰,吳占松.最小二乘支持向量機的算法研究[J].清華大學學報:自然科學版,2010(07):1063-1066,1071.
GU Yanping, ZHAO Wenjie, WU Zhansong. Algorithm for least squares support vector machine[J]. Journal of Tsinghua University :Natural Science Edition, 2010(07):1063-1066,1071.
[20]ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews: Computational Statistics,2010,2(4):433-459.
[21]CRISTIANINI N, SHAWE-TAYLOR J. An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods [M]. Cambridge: Cambridge University Press,2000:30-34.
[22]BOOLCHANDANI D, SAHULA V. Exploring efficient kernel functions for support vector machine based feasibility models for analog circuits[J].International Journal on Design Analysis and Tools for Circuits and Systems,2011,1(1):1-8.
[23]王東, 史曉霞, 尹交英. 不同核函數的支持向量機用于空調負荷預測的對比研究[J].電工技術學報,2015(S1):531-535.
WANG Dong, SHI Xiaoxia, YIN Jiaoying. Different kernel function of support vector machine for air conditioning load forecasting contrast[J]. Electrotechnical Journal,2015(S1):531-535.
[24]PRAJAPATI G L, PATLE A. On performing classification using SVM with radial basis and polynomial kernel functions[C]// Emerging Trends in Engineering and Technology(ICETET)- 3rd International Conference on IEEE,Washington:IEEE Computer Society,2010: 512-515.
[25]楊錦躍.基于BP神經網絡的建筑工程造價預測研究[D]. 杭州:浙江大學, 2015.
YANG Jinyue. BP Neural Network Based on the Construction Project Cost Prediction Research[D]. Hangzhou: Zhejiang University, 2015.
[26]陳佩. 主成分分析法研究及其在特征提取中的應用[D]. 西安:陜西師范大學,2014.
CHEN PEI. Principal Component Analysis Method and its Application in Feature Extraction [D]. Xi’an: Shaanxi Normal University, 2014.
[27]雷雨.基于改進 BP神經網絡的工程造價估算研究[D].西安:西安建筑科技大學,2013.
LEI Yu. Engineering Cost Estimation Research Based on Improved BP Neural Network[D].Xi’an: Xian University of Architecture and Technology,2013.

Forecasting the costs of residential construction based on support vector machine and least squares-support vector machine. Journal of Zhejiang University(Science Edition), 2016,43(3):357-363
Abstract:To forecast the costs of a residential construction rapidly and accurately at the initial stage of construction that lacks relevant information, in view of the strengths and weaknesses of previous approaches, we choose support vector machine (SVM) and principal component analysis (PCA). Firstly, a residential project cost forecasting index set is selected; The data of the input index is then analyzed and the correlation is eliminated by PCA; Thirdly, the processed data are imported into the standard support vector machine and trained by the least squares support vector machine model. The prediction results are compared and analyzed, and then a more reasonable prediction model is adopted; Finally, the prediction result of the model is optimized by model parameter optimization. Experiments show that the relative error of the prediction model is controlled within ±7%, and the result is stable.
Key Words:construction cost forecasting; principal component analysis; support vector machine; least squares support vector machine
中圖分類號:TU -9
文獻標志碼:A
文章編號:1008-9497(2016)03-357-07
作者簡介:秦中伏(1965-),ORCID:http://orcid.org//0000-0003-3894-1263,男,副教授,博士,主要從事人工智能、建筑經濟等研究,E-mail:qinzhongfu@zju.edu.cn.*通信作者,ORCID:http://orcid.org//0000-0001-5309-060X,E-mail:0012078@zju.edu.cn.
基金項目:國網浙江省電力公司經濟技術研究院資助項目(12-513205-007,名稱:輸電線路工程造價預測快速實現).
收稿日期:2015-11-30.
DOI:10.3785/j.issn.1008-9497.2016.03.017