基于數據挖掘技術的輸電工程造價預測模型的建立與實現

2018-03-07 08:04:46耿鵬云安磊王鑫

現代電子技術 2018年4期

耿鵬云+安磊+王鑫

摘要：針對目前輸電工程造價技術指標過多，影響因素比較復雜，導致輸電工程造價估算困難，設計概算審查難以達到理想效果的問題。建立基于數據挖掘技術的輸變電工程造價預測模型，其采用數據挖掘技術來判斷不同工程技術指標對工程造價所造成的影響級別，同時能夠自動查詢錯誤、異常或者不合理的數據，降低了人為因素的影響，并通過支持向量機來對樣本數據進行樣本學習，從而建立輸變電工程造價預測模型。測試結果表明，該模型預測結果相對誤差低，其能夠準確預測輸變電工程的造價，且對于造價預算具有一定的參考價值。

關鍵詞：數據挖掘；輸電工程；造價預測模型；支持向量機；樣本學習；概算審查

中圖分類號： TN913?34； TP393 文獻標識碼： A 文章編號： 1004?373X（2018）04?0157?04

Abstract： As there are too many cost technical indicators and complicated influencing factors in the current power transmission project， it is difficult to evaluate the cost of power transmission project and achieve the desired effect of budget review. Therefore， a cost forecast model for power transmission and transformation project based on data mining technology is established. The data mining technology is used in the model to judge the impact level of different engineering technical indicators on project cost， with which the wrong， abnormal or unreasonable data can be automatically queried， the impact of human factors can be reduced， and the sample learning of the sample data can be performed by means of support vector machine. The test results show that the forecasting results of the model have low relative error， and the model can accurately predict the cost of power transmission and transformation project， which have a certain reference value for other cost budgets.

Keywords： data mining； power transmission project； cost forecast model； support vector machine； sample learning； budget review

由于通過輸變電工程概算定額來建立造價指標方案有限，同時實際執行中又會因技術和工藝的更新換代而不斷發展，設計概算審查難以達到理想效果[1?4]。因此，建立一個科學有效的輸變電工程造價預測模型來對輸變電工程的造價進行預測非常重要。

本文建立了基于數據挖掘技術的輸變電工程造價預測模型，采用數據挖掘技術來判斷不同工程技術指標對工程造價所造成的影響級別。同時能夠自動查詢錯誤、異常或者不合理的數據，降低了人為因素的影響。通過支持向量機來對樣本數據進行樣本學習，從而建立輸變電工程造價預測模型。

1 輸電線工程造價技術指標體系建立

通過主成分以及偏相關的分析方法，并利用SPSS軟件對某輸電線工程的歷史數據進行分析[5]，尋找出對輸變電工程造價影響較大的技術指標，從而構建出其預測模型的技術指標。

1.1 主成分分析法

主成分分析法指在保證低數據損失情況下，將高維變量空間維數降低的一種方法。首先，需要對數據進行預處理以保證數據挖掘的執行及結果的正確性。可先通過屬性選擇方法對數據集進行壓縮，將電力部門所收集到的原始數據中屬性與數據挖掘任務無關的數據剔除掉，并通過屬性轉換和量化處理等進一步壓縮數據。處理后得出最后的數據集有27個屬性，144條記錄；其次是對數據做標準化處理，這里主要采用均值標準方差法，即先求出各個指標的標準差，然后將標準差作為新的樣本數據，如式（1）～式（3）所示：

式中：[Xij]表示數據中第i個工程所相對的第j項屬性的值；[Zij]表示第i個工程所相對的第j項屬性的標準值。經過標準化處理后得到新的數據集維數為27×144。

利用SPSSI軟件對數據集進行主成分分析，得出12個能夠代表原始數據結構的屬性，包括基材、桿塔數、桿塔鋼材、混凝土、土石方、線路長度、鐵塔數、單回長度、接地鋼材、汽車、人力運輸距離以及導線數等。

1.2 偏相關分析法

偏相關分析是在除去其他變量的影響后來探究兩個變量之間的關系，通過SPSS軟件對以上屬性做偏相關分析，以0.4作為偏相關系數的界限，篩選出9個屬性，如表1所示。將篩選出的屬性作為輸電線工程造價預測的基本屬性，得到一個9×144的數據集。

2 基于支持向量機的造價預測模型endprint

2.1 支持向量機理論

支持向量機是Vapnik等人提出的一種機器學習方法，其在小樣本學習、非線性以及高維模式識別上具有較大的優勢，適用于數據挖掘[6?8]。支持向量機的主要工作原理為升高維數及線性化處理，假設本訓練集D：

2.2 輸變電造價模型建立

在所有相似的144個工程中選取其中20個工程的數據作為樣本來進行訓練，并選取8個指標作為支持向量機的輸入，輸出為單位靜態投資（萬元/km），如表2所示。另外，選取5個工程的數據作為測試數據以檢測本文樣本數據訓練得到模型的準確性。

在Matlab軟件中打開支持向量機軟件工具包，編制基于支持向量機的輸變電工程預測程序，并將訓練樣本數據輸入到支持向量機中進行訓練學習。同時將測試樣本數據作為輸入進行測試得到預測結果，如表3所示[10]。

由表3可以看出，前4個工程造價預期結果誤差較小，均在3%以內。而第5個工程由于土方石量較大，且汽車與人力運輸距離遠，造成誤差大。因此，該預測模型基本滿足輸變電工程預測要求。

為了對本模型的合理性進行驗證，本文在相同的數據樣本以及測試樣本下采用人工神經網絡進行仿真。上述8個指標作為輸入神經元，輸出為單位長度輸電線投資金額。在Matlab軟件中采用基于BP算法的神經網絡對樣本數據進行訓練學習，樣本誤差分析輸出結果如圖1所示。從圖1可以看出，樣本數據經過神經網絡模型訓練后，輸出值與實際值較為接近。緊接著對測試樣本進行測試，輸出結果見表4。從表4中可看出，采用人工神經網絡的預測模型所得到的預測值與實際值相對誤差較大，除了第三個工程預測值與實際值相對誤差在4%以內，其他工程均高達10%以上，相對誤差最高達18.34%。

由此可得，本文采用基于支持向量機的預測模型預測相對誤差較低，其能夠準確預測輸變電工程的造價，且對輸變電工程的造價預算有一定的參考價值。

3 結語

針對目前輸電工程造價技術指標過多，影響因素比較復雜，導致輸電工程造價估算困難，設計概算審查難以達到理想效果的問題。本文建立基于數據挖掘技術的輸變電工程造價預測模型，其采用數據挖掘技術來判斷不同工程技術指標對工程造價所造成的影響級別，同時能夠自動查詢錯誤、異常或者不合理的數據，降低了人為因素的影響。并通過支持向量機來對樣本數據進行樣本學習，從而建立輸變電工程造價預測模型。測試結果表明，該模型預測結果相對誤差低，其能夠準確預測輸變電工程的造價，對輸變電工程的造價預算有一定的參考價值。

參考文獻

[1] 楊永明，王燕，范秀君，等.基于灰關聯?神經網絡的電力工程造價估算[J].重慶大學學報，2013，36（11）：15?20.

YANG Yongming， WANG Yan， FAN Xiujun， et al. Cost estimation of power engineering based on grey relational neural network [J]. Journal of Chongqing University， 2013， 36（11）： 15?20.

[2] 張吉剛，梁娜.基于改進BP模型的我國社會物流總成本預測[J].統計與決策，2014（6）：61?63.

ZHANG Jigang， LIANG Na. The total cost prediction of China′s social logistics based on the improved BP model [J]. Statistics & decision， 2014（6）： 61?63.

[3] 周成杰.基于BP神經網絡的工程投資估算方法探討[J].鐵路工程造價管理，2015，30（5）：6?9.

ZHOU Chengjie. Discussion of project investment estimation method based on BP neural network [J]. Railway engineering cost management， 2015， 30（5）： 6?9.

[4] 郝勝蘭.基于模糊神經網絡的房產軟件項目成本估算研究[D].大連：大連海事大學，2012.

HAO Shenglan. Research on the cost estimation of real estate software project based on fuzzy neural network [D]. Dalian： Dalian Maritime University， 2012.

[5] 王蘇斌，鄭海濤，邵謙謙，等.SPSS統計分析[M].北京：機械工業出版社，2003.

WANG Subin， ZHENG Haitao， SHAO Qianqian， et al. SPSS statistical analysis [M]. Beijing： China Machine Press， 2003.

[6] 郭濤，馬林東，葛智平.基于EMD和神經網絡的短期電力負荷預測[J].電子設計工程，2013， 21（21）：105?106.

GUO Tao， MA Lindong， GE Zhiping. Forecasting of short?term power load based on EMD and neural network [J]. Electronic design engineering， 2013， 21（21）： 105?106.

[7] 馬立新，鄭曉棟，尹晶晶.基于粗糙特征量的短期電力負荷預測[J].電子科技，2016，29（1）：40?43.

MA Lixin， ZHENG Xiaodong， YIN Jingjing. Short?term load forecasting based on rough characteristic?component algorithm [J]. Electronic science and technology， 2016， 29（1）： 40?43.

[8] 杜軍崗，魏汝祥，劉寶平.基于PSO優化LS?SVM的小樣本非線性協整檢驗與建模研究[J].系統工程理論與實踐，2014，34（9）：2322?2331.

DU Jungang， WEI Ruxiang， LIU Baoping. Nonlinear cointegration test and error correction modeling based on LS?SVM optimized by PSO in small sample [J]. Systems engineering?theory & practice， 2014， 34（9）： 2322?2331.

[9] ACHIMUGU P， SELAMAT A. A hybridized approach for prioritizing software requirements based on K?means and evolutionary algorithms [J]. Computational intelligence applications in modeling and control， 2015， 575： 73?79.

[10] CHEN S， XU Z， TANG Y. A hybrid clustering algorithm based on fuzzy C?means and improved particle swarm optimization [J]. Arabian journal for science and engineering， 2014， 39（12）： 8875?8887.endprint