摘 要
結算是根據清單招投標文件、圖紙和工程實際,在竣工驗收后結合變更、簽證等憑證,做出符合實際的審核結果。本文介紹了數據挖掘技的概念,探討了電網建設項目利用結算數據進行數據挖掘,促進概算編制更加合理。
【關鍵詞】電網建設 竣工結算 數據挖掘 批準概算
合理編制概算能實現成本控制、達到結算較批復概算降低合理的目標。本文探討了對電網建設項目的竣工結算數據進行數據挖掘,預測概算,促進概算編制合理化,達到結算較概算降低率在合理區間內。
1 數據挖掘概念及方法
1.1 數據挖掘概述
數據挖掘由數據清理、集成、選擇、變換、挖掘、模式評估、知識表示等幾個步驟組成,通過對大量數據進行提煉、分析與轉換,最終獲取關鍵的目標值,其價值在于利用數據挖掘改善預測模型。
1.2 數據挖掘技術
1.2.1 數據分類
通過對樣本數據進行分析,確定數據對象的特征,建立合理的分類模型,找出數據對象的共同點,并按分類標準對數據進行分類,常用的分類方法有決策樹、統計分析等。
1.2.2 關聯分析
關聯是指在數據挖掘中找出目標數據的相關關系,其目的是找出每一組數據間隱藏的關聯規律,通過置信度、相關系數等參數描述關聯性強弱。
1.2.3 聚類分析
聚類分析是將離散、無明顯規律數據按一定的規則進行劃分,使屬于同一類別的數據間的相似性大,不同類別中的數據間的相似性小,發現數據的分布模式及數據屬性之間的相互關系,增強了人們對數據的認識能力。
1.2.4 時間序列分析
分析具有時間變化特性的數據集合,挖掘數據變化的規律特征,研究數據序列的周期性、趨勢等。
1.2.5 偏差分析
偏差分析是檢測數據集中間顯著不同于其它數據的對象,尋找觀測結果與參照值之間有意義的差別,發現屬于背景噪聲的數據。偏差分析能發現不滿足規則的特例、分類中的反常實例等等。
1.2.6 預測
通過分析數據對象之間的變化規律,建立科學的預測模型,對數據未來變化進行計算分析。常用的預測方法有回歸分析、神經網絡、模糊邏輯、遺傳算法等。
1.3 數據挖掘的一般步驟
數據挖掘的一般過程通常包括3個階段:數據準備、數據挖掘、結果評價與表達。
數據準備階段,提取目標數據集,完成數據選擇、噪音消除、缺失數據推算、無效數據刪除、數據值分類等準備工作,經過預處理數據進行平滑、聚集、概化、規范化、特征構造等方法形成適合數據挖掘的形式。數據挖掘階段,結合統計分析、決策樹、粗糙集、神經網絡、遺傳算法等常用數據挖掘算法,挖掘數據之間潛在的規律和特征進行建模。結果評價與表達階段,對模型進行準確性、可理解性、實際性能等進行評估,確定有效模型,利用數據挖掘的結果。
1.4 常用的數據挖掘方法
數據挖掘與統計學、模式識別、數據庫和數據倉庫、算法、高性能計算等技術相結合形成不同的挖掘技術。常用的數據挖掘技術包括統計分析方法、決策樹方法、神經網絡方法、模糊邏輯方法、遺傳算法、粗糙集方法。
2 基于數據挖掘技術的電網建設結算數據預處理
2.1 結算數據統計、分類
根據地市公司電網建設實際,目前地市供電公司主要負責35kV、110kV和220kV電網建設工程,工程涉及類型較多、數量大。基于決策樹方法的結算數據分類模型,能夠將大量的結算數據先按照電壓等級排列到,然后根據工程類型、建設性質實現逐層劃分。
結算數據通過決策樹的統計、分類處理,有助于進行有效的樣本篩選和分類,準確定位重點分析數據對象的效率,為結算數據分析工作提供全面的數據來源。
2.2 結算數據指標確立
通過對電網建設工程結算數據進行分析,找出對結算數據影響最大的部分指標,構成指標集。
2.2.1 結算數據變化偏差分析
結算變化偏差分析是通過研究多項工程實際結算數據的變化情況,將整體結算費用變化分解為若干指標變化的集合,量化各項指標的變化情況及對整體變化的影響程度。輸變電工程結算數據由多個指標在不同程度上反映,各指標之間的相關性很難直觀確定,屬于高緯度數據,在進行統計分析時具有很大的復雜性。主成分分析法能在盡量減少信息丟失的情況下,對高維數據進行降維,將多項影響指標轉化為少數幾個關鍵指標。
2.2.2 數據屬性特征選擇
(1)變電站工程屬性:主變容量、主變臺數、各等級電壓出線回數、各等級電壓出線形式、無功容量、各等級電壓母線分段形式、中性點接地方式、短路電流水平、控制電纜長度、電力電纜長度、占地面積、建筑面積、構架形式、各類型場地平整土方量、擋土墻體積、護坡面積、各類地基處理體積等。
(2)架空送電線路工程相屬性:單回長度、雙回長度、地形系數、導線型號、地線型號、平均檔距、各形式基礎體積、鐵塔數量、接地土石方、各類型跨越情況等。
(3)電纜送電線路工程屬性:電纜型號、電纜數量、電纜敷設形式、電纜終端型號、電纜終端數量等。
(4)通信工程屬性:光端機設備型號、光端機數量、PCM型號、PCM數量、各型號配線架數量、普通光纜型號、普通光纜數量等。
(5)光纜線路工程屬性:光纜型號、光纜長度、地形系數、張力場個數等。
由于大部分與數據挖掘的任務是不相關的,過多的屬性將導致數據挖掘過程花費時間長以及計算結果失真,因此首先需要對每種類型工程的屬性進行過濾,提高挖掘結果的合理性。對于原始屬性中屬于同一類性質的屬性進行屬性轉換等方式進行壓縮,比如架空送電線路工程中地形屬性含有峻嶺、山地、丘陵、平地、沼澤、河網等,可以通過各自占比并加權平均來表示。對于屬性中非數量的數據需要進行量化處理,在原始數據中如導線型號、光纜型號、電壓等級等定性屬性,導、地線型號屬性以截面積計算,光纜型號屬性以芯數考慮。不同的工程類型,取決的屬性不存在相關性,不歸為一類數據集。電壓等級存在三種情況,可設定220kV為1,110kV為2,35kV為3。建設性質存在三種情況,可設定新建為1,擴建為2,改造為3。
2.2.3 數據歸一化
采用標準數據格式才能夠保證算法的可執行和準確性,因此需對原始數據進行歸一化處理,使不同屬性值之間具有可比性。
2.2.4 數據去噪
由于電網建設工程本身的特點,積累下來的結算數據記錄中存在某些異常,偏離期望值的孤立點,因此必須對這些異常噪聲數據進行剔除,一般采用聚類算法對異常數據進行去噪進行訓練,否則提取結算數據間的規律將容易導致結果不收斂,模型偏離實際。
3 基于數據挖掘技術的電網建設概算預測
根據結算數據準備、分類、指標建立、數據轉換等工作,利用智能算法技術,建立預測模型,將初步設計的新工程的關鍵指標作為輸入量,得到輸出概算,為概算編制及評審工作提供參考,促進概算編制更加合理。
對結算數據應用數據挖掘技術,開展電網建設工程概算預測按如下順序。
結算數據收集、數據分類、數據轉換、數據處理、智能算法、模型建立、工程指標、概算預測。
通過分析大量電網建設工程結算數據,挖掘結算變化的內在規律,以結算數據為研究對象,通過統計分析、數據轉換、數據去噪等數據預處理技術,結合神經網絡技術、模糊數學、遺傳算法、支持向量機等預測等方法建立有效的預測模型,對概算進行有效的預測。
4 結論
在電網建設工程的概算預測研究中,由于工程指標多,指標間關系復雜,概算預測比較困難。通過對電網建設工程結算數據進行數據挖掘,將原有指標進行合并降維,得到關鍵指標,去掉奇異噪聲數據,對數據進行清洗,利用智能算法建立預測模型,得出合理的概算,控制工程投資在合理范圍內,最終達到結算較概算降低率控制在合理區間內。
參考文獻
[1]JiaweiHan,MichelineKamber,JianPei,范明,孟小峰譯.數據挖掘概念與技術[M].北京:機械工業出版社,2012.
[2]王明星,劉鋒.數據挖掘常用分類算法研究[J].電腦知識與技術,2013(09):7667-7668.
[3]王東坡.基于數據挖掘技術的水利工程管理[J].吉林水利,2014(06):38-39.
[4]牛東曉,劉金朋,許超晨,張宏運.輸變電工程造價管理中的數據挖掘技術應用研究[J].華東電力,2012(04):541-542.
[5]叢珅.淺析基于數據挖掘的數字檔案信息管理研究[J].民營科技,2014(01):29-30.
[6]秦莉花,李晟,陳曉陽等.數據挖掘的分類、工具及模型的概述[J].現代計算機,2013(11):20.
[7]王穎.數據挖掘技術在電力線路工程造價管理中的應用研究[D].重慶:重慶大學,2008:8-9.
作者簡介
艾濤(1985-),男,碩士研究生學歷。現為國網湖北省電力公司黃岡供電公司工程師,從事電網建設技術工作。
作者單位
國網湖北省電力公司黃岡供電公司 湖北省黃岡市 438000