袁雄
株洲市盤龍湖建設投資開發有限公司 湖南株洲 412000
在大數據背景下,工程造價數據呈現出數據類型、數據來源和數據表現形式多樣化的特點,增加了工程造價數據的海量性和繁雜性,易對工程造價管理決策帶來諸多干擾因素。基于此,工程造價管理可以運用數據挖掘技術,提取出有價值、可靠性強的數據信息,輔助完成造價管理決策。工程造價數據挖掘流程主要包括數據獲取、數據清洗、數據建模分析三個環節,在數據挖掘過程中需要重點解決各個環節面臨的技術問題。
數據獲取是工程造價數據挖掘的前提條件,直接影響著數據挖掘算法計算結果的準確性。基于大數據環境下,工程造價數據獲取要重點解決數據來源問題。當前,大部分工程造價數據來源于實地調查,通過實地走訪獲得數據信息,從中選取可信度較高的信息[1]。但是,由于實地調查獲得的數據易受調研機構能力、調研人員素質、數據采集方式、數據選取標準等因素的影響,造成數據可靠性偏低。
在工程造價數據采集之后要進行海量數據清洗,抽取出適合數據建模分析的數據結構。在數據清洗中,系統會自動隨機抽取海量數據中的樣本數據,可能會出現數據錯誤、數據缺失等問題,降低數據的可用性和準確性。具體表現為:數據屬性不全、數據特征值缺失、數據格式不一致、數據表現形式不同、數據本身錯誤等[2]。
數據建模是工程造價數據挖掘的關鍵環節,需要采用適當的算法進行建模,提高數據分析的準確性,為工程造價決策提供依據。但是,由于工程造價具備多維復雜性的特點,數據形式多樣,表現形式各有不同,并且數據變化程度也不盡相同,所以增加了數據建模的難度,很難通過采用一種算法解決工程造價中所有類型價格信息的建模問題。
為解決數據獲取可靠性不足的問題,建議剔除實地調查方法,通過內部數據平臺與外部數據平臺采集數據,將數據可靠性控制在可接受的范圍內。
(1)內部平臺采集。建筑企業自主建立工程造價數據庫,在內部平臺上采集同類型工程項目的造價信息,將采集后數據信息導入新建的數據庫中進行備用,并將其轉換為直接可用的目標造價數據信息。在數據采集中,可以通過設置規范字段篩選出數據庫中相同字段的信息,提高數據采集效率。
(2)外部平臺采集。工程造價人員將本地數據庫對接相應的平臺接口,創建統一的數據交換格式,將外部平臺上的業務數據轉變為本地數據庫規范的數據格式,完成數據采集。外部平臺主要是指具有一定權威性的工程造價官方網站和專業化程度高的工程造價信息網等[3]。
針對數據清洗中存在的問題,可采用以下方法進行數據預處理。
(1)處理數據缺失。在數據抽取中,可以采用以下兩種方法解決數據缺失問題:①舍棄元組。在數據抽取后,若數據元組缺失值超過總樣本數量的40%時,則必須將元組舍棄,不考慮該元組對數據挖掘的影響;②中心度量值填充。在元組符合可用條件后,填充處理缺失數據,填充方法為中心度量值法。
(2)處理噪點數據。在處理噪點數據時結合工程造價數據的特點以及數據采集方式,采用分箱平滑法。由于工程造價變化受市場經濟總體變化的影響程度較高,其變化呈現出時間連續性的特點,在市場不發生較大波動的情況下,工程造價變化具有一定的規律性。所以,將工程造價數據的年度變化閾值范圍設置為20%,即超過平均值20%的數據視為噪點,需要在采樣區間內重新計算數據,修正數據。
(3)處理數據格式。造價人員可以建立起數據采集模板,運用采集模板處理符合模板格式要求的數據,以保證數據格式一致。如,人工單價費用模板格式為:①編號,格式“XXX”;②單價,格式“XX.XX”;③時間,格式“yyyy-mm-dd:hh:mm:ss”;④來源,格式“……”。
在工程造價中,材料費用占工程造價的比重最高,約為70%左右,這使得材料費用數據在工程造價決策中占據中重要地位。為此,本文重點研究材料價格的數據建模,結合材料數據的特點采用K-means聚類算法進行建模,并利用Hadoop技術解算模型。聚類算法具備操作簡便,能夠處理異構類型的大規模數據,且無需提前進行數據分類標簽,可以大幅度提高數據處理效率。該算法的運算流程為:①隨機抽取M個樣本,將樣本數據作為中心點,即M個中心點,將中心點存入一個文件中,作為全局變量;②依次采用Map函數、Combine函數、Reduce函數進行求解,迭代出最優解,最終解算出對應節點的多維坐標總和,求和后計算出樣本新的坐標值。例如,在復合硅酸鹽水泥采購中,共有20家供應商提供報價,單價范圍從316元-486元不等。采用聚類分析法生成初始數據集,比較數據集中每個樣本之間的距離,選擇與其他距離最遠的點作為初始中心點,重新分類數據,確定K值。通過數據建模,確定中心點共4個,分別為X1、X2、X3、X4對應4、3、3、10個聚類數量,對應的數值分別為316、402、486、427。由于X4對應最多的聚類數量,所以初步判定復合硅酸鹽水泥的市場真實價格為427元。
綜上所述,在工程造價管理中運用數據挖掘技術有利于輔助做出正確的投資決策。在運用數據挖掘技術時要重點解決數據獲取、數據清洗以及數據建模中的問題,完善數據挖掘技術應用流程。在數據挖掘后,工程造價管理人員可以根據數據建模得出的計算結果,分析數據的可靠性,篩選出最有價值的造價數據。