靳書棟,李 彥,劉宏志,康 方
(國網山東電力經濟技術研究院,山東濟南 250021)
隨著數字化與信息化技術的發展,全球的數據信息資源正在迅速增長,這也推進了各個領域的數字化進程。與此同時,我國電網的建設投資正逐年增加。故對電網工程造價數據加以監測,在保障工程質量、提高工程建設的智能程度等方面均具有重要意義[1-4]。電網工程異常數據的檢測問題,本質上就是數據的分類問題。對于該問題而言,擁有足夠數量的標記數據是獲得滿意學習性能的前提。在眾多的實際應用中通常較易獲得大量未標記的樣本,而對其進行標記則需要較大的成本開銷,所以主動學習更適用于此類應用場景。目前的研究中已提出了諸多主動學習的方法,包括單模式及批處理模式。在單模式主動學習中,分類器選擇單個樣本并在每一輪學習中查詢其標簽。而對于單模式主動學習而言,每次選擇和標記新樣本時均要重新訓練分類模型,這是一項復雜的工作。
該文針對工程造價的異常數據檢測這一應用場景,提出了一種基于改進SVM 的主動學習方法。考慮到數據的不確定性、多樣性及代表性,且無需交換節點間的信息,該方法引入了隨機預選的策略,并根據基于BIM 模型(Building Information Modeling)的建筑數據進行了分析驗證。
圖1 為該文設計的基于BIM 的數據估算系統。

圖1 基于BIM的數據估算系統
該系統具有以下功能:
1)模型信息與基于BIM 的項目估計原型相連接,進而可以從資源庫服務器中提取項目大綱與BIM 模型的基本信息。
2)具有性能成本、參考數據的數據庫以及成本估計算法。
3)根據現場工程數據的基本信息,可通過系統聯動,建立與數據庫的連接。
4)估算相似的成本與標準數據,并將其應用于算法以實現基于BIM 的初步估算系統。與現有基于BIM 的估算方法不同,該系統根據設計提出的備選方案及估算的總施工成本,通過初始設計階段的質量模型來支持決策[5]。
數據庫的結構與內容包括用于相似性能數據匹配的項目基本信息、實際工程造價及初步估算的建設成本指數。其中,實際數據包含了建筑、機械、電力、通信、土木工程和各明細類型的造價[6-7]。此外,數據庫還包括根據詳細的工作類型建立長期的維修計劃,以預測全生命周期成本的標準以及廢物處理、產品與實際折現率等成本的估算標準。為了利用這類數據,該文使用最常見且最為可靠的數據庫管理系統Oracle SQL Developer 來進行構建。
基于BIM 的估算系統應首先分析工程的需求,然后將需求應用到BIM 模型中[8-9]。而所生成的模型將被保存至存儲服務器中,估計所需的數據則會被解析并交付給原型系統,再通過數據庫中的算法引用交付的數據和設計替代輸入的數據。
整個系統的處理流程如圖2 所示。工程估計人員根據工程需求與BIM 模型信息,生成每個工程項目的基本信息及備選方案。系統選定的設計內容與數據庫鏈接得到類似的性能數據;然后將派生數據分配到現值中,使過去成本數據轉換為當前成本;最終,將實際建筑成本和標準化數據轉變為全生命周期成本的估算值。

圖2 系統處理流程
通過實施基于BIM 的項目估算系統,設計建設項目早期的決策過程如下[10]:首先根據項目需求設定總成本,并確定項目目標、樓層數、面積、區域與結構等基本要素;然后結合數據庫提取相似項目的建設成本,并應用估算算法得出總建設成本;隨后再通過估算及適當的成本比較來進行審查。若成本估算超過合理的建設成本或數據出現異常,則應告警提示采取限制措施。
在建立建筑成本數據庫的基礎上,該節對于工程造價數據中的異常數據分類方法進行了研究。由于工程數據具有多維屬性,因此基于概率分類器,可獲得條件概率為p(y∣xj,n)。通過多類邏輯回歸對條件概率進行建模[11],如下所示:
定義W={wk} 是需估計的模型參數。基于邏輯回歸模型的分類器通常用于主動學習。模型參數可通過最小化所有標記樣本的正則化對數似然來估計:
式中,yj,n是樣本xj,n的標簽;λ≥0 且為權重系數[12]。由于目標函數依賴于不同節點的標注數據,所以在分布式情況下無法直接在單個節點進行計算。但其可分散為:
式(4)是僅依賴于節點j的局部標記數據的局部目標函數[13]。對于式(3)的目標函數,使用以下兩步迭代來獲得分布式優化解,具體為:
其中,I(yj,n=k)是指標函數。當yj,n=k時,其值等于1;而當yj,n≠k時,其值等于0。需要注意,梯度只能根據節點j的局部標注數據計算。式(6)中,每個節點融合其相鄰節點的中間估計以獲得第i次迭代的最終估計。在此過程中,每個節點需要在開始融合之前向所有相鄰節點發送其中間估計。每個節點重復以上兩步,直到估計收斂,這樣就可以使不同節點的估計漸近收斂到目標函數的一致最小值。因此,該文算法提供了一個完全去中心化的場數據分類思路。通過該方法,每個節點可在不傳輸原始數據的情況下,在全局意義上訓練一個分類模型。將分布式樣本選擇策略與分布式分類算法相結合,得到該文設計的分布式主動學習方法過程,如圖3所示[14]。

圖3 主動式分類學習過程
該文基于改進SVM 方法的輸變電工程異常數據檢測算法,以軟件形式進行集成[15-16]。設計實驗從兩方面對軟件進行驗證:一方面是對于軟件算法的性能進行測試,并與常用算法進行對比;另一方面是進行工程數據檢測。
該文研究了基于分布式SVM 的異常數據分析方法的性能。實驗所使用的數據集為基于真實工程數據建模的BIM 數據集。在算法驗證時,隨機選擇每個數據集80%的未標記數據用于訓練,使用剩下20%的數據作為測試數據。為了模擬分布式情況,未標記的數據通過網絡均勻隨機分配到不同節點。
算法驗證的場景包括10 個節點(即獨立建筑項目)組成的網絡,每個節點連接到最近的4 個節點,然后以0.1 的概率隨機添加節點進行連接。該文選取了以下4 種方法以及SVM 算法,與所提的改進SVM 算法進行比較:
1)隨機算法。每一輪數據遍歷中,每個節點隨機選擇一個未標記的樣本進行異常數據分析。
2)分布式BvSB 算法。每一輪數據遍歷中,每個節點選擇一個具有最高BvSB 值的本地樣本進行異常數據分析。
3)集中式BvSB 算法。假設所有數據均收集在一起,集中式數據分析器在每個學習輪中選擇n個具有最高BvSB 值的樣本進行異常數據分析。
4)集中式All 算法。通過查詢所有未標記樣本的標簽,然后使用所有已標異常數據樣本訓練SVM分類器。

圖4 基于數據集1的算法對比結果

圖5 基于數據集2的算法對比結果
對于每種算法,該文在每個數據集上運行了多次重復實驗。從圖4 和圖5 中可以觀察到,改進SVM算法相比其他異常數據分類算法的性能優勢是顯而易見的。盡管優勢程度因不同數據集而異,但總體上改進SVM 算法優于其他異常數據分析算法。
該文使用基于BIM 數據的異常數據檢測方法進行驗證。表1 為工程施工方案的成本預測。

表1 工程施工成本預測
每種設計方案的成本預測與實際對比情況表明,建筑成本占設計方案1 總生命周期的84%以上,維護和拆卸成本的比例較小,即15.57%。設計方案2的建筑成本約占生命總周期成本的10.10%,其余大部分為維護、拆卸成本。兩種方案代表了實際工程中的典型情況,該方法對于不同方案的工程成本預測準確率能達到約95%,說明可以保證對不同方案、不同工程內容的造價數據進行準確檢測,并能夠精確定位不同工程項目的造價信息,從而為造價異常數據的甄別提供有力保障。
為解決電網建設過程中異常造價數據的檢測問題,該文使用BIM 模型建立基于模板數據與實際建設數據的建筑數據庫,并基于改進SVM 模型進行了異常數據的建設。實驗結果證明了該文方法的有效性。在實際工程建設中,隨著實際情況的不斷變化,工程建設及成本數據可能會有所波動。因此,在后續將側重于動態工程異常造價數據的檢測。