戴雄奇,王博彥,林 峰,常 田
(1.深圳市水務(集團)有限公司,廣東深圳518031;2.中國石油化工股份有限公司北京化工研究院,北京100013)
供水管網是城市不可或缺的基礎設施,具有隱蔽性、變化性大、復雜度高、材質多樣性等特性。爆管事件的頻發,對人民生活、工業生產、城市供水安全等帶來較大危害。城市供水管網存在例如管線老化嚴重、管理水平落后等問題,嚴重影響供水系統的安全運行。爆管事故不僅增加了企業的供水成本,還會損壞公共設施,妨礙交通,影響生活和生產秩序[1]。
管網發生爆管事故通常是內外因綜合作用的結果,影響因素眾多且復雜,大體上可分為物理因素(例如管徑、管材、管長、建設時間等)、環境因素(例如路面狀況、覆蓋面土質等)和運行狀況(例如水壓、維修記錄等)三大類[1-2]。通過整合供水管網基礎數據和運營數據,構建供水管網數據庫,以大數據分析算法為基礎建立爆管預測模型,從而對供水管網爆管率進行預測,并形成完善的供水管網資產優化管理體系,有助于為供水管網的更新和改造提供決策依據[2-3]。
目前,現有的管線評價多采用模糊理論、多元線性回歸、層次分析法等方法建立模型,存在主觀性較強、對數據質量要求高、適用于特定管網等不足。考慮到多數供水企業信息化程度較低,存在歷史數據記錄不完整、數據準確率不高、缺乏統一標準等問題[4],這些方法并不適合供水管網爆管模型分析[5-6]。
為了建立一個對數據質量要求低、適用范圍廣、準確性較高的供水管網爆管率預測模型[7],筆者采用機器學習方法,利用隨機森林算法建立模型,對城市供水管網爆管率進行預測。隨機森林是一種使用自助抽樣方式,隨機特征子集和采用投票進行預測,由多棵無關聯決策樹構成的模型系統。決策樹是根據數據的特征構造的樹狀結構,當輸入新的特征時,可以根據其構造好的結構做出一步步判斷,最后得到分類結果[7-8]。
模型建立的技術路線和流程見圖1。

圖1 建模路線Fig.1 Modeling routing
從供水管網的基礎數據庫中提取管線的基礎信息,包括管材、管線編號、管長、管徑、建設年份、運行壓力、地理位置、道路負荷、雜散電流、土壤腐蝕等;從城市供水管網的爆管數據庫中,提取爆管管線編號、爆管時間、爆管原因、爆管類型、爆管點坐標等信息。對獲取的數據依據以下原則進行預處理。
2.2.1 數據篩選
剔除非自然因素(第三方、人為)導致事故的爆管記錄,修正錄入錯誤,剔除明顯異常數據。
2.2.2 數據庫關聯
將供水管網的基礎數據庫和爆管數據庫按照管線編號或者空間位置進行關聯,匹配獲得每根管線的歷史爆管信息。
2.2.3 確定影響因子
為保證數據的準確性及完備性,選擇管齡、運行壓力、管徑、雜散電流、管材、道路負荷這6個基礎屬性作為發生爆管狀況的影響因子。
2.2.4 數字編碼
如表1所示,按照因子的數據屬性將其劃分為分類變量、連續變量兩類,將分類變量數字化編碼以便于代入模型運算,不同數字代表不同的數據類別。對于管線的歷史爆管信息,用0表示管線未發生過爆管,用1表示管線發生爆管。

表1 分類變量數字編碼對照Tab.1 Comparison of numeric encoding of classification variables
表1中,道路負荷依據屬性劃分為分類變量,將其數字化編碼代入模型運算。道路負荷是基于該地區綜合交通圖來定義每條路段的負荷,若在某路段下方鋪設管道,則把道路類型值賦給該管線;設鐵路、地鐵10 m范圍內為雜散電流的影響區域,若管線安裝在該區域內,則認為該管道可能會受到雜散電流的影響。預處理后的數據集示例如表2所示。

表2 管線數據集示例Tab.2 Sample pipeline data sets
應用R軟件建立模型,采用其中的Random Forest功能包。采用正、負樣本兩種方式選取樣本,樣本量比例為1 ∶1,即隨機選取1000個爆管數據(正樣本)和等量的未發生爆管的管線數據(負樣本)。在模型訓練使用的輸入參數中,將管齡、運行壓力、管徑、雜散電流、管材、道路負荷6個影響因子定為自變量,管線是否發生爆管設為因變量。模型的輸出結果為管線發生爆管的概率,是介于[0,1]之間的數值。

在校驗模型精度時,通常采用接收靈敏度曲線(receiver-operating characteristic,ROC)和曲線下面積(area under curve,AUC)來表示。AUC值越趨近于1,模型效果越好。當AUC值在0.5~0.7時,準確度較低;當AUC值在0.7~0.9時,準確性較好;當AUC>0.9時,準確性很高。
為了更加全面、客觀地評價模型效果,采用ROC曲線綜合檢驗模型的精度和穩定性,如圖3所示,圖中粗線表示檢驗結果和其變化范圍。研究中,AUC平均值達0.85,模型準確性較為理想;箱線圖顯示,ROC曲線的變化幅度非常小,分布較為聚集,模型相對穩定,不易因樣本集隨機選取的變化產生影響。因此整體來看,模型的效果較好。

圖2 ROC曲線Fig.2 ROC curve
測評效果較好的模型可應用于其他研究區域。當利用數值表示分類變量(0代表未發生爆管,1代表發生爆管)作為因變量建立隨機森林模型時,預測結果可得到發生/未發生爆管的概率,見表3。

表3 預測結果Tab.3 Prediction results
表3中最后1列數據為管網發生爆管的概率,倒數第2列表示管線不會發生爆管的概率。發生爆管的概率越趨近1,管網狀況越差;概率越接近0,管網的健康度越高。
為了使管網爆管率預測結果直觀清晰,采用等間隔分類法,將狀況評估結果分為健康(0~0.2)、較好(0.2~0.4)、一般(0.4~0.6)、較差(0.6~0.8)和危險(0.8~1)5個等級。
在ArcGIS中用不同的顏色展示管線健康狀態分級結果,繪制出管網健康狀態專題圖,研究中隨機森林模型評估專題圖與實際情況的對比如圖4、圖5所示。兩者的相似度較高,這表明所建立的隨機森林模型的預測效果較好。

圖3 資產狀況評估Fig.3 Assessment of asset status

圖4 資產實際狀況Fig.4 Status of asset
管線爆管的影響因子的重要程度,可通過圖形的方式分析對比得出。衡量因子重要性的參數有2個:一是平均精度下降(mean decrease accuracy),對1個因子隨機賦值,記錄此時模型預測準確度的減小幅度,幅度越大則表明該因子越重要;二是平均基尼指數下降(mean decrease Gini),利用基尼指數記錄因子對決策樹的節點不純度的降低程度產生的影響,值越大則反映出該因子越重要。其中,2種參數對比得出的因子重要性會略有差距,但差距很小,不會影響對結果的判斷。
分別用上述2類方法對6個影響因子進行重要性評價,如圖5所示。結果表明運用2種方法得出的因子重要性的排序結果基本一致,其中運行壓力、管齡是發生爆管的主要影響因子,雜散電流對爆管的影響程度最小。通過因子的重要性排序,剔除影響較小的自變量,可以優化爆管模型;同時篩選出重要性因子,在數據收集工作中可將其作為重要指標,提升數據質量。

圖5 因子重要性評價Fig.5 Importance evaluation of factors
供水企業可根據模型預測結果制定管線更新改造優先次序和維修養護計劃,利用爆管預測圖對高爆管率的區域安排重點巡檢,并重點監測管齡和運行壓力這2個影響因子,實現供水企業對供水管網更新改造資金優化,且做到爆管提前預警、科學防范,為供水管網科學化、智能化管理夯實基礎。