











摘" 要" 近年來我國各地供水管網運行安全問題頻發,造成了巨大的經濟損失與嚴重的社會影響。因此,準確地預測管道故障,精準地維護管道,經濟高效地保障供水管網的運行安全具有十分重要的意義。然而,目前關于前沿算法在管道故障預測方面的應用有待探索,并且關于系統性比較機器學習算法的研究尚不多見。為此,首先明確了供水管網故障預測問題,介紹了邏輯回歸、隨機森林、人工神經網絡和一維卷積神經網絡四種機器學習算法的基本原理。以我國南方某市工業園區供水管網為例,檢驗比較了四種模型的故障預測性能,結果顯示一維卷積神經網絡準確性最好但隨機森林效率最高。同時分析了管道特征對故障概率的影響,管徑、管長、道路等級與施工企業資質是最重要的四個特征,故障概率與管徑、道路等級呈負相關,而與管長、施工企業資質呈正相關。
關鍵詞" 供水管網, 故障預測, 機器學習, 管道特征影響
收稿日期: 2023-06-14
基金項目: “十四五”國家重點研發計劃(2022YFC3801000);上海市2022年度“科技創新行動計劃”社會發展科技攻關項目(22dz1201201)
* 聯系作者: 劉 威(1976-),男,博士,副教授,主要從事生命線工程防災研究。E-mail:liuw@tongji.edu.cn
Machine Learning Methods to Predict Failures in Water Distribution Network
LIU Wei*" XIE Zhiyin
(Department of Structural Engineering,Tongji University, Shanghai 200092, China)
Abstract" In recent years, failures have occurred frequently to water distribution networks throughout China, resulting in huge economic losses and serious social impacts. However, the application of state-of-art algorithms to predict pipe failures is still to be explored and there is little research on systematic comparison of machine learning algorithms. Therefore, it is of great importance to accurately predict pipeline failures and ensure the operational safety of water distribution networks economically and efficiently. To this end, the failure prediction problem is described. The basic theories of four machine learning algorithms, i.e., logistic regression, random forest, artificial neural network and 1-D convolution neural network, are introduced. The failure prediction performance of the four models is verified and compared with a case network in an industrial park of a city in the south of China. The results show that the 1-D convolutional neural network has the highest accuracy but random forest is the most cost-effective algorithm. The impact of each pipe feature on the failure probability is analyzed as well. It is found that pipe diameter, pipe length, road class and qualification of construction enterprise are the four most important features. The failure probability is negatively correlated with pipe diameter and road class while positively correlated with pipe length and qualification of construction enterprise.
Keywords" water pipes, failure prediction, machine learning, impact of pipe feature
0" 引" 言
市政管網[1]是城市生命線系統的組成部分[2],供水管網作為市政管網之一,為現代城市提供生活和工業用水,在保障城市正常生產生活方面發揮著重要作用[3]。截至2021年年底,全國供水管道長度已達到104萬公里[4],與1978年相比,增長了28倍以上。然而,由于年久失修、運行環境復雜等各種原因,我國各地供水管網故障頻發[5]。供水管網故障一般分為機械故障[6]、水力故障[7]和水質故障[8]。機械故障由內外荷載、腐蝕和老化等作用引起,例如滲漏或爆管。水力故障主要指供水不能滿足用水需求。水質故障是由于生物膜、水垢、污染物等作用可能會出現的水質問題。對于運行年限較久的供水管網,機械故障的比率通常較高。據統計,2000—2003年近三年間全國因爆管停水13.7萬次,影響3 819萬人[9],且近十年全國供水管網漏損率均超過12%[4]。這些機械故障造成了巨大的經濟損失與嚴重的社會影響。因此,準確地預測管道機械故障,精準地維護管道,經濟高效地保障供水管網的安全運行,是維護城市管網安全的重要問題。本文主要研究供水管網的機械故障(以下簡稱“故障”)預測方法。
實際上,管道故障發生與否是一個隨機事件。管道故障概率的計算方法主要有三種,即物理方法[5,10]、統計方法[11]和機器學習方法[12]。物理方法基于理論分析建立物理模型[13],具有較清晰的物理意義,但計算量較大[12],且難以利用與管網相關的多源數據[11]。統計方法采用指數、線性等函數來擬合歷史數據,相比于物理方法效率較高,但往往僅能考慮管齡和管長等少數特征,難以精準地預測每根管道的故障概率[12]。
近年來,數據驅動的機器學習算法逐步被應用于供水管網的故障預測。機器學習算法善于挖掘數據特別是高維數據背后隱含的規律運行,同時地理信息系統與管網日常運行、維修記錄為研究者提供了大量數據,使得機器學習算法能夠找到管道特征與故障概率之間復雜的映射關系。相比于物理方法,機器學習方法可以更好地利用多源數據,特別是在力學計算上不能使用的數據,如施工企業資質等。相比于統計方法,機器學習方法可以考慮較多特征,擬合更復雜的映射,且可以實現單根管道層面的故障預測。常用的機器學習算法包括邏輯回歸[14]、決策樹[15]、隨機森林[16]、人工神經網絡[17]與前沿算法卷積神經網絡[18]等。目前許多機器學習算法已被成功應用于供水管網的故障預測。例如,Robles-Velasco等[19]采用人工神經網絡預測管道故障,取得較好效果,且發現數據平衡能夠提升模型的預測性能;Almheiri等[20]基于人工神經網絡進行管道壽命分析,結果表明深度學習模型性能優于一般機器學習模型;Zhou等[21]利用密集連接的人工神經網絡預測供水管網的爆管位置,案例結果表明,在58條爆管中,僅一條管線因位置偏僻而未被準確預測;Motiee等[14]比較了統計模型與邏輯回歸在管道故障預測方面的性能,發現邏輯回歸表現較好;Liu等[16]應用邏輯回歸和隨機森林預測管道故障并分析各管道特征對故障的影響程度,結果顯示隨機森林的預測性能優于邏輯回歸,且管徑和管長是影響程度最大的兩個特征。然而,目前關于卷積神經網絡等較前沿的算法在故障預測方面的應用有待探索,并且關于系統性比較機器學習算法的研究尚不多見。為此,本文采用較前沿的卷積神經網絡算法進行故障預測,并系統性地比較各經典機器學習算法的故障預測性能。
本文首先明確了供水管網故障預測的問題,介紹了邏輯回歸、隨機森林、人工神經網絡和卷積神經網絡四種機器學習算法的基本原理,然后以我國南方某市工業園區供水管網為例,對比了四種模型的故障預測性能,并分析了管道特征對故障概率的影響,為精準高效地識別故障管道提供參考。
1" 供水管網故障預測問題描述
供水管網的數據集一般包含管長、管徑、管齡、埋深、管材等物理特征以及所埋設道路等級、施工企業資質等級等其他特征。每條管道數據都為一維向量。
表1為兩條示例管道的數據。管道的故障記錄包括泄漏、爆管等故障的記錄,本文將有故障記錄的管道記為故障管道(標簽為1),無故障記錄的管道記為正常管道(標簽為0)。
在本文中,機器學習模型對管道的故障預測為二分類問題。通過將管道數據和故障記錄輸入模型,使模型學習二者之間的映射關系。訓練完成后,對于每根管道,模型可輸出其故障概率,若故障概率大于某閾值(一般設為0.5),則認為該管道為故障管道。
表1所列一維向量數據適合采用邏輯回歸、隨機森林、人工神經網絡來學習[14,16,19]。由于卷積神經網絡多用于處理圖像等二維矩陣數據[18,22],因此本文采用具有一維卷積核的卷積神經網絡,即一維卷積神經網絡。
2" 故障預測方法
2.1 邏輯回歸
邏輯回歸因其簡單有效、可解釋性強等優點被廣泛應用于解決二分類問題。在本研究中,管道xi的故障概率pi可以采用邏輯回歸表達為[23]
(1)
式中:yi =1代表管道xi發生故障,相應地,yi=0代表管道xi運行正常;m為輸入變量的個數;為模型關于各輸入變量的權重;b為偏置。
當pi≥0.5時,認為管道xi會發生故障,即
(2)
模型的訓練過程以最小化損失函數為目標,損失函數定義為平均對數似然損失:
(3)
式中:為樣本數。
邏輯回歸訓練完成后可直接得到各個輸入特征的權重,分析各特征對于故障的影響。當某一特征xj對應的權重wj為正時,特征值越大,則pi越大,管道更有可能發生故障,反之亦然。
2.2 隨機森林
隨機森林是一種基于決策樹的機器學習方法。決策樹根據數據的特征從根節點開始進行逐步劃分,分裂結束的標志為最后生成的節點不能再繼續劃分。基尼系數是衡量數據樣本純度的一種指標,每次劃分都使用基尼系數作為依據。在有K類樣本的數據集D中,設第k類樣本在總樣本所占比例為pk (k=1,2,…,K),則基尼系數為[15]
(4)
可見,Gini(D)越小,樣本集D的純度就越高,訓練過程即為最小化Gini(D)的過程。
隨機森林原理示意圖如圖1所示。首先,對于樣本數為N的訓練集,采用有放回的方法隨機抽取n個樣本數為M的子樣本集分別作為n棵決策樹的訓練集。在訓練每棵決策樹時,通常從原始樣本集的K個特征中選擇log2K個特征組成一個特征子集進行訓練。隨機森林的決策結果由多棵決策樹投票集成。通過平均的形式,一方面可以減少決策樹的過擬合趨勢,另一方面可以提高分類器的準確率[24]。同時,隨機森林具有不錯的解釋性,基于采用某特征劃分時對基尼系數的減少量,可以計算該特征重要度,其值越高,該特征就越重要[16,24-25]。
2.3 人工神經網絡
人工神經網絡是一種廣泛使用的感知器,它模仿人腦的工作原理,將輸入的刺激組合處理成輸出[26],具有預測準確率高的優點。人工神經網絡主要由輸入層、隱藏層和輸出層組成。具有兩層隱藏層的人工神經網絡示意圖如圖2所示。每一層的神經元的權重系數在訓練過程中迭代調整,以最小化網絡輸出和目標值之間的誤差。每個神經元計算其輸入的加權和,并通過激活函數生成該層的輸出:
(7)
式中:li為第i層的輸出;為第i層的權重矩陣;bi為第i層的偏置向量;f(·)為激活函數,常用的有Sigmoid函數以及tanh函數,為了加快收斂,本文采用ReLU函數[27],即f(x)=max{x,0}。
輸出層采用Softmax分類器將最后一個隱藏層的輸出映射到各類別的概率分布空間:
(8)
式中:為Softmax層的權重;lh為末隱藏層輸出;lh[k]為與lh乘積的第k個元素;K為樣本類別數。
本文設置輸出層的神經元個數為2,分別代表管道故障和正常的概率,即p(y=1)和p(y=0)。另外,損失函數的設置與式(3)一致。
2.4 一維卷積神經網絡
卷積神經網絡引入了卷積核來提取數據特征,使其與人工神經網絡相比,在提高網絡性能的同時減少了網絡的參數、提高訓練效率,降低了人工神經網絡因參數過多而導致的過擬合風險[18,27-28]。本文采用一維卷積神經網絡,由輸入層、卷積層、全連接層以及輸出層組成,具有兩個卷積層的一維卷積神經網絡示意圖如圖3所示。
由于輸入的管道數據為一維數據,一維卷積神經網絡中的卷積核采用一維卷積核,設每一個卷積層具有Q個卷積核,每個卷積核經過卷積操作生成一個特征圖,第i個卷積層的輸出li可以表達為[27]
(9)
式中:li[j]為li的第j個元素;ωi為第i層的卷積核,ωi,q[p]為第q個卷積核的第p個元素;P為卷積核的長度;Q為卷積核的個數;s為卷積核移動的步長,一般設為1;f{·}為ReLU激活函數。
卷積核中的每個元素與輸入向量中對應的元素相乘并將乘積相加以產生特征圖的一個元素,然后卷積核向前移動一個步長產生特征圖的下一個元素,直到輸入向量中的所有元素都參與了運算[22]。最后一層卷積層的輸出將會被展開為一個一維向量,然后輸入到全連接層和Softmax層進行分類,計算過程與式(7)、式(8)一致。損失函數設置與式(3)一致。
2.5 數據平衡與算法性能評價指標
通常將原始數據集劃分為訓練集和測試集,模型在訓練集上完成學習后,輸入測試集,得到各管道的預測結果,并采用準確率等指標檢驗比較各模型的預測性能。
然而,一般情況下,供水管網數據集具有明顯的不平衡特性[16,19],即正常管道遠多于故障管道。而機器學習算法往往會傾向于將樣本預測為多數類以提高全局準確率,卻降低了預測少數類的準確率[29]。因此,本文采用合成少數類采樣技術(Synthetic Minority Oversampling Technique,SMOTE)[30]對少數類樣本進行采樣,再利用鄰近算法(K-Nearest Neighbor,KNN)合成新的少數類樣本,以平衡訓練集,進而提升分類器的預測性能。
訓練完成后,預測模型在測試集上的分類性能常用混淆矩陣衡量,設1為陽性,0為陰性,它對每個樣本的預測有四種可能的結果:真陽(Ture Positive,TP)、假陽(False Positive,FP)、假陰(False Negative,FN)以及真陰(True Negative,TN),從而可以定義準確率PA、召回率PR與真陰性率PS[31]:
(10)
式中:NTP、NTN、NFP與NFN分別為TP、TN、FP與FN對應的樣本數。
真陰性率PS衡量了對陰性樣本的預測能力。準確率衡量了全局預測正確的比例。但是,當數據集不平衡時,準確率便不能真實反應模型的預測能力。例如當故障管道的數量遠小于正常管道時,如果模型將所有管道都預測為正常管道,仍然可以得到很高的準確率,但這顯然對故障預測沒有參考意義。因此,有必要采用召回率來衡量陽性樣本被正確預測的比例。
然而,僅僅使用準確率和召回率并不能綜合評價模型的預測性能[32]。受試者操作特性曲線(Receiver Operating Characteristic Curve,ROC)[19,32]被廣泛用來衡量模型的預測能力。ROC曲線以假陽性率為橫坐標,真陽性率為縱坐標,描述了這兩個指標在不同風險閾值下的模型分類情況,其曲線下的面積(Area Under the Curve,AUC)[16,32]是一個比準確率和召回率更能衡量模型泛化能力的評價指標。AUC一般介于0.5~1.0,AUC=1.0代表完美預測,AUC=0.5代表隨機預測,如圖4所示。AUC的值越大,代表模型的預測性能越好。
2.6 特征影響分析
雖然卷積神經網絡與人工神經網絡的預測性能較好,但因其模型較復雜,往往不能直接計算各輸入特征對故障概率的影響,常被稱為“黑箱”模型[33]。本文采用排列重要度方法[34]計算特征對于卷積神經網絡與人工神經網絡預測結果的影響。隨機將某個特征的數據重新排序,以排序后損失函數的增加量來衡量該特征的重要度。特征重要度越大,對模型的影響程度越大。而隨機森林和邏輯回歸具有較強的解釋性,能夠直接輸出特征影響。隨機森林基于特征對數據純度的影響定義特征重要度,一個特征的重要度基于采用該特征劃分時帶來的基尼雜質的減小量計算[16]。然而,特征重要度僅能表征特征對故障概率的重要程度,而不能表征特征與故障概率的正負相關關系。因此,采用邏輯回歸進一步解釋特征影響。邏輯回歸可以直接輸出每個特征的權重,權重的大小決定了特征對模型的影響,權重的絕對值越大,影響就越大。當權重為正時,特征與故障概率呈正相關關系;當權重為負時,兩者呈負相關關系。
3" 案例研究
3.1 某市供水管網概況
以我國南方某市工業園區供水管網為例,訓練并測試上述各算法模型的預測性能。該工業園區占地約400平方公里,共有79 359根管道,管道總長1 107公里。該供水管網GIS圖如圖5所示。
city's industrial park
管道特征包括連續特征管長、管齡、管徑,類別特征管材、施工企業資質、道路等級、橋管以及故障記錄(FR)。其中,故障記錄為監督變量。在案例管網中,大部分故障管道僅發生過一次故障。因此,為簡化分析,本文未將故障發生次數作為監督變量,令FR=0代表管道正常,FR=1代表管道故障。部分管道的管長、管徑等特征記錄為0或異常大值,由于該部分管道占比較小,本文選擇直接刪除該部分管道。刪除異常數據后,剩余72 053條管道數據,其中正常管道71 638條,故障管道415條,具有明顯的不平衡特性。
大部分的管道短于50 m,直徑在100 mm與1 000 mm之間且管齡在0.25年與20年之間。管材主要包括球墨鑄鐵管(81.61%)、鋼管(10.21%)、聚乙烯管(6.71%)以及預應力混凝土管(1.47%)。對于管長、管齡等連續特征,不需要額外的處理。對于管材、道路等級等類別特征,采用標簽編碼進行處理。對于管材,將球墨鑄鐵管、鋼管、聚乙烯管以及預應力混凝土管分別編碼為1、2、3和4。對于施工企業資質,將特級、一級、二級和三級分別編碼為1、2、3、4,編碼越小,企業資質越好。橋管編碼為0、1,分別代表非橋管和橋管。道路等級編碼為1~6,編碼越小,道路等級越高,車輛荷載和速度越大。各個特征描述見表2。
3.2 數據集劃分與處理
將數據集按9∶1的比例劃分為訓練集和測試集,故障管道在兩個集合中所占比例是相等的。訓練集有64 847條管道,包括373條故障管道;測試集有7 206條管道,包括42條故障管道。
如前所述,供水管網數據具有明顯的不平衡特性,分類模型易將管道預測為正常管道,降低了預測結果的參考意義。因此,采用基于KNN算法的SMOTE技術平衡訓練集。通過在k個鄰近樣本中隨機抽取N個少數類樣本,采用隨機線性插值生成新合成樣本。平衡后的訓練集有128 948條管道,包括64 474條故障管道,由此故障管道樣本和正常管道樣本比例為1∶1。僅對訓練集進行數據平衡,對測試集不做處理,以免造成數據泄漏。
另外,為了避免特征的絕對值大小影響預測模型的性能,在將數據輸入到邏輯回歸、人工神經網絡和卷積神經網絡前,需要進行標準化處理:
(11)
式中:μ為的平均值;σ為的標準差。
3.3 結果分析
將原始訓練集和平衡后的訓練集分別輸入到上述各預測模型中進行訓練,訓練在Intel Core i5處理器上完成,并使用RTX GeForce 3050加速運算。以AUC為依據經過多次試驗進行參數調優,各模型參數設置如下:隨機森林設置90棵決策樹,每棵樹最大深度為7;人工神經網絡隱藏層數設為2,隱藏層神經元個數設為32;卷積神經網絡卷積層數設為2,每層卷積核個數設為64,卷積核大小設為3;人工神經網絡與卷積神經網絡迭代次數設為80。訓練完成后將測試集輸入模型以檢驗模型的預測性能及泛化能力。測試結果見表3。
首先,在不平衡訓練集上訓練的模型,準確率都超過了99%。然而,召回率均為0,顯然模型把測試集幾乎所有的管道都預測為了正常管道。因此即使準確率較高,但不能識別出故障管道,不具有參考意義。在平衡后的訓練集上訓練的模型,準確率有所降低,但召回率大幅升高至70%以上,AUC也有所提高,模型的預測結果具備參考意義。可見,數據平衡對模型的預測性能有重要作用,因此以下討論只涉及在平衡后的訓練集上訓練的模型。
準確率方面,卷積神經網絡最高,人工神經網絡和隨機森林次之且二者差距不明顯,邏輯回歸最低。召回率方面,卷積神經網絡最高,隨機森林次之,人工神經網絡與邏輯回歸最低且差距不明顯。AUC方面,卷積神經網絡最高,隨機森林和人工神經網絡次之,邏輯回歸最低。計算時間方面,人工神經網絡訓練用時最長,其次是卷積神經網絡,訓練用時為人工神經網絡的54.83%,隨機森林訓練用時為卷積神經網絡的8.82%,邏輯回歸用時最短,僅0.1 s。從預測性能上看,在四個模型中,卷積神經網絡的預測結果最準確,其次是隨機森林,邏輯回歸最差。綜合訓練時間觀察,邏輯回歸用時雖短但準確性不高,人工神經網絡準確性不是最高的但用時卻最長,卷積神經網絡的各項性能指標均略高于隨機森林但訓練時間為隨機森林的十余倍,可能的原因是本文所處理的數據維度較小,不夠復雜,卷積神經網絡的優勢不能完全體現。綜合來看,隨機森林能夠在較短訓練時間內獲得較準確的預測結果,是較為理想的故障預測算法。
由人工神經網絡、卷積神經網絡、隨機森林和邏輯回歸得到的各個特征影響見表4。四種模型對于前四個最重要的特征計算結果一致,即管徑、管長、道路等級與施工企業資質。是否為橋管這一特征的影響最小。且邏輯回歸的結果顯示故障概率與管徑、道路等級呈負相關,與管長、施工企業資質呈正相關。一般來說,小管徑意味著管道更難抵抗不利荷載與腐蝕而更易發生故障。相比于短管,更復雜的運行環境可能是長管更易故障的原因。等級較高的道路車輛荷載和速度較高,提高了管道故障概率。另外,資質較高的施工企業埋設的管道一般質量較好而不易故障。其余特征的影響均較小。然而,根據經驗,其中的管齡和管材是較為重要的特征,但案例管網中77.18%管道的管齡均不超過20年,且81.61%的管道為球墨鑄鐵管,因此這兩個特征不是模型分類故障管道的主要依據。
綜合以上分析,各模型在預測性能、訓練時間以及可解釋性方面的表現列于圖6,圖6中條形高度越高代表模型在該方面的表現越優。
注:人工神經網絡、卷積神經網絡、隨機森林的特征影響僅表征重要度,不能表征特征與故障概率的正負相關性;由于管材特征編碼之間無大小關系,管材特征影響僅能表征重要度,不能表征與故障概率的正負相關性。
4" 結" 論
本文介紹了邏輯回歸、隨機森林、人工神經網絡和一維卷積神經網絡四種模型的基本原理,以我國南方某市工業園區供水管網為例,對比了四種模型的故障預測性能,并分析了管道特征對故障概率的影響。另外,為了提高模型的預測性能,采用了SMOTE采樣技術平衡訓練集。結果表明:
(1) 數據平衡能夠明顯提升模型的預測性能。
(2) 卷積神經網絡的準確性最高但訓練用時較長,隨機森林準確性略低但訓練用時僅為卷積神經網絡的8.82%,綜合來看隨機森林是較理想的故障預測算法。
(3) 管徑、管長、道路等級與施工企業資質是最重要的四個特征,故障概率與管徑、道路等級呈負相關,而與管長、施工企業資質呈正相關。由于相應數據的缺乏,本文未對埋深等重要指標進行分析,下一步可在數據集完整的基礎上進行更全面的分析。
參考文獻
[1]"""" 姚天野,劉威.基于AHP-熵權法組合賦權的燃氣管網風險評估方法研究[J].結構工程師,2019,35(6):93-101.
YAO Tianye,LIU Wei.Risk assessment of gas network based on AHP-entropy weight method[J].Structural Engineers,2019,35(6):93-101.(in Chinese)
[2]"""" LI Jie,LIU Wei.Lifeline engineering systems:network reliability analysis and aseismic design[M].Singapore:Springer Nature,2020.
[3]"""" 劉威,宋朝陽.基于事故率的城市供水管網全壽命運行可靠性[J].同濟大學學報(自然科學版),2019,47(9):1286-1293.
LIU Wei,SONG Zhaoyang.Accident rate-based lifecycle operational reliability of urban water distribution networks[J].Journal of Tongji University (Natural Science),2019,47(9):1286-1293.(in Chinese)
[4]"""" 國家統計局.中國統計年鑒2022[M].北京:中國統計出版社,2022.
National Bureau of Statistics.2022 China statistical yearbook[M].Beijing:China Statitical Press,2022.(in Chinese)
[5]"""" 李顯昌,朱海濤.管內水流和地鐵振動耦合作用下埋地供水管道的振動響應分析[J].結構工程師,2020,36(3):167-174.
LI Xianchang,ZHU Haitao.Vibration response analysis of buried water supply pipeline under coupling action of water flow and subway vibration[J].Structural Engineers,2020,36(3):167-174.(in Chinese)
[6]"""" AGATHOKLEOUS A,CHRISTODOULOU C,CHRISTODOULOU S E.Topological robustness and vulnerability assessment of water distribution networks[J].Water Resources Management,2017,31(12):4007-4021.
[7]"""" GHEISI A,FORSYTH M,NASER G.Water distribution systems reliability:a review of research literature[J].Journal of Water Resources Planning and Management,2016,142(11):04016047.
[8]"""" FARMANI R,WALTERS G,SAVIC D.Evolutionary multi-objective optimization of the design and operation of water distribution network:total cost vs.reliability vs.water quality[J].Journal of Hydroinformatics,2006,8(3):165-179.
[9]"""" 中國城鎮供水排水協會.2003年城市供水統計年鑒[M].北京:中國城鎮供水排水協會,2004.
China Urban Water Association.2003 Urban statistics yearbook[M].Beijing:China Urban Water Association,2004.(in Chinese)
[10]""" RAJANI B,KLEINER Y.Comprehensive review of structural deterioration of water mains:physically based models[J].Urban Water,2001,3(3):151-164.
[11]""" YAMIJALA S,GUIKEMA S D,BRUMBELOW K.Statistical models for the analysis of water distribution system pipe break data[J].Reliability Engineering amp; System Safety,2009,94(2):282-293.
[12]""" FAN X D,WANG X W,ZHANG X J,et al.Machine learning based water pipe failure prediction:The effects of engineering,geology,climate and socio-economic factors[J].Reliability Engineering amp; System Safety,2022,219.
[13]""" 高向玲,王麗娜,劉威.混凝土排水管道內部腐蝕研究[J].結構工程師,2020,36(2):71-79.
GAO Xiangling,WANG Lina,LIU Wei.Study on internal corrosion of concrete sewer pipelines[J].Structural Engineers,2020,36(2):71-79.(in Chinese)
[14]""" MOTIEE H,GHASEMNEJAD S.Prediction of pipe failure rate in Tehran water distribution networks by applying regression models[J].Water Supply,2019,19(3):695-702.
[15]""" WINKLER D,HALTMEIER M,KLEIDORFER M,et al.Pipe failure modelling for water distribution networks using boosted decision trees[J].Structure and Infrastructure Engineering,2018,14(10):1402-1411.
[16]""" LIU W,WANG B H,SONG Z Y.Failure prediction of municipal water pipes using machine learning algorithms[J].Water Resources Management,2022,36(4):1271-1285.
[17]""" DAWOOD T,ELWAKIL E,NOVOA H M,et al.Artificial intelligence for the modeling of water pipes deterioration mechanisms[J].Automation in Construction,2020,120:103398.
[18]""" KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Communications of the Acm,2017,60(6):84-90.
[19]""" ROBLES-VELASCO A,CORTES P,MUNUZURI J,et al.Prediction of pipe failures in water supply networks using logistic regression and support vector classification[J].Reliability Engineering amp; System Safety,2020,196:106754.
[20]""" ALMHEIRI Z,MEGUID M,ZAYED T.Failure modeling of water distribution pipelines using meta-learning algorithms[J].Water Research,2021,205:117680.
[21]""" ZHOU X,TANG Z H,XU W R,et al.Deep learning identifies accurate burst locations in water distribution networks [J].Water Research,2019,166:115058.
[22]""" ZHOU Q Q,SITU Z X,TENG S,et al.Convolutional neural networks-based model for automated sewer defects detection and classification[J].Journal of Water Resources Planning and Management,2021,147(7):04021036.
[23]""" FAN R E,CHANG K W,HSIEH C J,et al.LIBLINEAR:A library for large linear classification [J].Journal of Machine Learning Research,2008,9:1871-1874.
[24]""" ZIEGLER A,KONIG I R.Mining data with random forests:current options for real-world applications[J].Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery,2014,4(1):55-63.
[25]""" BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[26]""" MCCULLOCH W S,PITTS W.A logical calculus of the ideas immanent in nervous activity[J].The Bulletin of Mathematical Biophysics,1943,5(4):115-133.
[27]""" GOODFELLOW I,BENGIO Y,COURVILLE A.Deep learning[M].Cambridge:MIT Press,2016.
[28]""" LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[29]""" BUREZ J,VAN DEN POEL D.Handling class imbalance in customer churn prediction[J].Expert Systems with Applications,2009,36(3):4626-4636.
[30]""" CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16:321-357.
[31]""" LUQUE A,CARRASCO A,MARTIN A,et al.The impact of class imbalance in classification performance metrics based on the binary confusion matrix[J].Pattern Recognition,2019,91:216-231.
[32]""" DEBON A,CARRION A,CABRERA E,et al.Comparing risk of failure models in water supply networks using ROC curves[J].Reliability Engineering amp; System Safety,2010,95(1):43-48.
[33]""" XU Q,QIANG Z M,CHEN Q W,et al.A superposed model for the pipe failure assessment of water distribution networks and uncertainty analysis:a case study[J].Water Resources Management,2018,32(5):1713-1723.
[34]""" HEATON J,MCELWEE S,FRALEY J,et al.Early stabilizing feature importance for TensorFlow deep neural networks[C]//2017 International Joint Conference on Neural Networks,Anchorage,US:2017:4618-4624.