鄭茂輝,劉少非,2
(1.同濟大學 上海防災救災研究所,上海 200092; 2.同濟大學 土木工程學院,上海 200092)
近20年來,中國排水管網系統發展迅速.隨著管網規模的不斷擴大和服役年限的增長,排水管道退化和缺陷問題也逐步凸顯,有些管道缺陷直接導致路面塌陷、水體污染等嚴重事故,不僅影響城鎮居民工作和生活,還對生命健康構成威脅.排水管道內部缺陷的識別、診斷是制定管網養護計劃和修復計劃的重要依據,也是城市安全運行監管的重要內容之一.
排水管道缺陷包括管道破裂、腐蝕、滲漏、變形等結構性缺陷,以及沉積、結垢、障礙物等功能性缺陷.管道閉路電視(closed circuit television, CCTV)檢測是目前國內外用于管道狀況檢查最為成熟、有效、安全的技術手段.能直觀反映和記錄管道內部真實情況,通過管道影像的判讀,識別內部缺陷類型、位置和等級,并做進一步評估分析[1].不過,CCTV檢測要求對管道先進行一定清理,降低管內水位,前期工作量大;另外,主要依靠人工目測對管道內部狀況和缺陷進行診斷評估,效率較低.國內外學者采用統計和機器學習方法研究建立了多種管道狀況模型.例如,Micevski等[2]基于馬爾科夫鏈構建雨水管道結構退化模型,并用貝葉斯方法進行校準;劉威等[3]結合全概率公式及線性腐蝕模型給出管線面積腐蝕率的概率密度隨服役時間變化的解析表達式;Mashford等[4]建立了基于支持向量機的管道狀況預測模型,并應用于澳大利亞阿德萊德市排水管網狀況評價;Rober等[5]利用CCTV檢測數據和隨機森林算法,對加拿大圭爾夫市下水管道的結構性狀態進行預測.此外,Tran等[6-7]利用神經網絡模型預測排水管道的結構性狀況和水力性狀況.不過,已有研究更多的是對管道整體狀況的建模,從結構性或功能性方面預測管道風險等級,具體缺陷類型的分類診斷和評價方面還有待更深入的研究.
鑒于管道退化和缺陷影響因素復雜,數據驅動的神經網絡模型無需深入理解管道病害機理,通過數據樣本監督學習即可建立管道缺陷狀況同相關特征變量的關聯模式,無疑具有良好的適用性和應用前景[8].極限學習機(extreme learning machine, ELM)是Huang等[9]基于Moore-Penrose矩陣理論提出的一種單隱含層前饋神經網絡算法,相對傳統的神經網絡,具有結構簡單、學習效率高、泛化能力強等優點.不過,ELM隨機生成輸入層權值以及隱含層節點偏置等網絡參數的特點,可能造成部分隱含層節點的失效[10];其次,ELM分類預測精度與隱含層節點數密切相關,但過多隱含層節點數會導致模型泛化能力的下降,影響管道缺陷分類診斷的能力.
為此,采用遺傳算法(genetic algorithm,GA)[11]優化ELM網絡參數,充分利用管道基礎數據和CCTV檢測資料,建立一個新型的城市排水管道缺陷診斷模型,并以上海市洋山港保稅區排水管道結構性缺陷的分類診斷為例開展實證研究,驗證模型方法的適用性和有效性.
設n,L,m分別為輸入層、隱含層和輸出層的節點數,給定N組任意的排水管道數據樣本(xi,ti)∈Rn×Rm,ELM的輸出可以表示為
(1)
式中:g(x)為激勵函數,wi=[wi1,wi2,…,win]T為隱含層第i個神經元與輸入層的連接權值,βi=[βi1,βi2,…,βim]T為隱含層第i個神經元與輸出層的連接權值,bi為隱含層神經元的閾值.wi·xj為wi和xj的內積.
若L=N,則對于任意給定的βi和wi,ELM能零誤差逼近學習樣本[12],式(1)可以由矩陣形式表達為
Hβ=T.
(2)
其中
(3)
(4)
(5)
N較大時,為減少計算量通常取L (6) (7) H+為隱含層輸出矩陣H的Moore-Penrose廣義逆. 與BP模型相比,ELM學習速度快、泛化性能強、不易陷入局部極值,但仍有一些問題,如該算法中輸入權值和隱含層偏置的隨機選取導致隱含層神經元幾乎不存在調節能力,這就對網絡參數的優化提出了較高的要求.同時,ELM可能存在網絡結構復雜、穩定性差等問題,選擇合適的隱含層神經元個數和激活函數十分重要. GA是模擬自然界遺傳機制和物種進化而形成的一種并行隨機搜索優化方法,將需要優化的參數編碼形成串聯群體,然后按照適應度函數通過選擇、交叉和變異對個體進行篩選,最終選擇適應度最優的個體[11].采用GA優化ELM神經網絡的輸入權值wi和隱含層偏置bi,得到最優的網絡參數建立GA-ELM神經網絡,提高模型輸出的準確度和穩定性. GA-ELM算法集成了GA全局搜索最優能力和ELM的強學習能力.在該算法中,將ELM訓練數據的輸入權值和隱含層節點偏置映射為GA種群中每條染色體上的基因,GA的染色體適應度對應于ELM的訓練誤差,將求取最優輸入權值、偏置問題轉化為計算染色體適應度,選擇最優染色體問題.圖1給出GA-ELM算法流程,主要包括ELM網絡確定、遺傳算法優化和ELM網絡的訓練、預測等. 圖1 GA-ELM算法流程 算法相關思路及處理方法如下: 1)種群初始化.確定ELM神經網絡的拓撲結構,即輸入層、隱含層和輸出層的神經元個數;設置最大進化代數G;隨機生成ELM神經網絡的輸入權值和隱含層偏置,并對其進行二進制編碼,產生初始種群;個體的長度由隱含層輸入權值矩陣和偏置向量構成,即D=(n+1)L,其中L為隱含層節點數,n為輸入層神經元個數,即輸入向量維度. 2)個體適應度評價. 對于每一代種群中的任意一個個體,采用ELM算法計算輸出權值矩陣,并得到樣本的期望輸出與實際輸出的均方根誤差,作為GA目標函數 (8) 式中:i為樣本個體,n為樣本總數,yi為仿真輸出值,y為樣本期望輸出值.目標函數數值越小,模型越精確. 3)種群進化.根據個體的適應度,采用輪盤賭法對每一代種群中的染色體進行選擇,利用基于概率的交叉、變異操作對選中的個體進行優化,產生新的種群,直至滿足約束條件,如達到最大迭代次數或相鄰種群的平均目標值、最小目標值變化很小時終止進化,得到最終的種群. 排水管道退化機理復雜,影響因素較多,本文只針對管道結構性缺陷識別,利用GA-ELM算法建立分類診斷模型,通過樣本數據訓練學習確定影響因素與結構性缺陷之間的非線性關系.圖2給出模型的網絡拓撲結構.其中,xj代表模型的輸入變量,即管道結構性退化影響因素;ti代表模型輸出變量,即結構性缺陷類型,如破裂、滲漏、脫節、變形、錯位、腐蝕等. 圖2 模型網絡拓撲 影響管道結構性退化的因素包括管道自身物理屬性,如管材、管齡、管徑、管長、埋深、坡度等;外部環境因素,如路面交通荷載、環境溫度變化、臨近施工、土壤類型、地下水位、樹根侵入因素等.借鑒已有退化指標分析成果[8,13-14],結合工程應用中數據獲取條件,選取管材、管齡、管徑、埋深、管長、坡度、管道類型、土壤類型和所在道路等級共9項特征參數作為神經網絡模型的輸入變量.其中,管道埋深取上下游節點埋深的平均值;管道所在道路等級分為主干道、次干道和其他道路3類,間接表征路面交通荷載.結構性缺陷類型,即樣本標簽由CCTV檢測結果給定. 為了檢驗GA-ELM模型分類診斷效果,采用混淆矩陣方法對分類器性能進行分析評價.假定nij表示被分類為j類的i類樣本數,K為樣本種類,則分類精度A以正確分類的樣本數與總樣本數N的比值表示,即 (9) 定義Ri為第i類樣本的查全率(Recall),即 (10) 定義Gmean為樣本所有類別查全率的幾何平均值: (11) Gmean的基本思想是使每一分類正確率盡可能大的同時,保持各類之間的平衡,是評價不平衡數據集上分類器性能的重要指標. 以上海市浦東新區洋山保稅港區公共排水管道為對象,開展實證研究.主要數據來源包含兩部分:一是測繪部門提供的管道GIS數據,包含管材、管齡、管徑、埋深、管長、坡度、管道類型和所在道路等屬性數據;二是由管道養護單位提供的實驗區2018年10月份管道CCTV檢測數據,檢測管道里程約45.5 km.CCTV檢測報告給出了具體管段的缺陷類型、等級,并計算了管段修復指數和養護指數.為簡化網絡模型,提高模型分類預測性能,研究僅選取實驗區管道“破裂”、“脫節”、“滲漏”3類主要結構性缺陷類型和“正常”共4類樣本數據.基于管段唯一性標識建立管網GIS和CCTV檢測數據的對應關系,提取有效樣本數據共1 251條.按4類樣本的占比隨機選取1/4樣本作為測試樣本集,3/4樣本作為訓練樣本集,樣本數據組成如表1所示. 表1 樣本數據 對于管材、道路等級、土壤類型、缺陷類型等離散的分類特征數據,采用獨熱編碼進行數字化.另外,為避免各指標量綱和數量級不同造成的不平衡性,提高神經網絡模型的收斂速度和學習預測能力,采用最大最小法對樣本數據進行了歸一化處理,使得處理后的數據分布范圍在[0,1],公式如下: (12) 式中:X為實測值,Xmin為樣本數據的最小值,Xmax為樣本數據的最大值. 利用標準ELM構建管道缺陷分類診斷模型時,僅需要設定隱含層神經元節點數L和激勵函數g(x)的構造形式就可以求算輸出權值矩陣.實際工程應用中隱含層神經元節點數L一般遠小于樣本數N,L過小網絡預測誤差較大,L過大則會增加模型預測的時間空間成本,容易出現過擬合現象.圖3給出sigmoid、sin和hardlim 3種常見激勵函數下隱含層神經元節點數L對分類器能力的影響.其中,sigmoid函數的分類器性能整體較好,L增至120時Gmean相對較高,為55.39%.對于標準ELM模型,選定sigmoid激勵函數,隱含層神經元節點數L設定為120. 圖3 3種激勵函數下隱含層節點數對ELM分類性能的影響 為方便比較,選擇同樣的激勵函數和隱含層節點數,對GA-ELM分類器性能進行仿真分析.設定GA參數如下:種群大小為40,最大遺傳代數為100,交叉概率0.7,變異概率0.01,代溝0.95.將樣本輸入GA-ELM模型進行訓練,如圖4誤差進化曲線所示,當進化到44代時,誤差最小,滿足要求.因此,將44代優化后的權值和偏置代入極限學習模型中對測試樣本進行預測. 圖4 誤差進化曲線 表2給出標準ELM和GA優化后模型分類性能的比較.其中,ELM在訓練集上的分類精度A=70.74%,Gmean=65.21%;測試集訓練精度A=65.59%,Gmean=55.39%.GA優化ELM網絡參數后,對于訓練樣本和測試樣本的分類能力均有顯著提升,達到80%以上,而且GA-ELM整體上具有更好的穩定性和泛化能力. 表2 GA-ELM和ELM模型分類性能比較 % 為進一步分析模型對不同管道缺陷類型的診斷、識別能力,表3以混淆矩陣形式給出GA-ELM和ELM在測試集上的分類診斷結果以及不同缺陷類型的查全率.其中,“破裂”的管道樣本62條,GA-ELM診斷模型準確預測48條, 查全率77.42%;“脫節”的管道樣本48條,準確預測36條,查全率為75.00%;“滲漏”的管道樣本89條,準確預測68條,查全率為76.40%.ELM診斷模型對于上述3類缺陷管道的查全率則分別為59.68%、52.08%和65.17%.可見,相比ELM,GA-ELM診斷模型對于缺陷管段的識別能力更強,具有更優的分類預測性能.不過,由表3結果也發現,兩個模型對“正常”管段的識別能力均高于其他缺陷管段,這估計與實驗區排水管道樣本的非均衡分布有關. 表3 GA-ELM和ELM診斷結果 圖5給出測試集上逐個樣本GA-ELM診斷結果與觀測值的比照.結果也表明,GA-ELM能夠較好地對排水管道結構性缺陷進行診斷識別,且分類精度可較好滿足應用要求. 圖5 GA-ELM分類診斷結果 1)提出了基于GA-ELM的排水管道缺陷診斷模型,采用GA算法優化ELM神經網絡輸入連接權值和隱含層偏置,避免參數隨機初始化造成的分類結果不穩定、準確率偏低的弊端. 2)利用CCTV檢測樣本集對GA-ELM、ELM進行仿真測試,結果表明,在采用同樣的激勵函數和隱含層節點數的條件下,通過GA優化ELM網絡參數能夠獲得更高的分類診斷性能,測試集分類精度由65.59%提高到82.96%;參數優化提高了ELM模型的擬合能力和穩定性. 3)本文為城市排水管道缺陷識別和診斷提供了一個新型的數據驅動建模方法,具有較好的可行性和適用性.后續將收集更多的樣本數據訓練優化模型,并探討非均衡樣本對缺陷診斷性能的影響,進一步提高排水管道缺陷診斷模型的預測精度和泛化能力.

1.2 GA優化ELM


1.3 模型構建與評價

2 實驗分析
2.1 實驗數據

2.2 參數設置


2.3 分類結果分析



3 結 論