柴 琪
(江蘇師范大學地理測繪與城鄉規劃學院,江蘇徐州 221116)
京杭大運河全長1 794多公里,是世界上最長、最古老的運河。1 400多年來它作為中國南北之間的交流的紐帶推動著區域間的協調發展。即使在現代,大運河仍然在交通、灌溉、旅游和防洪等方面發揮著重要作用。大運河年貨運量高達1億噸,被譽為僅次于長江的第二條黃金水道;大運河具有豐富的物質文化底蘊,2014年被聯合國教科文組織列為世界遺產。此外,京杭大運河作為中國南水北調工程的東線,將長江水引致北方緩解北方土地灌溉和飲用水資源短缺的問題[1]。
隨著人類活動的日益頻繁,大運河的水環境面臨著巨大的壓力,水質不容樂觀。黨廣彬等[2]研究發現近年來隨著京杭大運河山東段的通航,濟寧段水質有惡化的趨勢,目前水體情況尚清潔,但存在一定污染或污染風險。李朝等[3-4]通過對京杭大運河水生生物的多樣性調查發現京杭大運河徐州段的水質情況總體處于污染狀態;孫曉菲等[5]發現大運河表層沉積物中多氯聯苯濃度呈現出明顯的生態風險;王曉等[6-7]均發現荊馬河與大運河交匯的下游污染比上游嚴重,且邳州段有機污染和多氯聯苯都很嚴重。王信海等[8]通過夏季浮游動物群落結構的評估發現宿遷國電碼頭段水體受污染程度較輕,基本處于輕污染與清潔之間。揚州市區存在著輕度重金屬污染,其表層沉積物中的多環芳烴處于中度污染[9-10]。目前水質監測的方法主要是使用在監測斷面上采取水樣本傳統的實驗室化驗水質參數的方法進行監測。傳統的方法雖然精度高但是要消耗較大的人力和物力并且監測結果空間不連續,難以獲得兩個監測站點中間的水質狀況。因此宏觀性強、更為快速、準確和廉價的水污染監測方法尤為重要。
遙感技術具有快速、大范圍、周期性、一次成像成本相對低廉的特點,利用遙感影像可以對大面積水域進行連續的水質監測[11-12]。由于大氣、地形等外在因素極易影響遙感的成像條件,統計模型始終面臨著樣本代表性較差和模型通用性不理想的困擾[13]。因此大量學者嘗試將針對RGB圖像的深度神經網絡引入遙感圖像領域,該方法選用大量樣本訓練用于提取信息的神經網絡模型,在遙感圖像分類上的應用效果遠優于傳統算法。但即使是深度神經網絡仍舊無法深入挖掘遙感圖像蘊含的輻射、光譜及地物理化參數等信息,難以獲得多波段遙感圖像信息特征。
為充分利用遙感數據輻射和光譜等豐富的地物信息,融合遙感數據特征,本文將多景遙感影像的水像元光譜信息建立水質數據庫,并設計卷積網絡模型深入挖掘水質光譜信息特征提出應用于大尺度水質分類模型,為監管部門治理運河水環境和提高污水治理效率提供幫助。
京杭大運河是世界上最長、最古老的運河溝通了海河、黃河、淮河、長江、錢塘江五大水系。據1979年《全國內河航道普查資料匯編》所載,京杭大運河全長1 747km,其中北京到濟寧段季節性干涸且長江以南段河道寬度有限,因此本文選擇從濟寧段至揚州段作為研究區。本文研究區經過山東省濟寧市、棗莊市,江蘇省徐州市、宿遷市、淮安市、揚州市,連接南四湖、駱馬湖、洪澤湖、高郵湖和邵伯湖,研究區如圖1所示。

圖1 京杭大運河研究區示意
目前使用遙感影像研究運河水質是熱點問題,多種傳感器用于水質監測。考慮到京杭運河的寬度和水體光譜特征的復雜性,本文使用Landsat影像對運河水體進行分類。
本文使用Google Earth Engine(GEE)平臺來訪問、處理和合成來自USGSLandsat8 Surface Reflectance數據。研究區在2018年1月至7月共有95景影像,共涉及10個條帶。Landsat影像的寬幅是185×185 km,條帶號122036,121036,120037三景影像即可覆蓋整個研究區。由于Landsat訪問時間間隔為16天,并且云和霧會對水質監測產生誤差,因此本文最終挑選出15景低云少霧的影像用于研究區水質監測。影像信息如表1所示。
本文采用8層的深度卷積神經網絡,包括輸入層、2層卷積層、2層下采樣層、2層全連接層和Softmax回歸層,如圖2所示。
輸入層的一個樣本是一個像元的7個可見光波段值,即1×7大小的矩陣,而并非常見的多像元RGB通道值。考慮了本文輸入數據的特殊性,因此設計結構時決定第一層使用16個1×1大小卷積核。1×1大小卷積核能夠實現跨通道的信息交互和整合,能夠快速實現特征的降維和升維,能夠實現特征的線性組合。1×1大小卷積操作是變相實現了的全連接層的效果。本文通過對輸入的樣本進行1×1卷積已達到升維目的,一定程度上能夠找到相同水質的像元具有的深層特征。此外,本文在第5層使用1×2卷積核以找到不同組合的兩波段之間的聯系,充分利用有限的光譜信息發掘水質特征。利用卷積層和非線性之間的批規格化層,如ReLU層,加快卷積神經網絡的訓練,降低對網絡初始化的敏感性。
本文根據遙感影像數據和國家環境監測總站發布的水質月報結果制作用于水質分類的訓練樣本和驗證樣本。月報中公布了里運河、魯南運河、韓莊運河和梁濟運河自2018年1月至6月的水質結果,水質結果是根據地表水水質評價指標為《地表水環境質量標準(GB3838—2002)》將水質分為6個等級(Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、劣Ⅴ)。本文根據GB3838—2002對各等級水的定義將6類水質等級歸納為3類:Ⅰ~Ⅱ定為優,Ⅲ類定為良好,Ⅳ~劣Ⅴ類定為污染,因此2018年1—6月各河段的水質等級如表2所示。
本文在15景影像的各個河段上選取一定數量像元建立水質樣本訓練庫(樣本選取位置如圖3所示),每個像元的1-7波段的光譜反射率作為輸入樣本,該像元對應的水質等級作為標簽。每個河段選取的樣本個數如表3所示。

表1 本文遙感影像信息

圖2 網絡模型

表2 各河段2018年1—6月水質等級

圖3 各河段樣本選取位置

表3 樣本河段遙感影像信息
本文從水質樣本訓練庫隨機選取的36 000個像元作為訓練和交叉驗證樣本,每個水質等級中有10 000個像元作為訓練樣本,2 000個像元作為交叉驗證樣本,即訓練樣本30 000個,驗證樣本6 000個。
將從水質樣本庫中隨機抽取各水質等級樣本36 000個帶入卷積神經網絡模型中進行訓練。本文將模型的patience值設置為5,即驗證誤差大于訓練誤差的次數超過5次時終止訓練,這使得驗證起到了防止網絡過擬合的作用。本文對訓練樣本進行了共進行了20個epoch訓練,網絡的驗證精度為88%,模型訓練結果如圖4所示。從圖中可以看出損失函數有較好的收斂,并且驗證誤差大于訓練誤差的次數小于5次,這說明網絡沒有較強的過擬合從而具備一定的泛化能力。

圖4 卷積神經網絡訓練
為了進一步測試模型的精度和證明網絡精度的可信度,本文選擇2018/1/11的122036、2018/3/9的121036、2018/1/13的120037三景影像上的所有水像元(25 000個左右)作為測試數據(見表4),該模型的測試精度為84.6%。
本文將錯誤樣本的空間位置進行可視化(見圖5)發現,錯誤預測的樣本主要集中在韓莊河道,該河段的月報水質等級是良好,然而被模型判斷其為污染水體。錯誤樣本的集中說明錯分很有可能是月報數據的結果與遙感影像獲取的時刻結果之間的差異造成的。月報結果為當月平均狀況,而遙感影像反應的是某時刻的水質情況。由于水體是流動的,再加上雨雪等自然天氣狀況影響,污染物會在接下來幾小時或幾天內擴散。由于遙感是作為環境管理的輔助手段,其作用主要是發現污染水體的靶區,為相關部門提供需要進行詳細監測水質的區域范圍,因此將良質水體識別成污染水體的錯誤并不影響該目的。
本文構建卷積神經網絡大對京杭大運河濟寧-揚州段進行分類試驗,卷積神經網絡法能夠實現水質分類,并且水質分類效果較好,精度達到84%以上,能夠達到大尺度監測的精度要求。通過神經網絡法進行京杭大運河水質監測比傳統水體監測更便捷,更具有泛化能力,可以通過該法及時的發現污染河段可疑區并及時采取措施治理,這對京杭運河水體的管理與治理具有重大意義。

圖5 預測錯誤的樣本點

表4 測試樣本信息