胡 田, 李賢哲, 于徐華
(中海環境科技(上海)股份有限公司,上海 200135)
?
基于BP神經網絡的表層懸浮物濃度預測模型
胡田,李賢哲,于徐華
(中海環境科技(上海)股份有限公司,上海 200135)
摘要:懸浮物濃度是海洋沉積動力學領域中的重要參數,對其進行準確預測及定量研究綠潮爆發期間懸浮物所帶來的影響具有重要意義。將BP(Back Propagation)神經網絡應用于表層懸浮物濃度的預測中:將流速、水深、波高、溫度、鹽度及風速等影響懸浮物濃度的因素作為BP神經網絡的輸入單元,通過對蘇北近岸海域進行調查,獲取用于訓練和預測的數據,建立表層懸浮物濃度的BP神經網絡預測模型。將預測結果與多因子逐步回歸擬合結果進行比較,得到逐步回歸預測結果的平均相對誤差為24.13%,BP神經網絡預測結果的平均相對誤差僅為13.02%。由此可見,BP神經網絡預測結果具有更高的精度,可為蘇北近岸海域表層懸浮物濃度的準確預測提供更可靠的途徑。
關鍵詞:BP神經網絡;懸浮物濃度;蘇北近岸海域;預測
0引言
研究近岸水體的懸浮物濃度及其通量,對認識海岸環境的演化規律,開發和持續利用港口、土地資源具有重要意義[1]。同時,懸浮物濃度作為決定水質渾濁度的主要因素,直接影響著海洋初級生產力、海水養殖及海洋漁業[2]。因此,快速、準確地監測懸浮物濃度具有十分重要的理論和實踐意義。
傳統的沿水深按層次采集水樣或用濁度計單點測量獲取懸浮物濃度的方法耗資巨大,數據不連續,空間分辨率低[3];遙感方法測量懸浮物濃度具有監測范圍廣的優點,但其受同步監測資料不充分[4]、大氣校正不徹底[5]及不同遙感數據不能簡單套用相同的模式參數[6]等限制,反演精度較低。聲學多普勒流速剖面儀(Acoustic Doppler Current Profilers ,ADCP)作為常規的測流儀器,其利用的散射體為水中的懸浮生物和懸浮沉積物[7],因而具有測量懸浮物濃度的潛力。近年來,相關學者[8-10]圍繞ADCP在懸浮物濃度測量方面的應用開展了廣泛研究,取得了一些研究成果。但是,由于影響ADCP后向散射強度的因素(如回聲強度、水溫、鹽度及水深等)眾多,提取較為困難,且需要采集較多的水樣進行標定,因此測量精度有待進一步提高。
人工神經網絡是目前國際前沿研究領域應用的一門新興交叉學科。近年來,國內外相關學者已將神經網絡模型成功應用于水資源、水環境評價及水文時間序列等方面的研究中,拓寬了其應用領域,但將神經網絡應用于懸浮物濃度預測的研究還較少。目前應用最多、研究較為成熟的是多層前饋網絡誤差反傳算法模型,即BP(Back Propagation)模型。該模型是一種較特殊的非線性映射方法,通過一元函數的多次復合來逼近多元函數。BP神經網絡模型具有處理復雜非線性函數的能力,因此這里以蘇北近岸海域為例,利用BP神經網絡建立蘇北近岸海域表層懸浮物濃度的預測模型,以求準確、快速地獲取該海域表層懸浮物的濃度數據。
1材料與方法
1.1影響因子確定與數據獲取
在BP神經網絡預測模型中,輸入因子的選擇對預測精度的影響很大。
1) 流速為懸浮物濃度的主要控制因素,研究結果表明:在底層流速達到臨界起動速度后,底床泥沙會在剪切力的作用下發生再懸浮,在底層形成較大的懸浮物質量濃度水體;而在底層流速低于臨界流速時,底層水體中的泥沙將慢慢落淤[11]。
2) 風通過波浪把能量傳遞給海水,在淺海水域對海底沉積物的起動和再懸浮有重要作用[12]。1983年,中美聯合調查船在南黃海輻射沙洲區測量時突然遇到10級持續24 h的大風,海水表層懸浮物濃度隨后增加了1倍,而底層則增加了6倍[13],反映了風力對懸浮物濃度的重要影響。
3) 海水的溫度與黏滯性成負相關關系,溫度越低黏滯性越高,在降低懸浮顆粒沉降速度的同時,還使得相同流速的海水對海底的切應力增大,使得沉積物易于起動和再懸浮。
4) 波浪作用過程中,可使底層沉積物再懸浮,底床下部一定深度處的細粒沉積物會在滲流力的驅動下傳輸至表層,進而懸浮在水體中[14]。
5) 海水中的粗顆粒沉積物能在自身重力的作用下快速沉降至海底,而細顆粒物通常以絮凝的方式沉降,較高的鹽度能促進細顆粒物的絮凝。
因此,選取流速、水深、波高、溫度、鹽度及風速作為影響懸浮物濃度的環境因子。
2012年8月和12月對布設于江蘇近岸海域的3條斷面的15個站點(見圖1)進行了大面積調查。每個站點在每次調查中各采集1組流速、水深、波高、溫度、鹽度、風速及懸浮物濃度數據,共得到30組有效數據。
1) 流速和水深由安裝全球定位系統(Global Positioning System,GPS)的ADCP(TRDI公司生產的WHRG-600KHz型)測得,測量時探頭置于水下0.5 m處,并確保探頭表面無雜物遮擋。
2) 溫度和鹽度由Seabrids37型溫鹽深儀 (Conductivity Temperature Depth,CTD)測得,測量前需提前在海水中感溫2 min。
3) 風速由風速儀在四周無遮擋的船首測得,并取1 min的平均風速作為該站點的測量值。
4) 站點的波高數據通過目測獲取,連續觀測20次,將其平均值作為神經網絡的輸入變量。
5) 懸浮物水樣按照《海洋監測規范》(GB 17378.3—2007)中的相關規定采集,在實驗室用真空抽濾法獲取:首先用預先在60 ℃下烘干的濾膜對水樣進行過濾(為減小濾膜誤差,采用雙膜過濾過濾),其次將附有泥沙的濾膜烘干、稱重,最后計算得到懸浮物的濃度。
1.2BP人工神經網絡模型
選取懸浮物濃度影響因子流速、水深、波高、溫度、鹽度及風速,建立基于BP神經網絡的蘇北近岸海域懸浮物濃度計算模型,BP神經網絡結構示意見圖2。
采用MATLAB 2013軟件對BP人工神經網絡模型進行設計,采用的神經網絡模型為3層的反向傳輸神經網絡,第1層為輸入層,第2層為隱含層,第3層為輸出層。各層的神經元之間形成連接,各層內的神經元之間沒有連接。

圖1 調查海域站位分布圖

圖2 BP人工神經網絡結構示意
對于輸入層神經元,為消除輸入因子量綱不同對網絡識別精度的影響,對輸入變量進行歸一化處理。
(1)
隱含層的神經元的輸出為
(2)
(3)

在對該網絡進行訓練時,會有若干組訓練樣本,每個樣本均由輸入和理想輸出組成。當網絡的所有實際輸出與理想輸出一致時,訓練結束;否則,通過修改權重使網絡的實際輸出與理想輸出一致。
在進行神經網絡設計時,隱含層和輸出層的傳輸函數分別為S型正切函數和S型對數函數。由于S型函數的極限值落在[0,1]內,因此進行網絡訓練時能快速地收斂,同時采用自適應的Levenberg-Marquardt快速學習算法訓練網絡。研究人員李偉[2]認為,樣本集中80%的數據用作訓練、20%的數據用作預測時網絡性能穩定。在進行網絡訓練前,用Dixson異常值檢驗法(a≤0.05)剔除2組異常數據;隨機選取剩余28組數據中80%的數據(約22組)作訓練,剩余20%的數據(約6組)作檢驗,以使訓練達到最佳效果[2]。期望誤差值應通過對比訓練確定,相對于隱含層神經元的數目,網絡訓練誤差設置為0.000 1。
1.3多元線性回歸模型
采用MATLAB 2013的regress函數建立多元線性回歸模型,選用與BP神經網絡模型相同的影響因子(流速、水深、波高、溫度、鹽度及風速)與BP人工神經網絡模型進行比較。多元線性回歸模型為
(4)
式(4)中:Xi為輸入變量i的值;Y為實測懸浮物濃度;常數項b0和回歸系數bi運用最小二乘法求得;εi為回歸誤差,回歸求解的過程即為使平均誤差ε最小的過程。
2結果與分析
2.1隱含層神經元數目的確定
BP網絡隱含層神經元的個數需根據實際問題來確定[17],這里通過計算樣本模擬值與實測值之間的Pearson相關系數(R)的平方值和平均絕對百分誤差(Mean Absolute Percentage Error, MAPE)來完成,平均絕對百分誤差計算式為
(5)

表1為不同神經元數目下模型的預測結果。由表1可知,隱含層神經元為9時,BP網絡對函數的逼近效果最好,相對誤差最小。此外,網絡的性能并非隱含層神經元的個數越多越好,當神經元個數增加到10時,誤差反而增大。因此,這里構建的神經網絡模型為6-9-1結構。圖3為隱含層神經元為9時的網絡訓練示意圖。由圖3可知,模型經過6次訓練就使誤差降低到了目標誤差。

表1 不同神經元數目下模型的預測結果 %

圖3 BP神經網絡模型訓練示意圖
2.2多元線性回歸系數的確定
利用數據處理系統(Data Processing System,DPS)操作平臺對數據進行分析,將每個站點獲得的流速、水深、波高、溫度、鹽度、風速及懸浮物濃度數據作為單個樣本,不同站位獲得的流速數據作為自變量,從而獲得流速、水深、波高、溫度、鹽度及風速等變量,懸浮物濃度作為因變量放在最右邊。將待分析的所有數據定義成數據矩陣列,進行逐步回歸分析。
根據全部輸入變量,運用逐步回歸法得到懸浮物濃度ρ,多元線性回歸預測模型為
ρ=1.110 1+0.061 9Vi-0.097 8Hi-0.113 0Li-0.514 0Ti-
0.951 2Si+0.128 9Vwi,i=1,2,3,…,22
(6)
式(6)中:ρ為懸浮物濃度;V為流速;H為水深;L為波高;T為表層水溫度;S為鹽度;Vw為風速。
2.3模型的驗證
圖4為人工神經網絡模型與多元線性回歸模型的擬合優度。從圖4中可看出:當選擇的隱含層神經元為9時,人工神經網絡模型的擬合程度相比多元線性回歸模型有很大提高;多元線性回歸模型的懸浮物濃度擬合直線明顯偏離期望值1∶1直線;人工神經網絡模型的懸浮物濃度擬合直線與期望值1∶1直線較接近,擬合結果相比多元線性回歸模型有很大提高。

(a) 人工神經網絡模型

(b) 多元線性回歸模型
為檢驗所建立的神經網絡模型和多元線性回歸模型的預測精度,選取剩余的6組數據對模型進行驗證(見圖5)。由圖5可知,當隱含層神經元為9時,網絡的MAPE僅為13.02%,與文獻[18]中構建的BP神經網絡模型的預測精度基本一致,相較多元線性回歸的24.13%有較大幅度的提高。
3結語
以環境影響因子(流速、水深、波高、溫度、鹽度及風速)作為輸入,懸浮物濃度作為輸出,結合實測的懸浮物濃度,利用BP神經網絡模型對江蘇近岸海域的懸浮物濃度進行了研究。當隱含層神經元數為9個時,BP神經網絡模型的訓練效果最好,絕對百分誤差僅為13.02%,而多元線性回歸的絕對百分誤差為24.13%。研究結果表明:BP神經網絡能較準確地反演出江蘇近岸海域懸浮物濃度,可用于揭示江蘇近岸海域懸浮物濃度的空間分布規律,為研究懸浮物濃度對綠潮大規模發爆發的影響提供技術支撐。

圖5 BP神經網絡與多元線性回歸預測值和實測值對比
參考文獻:
[1]汪亞平,高抒,李坤業.用ADCP進行走航式懸沙濃度測量的初步研究[J].海洋與湖沼,1999,30(6):758-763.
[2]李偉.人工神經網絡方法反演東中國海懸移質濃度[J].海洋湖沼通報,2007(4):55-58.
[3]高建華,汪亞平,王愛軍,等.ADCP在長江口懸沙輸運觀測中的應用[J].地理研究,2004,23(4):455-462.
[4]唐兆民,唐元春,何志剛,等.懸浮泥沙濃度的測量[J].中山大學研究生學刊(自然科學、醫學版),2003,24(3):47-53.
[5]博克忖,荒川久幸,曾憲模.懸沙水體不同波段反射比的分布特征及懸沙量估算實驗研究[J].海洋學報,1999,21(3):134-140.
[6]李四海,惲才興.河口表層懸浮泥沙氣象衛星遙感定量模式研究[J].遙感學報,2001,5(2):154-160.
[7]程鵬,高抒.ADCP測量懸沙濃度的可行性分析與現場標定[J].海洋與湖沼,2001,32(2):168-175.
[8]HOEKSTRA P, HOINTINK A J F.Observations of Suspended Sediment from ADCP and OBS Measurements in a Mud Dominated Environment[J].Coastal Engineering,2005(52):103-118.
[9]田慧娟,韓賦,朱柯行,等.基于多普勒聲學原理測定海水懸沙質量濃度[J].淮海工學院學報(自然科學版),2013,22(2):89-92.
[10]孟令鵬.長江口懸沙輸運觀測中ADCP的應用[J].科技資訊,2012(3):89.
[11]陳斌,周良勇,劉健,等.廢黃河口海域潮流動力與懸沙輸運特征[J].海洋科學,2011,35(5):73-81.
[12]邢飛,汪亞平,高建華,等.江蘇近岸海域懸沙濃度的時空分布特征[J].海洋與湖沼,2010,41(3):459-468.
[13]宋召軍,黃海軍,杜廷芹,等.南黃海輻射沙洲附近海域懸浮體的研究[J].海洋地質與第四紀地質,2006,26(6):19-25.
[14]鄭杰文,賈永剛,劉曉磊,等.波浪作用下沉積物再懸浮過程研究進展[J].海洋地質與第四紀地質,2013,33(5):173-183.
[15]DANIEL M,HANES P T.A Review of Acoustic Measurement of Small-Scale Sediment Processes[J].Continetal Shelf Research,2001,22:603-632.
[16]李義天,李榮,黃偉.基于神經網絡的水沙運動預報模型與回歸模型比較及應用[J].泥沙研究,2001(1):30-37.
[17]孔德星,楊紅.長江口區基于BP算法的表層懸沙濃度計算模型[J].海洋技術,2009,28(2):18-20.
[18]于東生,嚴以新,田淳.基于BP算法的泥沙含量預測研究[J].水運工程,2003(6):5-9.
Modeling with BP Neural Network for Predicting Suspended Solid Concentration in Surface
HUTian,LIXianzhe,YUXuhua
(China Shipping Environment Techlogy (Shanghai) Co., Ltd., Shanghai 200135, China)
Abstract:Accurate prediction of suspended solid concentration is very important to quantitative study on the impact of the suspended solids during green tides. The BP neural network model for predicting suspended solid concentration surface is established and trained by the data acquired from SuBei Coastal Waters, with the input consisting of velocity, water depth, wave height, temperature, salinity and wind speed. Trials indicate that the relative error of the average prediction of the BP neural network is 13.02%, in contrast to 24.13% of that from the multi-factor stepwise regression.
Key words:BP neural network; suspended solid concentration; Subei coastal waters; prediction
收稿日期:2016-04-22
作者簡介:胡田(1988—),男,湖南岳陽人,碩士生,主要從事環境影響評價的工作。
文章編號:1674-5949(2016)02-0072-05
中圖分類號:P734.23;TP183
文獻標志碼:A