張 穎
(上海海事大學信息工程學院,上海 201306)
隨著經濟發展和工業化進程的不斷推進,環境污染日益嚴重.過度排放使得富含氮、磷的污染物質隨著江河不斷流入大海,導致海水中的藻類過度繁殖、赤潮等災害頻繁爆發,給海洋環境以及周邊人們的生產生活帶來嚴重危害.動態監測近海海水中藻類的繁殖狀況,可以有效了解海水水質的變化情況,掌握周邊河流和陸地向海洋的排放狀況,預測藻類爆發性繁殖等災害的發生,并據此提前建立預警機制或采取相應的防范措施,盡可能減少災害所造成的損失.對藻類的動態監測結果還可以作為近海環境動態評價的依據,作為制定上下游整體經濟發展規劃、統籌產業規劃的參考,以保證經濟和社會的可持續發展.
大量研究[1-2]表明,藻類的生長與海水的硝酸鹽含量、光透度、溫度、含鹽度、氧溶量等十幾種理化因子的變化有著密切關系.葉綠素a是表征水體中藻類含量的最直接指標,也是反映水體中浮游生物量的綜合指標[3-4],根據其含量變化可以了解浮游植物生物量及其變化趨勢.本文將主成分分析法(Principal Component Analysis,PCA)與模糊反向傳播(Back Propagation,BP)網絡建模方法相結合,研究海水中各種理化因子與藻類濃度間的關系及規律,建立狀態預測模型,實現對近海水域藻類繁殖情況的預測.
PCA由霍特林于1933年正式提出,是一種通過降維技術把多個變量化為少數幾個主成分(稱為原變量的線性組合,即綜合變量)的統計分析方法.這些主成分通常表示為原始變量的某種線性組合,能夠反映原始變量的絕大部分信息.
通過數學變換,PCA使新變量——主成分彼此不相關,并選取少數幾個在方差總信息中比例較大的主成分來分析事物.按累計貢獻率的大小加權平均得出反映藻類生長的綜合變量,通過比較獲取在總信息量中比例較大的主成分作為系統預測模型的輸入變量.共設n個影響因子,每個影響因子取m次數據,則可得原始數據矩陣X=(xij)n×m,其中xij為第 i個影響因子的第 j次取值,i=1,2,…,n,j=1,2,…,m.藻類生長影響因子的PCA分析步驟如下:
(1)影響因子數據的標準化處理.對每個xij進行歸一化處理,有

式中:xs為歸一化后的值,xij為實際值,xmax和xmin分別表示對第i個影響因子的n次取值的最大值和最小值.
(2)利用標準化后的數據計算影響因子間的相關因數矩陣

(3)求解相關因數矩陣R的特征值和特征向量.令|R-λI|=0,可得R的m個特征值λi(i=1,2,…,m)(主成分的方差),其中 λ1≥λ2≥…≥λm≥0.設 λ1,λ2,…,λm對應的特征向量為 α1,α2,…,αm,則第i個主成分的表達式為

(4)確定主成分.選取p(p<m)個主成分,使得累計貢獻率超過85%.
模糊BP網絡是按照模糊邏輯系統的運算步驟分層構造,并利用BP學習算法的模糊動態系統.它不改變模糊邏輯系統的基本功能,如模糊化、模糊推理和反模糊化等,可以從海量數據中自動產生模糊規則,并具有自學習、自適應的能力.
一種具有在線學習功能的模糊BP網絡結構模型見圖1.該網絡分為3層,可以理解為一種3層前饋網絡[5-6],并可以用BP概念對其參數進行調整,從而達到使模糊邏輯系統進行學習的目的.

圖1 具有在線學習功能的模糊BP網絡結構模型
第2層的功能:獲取去模糊化表達式所需要的分子變量a和b.a為各規則下系統輸出模糊變量的高斯隸屬度函數的中心點值與zl的乘積之和,b為
取性能指標

式中:f為模型輸出;d為期望輸出.
按最速下降法調整網絡中的各權重因數,即針對E對各權重因數在負梯度方向進行搜索調整,可獲得

式中:α 為學習步長,可選取 α=0.5;f=a/b,a=


第3層的功能:完成系統的去模糊化處理f=a/b,獲得系統輸出結果.

模糊BP算法分兩步:(1)對于給定的輸入xi,前向計算出模糊BP網絡系統的參數zl(l=1,2,…,M),以及a,b和f;(2)運用(5)~(7)式反向迭代,對和(i=1,2,…,n;l=1,2,…,M)等參數不斷進行調整,以獲得最小的系統輸出誤差.
通常,與藻類繁殖狀況相關的理化因子主要包括海水的硝酸鹽含量、溫度、光透度、含鹽度和氧溶量等,而葉綠素a的含量通常用來表征藻類繁殖狀況.[8-10]選擇長江口某海域,從2009年11月25日3時50分至2009年12月7日15時50分,每隔1 h采集一次上述理化因子數據,共得到這一海域的300組數據作為實驗的樣本數據.選擇該時間段采集數據的原因在于:根據歷年來這一海域海洋理化因子觀測資料發現,該時間段是這一海域藻類繁殖狀況異常的多發期,因此以該時段的觀測數據作為模型訓練的樣本數據具有一定的代表性.上述因子中的海水光透度和溫度的狀態采集時間很短,而其他因子的測量牽涉到一些化學傳感器的反應時間問題,獲取時間長短各不相同,將采樣間隔定為1 h,可兼顧各個變量獲取時間的等間隔同步,所得到的樣本數據對模型構造及狀態預測具有實際意義.
首先構造預測系統的初始模型.選擇葉綠素a含量作為預測系統的輸出變量,硝酸鹽含量、光透度、溫度、含鹽量、氧溶量和前一采樣時刻的葉綠素a含量等6個變量作為系統的輸入變量,然后根據采樣數據對輸入變量進行主成分分析[4],求得相關因數,結果見表1.

表1 各理化因子的相關因數
由表1可知,6個因子存在不同程度的相關性,其中:溫度與含鹽量和氧溶量的相關因數分別為0.553和 -0.691,含鹽量與氧溶量的相關因數為-0.654.由此可提取出彼此獨立的變量,篩選出有代表性的因子構造模糊BP網絡的輸入變量.
根據表1的相關因數和本文中主成分分析步驟(1)~(4),計算所篩選的6個變量因子相關因數矩陣R的特征值和貢獻率,結果見表2.

表2 主成分特征值和貢獻率
由表2可知,第1個和第2個因子的貢獻率分別為44.398%和20.447%,計算可得:前4個因子的累計貢獻率為90.409%.
由于通常情況下,因子累計貢獻率大于等于85%時就可以反映相關因子的影響,因此可以用前4個變量主成分代替原來的6個變量構造模糊BP網絡模型系統.
將300組觀測數據中的前200組作為模型系統訓練數據,其余100組作為測試數據.在PCA基礎上,通過樣本訓練構建模糊BP網絡模型系統,通過測試數據進行系統預測驗證.系統訓練及測試結果見圖2(圖中虛線為樣本數據,實線為模型系統輸出數據).模糊BP網絡的誤差見表3.

圖2 模糊BP網絡訓練及預測結果

表3 模糊BP網絡的誤差
由圖2和表3可以看到,基于PCA的模糊BP網絡能夠較好地描述這一非線性系統對象.圖2中的預測結果表明,模糊BP網絡經過訓練具有系統預測功能,能夠根據新輸入的數據較好地預測出系統輸出可能出現的結果.從對220~240測試點之間出現峰值的跟蹤情況可以看出,模糊BP網絡模型具有較好的泛化性能,能夠有效預測藻類繁殖的情況,這恰恰是該類預測系統最需要被關注的功能.從表3中的誤差分析結果可以看到,模糊BP網絡的測試誤差大于訓練誤差,但預測模型還是表現出一定的泛化性能,可較好地跟蹤測試數據的變化,預測出葉綠素a濃度在接下來的100個采樣周期內的變化情況.
與葉綠素a濃度相關的理化因子有十幾種之多,但它們與葉綠素a濃度變化的關聯程度各不相同.如果都作為模型系統的輸入變量,將使模型維數很高、形式異常復雜,會使模型收斂速度慢、計算耗時大,不僅實時性差,而且模型的泛化性能也會降低.采用PCA可以獲取與系統輸出變量關聯最大的主成分變量,將它們作為模型的輸入變量,可以降低模型階次、縮短模型訓練時間、提高系統響應的實時性,結合模糊BP網絡的特點,可以使系統具有良好的泛化性能.
基于PCA的模糊BP建模方法可以有效降低非線性模型系統的復雜程度,提高模型計算的實時性,并使系統具有較好的泛化性能.本文運用這種模型描述海水各類理化因子與水體中葉綠素a含量之間的復雜映射關系,依此預測海水中藻類繁殖生長狀況.實驗結果表明,運用基于PCA的模糊BP網絡模型可以預測海水中葉綠素a的濃度,進而可以推測海水中藻類的生長狀況.
[1]LEE J H W,HUANG Y,DICKMAN M,et al.Neural network modelling of coastal algal blooms[J].Ecological Modelling,2003,159(2/3):179-201.
[2]MELESSE A M,KRISHNASWAMY J,ZHANG K Q.Modeling coastal eutrophication at Florida bay using neural networks[J].J Coastal Res,2008,24(2B):190-196.
[3]農吉夫,黃文寧.基于主成分分析的BP神經網絡長期預報模型[J].廣西師范學院學報,2008,25(4):46-51.
[4]高衛峰,姚志紅.基于BP神經網絡的藻類生長預測研究[J].微計算機信息,2005,21(10):167-169.
[5]朱武亭,劉以建.BP網絡應用中的問題及其解決[J].上海海事大學學報,2005,26(2):64-66.
[6]胡志武,程葆明,陳延才.基于BP神經網絡的船員適任性評價模型[J].上海海事大學學報,2010,31(12):23-27.
[7]王立新.自適應模糊系統與控制——設計與穩定性分析[M].北京:國防工業出版社,1995:35-56.
[8]陳艷攏,楊建洪,趙冬至,等.赤潮預報預警模型研究進展[C]//遼寧:中國海洋學會赤潮研究與防治專業委員會第二屆學術研討會,2007.
[9]劉載文,呂思穎,王小藝,等.河湖水華預測方法研究[J].水資源保護,2008,24(5):42-47.
[10]王洪禮,葛根,李悅雷.基于模糊神經網絡(FNN)的赤潮預警預測研究[J].海洋通報,2006,25(4):36-41.