鄒國良,韓金菊,屠正飛,葉建成,陳小琴(.上海海洋大學 信息學院,上海 0306;.三江學院 土木工程學院,江蘇 南京 0000)
?
基于BP神經網絡的海洋監測數據等級劃分
鄒國良1,韓金菊1,屠正飛1,葉建成1,陳小琴2
(1.上海海洋大學信息學院,上海201306;2.三江學院土木工程學院,江蘇南京210000)
摘要:數據的分類是數據處理和應用的重要環節和前提。在海洋領域中,海洋數據呈現多元、多類等的復雜多樣性,給數據的分類帶來一定的技術挑戰。主要針對海洋數據分類難這一問題,首先利用BP神經網絡技術對海洋環境監測數據進行分類,且通過對獲取的海洋環境監測數據進行分類預測,最后,實驗驗證了海洋環境監測數據分類方法的正確性和可行性,給海洋監測數據根據秘密等級進行數據分類提供了支持。
關鍵詞:數據分類;BP神經網絡;海洋監測數據;隱含層單元個數
2001年,著名的高德納咨詢公司(Gartner)在一份研究報告中指出,數據的爆炸性是“三維的”、是立體的,這三個維度,主要表現在以下三個方面:一是同一類型的數據量在快速增大;二是數據增長的速度在加快;三是數據的多樣性,即新的數據來源和新的數據種類在不斷增加。如何收集、保存、維護、管理、分析、共享正在呈指數級增長的數據是必須面對的一個重要挑戰。(徐子沛,2013)
近年來,由于海洋監測數據獲取手段多樣化,包括衛星遙感、航空、氣象氣球、臺站、浮標、船舶、以及水下傳感器等多種方式;各個涉海相關職能部門累積的海洋數據類型復雜,主要包括了海洋水文、環境質量、地質、氣象、經濟、化學及生物等各種各樣的資料;數據多尺度、數據量大,涉及空間范圍極廣,既有全球范圍的海洋觀測數據,也有小范圍的定點觀測數據,同時具有時間跨度大的特點,有即時海洋觀測數據,也有幾十年長序列的海洋氣象數據,并且交叉了海洋科學相關多個學科,累積數據總量已遠遠超過PB級,尤其是我國的重點海域,其累積數據量往往占數據總量的絕大部分,海洋監測數據已呈現爆炸性增長的趨勢;隨著遙感、浮標、臺站等各類觀測手段的應用,海洋數據的動態更新變得日益簡單和頻繁。
由于海洋監測數據的獲取手段多樣、數據類型復雜、數據頻繁變動和數據量爆炸性增長,在實際應用中,常常要對采集到的海洋監測數據進行相應的劃分處理,而這種劃分處理的方法需要簡單易行且準確率高,BP神經網絡中的網絡工具箱中包含了設計神經網絡模型所需要的各類函數及算法,包括初始化函數、訓練函數、仿真函數等等。這樣一來,設計者在進行BP神經網絡模型的設計時,只需要調用神經網絡工具箱中的相關函數和程序,即可建立所需的網絡模型,在面對大范圍變動的數據時,節省了程序的設計與調試時間,提高了實驗設計的效率,更具有可靠性。通過BP神經網絡把數據劃分成不同的安全等級,進而采取不同的安全措施。
目前對海洋信息的處理有了一定的發展,魏永星等(2014)提出了對實測海洋環境噪聲數據進行數據處理,為更廣泛的海洋環境噪聲數據的分析和應用奠定了基礎;周鵬等(2011)提出了海洋環境放射性監測數據科學判斷模式,為海洋環境放射性監測的數據處理提供借鑒;王曉民(2008)在分析“數字海洋”信息需求的基礎上,提出了數據處理與信息服務模型;Narayanan等(2014)提出了一種新的數據分類方法用于電力公司的安全框架,將數據分類應用到企業數據中。
利用BP神經網絡對數據進行分類也有了一定的研究基礎,通過描述并分析BP算法,利用實際案例證明BP網絡在數據分類領域具有實際應用價值(莫禮平等,2006);利用BP神經網絡化對探數據分類(陰江寧等,2010);將BP神經網絡應用在高維數據分類中(曹云忠等,2007)。但是對海洋監測數據利用BP神經網絡進行秘密級的劃分方面的研究開展的比較晚,研究報道相對比較少,本文在閱讀大量文獻的基礎上,利用BP神經網絡工具箱將海洋監測數據劃分為不同的秘密等級,實現了數據秘密等級分類。
本文實現了對海洋監測數據進行秘密級分類,分類的過程具有簡單、易行、實用等特點。
1.1BP神經網絡的原理
BP神經網絡(Back Propagation)是一種按誤差逆向傳播算法訓練的多層前饋網絡,分為輸入層、隱含層和輸出層,層與層之間采用全互連方式,層內神經元之間無連接,其模型結構如圖1。

圖1 BP網絡結構
BP算法通過迭代地處理一組訓練樣本,將樣本的網絡預測與實際已知類標號比較來進行學習。對于各樣本反向修改其權值,使得網絡預測與實際類之間的誤差平方最小。BP算法按照最優訓練準則反復迭代,確定并不斷調整神經網絡結構,通過迭代修改,當權值收斂時,學習過程終止(李穗豐等,2006;蔡自興等,1996)。
1.2行隱含層單元數的確定方法
以下3種途徑可用于選擇最佳隱含層單元數時的參考公式(飛思科技產品研發中心,2005,沈花玉等,2008)。
(3)n1= log2n,其中,n1為隱含層單元數,n為輸入單元數。
在實際問題中,通常的選擇是每種方法分別驗證其最佳隱含層單元數,然后確定網絡最終的最佳隱含層單元數。
2.1海洋數據的來源
本文的數據采集有一部分是來自于網絡資源數據(http://www.ndbc.noaa.gov/;樊妙等,2013),有一部分是來自于我院對我國某重點海域環境監測數據的收集。這些數據中包含大比例尺、長周期、遠岸和近岸數據,這些數據必定是有一定海洋研究價值,是符合本文數據秘密等級分類的要求。
在指標的選取時,所選取的這些指標是海洋環境監測的基礎要素指標,這些指標參量數據中包含有本文收集的大比例尺、長周期、近岸、遠岸數據,是符合本文價值等級分類實驗要求的數據,其中有1/5的數據是大比例尺、長周期、近岸數據;1/5的數據是長周期,大比例尺數據;1/5的數據是長周期,近岸數據;1/5的數據是長周期,遠岸數據;1/5的數據是遠岸數據。實驗環境是MATLAB神經網絡工具箱。實驗數據如表1。收集海洋監測數據的工具為各類浮標、水位觀測網絡和石油平臺,圖2、圖3為海洋環境監測數據浮標,圖4為海洋環境監測數據分布圖。MATLAB神經網絡工具箱提供了一系列相關建立BP網絡模型的函數,只需掌握這些函數的調用,即可建立所需的網絡模型,從而可以提高研究效率(劉松青,2003)。

表1 部分歸一化后的訓練數據

圖2 海洋環境監測浮標
圖2中浮標為海洋環境監測浮標,其主要參數如下:
浮標類型:近岸監測浮標
浮標自重:57 kg
毛排水量:622 kg
整體毛重:307 kg
最大浮力:320 kg
浮力/重量比:2.96:1
浮標尺寸:1.83 m直徑,1.13 m高
支架高度:1.52 m
浮標整體高度(不含頂端加裝設備的高度):2.58 m
最大整體高度(含典型的天線及燈標):不超過4.5 m

圖3 海洋環境監測浮標

圖4 數據分布圖
2.2數據分類依據
海洋資料涉及國家機密,屬于保密范圍。為使海洋資料既利于保密又便于使用,結合幾年來海洋工作的具體情況,國家海洋局對主要海洋資料的密級劃分作如下規定(http://sdinfo.coi.gov.cn/hyfg/ hyfgdb/fg151.htm):
(1)絕密:我國實測的重力資料及其整編成果;實測的我軍艦艇水下噪聲資料等。
(2)機密:各種海洋調查計劃;我國實測的磁場資料及其整編成果等。
(3)秘密:海洋站的潮位資料和潮汐調和常數;位于軍港的海洋站觀測資料等。
(4)內部:非位于軍港的海洋站觀測資料(除潮位);各種未經公開的船舶測報資料等。
(5)公開資料:純理論性的科研成果;一般的海洋儀器技術資料等。
2.3實驗基本流程
本文利用MATLAB神經網絡工具箱,對海洋監測數據進行秘密等級劃分,首先將海洋監測數據劃分成訓練和校驗兩個樣本集,然后利用訓練樣本集將神經網絡訓練達到誤差可接受的范圍,最后用校驗數據進行校驗,數據分類流程如圖5所示:

圖5 數據分類流程
2.4隱含層數的確定
通過1.2所述,隱含層單元數的確定需要樣本數,輸入單元數,輸出單元數。本實驗利用MATLAB神經網絡工具箱,對數據的秘密等級進行劃分。將流速、流向、波高、氣壓、氣溫、水溫、緯度、經度、可訪問人數這9個元素作為輸入,將絕密、機密、秘密、公開4個指標作為輸出,輸出結果的方法依次表示為0001,0010,0100,1000,見表2。選取500個樣本數據進行實驗,其中有300個數據作為訓練數據,有75個數據作為校驗數據,有125個數據作為測試數據,通過1.2所述的3種方法,分別計算隱含層的單元數。
(3)n1= log2n,n = 9,計算n1= 4。
通過方法(1)、(2)、(3)中計算的隱含層單元數,選擇隱含層單元數分別為4,5,6,7,8,9,10,11,12,13,14時,利用BP神經網絡工具箱訓練數據,觀看數據訓練后的混肴函數,如圖6-9所示。當隱含層數為6時,訓練數據的混淆函數已經達到很好的收斂,由于篇幅原因,此處不再贅述插入當隱含層數為8-14時的混淆函數。

表2 價值等級輸出表示

圖7 隱含層數為5

圖9 隱含層數為7

圖10 隱含層數為6時的準確率
圖6-圖9分別代表隱含層數為4-7時,BP網絡訓練數據的具體情況,以圖6為例加以說明:圖6中共包含4個圖,其中分別為訓練混淆矩陣、驗證混淆矩陣、測試混淆矩陣和總混淆矩陣。
訓練混淆矩陣是對網絡訓練數據情況的具體反映,由訓練混淆矩陣圖可以看出矩陣的橫坐標代表目標類,矩陣縱坐標代表輸出類,根據輸出指標得到訓練混淆矩陣橫縱坐標分別表示為1、2、3、4四類,實驗的訓練數據為300條,圖6的訓練混淆矩陣中有88條1類數據被訓練成1類數據,有0 條1類數據被訓練成2類數據,有6條1類數據被訓練成3類數據,有0條1類數據被訓練成4類數據。2類、3類、4類數據訓練情況以此類推。
驗證混淆矩陣是對訓練完成的網絡進行驗證情況的具體反映,由驗證混淆矩陣圖可知驗證數據為75條,其中有23條1類數據被判斷為1類數據,0條1類數據被判斷成2類數據,0條1類數據被判斷成3類數據,0條1類數據被判斷成4類數據。2類、3類、4類數據驗證情況以此類推。
測試混淆矩陣是對訓練完成的網絡進行測試情況的具體反映,由測試混淆矩陣圖可知測試數據為125條,其中有35條1類數據被判斷為1類數據,0條1類數據被判斷成2類數據,4條1類數據被判斷成3類數據,0條1類數據被判斷成4類數據。2類、3類、4類數據測試情況以此類推。
總混淆矩陣反映了總體數據分類的情況,與上述混淆矩陣類似,此處不再贅述。
圖10這張準確率的圖可以看出,訓練數據、校驗數據、測試數據的錯誤率大部分都在0.000891,少部分在0.00135,極少部分在0.00359 和0.003131。
2.5等級劃分仿真實驗
由2.4節可知,本實驗確定的隱含層數為6,當隱含層數為6時,網絡訓練速度快,所需迭代次數少,誤差小,收斂性好,因此本文采用了的網絡結構,網絡結構如圖11所示,表3為測試數據的輸出,可以看出使用訓練好的密級分類模型所得到的評估結果是符合期望的。
利用訓練好的BP數據分類模型進行預測評估,結果顯示出利用BP數據分類網絡模型對浮標系統中存儲的數據的秘密等級進行預測評估是可行的,只要有足夠準確可靠的樣本數據供網絡進行學習訓練,就可以對海量海洋數據的秘密等級進行分類,這對于海量海洋數據的分類保存具有十分重要的意義。

圖11 網絡結構圖

表3 測試數據輸出
本文在總結了計算BP神經網絡隱含層單元個數方法的基礎上,利用BP神經網絡工具箱,構建出最符合數據秘密級分類的網絡結構,在莫禮平等(2006)給出的數據分類思想的基礎上,將BP神經網絡延伸到海洋領域,使用MATLAB神經網絡工具箱比莫禮平等(2006)所使用的方法簡單易行,且可大幅度降低海洋監測數據學習時間,500多個點的輸入只需學習幾次,且收斂性也很好。同時,本文考慮到了BP神經網絡隱含層單元數個數的選取,這是莫禮平等(2006)所沒有考慮到的。本文所使用的方法可以很好的處理海洋監測數據,正確的劃分了海洋數據的秘密等級,具有現實的應用價值。
另外,本文采用了實際的應用案例,克服了周鵬等(2011),王曉民等(2008)單純使用判斷模式的缺點,得到的結果更加真實可信。
隨著海洋事業的發展,海洋監測數據的爆炸性增長問題已經是一個不可回避的問題,本文利用MATLAB神經網絡工具箱對海洋監測數據進行秘密等級劃分。通過實際的應用案例,利用BP神經網絡可以達到很好的精度和較高的學習效率,收斂速度快。
參考文獻
http://sdinfo.coi.gov.cn/hyfg/hyfgdb/fg151.htm.
蔡自興,徐光佑,1996.人工智能及其應用(第二版).北京:清華大學出版社.
曹云忠,王超,2007.多神經網絡在高維數據分類中的應用研究.計算機應用與軟件,24(7):146-148.
樊妙,章任群,金繼業,2013.美國海洋測繪數據的共享和管理及對我國的啟示.海洋通報,32(3):246-249.
飛思科技產品研發中心,2005.神經網絡理論與MATLAB7實現.
李穗豐,陳燕清,2006. BP神經網絡及其在數據分類中的應用.電腦與電信,(9):13-15.
劉松青,2003. MATLAB神經網絡BP網絡研究與應用.計算機工程與設計,24(11):81-83.
莫禮平,樊曉平,2006. BP神經網絡在數據挖掘分類中的應用.吉首大學學報(自然科學版),27(1):59-62.
沈花玉,王兆霞,高成耀,等,2008. BP神經網絡隱含層單元數的確定.天津理工大學學報,24(5):14-15.
王曉民,張新,池天河,2008.“數字海洋”的數據處理與應用模式研究.計算機應用,28:358-363.
魏永星,于金花,常哲,等,2014.海洋環境噪聲數據處理及時空特性研究.電子設計工程,22(14):28-30.
徐子沛,2013.大數據,廣西師范大學出版社.
陰江寧,肖克炎,李楠,等,2010. BP神經網絡在化探數據分類中的應用.地質通報,29(10):1564-1571.
周鵬,李冬梅,蔣躍進,等,2011.海洋環境放射性監測的數據處理中存在的問題.海洋通報,30(5):544-550.
(本文編輯:岳心陽)
Marine monitoring data hierarchy based on the Back Propogation neural network
ZOU Guo-liang1,HAN Jin-ju1,TU Zheng-fei1,YE Jian-cheng1,CHEN Xiao-qin2
(1. Shanghai Ocean University,College of Information,Shanghai 201306,China;2. San Jiang University,College of Architecture and Construction,Nanjing 210000,China)
Abstract:Data classification is the key step of marine data processing. In the ocean field,the multiple and multiclass diversity of marine data brings technical challenges to the data classification. This paper mainly focuses on solving this problem. First,BP neural network technology is used to classify the marine environmental monitoring data. Then we bring out a prediction from the classification of obtained marine environmental monitoring data. At last,the experiment verifies the validity and feasibility of the method of marine environmental monitoring data classification,which has laid a foundation for the marine monitoring data classification based on secret levels.
Keywords:data classification;BP neural network;marine monitoring data;hidden layer unit number
中圖分類號:P736.22
文獻標識碼:A
文章編號:1001-6932(2016)02-0187-07
Doi:10.11840/j.issn.1001-6392.2016.02.009
收稿日期:2014-12-21;
修訂日期:2015-06-05
基金項目:上海市科委重點支撐項目(12510502000);華東師范大學河口海岸學國家重點實驗室開發基金(2008DFB90240)。
作者簡介:鄒國良(1961-),男,博士,教授,主要從事信息安全、信號系統研究。電子郵箱:glzou@shou.edu.cn。
通訊作者:韓金菊,碩士,研究生。電子郵箱:994825467@qq.com。