紀 雪,唐秋華,陳義蘭,李 杰,丁德秋
1.測繪遙感信息工程國家重點實驗室,湖北 武漢 430079;2.自然資源部第一海洋研究所,山東 青島 266061;3.山東科技大學測繪科學與工程學院,山東 青島 266590
海底底質是一種重要的海底淺層環境信息載體,其類型及分布是海洋空間規劃、海洋調查、海洋工程建設、海洋生物棲息地調查、海洋資源開發利用以及海洋科學等研究的重要基礎數據[1]?;诙嗖ㄊ晫W遙感探測數據,結合一定的底質取樣進行海底沉積物分類研究,是近年來迅速發展起來的新型海底底質分類方法,為底質類型劃分提供了一種快速而有效的探測手段[2]。
常見的基于多波束的聲學底質分類方法概括起來有統計分析[3-5]、圖像分析[6]、聚類分析[7]、神經網絡[8-10]、支持向量機(support vector machine,SVM)[11]、隨機森林[12-15]、深度學習神經網絡[16-18]等。目前底質分類模型多采用單一的分類模型,分類性能參差不齊。單一的分類模型不可避免地會存在一定局限,比如對初始參數敏感、泛化能力差、容易受噪聲干擾、穩健性不佳等等。Boosting是一種組合單一分類方法的集成學習算法,其理論框架源于PAC(probably approximately correct)學習模型,通過對樣本集的操作獲得樣本子集,然后用弱分類算法(弱分類器)在樣本子集上訓練生成一系列的基分類器。這種將弱學習方法提升為強學習方法的Boosting算法很多,AdaBoost(adaptive boosting)自適應增強算法作為Boosting算法家族最具代表性的算法參數設置簡單,且無須先驗知識[19-20]。由于AdaBoost分類精度在一定程度上依賴弱分類器的分類性能,并且隨著訓練樣本數目和類別的增加,分類速度降低,訓練時間變長。因此弱分類器的選擇成為研究者關注的重點之一。
SVM基于結構風險最小化理論在特征空間中構建最優分類面,使得模型能夠得到全局最優,并且整個樣本空間的期望風險以某個概率滿足一定上界[21]。與傳統機器學習方法相比,SVM具有嚴謹的理論和數學基礎,泛化能力強,可有效解決局部收斂、非線性、過學習等問題[22],在數據挖掘、模式識別、數據分類、信號處理及估計回歸函數等方面得到廣泛應用[23-24]。但在實際應用中,對于SVM最優參數的選擇在理論上尚未得到較好解決。目前常用的SVM參數選擇一般采取窮舉法,但該方法計算量大,耗用時間長,尋優精度低,且不易獲得最優參數。遺傳算法(genetic algorithm,GA)是基于進化生物學中遺傳、突變、自然選擇、雜交等現象的進化機制而探索出的一種搜索自適應概率優化算法,用于解決復雜系統優化問題[25]。與傳統優化算法相比,GA尋優具有搜索效率高,以群體為單位,對自變量中所有個體進行并行搜索,避免陷入局部最優解,不受目標函數影響,適應性強。
本文結合GA、SVM和AdaBoost的優勢,基于SVM和增強學習框架提出一種GA-SVM-AdaBoost算法進行海底底質分類研究。首先采用GA算法對SVM的參數進行自動搜索,解決SVM的參數自動優選問題,然后將GA算法優化后的多個SVM模型作為弱分類器,根據AdaBoost算法構建強分類模型,最后應用于解決海底底質類型多樣化、類型之間差異較小等多分類難點問題。
試驗區位于中國黃海中部,膠東半島南岸青島市境內的膠州灣。膠州灣屬于半封閉海灣,具有較典型的港灣海岸,海底地貌類型多樣,有豐富的粉砂質黏土、黏土質粉砂、泥質砂、砂質泥、粉砂、礫石、泥巖、基巖、粗砂等底質類型,有利于開展聲學底質分類研究。本文試驗利用挪威Kongsberg公司的EM3000多波束測深系統在試驗區進行數據采集工作,共采集17條多波束測線數據。研究區地形、測線布設和海底表層沉積物位置及類型如圖1所示。研究區水深在5~40 m范圍內,結合現場底質取樣分析數據以及歷史沉積物類型分布資料,試驗區淺表層海底沉積物包括基巖、砂、黏土質粉砂和粉砂質黏土4類。
1.2.1 反向散射強度數據處理
多波束測深系統詳細記錄了每一個時序采樣點的位置信息和反向散射強度信息,可以同時獲取高精度的水深地形和高分辨率的聲吶圖像。由于動態復雜的海洋環境以及多波束測深系統自身的局限,原始的反向散射強度測量值并不能直接反映真實的海底底質特征,需進行系統的校正處理。反向散射強度數據在進行底質識別之前通常需要經過定位、系統誤差改正、聲強補償改正、聲吶圖像處理、聲吶圖像特征提取等一系列處理,可以概括為以下4步:
(1)聲強數據位置改正。解析多波束原始數據包中的姿態信息、導航信息、聲速剖面等數據,通過聲線跟蹤、姿態改正、基陣空間坐標確定、基陣空間姿態確定、平面直角坐標系下水深點位置歸算以及反向散射強度位置歸算。
(2)聲強數據補償校正。聲強數據依次進行傳播損失補償、TVG改正、聲照面積改正、地形起伏度改正、中央波束改正和角度響應分析等在內的聲強補償改正[26-31],得到能反映海底底質特征的真實聲強值。
(3)聲吶圖像獲取。對聲強條帶數據進行拼接,然后數據重采樣得到聲吶圖像,得到的聲吶圖像進行增強處理提高底質辨識度。
(4)底質分類。基于聲吶圖像進行特征提取和篩選,選擇優勢特征同時降低圖像特征維度,構建分類器進行海底底質自動分類識別。
本文通過自主設計完成的MBClass多波束數據處理軟件進行聲吶數據改正,數據改正前后的聲吶圖像如圖2所示。從圖2的3處局部放大圖可以很明顯地看出,聲強補償改正模型改正后的聲吶圖像較好地解決了聲強的角度響應問題和中央亮條帶問題,聲強過渡更清晰、自然。

圖1 研究區概況Fig.1 Overview of the research area

圖2 反向散射聲強數據改正前后對比Fig.2 Comparison of backscattered strength data before and after correction
1.2.2 聲吶圖像增強
為改善聲吶圖像的視覺效果,突出不同海底底質之間的細節特征,利用基于雙邊濾波的Retinex算法進行海底聲吶圖像增強[32]。Retinex理論是一種顏色恒常知覺的計算理論[33]。該算法綜合考慮像素亮度本身和周圍像素位置進行照度估計,采用具有保邊去噪優勢的雙邊濾波算法進行照度估計,有效避免照度估計時高對比度邊緣附近高低像素之間的相互影響。采用策略壓縮照度圖像和增強反射圖像,最后將兩者融合形成一幅新圖像,如圖3所示。對比輸入和輸出圖像的局部統計直方圖可以看出,經過增強后的聲吶圖像像素空間分布更均勻,不同底質類型對比更明顯。

圖3 基于雙邊濾波的Retinex圖像增強算法實現流程Fig.3 Flow chart of Retinex image enhancement algorithm based on bilateral filtering
1.2.3 特征提取及優化
反向散射強度數據比較抽象和復雜,只憑借強度數據進行底質分類效果較差,尤其是在地形復雜和沉積物類型差異較小的區域。針對這一問題,在底質分類過程中,除了充分考慮聲強變化,還要兼顧數據的空間特征。除了基本灰度信息外,本文還提取了包括12維離散小波變換(discrete wavelet transform,DWT)、9維Laws紋理特征、8維灰度共生矩陣(gray-level co-occurrence matrix,GLCM)、3維Gabor變換、2維Tamura紋理特征和1維局部二值模式(local binary pattern,LBP)等在內共計36維特征,如表1所示。不同特征的箱式圖如圖4所示,考慮到部分特征值較大,為了在一個范圍區間內更好地展示所有特征的空間分布,文中對2號特征做2倍壓縮,6號特征做5倍壓縮,10號特征做10倍壓縮,36號特征做2倍壓縮。其中L5、E5、S5、W5和R5是長度為5的1維向量集合,分別表示灰度、邊緣、點、波、紋波特征,定義如下

表1 特征信息統計Tab.1 List of characteristic information

圖4 聲吶圖像特征提取顯示Fig.4 Sonar image feature extraction

(1)
L5R5、L5S5、L5W5、E5S5、E5W5、E5R5、S5W5、S5R5和W5R5是Laws紋理的卷積模板,通過對相應的紋理向量進行卷積得到。
為了提高分類模型的性能,減少計算空間和運行時間,在底質分類前需要對36維特征進行篩選,刪除冗余特征。目前特征的篩選算法有很多,從特征選擇算法的發展歷程來看,目前特征選擇算法趨向于特征相關性。因此,本文在支持向量機遞歸特征約簡算法(SVM recursive feature elimination,SVM-RFE)基礎上增加相關偏置約簡算法(correlation bias reduction,CBR,簡稱SVM-RFE-CBR算法[34])進行特征選擇,SVM核函數選擇Gauss徑向基核函數(RBF)。對于訓練數據集{xi,yi}、xi∈Rd、yi∈{-1,1},i=1,…,n,非線性SVM模型有
(2)
式中,β是有符號的列向量,即βi=αiyi;αi是拉格朗日乘子;H是核矩陣;符號(-k)表示特征k已被刪除;Hij=K(xi,yi)只包含支持向量。對于核函數Hij=e-gSij,其中g是核函數參數,Sij=‖xi-xj‖2,則
(3)

結合采樣樣本,選取一定數量的樣本數據,隨機有放回地選取500個樣本數據進行分析。保留前10維的特征分配得分(1—10,排名越靠前得分越高),重復操作6次。得分累計如圖5所示,其中特征序號與表1特征序號對應。

圖5 特征得分統計Fig.5 Statistics of characteristic scores
最終按照得分篩選前10維特征輸入分類器進行分類,其中包括Gabor變換(0°)、3層小波分解近似分量、Gabor變換(90°)、二層小波分解近似分量、聲吶圖像聲強、一層小波分解近似分量、Gabor變換(45°)、LBP、GLCM中值和能量。
GA-SVM-AdaBoost算法通過構造GA優化后的SVM分類器作為弱分類器,綜合訓練樣本集的分類結果以及之前總體分類的準確率,給每個訓練樣本分配權值,提高前一輪被弱分類器錯誤分類的樣本權值,降低被正確分類的樣本權值,并通過不斷迭代改善錯誤分類樣本的分類精度[35]。其工作流程如圖6所示,可以概括為弱分類器(GA-SVM)構建和強分類模型(GA-SVM-AdaBoost)集成兩部分。

圖6 GA-SVM-AdaBoost分類流程Fig.6 GA-SVM-AdaBoost classification flow chart
特征選擇部分已經對SVM模型有一個簡單介紹,SVM分類模型將樣本空間映射到高維空間φ(x)=[φ(x1),φ(x2),…,φ(xn)],然后在高維特征空間構造最優決策函數
y=wTφ(x)+b
(4)
式中,w是權值向量;b為偏置量。通過求解最優化問題來解決分類問題的SVM模型
(5)
式中,εi為引入的松弛變量;C是懲罰因子。引入拉格朗日乘子進行最優計算得到SVM決策函數
(6)
懲罰因子C和核函數參數g的取值會直接影響分類準確率,基于此,本文選用GA算法優化SVM模型參數。具體優化流程如下(圖7):
(1)對輸入的訓練數據和測試數據進行歸一化處理,消除原始變量之間的量綱差異。
(2)進行染色體編碼與種群初始化,對SVM的懲罰函數C和核函數參數g進行二進制編碼,并隨機產生初始化種群。
(3)進行解碼與適應度函數的確定,對種群中的各染色體解碼,獲取C及g的值,再用訓練樣本對SVM進行訓練,并用訓練好的SVM計算測試樣本集的預測精度,由預測精度構造種群個體的適應度函數。
(4)判斷優化過程是否滿足遺傳算法的終止條件(最大進化代數),若滿足終止條件,則停止計算,輸出最優參數組合,否則進行選擇、交叉、變異等操作以產生新一代種群,并開始新一代遺傳。
(5)將得到的最優參數懲罰因子C和核函數參數g代入SVM模型中對訓練集進行訓練。
(6)對測試集進行分類預測,得出分類結果并計算分類精度。

圖7 GA優化的SVM神經網絡工作流程Fig.7 GA-SVM neural network workflow
假設訓練數據集T={(xi,yi),…,(xm,ym)},xi∈X為特征矩陣,yi∈{1,2,…,N}為對應的類別標簽。依次取兩類樣本,一類為正,一類為負,將yi設為正類,將剩余樣本設為負類,設置弱分類器個數K。輸入訓練樣本數據,初始化訓練樣本權值w1(i)=1/m。依次遍歷所有弱分類器,第t個弱分類器ht(x),計算誤差率
(7)
計算ht(x)的權值分配系數
(8)
結合多分類指數損失函數的主見疊加建模(SAMME)[36]算法構造強分類器,并對AdaBoost算法的權值分配策略進行改進
(9)
在原算法的基礎上增加ln(K-t+1),更新訓練數據的權值分布
(10)
(11)
式中,Zt為歸一化因子。第K個弱分類器分類結束后,訓練得到的所有弱分類器組成最終的強分類器G(x),輸出所屬類別的決策值
(12)
AdaBoost在循環中反復調用弱分類器,根據訓練樣本的預測結果,更新每個周期后的分布wt,使得正確分類的樣本權重較低,而錯誤分類樣本權重較高,不斷改善分類精度。最后,所有的弱分類器線性組合成一個最終強分類器G(x)。
為了驗證GA-SVM-AdaBoost分類模型在海底底質分類中的有效性和優勢性,結合研究區歷史海底沉積物資料及采樣數據分布,在研究區底質采樣位置附近分別選取4類底質的樣本。抽取其中15 600個基巖樣本,9360個砂樣本,6630個黏土質粉砂樣本和13 650個粉砂質黏土樣本,將同類樣本數據順序打亂后平均分成訓練樣本和測試樣本數據,將訓練數據分別輸入,對SVM、GA-SVM、基于單層決策樹的AdaBoost和GA-SVM-AdaBoost分類模型進行訓練學習。然后用測試數據進行測試,最終對整個試驗區進行分類,結果如圖8所示。對測試數據分類結果分別計算單個類別的分類精度、總體分類精度和Kappa系數,結果如表2所示。
由表2和圖8可以看出,單個分類模型如SVM、GA-SVM存在對某一類或兩類分類效果不佳的問題,且分類結果會有很多“噪聲”值,混合底質分類效果不好。但GA對SVM的參數優化使得SVM總體分類精度提高了4.11%。基于單層決策樹的AdaBoost算法對砂、黏土質粉砂和粉砂質黏土分類表現不佳,分類精度均在70%以下。基于同樣的AdaBoost框架將多GA-SVM組合構成的GA-SVM-AdaBoost模型得到的混淆矩陣Kappa系數最高達到0.89,總體分類精度達到92.19%,高出基于單層決策樹的AdaBoost算法16.32%,分別高出另外兩種分類模型6.98%和2.87%。充分驗證GA-SVM作為弱分類器在分類性能上要優于單層決策樹,以及AdaBoost增強算法集成多個單分類器要優于單個分類模型。除此之外,GA-SVM-AdaBoost算法在整個試驗區底質分類中表現出明顯的優勢,類別之間“噪聲”混合現象得到很好的弱化,對混合底質表現出較好的適應性,其中,砂分類精度最低也有85.36%,對基巖的分類精度為94.90%、黏土質粉砂分類精度為90.4%、粉砂質黏土的分類精度為97.26%。

表2 4種分類方法的精度對比Tab.2 Comparison of four classification methods
基于多波束聲吶數據的聲學底質分類相對于傳統海底底質分類具有高精度、高效率和高覆蓋率等優勢,是傳統底質分類的有益補充,不但具有重要的科學研究意義,更具有較強的應用推廣價值。本文圍繞多波束反向散射聲強數據處理,以及聯合SVM和AdaBoost算法的分類模型構建等關鍵問題進行系統、深入的研究,得到如下結論:
(1)通過完善的聲強數據補償改正模型對多波束反向散射聲強數據進行補償改正,得到反映真實海底底質的聲強信息。SVM-RFE-CBR算法可以對36維特征進行分析篩選出10維最具分類優勢的特征,大大減少計算工作量,提高分類效率和分類精度。

圖8 4種分類方法分類結果Fig.8 Classification results of the four classification methods
(2)利用GA算法自適應全局優化搜索能力與SVM有機結合,通過不斷的選擇、交叉、變異計算得到SVM模型最優參數懲罰因子C和核函數參數g,提高了SVM模型分類精度。
(3)GA-SVM-AdaBoost算法將GA、SVM和AdaBoost三者的優勢組合,通過多個GA-SVM弱分類器組合成AdaBoost強分類器?;谀z州灣試驗區多波束數據分別利用SVM、GA-SVM、基于單層決策樹的AdaBoost和GA-SVM-AdaBoost 4種算法進行底質分類試驗并證明其有效性和優勢性。GA-SVM-AdaBoost算法對基巖分類精度達到94.90%、砂分類精度為85.36%、黏土質粉砂精度為90.40%、粉砂質黏土分類精度為97.26%,其分類精度明顯優于另外3種分類器。一方面證明GA對SVM參數優化可以提高SVM的分類性能;另一方面證明基于GA-SVM弱分類器的AdaBoost增強學習算法可以集成多個GA-SVM分類器的優勢,分類效果要優于單一分類器和傳統的AdaBoost模型。