武鑠 王曉 張丹陽 周海波 陳家儒






摘 要:針對當前沉船側掃聲吶數據樣本少、無法大量獲取有標記的數據、小樣本數據用于卷積神經網絡模型正確識別率較低的問題,提出一種聯合遷移學習和深度學習的沉船側掃聲吶圖像識別方法。在不采用遷移學習的情況下,用沉船聲吶樣本數據集訓練網絡,將結果保存作為對照組。應用弱相關數據集,對網絡進行訓練,然后將網絡參數遷移到新網絡中,再使用沉船聲吶樣本數據集訓練;應用強相關數據集重復上述步驟。在AlexNet網絡結構上進行試驗,試驗結果表明:在未遷移的情況下,正確率為70.58%;應用弱相關數據集訓練,正確率為74.51%;應用強相關數據集訓練,正確率為80.39%。試驗證明,遷移學習算法有利于提高小樣本情況下卷積神經網絡的正確率、泛化性。
關鍵詞:側掃聲吶;深度學習;遷移學習;卷積神經網絡
中圖分類號:S126 ? ? 文獻標識碼:A ? ? 文章編號:1003-5168(2021)36-0036-05
Side Scan Sonar Combined With Transfer Learning and Deep Learning Shipwreck Identification Method
WU Shuo ? ?WANG Xiao ? ?ZHANG Danyang ? ?ZHOU Haibo ? ?CHEN Jiaru
(Jiangsu Ocean University,School of Marine Technology and Geomatics,Lianyungang ?Jiangsu ?222005)
Abstract: Aiming at the problem that the current sunken side scan sonar data samples are few and it is impossible to obtain a large amount of labeled data,the small sample data is used for the problem of low correct recognition rate of the convolutional neural network model,and a joint migration learning and deep learning sunken side scan sonar is proposed. In the case of not using migration learning,use the shipwreck sonar sample data set to train the network and save the result as a control group; use the weakly correlated data set to train the network,and then transfer the network parameters to the new network,and then use the shipwreck sonar Sample data set training; apply the strong correlation data set to repeat the above steps. Experiments on the AlexNet network structure show that the accuracy rate is 70.58% without migration; the accuracy rate is 74.51% for training with weakly correlated data sets; and 80.39% for training with strong correlated data sets. Experiments show that the transfer learning algorithm is beneficial to improve the accuracy and generalization of the convolutional neural network in the case of small samples.
Keyword: side scan sonar; deep learning; transfer learning; convolutional neural network
海洋測繪是一切水下活動的基礎,是海底調查、海底礦物勘探、海洋經濟發展的前提[1]。其中,側掃聲吶技術(Side Scan Sonar,SSS)作為一種高分辨率、多用途、低成本的海洋調查設備,廣泛應用于海洋、港口、河流、湖泊等水域,主要應用于海道測量,水下工程選址,飛機殘骸、沉船、魚雷、水雷、集裝箱、化學品桶、錨鏈、沉石、浮標等水下目標的探測,以及海底底質分類、海洋調查和海洋科學研究等。而目前市場上使用的數據處理軟件中,水下目標探測和識別均依靠人工判讀,效率低下且精度難以保證。傳統的側掃聲吶圖像目標識別探測方法主要通過建模來識別沉船,這類方法的一般流程為:特征提取、模型構建和模型應用。受制于復雜海洋環境及側掃聲吶圖像存在大量噪聲的影響,在一個海區構建的模型可能在另一個海區并不適用;且由于特征難以獲取、典型特征不易區分,導致識別效率低,無法快速推廣。
卷積神經網絡[2-4](Convolutional Neural Network,CNN)作為人工智能的一種算法,由于其無須人工選定特征、特征提取能力優秀等優點,被廣泛用于圖像分類、圖像識別、圖像分割等領域[5-8]。卷積神經網絡的結構有很多,但是只有在大量符合要求的數據訓練下,才能得到一個優秀的卷積神經網絡。然而在復雜海洋環境中,獲取諸如沉船側掃聲吶影像的大量樣本非常困難。
因此,為了解決上述問題,提出一種聯合遷移學習和卷積神經網絡的方法。通過設計試驗,將沉船聲吶圖像數據集分別遷移到以不同源、不同特征的公共數據集訓練的網絡上,以及不同源、同特征的船舶數據集訓練的網絡上,以期提高水下目標識別效率,解決聲吶圖像樣本少、特征難以有效提取、訓練困難等問題。
1 數據介紹
1.1 Ships-3
武漢大學邵振峰[9]提供了一個船舶數據集SeaShips。在河道及入海口放置固定攝像機進行錄像,對視頻截圖,獲得大量樣本。該數據集被用于水上船舶目標識別算法研究,共31 455張圖片,6個分類。由于該數據集中每類樣本數量不一致,從SeaShips中隨機選取三個類,每個類800張圖片,如圖1所示。并將篩選后的數據集命名為Ships-3,用于試驗。
1.2 CIFAR-3
CIFAR-10是常用公開數據集,該數據集由10個類,60 000張尺寸為32*32的彩色圖片組成。每個類包含了6 000張圖像,其中5 000張為訓練集,1 000張為測試集。從CIFAR-10中隨機抽選三個類,每個類再隨機選取1 000張圖像,作為試驗的數據集,如圖2所示,命名為CIFAR-3。
1.3 Shipwreck
Shipwreck數據集由個人收集并制作,如圖3所示。所有樣本均為側掃聲吶圖像,樣本數量較少。由水下沉船、純海底背景、海洋魚群三個類組成,每個類包含55張樣本圖片。
上述三個數據集都按照7∶3的比例劃分為訓練集和測試集兩個子集。其中,70%用于卷積神經網絡的訓練,30%用于測試訓練后的網絡。
1.4 數據集相關性
數據集相關性是指樣本之間的相似關系。一般情況下,只要是同源、同類型的數據,都認為是相關的。例如,貓科動物中的貓、豹、獅子等,當其同時出現在數據集中時,被認為是強相關數據;自行車、電動車、摩托車等也被認為是強相關數據。因為它們都具有共同的特征。相反地,汽車、狗、蘋果等則被認為是弱相關或不相關數據。
2 模型和試驗方法介紹
2.1 遷移學習
遷移學習的應用主要包括計算機視覺、文本分類、行為識別、自然語言處理、室內定位、視頻監控、輿情分析、人機交互等多個場景[10]。其原理是把任務A開發的模型作為初始點,重新在任務B開發模型的過程中使用。一個完整的學習任務是由域和任務組成的。給出域(Domain)和任務(Task)的定義如下,定義χ為特征空間,[Px]為分布概率,這樣就組成了一個特征域(Domain),即Domain [D=x,px]。定義標簽空間[y]和模型預測函數[f?],這樣就組成了任務(Task),即Task [T=y,f?]。遷移學習的定義為:給定源域[Ds]和學習任務[Ts],一個目標域[DT]和學習任務[TT],遷移學習致力于用[Ds]和[Ts]的知識,幫助提高[TT]中的目標預測函數[f?]的學習。[Ds]和[DT]可以相等或不相等,[Ts]和[TT]也可以相等或不相等。
2.2 卷積神經網絡和網絡結構
2.2.1 原理。卷積神經網絡包含輸入層、隱藏層和全連接層。輸入層的主要任務是負責數據的輸入。一般來說,一維網絡的輸入層可以處理一維或二維的數據,二維網絡的輸入層可以處理二維或三維的數據。并且,輸入層的大小是固定不變的,輸入數據的大小要與網絡結構一致。在卷積神經網絡的隱藏層由多個部分構成,是網絡結構的主要計算部分。全連接層是網絡的輸出層,在卷積神經網絡的隱藏層中,通過卷積層和池化層的計算,累積了大量的參數,全連接層將提取到的大量特征,進行非線性組合,最后將結果輸出。
卷積神經網絡的隱藏層由多個部分構成,是網絡結構的主要計算部分,其主要結構又可分為以下幾種。
①卷積層。卷積層由卷積核和激勵函數構成,卷積核主要用于提取特征,卷積核沒有大小限制,多為規則矩形。一個卷積層內包含著多個卷積核,每個卷積核都提供一組參數,用于傳遞到下一層。而激勵函數的作用主要是輔助卷積核表達復雜的特征,常用的激勵函數有RELU、sigmoid、dropout等,已有的大量試驗表明,激勵函數的存在能提高分類正確率。
②池化層。池化層的作用是對數據進行降維,并除去冗余信息,同時可以擴大感受野并實現不變性,包括平移不變性、旋轉不變性和尺度不變性。除此之外,池化還具有簡化網絡復雜程度,減少計算量,減少內存消耗等作用。卷積神經網絡通過以上各層的計算,最終實現了對圖像的分類。
2.2.2 結構。AlexNet[11]由Alex Krizhevsky等人于2012年提出,奪得2012年ILSVRC比賽的冠軍,前五名預測的錯誤率為16.4%,遠超第一名。AlexNet采用8層神經網絡,包括5個卷積層和3個全連接層,包含6.3億個鏈接、6 000萬個參數和65萬個神經元。AlexNet的結構如圖4所示。
2.3 試驗方法
聯合遷移學習和卷積神經網絡是將數據集用于訓練,希望訓練一個泛化性強、正確率高、能夠用于陌生聲吶條帶數據的卷積神經網絡,解決小樣本情況下聲吶圖像難以訓練卷積神經網絡的難題。技術路線如下:首先,將Shipwreck數據集用于網絡訓練,并將結果保存,作為后續試驗的對照組;其次,用弱相關數據集訓練網絡,并將網絡參數提取保存,放到新的網絡上;再次,用Shipwreck數據集訓練;最后,用強相關數據集訓練網絡,并將網絡參數保存,放到新的網絡上,再用Shipwreck數據集訓練。
普通情況下卷積神經網絡的訓練流程如圖5所示,試驗采用的聯合遷移學習和卷積神經網絡的訓練流程如圖6所示。
2.4 試驗設計
試驗均由矩池云提供云計算服務,GPU為NVIDIA GTX 3060;軟件配置Pytorch1.4.2、python3.7.6。在AlexNet網絡模型上進行如下3組試驗。
用Shipwreck訓練網絡,即未遷移;用弱相關數據集訓練網絡,然后將參數提取放入新的網絡,再用Shipwreck訓練網絡,即弱相關數據集遷移;用強相關數據集訓練網絡,然后將參數提取放入新的網絡,再用Shipwreck訓練網絡,即強相關數據集遷移。
所有試驗共3組,網絡模型用訓練集進行訓練,訓練完畢后,用測試集測試,網絡在測試集上的正確率作為最終評價指標。
2.5 精度評價
混淆矩陣是對模型進行評估的重要手段,混淆矩陣也稱誤差矩陣,是表示精度評價的一種標準格式,用N行N列的矩陣形式來表示。其中,被正確地劃分為正例的個數,即實際為正例且被分類器劃分為正例的實例數為TP(True Positives);被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的實例數為FP(False Positives);被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的實例數為FN(False Negatives);被正確地劃分為負例的個數,即實際為負例且被分類器劃分為負例的實例數為TN(True Negatives)。正確率是常用的評價指標,一般來說,正確率越高,模型效果越好,計算公式如式(1)。
正確率(accuracy)=[TP+TNTP+FN+FP+TN] ?(1)
3 試驗結果
在AlexNet上進行3組試驗,并將訓練集訓練后的網絡結構用于測試集測試。訓練及測試結果如下:未遷移情況下的結果如圖7(a)所示,弱相關數據集遷移后的結果如圖7(b)所示,強相關數據集遷移后的結果如圖7(c)所示。從圖中可以看出:未遷移情況下正確率為70.58%;弱相關數據集遷移情況下正確率為74.51%;強相關數據集遷移情況下正確率為80.39%。將3組試驗在測試集上的表現匯總,如圖7(d)所示,從圖中可以看出在正確率方面,強相關數據集遷移高于弱相關數據集遷移,高于未遷移。
4 討論和結論
沉船側掃聲吶圖像獲取與標注十分困難,小樣本數據集用于卷積神經網絡訓練局限性較大。針對沉船聲吶圖像分類存在的問題,提出在小樣本下,聯合遷移學習和卷積神經網絡的解決方案。對比試驗結果,可得出以下結論。
①相比于未遷移學習的情況,強相關數據集遷移和弱相關數據集遷移都能有效提高小樣本數據集訓練卷積神經網絡的正確率。
②強相關數據集遷移正確率都高于弱相關數據集遷移。
利用聯合遷移學習和卷積神經網絡的方法不但解決了沉船聲吶圖像訓練困難的問題,同時也為其他小樣本分類問題提供了一條有效的解決思路。后續可將聯合遷移學習和卷積神經網絡的方法用于側掃聲吶圖像成圖及圖像識別流程中,實現實時識別陌生條帶沉船的功能。
參考文獻:
[1] 王曉,王愛學,蔣廷臣,等.側掃聲吶圖像應用領域綜述[J].測繪通報,2019(1):1-4.
[2] 劉建偉,劉媛,羅雄麟.深度學習研究進展[J].計算機應用研究,2014(7):1921-1930,1942.
[3] 高明旭,李靖,朱緒平,等.深度學習方法研究綜述[J].中國科技信息,2019(10):56-57.
[4] 鄭遠攀,李廣陽,李曄.深度學習在圖像識別中的應用研究綜述[J].計算機工程與應用,2019(12):20-36.
[5] PENG S,JIANG W,PI H,et al.Deep Snake for Real-Time Instance Segmentation [C]//proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020.
[6] DING M,HUO Y,YI H,et al.Learning Depth-Guided Convolutions for Monocular 3D Object Detection[C]//proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020.
[7] SHELHAMER E,LONG J,DARRELL T. Fully Convolutional Networks for Semantic Segmentation[J].IEEE Trans Pattern Anal Mach Intell,2017(4):640-651.
[8] TAIGMAN Y,YANG M,RANZATO M,et al.DeepFace:Closing the Gap to Human-Level Performance in Face Verification[C]//proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014.
[9] SHAO Z,WU W,WANG Z,et al.SeaShips:A Large-Scale Precisely Annotated Dataset for Ship Detection[J].IEEE Transactions on Multimedia,2018(10):2593-2604.
[10] 張椰,朱衛綱.基于遷移學習的SAR圖像目標檢測[J].雷達科學與技術,2018(5):533,546.
[11] KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet Classification with Deep Convolutional Neural Networks[J].Commun ACM,2017(6):84-90.