陳錦生,馬文臻,方少峰,鄒自明
(1.中國科學院國家空間科學中心 空間科學衛(wèi)星運控部,北京 100190;2.中國科學院大學 計算機科學與技術(shù)學院,北京 100049)
重力波是不可壓縮流體受到擾動時以重力和浮力為恢復力而產(chǎn)生的波動,可分為重力外波和重力內(nèi)波。重力外波出現(xiàn)在2 種不同流體的分界面上,通常發(fā)生在大氣邊界并沿著表面垂直方向傳播衰減。重力內(nèi)波即通常說的重力波,是指大氣內(nèi)部的空氣團受到擾動后以重力和浮力為恢復力而產(chǎn)生的波動[1]。本文關(guān)注的是平流層及以上的中高層大氣重力波,其傳輸、飽和、破碎和擴散問題是大氣動力學研究的熱門方向。中高層大氣重力波在上傳過程中會導致能量和動量的轉(zhuǎn)移,對中高層大氣結(jié)構(gòu)以及層間耦合產(chǎn)生重要影響[2],除此之外,中高層大氣重力波對平流層和電離層的擾動會影響地面通信系統(tǒng)以及飛行器的飛行[3],因此,開展大氣重力波的智能識別具有重要的研究意義和應(yīng)用價值。
大氣重力波常見觀測手段包括MF 雷達、MST雷達、高空衛(wèi)星以及氣輝光學成像等[4]。大氣重力波本身無法通過肉眼識別,其在傳播過程中會對中高層大氣分布的若干氣輝發(fā)光層產(chǎn)生擾動,通過追蹤不同的發(fā)光波段,可以觀測到相應(yīng)高度的大氣重力波。伴隨著CCD 成像技術(shù)的不斷發(fā)展,1983 年,PETERSON 等[5]通過全天空氣輝成像儀獲取了大氣重力波的波動圖像,在這之后全天空氣輝成像儀被廣泛用于追蹤大氣重力波。從2008 年開始,我國的子午工程建立了由分布在不同經(jīng)緯度十幾個觀測臺站組成的地基氣輝觀測網(wǎng),積累了海量的氣輝觀測原始數(shù)據(jù)[6],為研究大氣重力波提供了較好的數(shù)據(jù)基礎(chǔ)。
目前基于地基氣輝圖像的大氣重力波事件識別篩選主要依賴專家判斷,因此,從海量的氣輝數(shù)據(jù)中篩選出大氣重力波事件十分耗時耗力,亟需發(fā)展快速有效的自動識別算法。近些年來,深度學習在計算機視覺和自然語言處理等領(lǐng)域都取得了巨大的成功[7-8],基于深度學習進行目標檢測誕生出了諸如Faster R-CNN、RetinaNet、YOLO 等經(jīng)典模型,使得發(fā)展大氣重力波機器自動識別方法成為可能。2019 年,CHANG 等[9]使用深度學習模型Faster R-CNN 構(gòu)建了基于全天空氣輝觀測圖像的大氣重力波識別算法,其識別效率大大超過專家經(jīng)驗判斷。
使用深度學習進行目標檢測的重要前提是獲取足夠多的標注數(shù)據(jù),通過大量的標注數(shù)據(jù)使得神經(jīng)網(wǎng)絡(luò)能充分學習目標中的特征以此來提高模型的識別 率[10],例如從2015 年開始每年舉辦的COCO 和Mapillary 聯(lián)合目標識別挑戰(zhàn)賽[11]采用的COCO 數(shù)據(jù)集中共包含80 個目標類別、200 萬個目標標注數(shù)據(jù)。但是在真實世界中獲取專家標注的數(shù)據(jù)往往需要大量的成本,而訓練的圖像不足會導致模型出現(xiàn)過擬合。針對標注數(shù)據(jù)少的問題,一個常見的思路是對現(xiàn)有數(shù)據(jù)進行增強。使用傳統(tǒng)的數(shù)據(jù)增強方式包括填充、噪聲、裁剪、反轉(zhuǎn)、差值等來增加數(shù)據(jù)的多樣性[12],已經(jīng)成為深度學習目標檢測中的基本操作步驟。但這些方法并沒有利用原始圖像的深層次內(nèi)在信息,導致最終訓練的模型精度提升有限。
生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[13]為人工合成數(shù)據(jù)提供了一種新的思路。GAN 是一個生成網(wǎng)絡(luò)模型,可以通過神經(jīng)網(wǎng)絡(luò)的學習能力來模擬真實數(shù)據(jù)集的樣本分布,從而達到擴充不完備數(shù)據(jù)的目的。在目標檢測領(lǐng)域,GAN 已經(jīng)被用于數(shù)據(jù)增強[14]。2020 年,洪碩[15]使用DCGAN生成遙感船舶圖像,在提升船舶目標檢測召回率的同時避免了虛警率明顯升高。2021 年,黃攀等[16]基于GAN 擴充的紅外飛機數(shù)據(jù)集訓練目標檢測模型,該模型相較幾種常見的目標檢測算法精度均有提升。2022 年,ZHANG 等[17]針對物體表面缺陷檢測中樣本數(shù)量不足的問題,提出一種基于MAS-GAN的工業(yè)缺陷圖像生成模型,大幅降低了數(shù)據(jù)采集和數(shù)據(jù)清洗的成本,有效提高了缺陷檢測訓練的收斂速度和檢測精度。
本文首先針對大氣重力波標注樣本稀缺的問題,提出基于改進Cycle GAN 模型擴充訓練數(shù)據(jù)集的算法,通過重新設(shè)計Cycle GAN 中源域到目標域的Cycle 損失函數(shù),增加Identity 損失函數(shù)和目標圖像掩膜圖,使得生成圖像有效保留大氣重力波的波紋結(jié)構(gòu);然后利用氣輝觀測圖像識別目標與背景低信噪比的特點,提出改進YOLOv5s 的大氣重力波識別算法,通過將YOLOv5s 骨干網(wǎng)絡(luò)中的Neck 結(jié)構(gòu)由原來的PAFPN 改進成雙向加權(quán)融合的雙向特征金字塔網(wǎng)絡(luò)(Bidirectional Feature Pyramid Network,BiFPN)并增加加權(quán)邊界框融合(Weighted Boxes Fusion,WBF)機制,實現(xiàn)高效的雙向跨尺度鏈接和加權(quán)特征融合;最后基于改進后的數(shù)據(jù)集擴充算法以及YOLOv5s 算法,實現(xiàn)基于氣輝觀測的重力波事件的快速有效識別且僅需利用少量標注樣本,大幅降低對人工的依賴。
本文所使用的氣輝圖像數(shù)據(jù)來自子午工程中國臨朐站(118.7°E,36.2°N)2013 年拍攝的原始圖像。全天空氣輝成像儀采用尼康16 mm f/2.8D 魚眼透鏡,追蹤波段為715~930 nm,CCD 光敏器件像素尺寸為1 024×1 024 像素。儀器曝光時長為1 min,存儲時間為4 s,天頂角度為180°。人工將拍攝的晴朗夜空數(shù)據(jù)進行星光噪聲中值濾波[18]、相鄰圖像差分[19]并投影至512×512 像素矩陣,一個像素對應(yīng)現(xiàn)實地理長度為1 km。經(jīng)過人工篩選得到1 060 張圖像,其中訓練集530 張、驗證集265 張、測試集265 張[9]。在現(xiàn)實世界中獲取足夠數(shù)量的大氣重力波標注數(shù)據(jù)往往需要耗費大量的人力物力,使用少量標注圖像并充分利用標注圖像的內(nèi)在信息進而提升模型檢測的性能,具有非常重要的實際意義。但是想要提取原始標注圖像的內(nèi)在信息并應(yīng)用于機器識別模型,需要相關(guān)領(lǐng)域的專家結(jié)合大量研究設(shè)計出合適的方法。本文采用一種低成本的風格遷移方法,借助神經(jīng)網(wǎng)絡(luò)遷移標注圖像的內(nèi)在信息至擴增數(shù)據(jù)集上,使得采用擴增數(shù)據(jù)集訓練的深度模型取得良好的效果。
2.1.1 Cycle GAN 網(wǎng)絡(luò)結(jié)構(gòu)
生成對抗網(wǎng)絡(luò)自2014 年由GOODFELLOW 等提出以來,由于其優(yōu)秀的性能和良好的轉(zhuǎn)換效率被廣泛應(yīng)用于圖像風格轉(zhuǎn)換、圖像超分辨率等領(lǐng)域[20],結(jié)合不同的業(yè)務(wù)誕生出了WGAN、DCGAN、Style GAN等模型。其中,ZHU 等[21]于2017 年提出的Cycle GAN 模型可以無需源域和目標域一一映射實現(xiàn)風格遷移,并可以保證生成圖像具有源域的圖像的特征。
本文使用Cycle GAN 的主要目的是使神經(jīng)網(wǎng)絡(luò)學習真實圖像域的風格特征,進而達到擴充訓練樣本的目的。如圖1 所示,為了基于Cycle GAN 擴充訓練樣本,需要直接生成擴充圖像,具體做法是:首先截取訓練集真實圖像中具有重力波的區(qū)域,將截取的區(qū)域隨機生成在無重力波背景圖像的任何區(qū)域,得到直接擴充的圖像;然后將所有直接擴充的圖像組成Cycle GAN 網(wǎng)絡(luò)訓練所需要的源域數(shù)據(jù)集,目標域數(shù)據(jù)集則為原始訓練集真實圖像;最后將源域數(shù)據(jù)集和目標域數(shù)據(jù)集輸入到Cycle GAN 中開展模型的訓練。

圖1 Cycle GAN 流程Fig.1 Procedure of Cycle GAN
如圖1 所示,Cycle GAN 由2 個生成器以及2 個判別器共同組成環(huán)形網(wǎng)絡(luò)結(jié)構(gòu)GAN(G,F(xiàn),DX,DY)。不妨用X域和Y域來代表源域數(shù)據(jù)集和目標域數(shù)據(jù)集,那么生成器G(x)是X到Y(jié)的映射,表示從直接擴充圖像生成真實圖像,其目標是通過G(x)使得X域的圖像越來越靠近Y域風格的圖像。判別器DY用于判定圖像由G(x)生成還是原生Y域圖像。同理,反向映射生成器F(y)是Y到X的映射,可以看作G(x)的逆向過程,判別器DX用于判定圖像由F(y)生成還是原生X域圖像。加入生成器F(y)與判別器DX是為了保證圖像在由X域到Y(jié)域的風格遷移時,X域原圖像中的原有特征不會被當成噪聲而忽視。
為了對模型權(quán)重進行訓練,Cycle GAN 的損失函數(shù)Loss(G,F(xiàn),DX,DY)由X域GAN 損失LossGAN(F,DX,Y,X)、Y域GAN 損失LossGAN(F,DY,X,Y)以及循環(huán)損失Losscycl(eG,F(xiàn))組成,總的優(yōu)化目標如式(1)和式(2)所示:
其中:λ為權(quán)重系數(shù),用來控制循環(huán)損失在整體損失中 的占比,一般取0.5;G和F為生成器,G將X域映射為Y域,F(xiàn)將Y域映射為X域;DX為X域判別器;DY為Y域判別器。
式(1)中損失LossGAN(F,DY,X,Y)表示生成器G和判別器DY的優(yōu)化目標,具體流程是將X域直接擴充圖像x輸入生成器G中,生成具有Y域真實特征的圖像x′,再經(jīng)由判別器DY判斷x′是否屬于Y域。損失LossGAN(F,Dx,Y,X)表示生成器F和判別器DX的優(yōu)化目標,具體流程是將Y域直接擴充圖像y輸入生成器F中,生成具有X域直接擴充圖像特征的圖像y′,再經(jīng)由判別器DX判斷y′是否屬于X域。那么X域GAN 損失和Y域GAN 損失可表示為:
其中:log 用于計算極值方便,一般底取2 或e 均可;G(x)為由X域輸入生成器G的假樣本數(shù)據(jù);Ey~Pdata(y)為Y域期望,Ex~Pdata(x)為X域期望,則判別器DY的目標是將式(3)最大化,生成器G的目標是將式(3)最小化,如式(5)所示;F(y)為由Y域輸入生成器F的假樣本數(shù)據(jù);Ey~Pdata(y)為Y域期望,Ex~Pdata(x)為X域期望,則判別器DX的目標是將式(4)最大化,生成器F的目標是將式(4)最小化,如式(6)所示。
循環(huán)損失Losscycl(eG,F(xiàn))是為了在由原域生成不同域圖像時保留原域圖像的特征,而不是將原域特征當作噪聲忽視。在理想情況下,即滿足G(F(y))≈y,F(xiàn)(G(x))≈x,則循環(huán)損失如式(7)所示:
在式(7)中,通過L1 范數(shù)來計算真實樣本與生成樣本之間的誤差。
2.1.2 Cycle GAN 網(wǎng)絡(luò)改進
由于原始圖像中大氣重力波的波紋結(jié)構(gòu)相對于背景并不顯著,導致原始Cycle GAN 生成的圖像往往忽視了需要保留的波紋結(jié)構(gòu),因此本文依據(jù)大氣重力波圖像特性改進原始Cycle GAN 的結(jié)構(gòu),重新設(shè)計源域到目標域的Cycle 損失函數(shù),增加Identity 損失函數(shù)和目標圖像掩膜圖結(jié)構(gòu)。通過掩膜圖取消背景部分生成圖像的Cycle 損失和Identify 損失,使背景部分完全由生成器從目標域圖像中學習生成,減少源域數(shù)據(jù)集背景相一致帶來的干擾,使神經(jīng)網(wǎng)絡(luò)專注于截取的波紋結(jié)構(gòu)特征。修改后的Cycle 損失和Identify 損失分別如式(8)和式(9)所示:
其中:X和Y為2 個圖像域,X代表直接擴充圖像,Y代表真實圖像,生成器G學習X到Y(jié)的映射;同理,另一個生成器F學習從Y到X的映射;E 代表數(shù)據(jù)的期望;A(x)為0-1 掩膜圖,其中有目標的區(qū)域像素值為1,沒有目標的區(qū)域像素值為0;K(x)為圖像總像素數(shù)量與有目標像素數(shù)量之比。
除此之外,基于原始Cycle GAN 損失函數(shù)進行網(wǎng)絡(luò)訓練時極易造成梯度消失問題,使得最終訓練無法達到納什均衡。為了增加訓練的穩(wěn)定性,本文參考LSGAN[22]將式(3)和式(4)中的對數(shù)似然損失函數(shù)替換成平方損失函數(shù),具體如式(10)~式(13)所示:
式(10)~式(13)依據(jù)LSGAN 推導,LSGAN 中將生成樣本和真實樣本分別編碼為a和b,生成器的目標是使得編碼a靠近于編碼c,一般a取0,b取1,c取1,則改進后的總優(yōu)化目標如式(14)和式(15)所示:
其中:LossGAN(F,Y,X)為式(13);LossGAN(G,X,Y)為式(11);LossGAN(DY,X,Y)為式(10);LossGAN(DX,Y,X)為式(12);Losscycle′為式(8);Lossidentity為式(9);G和F為生成器;DX為X域判別器;DY為Y域判別器;λ和ζ為常數(shù)。
2.2.1 YOLOv5s 算法
YOLO 目標檢測算法最早由REDMON 等[23]于2016 年提出。之后數(shù)年內(nèi),YOLOv2、YOLOv3兩個版本被相繼推出。2020 年,Ultralytics 基于YOLOv4 改進發(fā)布了YOLOv5 目標檢測算法[24]。YOLOv5 在網(wǎng)絡(luò)的輕量化以及檢測速度上進步明顯,其由輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和頭部網(wǎng)絡(luò)(Head)4 個部分組成。Input 主要對輸入圖像進行預(yù)處理,包括在線數(shù)據(jù)增強和自適應(yīng)錨框優(yōu)化等操作。Backbone 通過不同層次的卷積操作從輸入圖像中提取出目標特征,生成特征圖,主體部分沿用YOLOv4 的CSPDarknet53 深度模型,包括Focus、CBL、CSP、SPP 等模塊。Neck 結(jié)合路徑聚合網(wǎng)絡(luò)(PAN)和特征金字塔(FPN)結(jié)構(gòu),可以提取多尺度的特征。Head 主要功能為檢測,會產(chǎn)生不同尺寸的特征圖,其末端生成目標的類別概率以及目標框的位置信息。
2.2.2 YOLOv5s 改進算法
針對大氣重力波圖像背景與目標信噪比低的特點,提出基于加權(quán)BiFPN 模塊[25]和WBF 模塊[26]的改進YOLOv5 網(wǎng)絡(luò)模型。首先,在特征融合階段,使用加權(quán)BiFPN 代替PANet 特征金字塔,加強網(wǎng)絡(luò)特征融合的能力,在模型輕量化的同時實現(xiàn)對大氣重力波目標的高速與高精度檢測;其次,采用加權(quán)融合框WBF 代替NMS 非極大值抑制,提升檢測框的定位精度和置信度。本文網(wǎng)絡(luò)模型的總體結(jié)構(gòu)如圖2 所示,其中CBL、Focus、CSP、Bottleneck、SPP 模塊結(jié)構(gòu)如圖3 所示。

圖2 本文算法框架Fig.2 Framework of the proposed algorithm

圖3 部分模塊結(jié)構(gòu)Fig.3 Structures of some modules
2.2.3 雙向特征金字塔網(wǎng)絡(luò)
BiFPN 結(jié)構(gòu)利用高效的雙向跨尺度連接融合不同尺度的特征,并依據(jù)不同的輸入特征按照重要性賦予權(quán)重以加強特征融合,在檢測速度略微降低的情況下實現(xiàn)檢測精度的提升。BiFPN 網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。

圖4 BiFPN 結(jié)構(gòu)Fig.4 Structure of BiFPN
2.2.4 加權(quán)邊框融合
YOLOv5 采 用NMS(Non-Maximum Suppression)算法對輸出的候選框進行過濾。NMS 僅僅從交并比(Intersection-over-Union,IoU)這一角度考慮,可能導致預(yù)測有效的候選框被刪除,造成漏檢的現(xiàn)象。本文引入加權(quán)邊框融合WBF 算法,如圖5 所示,對生成的候選框進行線性融合,減少目標中重復檢測的現(xiàn)象,使得預(yù)測的候選框更靠近真實標注。

圖5 WBF 示意圖Fig.5 Schematic diagram of WBF
WBF 的具體過程如式(16)~式(18)所示:
其中:T為單個目標下的所有預(yù)測框個數(shù);C為融合后候選框的置信度;Ci為每個候選框的置信度;X1,2、Y1,2為融合后候選框的具體坐標;X1i,2i、Y1i,2i為每個候選框的坐標。
本文基本實驗方法包括3 個部分:首先對原始標注數(shù)據(jù)進行數(shù)據(jù)增強,包含隨機仿射變換(縮放、旋轉(zhuǎn)、翻轉(zhuǎn))、隨機亮度對比度變換和改進Cycle GAN 擴增3 種增強方法;其次利用增強后的數(shù)據(jù)訓練深度檢測模型,在訓練過程中使用驗證集評估模型精度以對模型進行微調(diào);最后使用測試集評估模型平均識別精度,進行結(jié)果比較分析。具體流程如圖6所示。

圖6 實驗流程Fig.6 Procedure of experiment
本文實驗中使用的處理器為Intel Xeon E5-2660 v3@2.60 GHz,顯卡為NVIDIA Tesla K80,操作系統(tǒng)為Ubuntu 1604 LTS,CUDA 版本為10.2,Python版本為3.8.8,PyTorch 版本為1.8.2。
3.3.1 樣本生成模型評價指標
其中:μr代表真實圖像特征的均值;μg代表生成圖像特征的均值;∑r代表真實圖像特征的協(xié)方差;∑g代表生成圖像特征的協(xié)方差。
3.3.2 目標檢測模型性能評價指標
采用平均識別精度(Average Precision,AP)作為衡量預(yù)測結(jié)果的指標。AP 需要通過模型訓練樣本的準確度P和召回率R計算,表達式分別為:
其中:TP為被正確識別的正樣本數(shù)量;FP為被正確識別的負樣本數(shù)量;FN為被錯誤識別的負樣本數(shù)量。通過由準確度和召回率所組成的準確度-召回率曲線(P-R 曲線)的下方面積可以計算出目標類別的平均識別精度,如式(22)所示:
3.4.1 模型訓練
Cycle GAN 模型改進后,Batch Size 設(shè)置為1,訓練過程中采用Adam 優(yōu)化器進行優(yōu)化,Momentum 值為0.5,初始學習率為0.000 2,使用線性縮放動態(tài)調(diào)整學習率。生成器G以及對應(yīng)的判別器DY的訓練損失函數(shù)趨勢如圖7 所示,當?shù)螖?shù)達到3 200 次后,判別器與生成器的損失逐漸收斂,上下圍繞0.25進行小幅波動,說明模型網(wǎng)絡(luò)已經(jīng)達到納什均衡,但仍然有少數(shù)個例損失波動過大,這屬于正?,F(xiàn)象。

圖7 模型生成器G 和判別器DY損失函數(shù)趨勢Fig.7 Loss function trend of model generator G and discriminator DY
3.4.2 生成樣本質(zhì)量評估
為了體現(xiàn)本文改進模型生成樣本質(zhì)量的好壞,選用未改進Cycle GAN 模型生成樣本以及直接擴充樣本進行FID 測量作為對比,檢測結(jié)果對比如表1所示。
徐州市地處蘇魯豫皖四省交界處,素有“五省通衢”、“五通匯流”、“淮海商埠”之稱。2000 年起,隨著人居規(guī)模發(fā)展和城市規(guī)模的擴張以及古彭廣場的改造、中心商圈的崛起,徐州市的商業(yè)格局開始發(fā)生改變。商圈從“集中與分散相結(jié)合”到“中心商圈—商業(yè)綜合體”的布局不斷演化。2010年以前的徐州商業(yè)的業(yè)態(tài)格局主要以大型綜合商場、中型百貨商店、零售超市為主。2013年云龍萬達商業(yè)綜合體運營,直到最近三胞廣場開業(yè),短短5年內(nèi)商業(yè)空間發(fā)生了巨大的轉(zhuǎn)變,商業(yè)綜合體發(fā)展迅速。如云龍萬達商業(yè)綜合體成為徐州東部地區(qū)的城市副中心;三胞廣場加速了南區(qū)商圈的形成;美的廣場填補了新城區(qū)的商業(yè)空白等(如表1所示)。

表1 基于FID 的樣本質(zhì)量定量評估Table 1 Quantitative evaluation of sample quality based on FID
分析表1 數(shù)據(jù)可知,使用原生Cycle GAN 生成的樣本相比于直接擴充樣本數(shù)據(jù)FID 值下降36.31%,而本文方法所生成樣本在原生Cycle GAN模型樣本基礎(chǔ)上FID 下降64.56%,說明一系列對模型的改進能提升樣本圖像的生成質(zhì)量,生成的結(jié)果與原始圖像最相似。
為了直觀地對比所生成的數(shù)據(jù),選取一些典型的生成圖像進行對比,大氣重力波使用黑框標出,如圖8所示,其中,第1 列為截取原始圖像重力波隨機生成的背景圖像,第2 列為未改進Cycle GAN 生成的圖像樣本,第3列為使用本文方法生成的圖像樣本。

圖8 不同方法生成的樣本圖Fig.8 Sample pictures generated by different methods
由于大氣重力波的波紋結(jié)構(gòu)相對于背景并不顯著,導致原始Cycle GAN 生成的圖像往往忽視了需要保留的波紋結(jié)構(gòu),如第1 行第2 列以及第2 行第2 列所示;而改進后生成的圖像有效保留了大氣重力波波紋紋理,背景更加豐富,更能反映真實圖像,如第4 行第3 列中生成了云的結(jié)構(gòu)。
3.4.3 大氣重力波擴增樣本對目標檢測模型性能影響的分析
實驗1為了評估生成樣本的有效性,使用生成的大氣重力波樣本擴充原始訓練集來訓練目標檢測模型,將未經(jīng)擴容的原始訓練集作為基準,來驗證生成樣本的擴充是否有效。
選取目前常見的目標檢測模型YOLOv5s 和RetinaNet,分別給原始訓練集增加生成樣本,增加倍數(shù)為1、2、4、6、8、10 倍。對于YOLOv5s 目標檢測模型,模型迭代次數(shù)為1 000 次,Batch Size 設(shè)置為16,訓練過程中采用AdamW 優(yōu)化器進行優(yōu)化,Momentum 值為0.937,初始學習率為0.001,學習率衰減權(quán)重為0.000 5,使用余弦退火衰減動態(tài)調(diào)整學習率。對于RetinaNet 目標檢測模型,骨干網(wǎng)絡(luò)為ResNet50,模型迭代次數(shù)為1 000 次,Batch Size 設(shè)置為16,訓練過程中采用SGD 優(yōu)化器進行優(yōu)化,Momentum 值為0.9,初始學習率為0.01,學習率衰減權(quán)重為0.000 1。2 種模型的檢測結(jié)果如表2 所示,其中,N的值代表訓練集圖像數(shù)。

表2 擴容樣本AP 結(jié)果Table 2 AP results of expanded sample %
如表2 所示,對于不同的檢測模型,擴容數(shù)量對識別精確度的提升均不相同,其中:YOLOv5s 模型在增加2 倍數(shù)量的樣本時,識別精確度最高提升7.5 個百分點;RetinaNet 模型在增加1 倍數(shù)量的樣本時,識別精確度最高提升6.5 個百分點;之后隨著生成樣本數(shù)繼續(xù)增加,檢測精確度總體呈現(xiàn)下降趨勢。由此可見,適量擴充訓練樣本的方法可以有效提升目標識別精確度,但增加過多的樣本會增加較多的無用信息,增加模型的訓練難度,導致模型最終識別精確度下降。
實驗2使用直接擴充樣本、未改進Cycle GAN模型生成樣本、隨機仿射變換生成樣本、隨機亮度對比度變換生成樣本訓練目標檢測模型。YOLOv5s模型以及RetinaNet 模型使用參數(shù)同實驗1,分別給原始訓練集增加相應(yīng)合成樣本,增加倍數(shù)為1、2、4、6、8、10 倍,選取檢測效果最好的識別精確度,結(jié)果如表3 所示。

表3 不同數(shù)據(jù)集檢測結(jié)果Table 3 Detection results by different datasets %
如表3 所示,相比于原始數(shù)據(jù),使用擴充后的數(shù)據(jù)集訓練均能有效提升檢測模型性能,其中:YOLOv5s 直接擴充樣本、Cycle GAN 擴充樣本、隨機仿射變換擴充樣本、隨機光照對比度變換擴充樣本最佳精確度分別在擴容6、6、1、4 倍時取得;RetinaNet 直接擴充樣本、Cycle GAN 擴充樣本、隨機仿射變換擴充樣本、隨機光照對比度變換擴充樣本最佳精確度分別在擴容6、1、1、2 倍時取得。2 種目標檢測模型使用本文方法生成樣本訓練結(jié)果相比其他對比方法識別精確度均有小幅度提升,表明使用本文改進模型生成樣本擴充數(shù)據(jù)集可以更好地提高檢測模型的性能。
3.5.1 模型訓練
采用改進后的YOLOv5s 目標檢測模型在擴增數(shù)據(jù)集上進行訓練,Batch Size 設(shè)置為16,訓練過程中采用AdamW 優(yōu)化器進行優(yōu)化,Momentum 值為0.937,初始學習率為0.001,學習率衰減權(quán)重為0.000 5,使用余弦退火衰減動態(tài)調(diào)整學習率,訓練過程如圖9所示,其中分別為預(yù)測框回歸損失函數(shù)、目標檢測損失函數(shù)、IoU 閾值為0.5 時的平均識別精度??梢钥闯觯河柧氃缙冢? 種損失隨迭代次數(shù)增加快速下降,與之對應(yīng)的平均識別精度快速上升;當訓練次數(shù)迭代到300 輪左右時,損失情況趨于穩(wěn)定,平均識別精度也隨之逐步提升并趨于穩(wěn)定。

圖9 預(yù)測框回歸損失/目標檢測損失/AP@0.5 隨訓練迭代次數(shù)的變化Fig.9 Prediction box regression loss/target detection loss/AP@0.5 variation with training iterations
3.5.2 消融實驗
本文對YOLOv5s 的骨干網(wǎng)絡(luò)進行改進,實現(xiàn)高效的雙向跨尺度鏈接和加權(quán)特征融合。為了評估不同模塊改動和不同模塊組合對于算法性能優(yōu)化的程度,本文進行消融實驗,采用的策略及其說明如表4所示,對應(yīng)的模型結(jié)果如表5 所示。

表4 模型策略及說明Table 4 Model strategies and descriptions
消融實驗以YOLOv5s 為基線(第1 組)。分析表5 中數(shù)據(jù)可知:在未擴增的數(shù)據(jù)集上,通過修改特征融合網(wǎng)絡(luò)為BiFPN(第2 組)或增加WBF 機制(第3 組),AP 分別提升3.0 及3.5 個百分點;單獨采用不同策略在基線模型上提升AP 有限,若將策略疊加(第4 組),AP 相比基線提升5.3 個百分點;對于使用GAN 擴充的數(shù)據(jù)集進行目標檢測(第5 組),相比基線模型,AP 提升7.5 個百分點,說明深度模型依靠大量數(shù)據(jù)驅(qū)動,增加相應(yīng)訓練數(shù)據(jù),會使得檢測精度有一定提升;在GAN 擴充的基礎(chǔ)上,采用修改特征融合網(wǎng)絡(luò)為BiFPN(第6 組)或增加WBF 機制(第7 組),AP 分別提升0.6 及0.9 個百分點;將所有策略疊加得到最終的檢測模型(第8 組),AP 相比基線提升9.7 個百分點。結(jié)果表明,改進后的大氣重力波最終識別模型相比于基線模型,平均識別精確度具有明顯提升。
3.5.3 對比實驗
為了更加直觀地展示最終改進模型在大氣重力波識別方面的卓越性能,本文選取目前主流的目標檢測算法Faster R-CNN(ResNet101)、YOLOv3、YOLOv5進行實驗比較,實驗結(jié)果如表6 所示。

表6 4 種算法的性能對比Table 6 Performance comparison of four algorithms
通過表6 可知:在相同的測試集上,本文方法平均識別精度為75.8%,相比Faster R-CNN、YOLOv3、YOLOv5s 算法平均識別精度提高了9.4、6.3、9.7 個百分點,表明了本文方法具有更好的準確性;在模型體積上,本文方法相比YOLOv5s 模型體積增長微乎其微,遠小于Faster R-CNN、YOLOv3;同時,從檢測速度上而言,本文方法略低于YOLOv5s,比Faster R-CNN 快 了4.9 倍,比YOLOv3 快 了2.6 倍。由此可見,本文方法在保證了檢測精度的前提下,模型體積以及檢測速度都保證了高水準。選取一些測試集上檢測的圖片,分別展示Faster R-CNN、YOLOv3s、YOLOv5s 以及本文方法的結(jié)果對比,如圖10 所示。

圖10 4 種算法檢測結(jié)果對比Fig.10 Comparison of detection results of four algorithms
從圖10 分析可知:在第1 行檢測結(jié)果中,4 種算法都能輕松識別出大氣重力波,沒有誤識別云層;在第2 行檢測結(jié)果中,F(xiàn)aster R-CNN 誤將云層進行了識別,且未識別出大氣重力波上半部分,YOLOv3s 未識別出大氣重力波的上半部分,YOLOv5s 未識別出重力波,只有本文方法成功檢測出完整的大氣重力波,有效避免了云層的干擾;在第3 行檢測結(jié)果中,由于目標與背景過于相似,只有本文方法準確檢測;在第4 行檢測結(jié)果中,F(xiàn)aster R-CNN 和YOLOv5s 均出現(xiàn)重復檢測,YOLOv3 未完整檢測出大氣重力波,本文方法正常檢測。通過對比圖10 中不同算法的檢測結(jié)果可見,本文方法具有更好的魯棒性以及更強的檢測準確率。
本文利用目前計算機視覺領(lǐng)域研究前沿的生成對抗網(wǎng)絡(luò)和目標檢測技術(shù),提出一種基于地基氣輝觀測圖像的大氣重力波智能識別方法。鑒于現(xiàn)階段基于氣輝觀測圖像的大氣重力波事件標注數(shù)據(jù)集稀缺,極度依賴專家判斷,本文提出基于改進Cycle GAN生成對抗網(wǎng)絡(luò)的氣輝觀測大氣重力波數(shù)據(jù)集擴增方法。實驗結(jié)果表明,在利用少量專家標注樣本基礎(chǔ)上,使用改進后的Cycle GAN 擴增樣本訓練集能明顯提升主流目標檢測模型對大氣重力波的平均識別精度。針對地基氣輝圖像中大氣重力波與背景低信噪比的特點,本文對YOLOv5s 檢測模型的骨干網(wǎng)絡(luò)進行改進,實現(xiàn)高效的雙向跨尺度鏈接和加權(quán)特征融合,有效提升了檢測模型對大氣重力波的識別精度。最終改進檢測模型對大氣重力波的檢測速度以及平均識別精度均優(yōu)于對比的主流目標檢測算法。
在后續(xù)的工作中,一方面計劃擴充大氣重力波的數(shù)據(jù)集,不斷豐富大氣重力波的種類和數(shù)量,以滿足科學研究的實際應(yīng)用;另一方面,考慮將已經(jīng)在單臺站實現(xiàn)的檢測模型通過遷移學習方法擴展應(yīng)用至多臺站,使該方法更具魯棒性。除此之外,隨著子午工程氣輝觀測臺站的不斷擴增,通過少量標注樣本,本文所述方案可以快速擴展應(yīng)用于更多臺站,后續(xù)還可應(yīng)用此方案開展如電離層行進式擾動等類似事件的自動識別。