基于坐標注意力機制的EfficientNetV2 外星人信號識別算法?

2023-11-21 06:17:38黃樹成

計算機與數(shù)字工程 2023年8期

路延黃樹成

（江蘇科技大學計算機學院鎮(zhèn)江 212000）

1 引言

宇宙中是否有生命存在是科學范疇內(nèi)最深奧的問題之一，自1960 年起，人類一直致力于搜尋外星人信號［1～2］。2015 年，“突破聆聽”組織啟動了為期10 年的SETI 項目［3］（搜尋地外生物），該項目使用了地球上最大的射電望遠鏡-綠岸望遠鏡（Green Bank Telescope）來搜尋外星人信號。通過綠岸望遠鏡可以搜尋到海量的信號，這些信號以頻率時間圖的方式呈現(xiàn)［4］，如何從這些信號圖中識別出異常信號（外星人信號）是目前的主要難題［5］。隨著深度學習的不斷發(fā)展，人們開始將復雜神經(jīng)網(wǎng)絡應用于圖像識別［6］。與傳統(tǒng)機器學習方法不同，深度學習方法有著相當?shù)膬?yōu)勢［7］：首先是效率較高，可以實現(xiàn)執(zhí)行特征提取和圖片分類兩步驟一同完成的任務；其次是為實現(xiàn)能夠不斷地更新迭代權重的目標，深度學習通過反向傳播和誤差優(yōu)化手段，優(yōu)化了準確率指標和速度指標，且提升了泛化能力［8］。隨著學者們對人工智能技術逐漸深入、日積月累的研究，該技術也不斷突破自身，逐漸達到了新的發(fā)展階段，愈發(fā)完善［9］。

注意力機制源于對人類視覺的研究，為了合理利用有限的視覺信息處理資源，人類需要選擇視覺區(qū)域中的特定部分，然后進行重點關注［10］。注意力機制最早應用于自然語言處理領域（NLP）［11～12］，后來在計算機視覺領域（CV）得到了廣泛應用［12～13］。在神經(jīng)網(wǎng)絡中，注意力機制通常是一個額外的神經(jīng)網(wǎng)絡，能夠硬性地選擇輸入部分［14］，并且為不同的輸入部分分配不同權重［15］，常見的注意力機制主要有空間注意力機制，通道注意力機制［16］。

基于對圖像識別理論進行研究，本文總共進行了兩點嘗試：第一，通過研究數(shù)據(jù)集結構，提出了混合樣本算法和“偽標簽”算法，解決了樣本類別不均衡和樣本量不充足的問題。第二，通過研究分析并坐標注意力機制，并基于坐標注意力機制改進了EfficientNetV2 的Fused MBConv4 和MBConv4 模塊，在SETI數(shù)據(jù)集上取得了更具魯棒性的效果。

2 特征工程

本文使用的數(shù)據(jù)集為SETI（SETI Breakthrough Listen-E.T.Signal Search）數(shù)據(jù)集，其中訓練集的樣本具有標簽值，測試集的樣本不含標簽值。分析發(fā)現(xiàn)，訓練集與測試集樣本中外星人信號（正樣本）樣本量極度稀少，故制定出兩種數(shù)據(jù)擴增算法來增加正樣本量，以降低模型對多數(shù)類的過擬合。對于訓練集來說，首先研究正負樣本分布，自行劃分驗證集，接著設計出樣本混合算法進行數(shù)據(jù)擴增。對于測試集來說，通過“偽標簽”技術，訓練模型并預測結果，篩選出預測結果中高置信度的樣本，將其打標簽后加入訓練集并再次訓練，之后再進行二次預測。具體算法展示在下文中。

2.1 數(shù)據(jù)集介紹

SETI（外星人信號）數(shù)據(jù)集由伯克利大學伯克利外星人信號研究中心突破聆聽組織（Breakthrough Listen）發(fā)布于kaggle平臺，數(shù)據(jù)集分為訓練集和測試集。訓練集由樣本名稱和標簽組成，標簽索引值為0（負樣本）和1（正樣本）。其中負樣本指沒發(fā)現(xiàn)異常信號（外星人信號），正樣本指發(fā)生異常信號（外星人信號）。測試集沒有標簽值，需要通過預測其AUC（Area Under Curve）值，將預測結果上傳至kaggle平臺上，做線上評估。在SETI數(shù)據(jù)集中每一個樣本的維度都為6í273í256。其中，通道數(shù)為6，圖1展示一個標簽值為1（正樣本）數(shù)據(jù)的頻率時間圖。

圖1 一個正樣本數(shù)據(jù)展示

在圖1 中，第1 通道圖為觀測目標行星（A）5min，第2 通道圖為觀測A 周圍行星（B）5min，第3通道圖為再次觀測A 行星5min，第4 通道圖為觀測A周圍行星（C）5min，第5通道圖為再次觀測A行星5min，第6 通道圖為觀測A 周圍行星（D）5min。可以理解為，每一個樣本數(shù)據(jù)由ABACAD 組成，其中，異常信號（外星人信號）發(fā)生在第1、3、5 通道，第2、4、6通道為對照組。

2.2 樣本混合算法與驗證集的劃分

通過2.1 節(jié)對數(shù)據(jù)集的介紹和分析，本文設計出一種樣本混合算法，對訓練集進行數(shù)據(jù)擴增，算法原理如下：

上式中，xi和xj均選自正樣本，λ的取值范圍為（0，1），通過上式構造出的新樣本，賦予其標簽值1（正樣本）。

上式中yi選自正樣本，yj選自負樣本，λ的取值為（0，1），由圖1 可以觀測到，正樣本的曲線是比較明顯的，而負樣本圖像基本沒有變化，故yi、yj通過樣本混合算法構造出的新樣本，其主要特征仍為正樣本特征，賦予其標簽值1（正樣本）。

本算法沒有對負樣本進行數(shù)據(jù)增強，只對正樣本進行數(shù)據(jù)增強。這是因為對于外星人信號的識別能力，正樣本起主要作用，負樣本過多甚至會造成算法對多數(shù)類樣本的過擬合。

通過樣本混合算法進行數(shù)據(jù)擴增后，相較沒使用數(shù)據(jù)擴增的數(shù)據(jù)，效果有一定提升，算法效果展示在表3～4中。

因SETI 數(shù)據(jù)集的測試集沒有標簽值，故需要對訓練集樣本進行劃分驗證集，以便驗證。在使用樣本混合算法進行數(shù)據(jù)擴增之后，正、負樣本分布及正、負樣本分布對比如圖2所示。

圖2 正、負樣本分布及正、負樣本分布對比

將訓練集中的正樣本與負樣本各取1/5，組成驗證集，剩下的訓練集用作新的訓練集，進行訓練。

2.3 “偽標簽”的使用與驗證集的劃分

SETI 數(shù)據(jù)集的測試集不含標簽值，為了提高預測模型的性能，本文設計了“偽標簽”算法，算法原理如下。

Step1 利用訓練集數(shù)據(jù)進行訓練，并對測試集進行預測；

Step2 篩選出預測值中置信度比較高的樣本（AUC 預測值大于0.95 的樣本，標簽值設置為1；AUC預測值小于0.05的樣本，標簽值設置為0）；

Step3 將步驟2 中得到的數(shù)據(jù)加入訓練集，再次訓練；

Step4 對測試集再次進行預測。

“偽標簽”算法原理圖如圖3所示。

通過“偽標簽”算法，將測試集AUC 預測值大于0.95 的樣本，標簽設置為1，將測試集AUC 預測值小于0.05 的樣本，標簽設置為0，加入訓練集，進行再訓練。“偽標簽”技術是一種針對測試集樣本沒有標簽值，或者缺失標簽值的一種算法。經(jīng)實驗證明，使用“偽標簽”算法進行數(shù)據(jù)擴增，能提升外星人信號識別能力，降低分類算法對少數(shù)類樣本的過擬合。其中算法效果展示在第4節(jié)實驗部分表3～4中。

3 網(wǎng)絡模型

在對數(shù)據(jù)集進行增強后，經(jīng)過一系列的研究，決定采用當前最新的網(wǎng)絡結構EfficientNetV2 來對信號圖像進行分類。其中改進后的該網(wǎng)絡的架構以及選取該網(wǎng)絡的原因?qū)⒄故驹诒竟?jié)中。

3.1 EfficientNetV2結構

Efficientnet 神經(jīng)網(wǎng)絡最突出的作用是提出了一種多維度混合的模型放縮方法。該方法同時兼顧網(wǎng)絡深度、網(wǎng)絡寬度、圖像分辨率。在Efficient-Net 基礎上，引入了Fused-MBConv 到搜索空間中，同時為漸進式學習引入了自適應正則強度調(diào)整機制，組合得到了EfficientNetV2，它在多個基準數(shù)據(jù)集上取得了SOTA 性能，且訓練速度更快。EfficientNetV2的網(wǎng)絡結構如表1所示。

EfficientNetV2主要由兩個模塊化結構組成，分別是Fused MBConv4 和MBConv4，其結構如圖4 所示。

在圖4 中可以看到Fused-MBConv4 和MBConv4 模塊中，都使用了通道注意力機制模塊（SE），由2.1 節(jié)知外星人信號只會發(fā)生在樣本的第1、3、5 通道，SE 注意力機制可以為第1、3、5 通道加上權重信息，故EfficientNetV2 模型適用于外星人信號的識別。

3.2 坐標注意力機制原理及網(wǎng)絡設計

坐標注意力機制（CA）是在SE 注意力機制的基礎上優(yōu)化的注意力機制，其不僅可以為通道添加權重信息，還可以為圖片的不同位置添加權重信息，原理如下：對定輸入X=[x1,x2,…,xC]?RC×H×W，同時使用池核（H，1）和（1，W）沿著水平坐標方向和垂直坐標方向編碼每個通道。因此，高度為h處的第c個通道的輸出可以表示為

寬度為w的第c個通道的輸出可以表示為

其中［，］表示沿空間維度的串聯(lián)運算，δ是非線性激活函數(shù)，f?RC/r×(H+W)是在水平方向和垂直方向編碼空間信息的中間特征圖。然后沿著空間維度將f分成兩個獨立的張量fh?RC/r×H和fw?RC/r×W。Fh和Fw為卷積核1×1 的卷積變換，通過Fh和Fw的變換，將張量fh和fw變換成如下張量：

最后，坐標注意力機制塊Y的輸出可以寫成：

坐標注意力機制原理圖如圖5。

圖5 坐標注意力機制原理圖

通過觀察訓練集的正樣本，發(fā)現(xiàn)外星人信號常發(fā)生在圖片中的一些區(qū)域，SE 注意力機制雖可以為通道添加權重信息，卻不能為圖片的具體位置添加權重信息，鑒于此種情況，將CA 嵌入到Fused-MBConv4 和MBConv4 模塊，稱其為CA +Fused-MBConv4 模塊和CA+MBConv4 模塊，其結構如圖6。

圖6 引入CA的Fused-MBConv4和MBConv4模塊

改進后的網(wǎng)絡稱之為CA+EfficientNetV2，其網(wǎng)絡結構如表2 所示，CA+EfficientNetV2 與EfficientNetV2在SETI數(shù)據(jù)集上的對比，展示在表3、表4中。

表2 CA+EfficientNetV2網(wǎng)絡結構

表4 網(wǎng)路性能對比

3.3 損失函數(shù)以及最小閾值機制

通過上文分析，得出外星人信號的識別實際上是計算機視覺任務中的二分類問題的結論。故本文選用BCEloss損失函數(shù)。BCEloss的公式如下所示：

其中y為標簽值，σ(x)為預測結果。

防止本文架構的網(wǎng)絡模型被優(yōu)化到了不好的極值點上，引入了一種Flooding 方法［17］，該種方法使得訓練時的損失趨向于一個設定閾值，而不是趨向于0，其公式原理如下：

如上述公式，在訓練時加入閾值b，可以使得模型的損失在b 值上下浮動，具體選取的b 值展示在4.1節(jié)中。

4 實驗與結果

4.1 實驗流程及實驗設置

4.1.1 實驗流程

1）使用樣本混合算法，對SETI 的訓練集進行數(shù)據(jù)擴增，并對擴增后的訓練集進行驗證集劃分，驗證集從正樣本和負樣本中各取1/5，剩下的訓練集用作新訓練集；

2）使用新訓練集和劃分出的驗證集訓練網(wǎng)絡模型CA+EfficientNetV2，保存準確率最高的模型，并對測試集做出預測；

3）篩選出預測值中置信度比較高的樣本（AUC預測值大于0.95 的樣本，標簽值設置為1；AUC 預測值小于0.05的樣本，標簽值設置為0）；

4）將步驟3）的數(shù)據(jù)加入訓練再次訓練步驟2）中保存AUC 值最高的模型，再次對測試集做出預測。

4.1.2 實驗設置

實驗參數(shù)設置為學習率：0.001，閾值b：0.01，最大迭代次數(shù)：100，批量次數(shù)：16。

評價指標：AUC（Area under the Curve of ROC），因為數(shù)據(jù)的類別極度不平衡，所以準確率不再是一個很好的評價標準。

4.2 實驗結果

實驗結果展示在表3、表4 中，表3 中主要展示了使用樣本混合算法和“偽標簽”算法后的效果，表4 主要展示了本文網(wǎng)絡模型與不同網(wǎng)絡之間的對比。

4.3 實驗結果分析

通過對照實驗，證明了：1）本文提出的樣本混合算法和“偽標簽”算法具有良好的效果；2）本文提出的坐標注意力機制并加入EfficientNetV2 的Fused-MBConv4 和MBConv4 模塊后，在SETI 數(shù) 據(jù)集上獲得了更具魯棒性的結果。

5 結語

本文首先對數(shù)據(jù)集結構進行分析，提出了樣本混合算法、“偽標簽算法”以解決樣本量不充足和樣本類別不均衡的問題。接著對現(xiàn)有圖像識別技術理論進行了研究，通過通道對注意力機制的分析研究，在其基礎上添加了坐標注意力機制，使用此注意力機制改進了EfficientNetV2 的網(wǎng)絡結構，最終在SETI數(shù)據(jù)集上取得了更具魯棒性的表現(xiàn)。雖然坐標注意力機制已經(jīng)是一種比較成熟的算法，但在本次實驗中證明了即使在新的問題以及最新的模型中仍然能發(fā)揮其巨大的作用。在未來工作中，挖掘成熟機制的新的運用與改進，以及對成熟機制的新的理解也會是我們未來的研究方向之一。