趙云龍,田生祥,李 巖,羅 龍,齊鵬文
(國網青海省電力公司檢修公司 西寧 810000)
隨著特高壓的逐漸普及,電網規模越來越大[1]。為了保障輸電安全和質量,電力線路巡檢越來越被世界各國重視。由于輸電線架設高且多架設于崎嶇地形,人工檢查一方面需要花費大量的時間和精力,另一方面不可避免地存在安全風險。無人機(unmanned aerial vehicle, UAV)為輸電線路提供了一種新的巡檢方式,即從多個角度拍攝密集的輸電線路巡檢圖像,建立事后人工查看照片的工作模式。“拍照和查看”的工作流程帶來了巨大的工作量,因此開發一種智能缺陷檢測方法來自動檢查傳輸缺陷照片至關重要。
用于定位和分類目標物體的目標檢測算法有望實現傳輸缺陷照片的自動檢查。在深度學習發展前,目標檢測依賴于基于圖像處理的手工設計算法,如光流法、幀差法等。然而,傳統方法普遍抗干擾、抗噪聲能力較差,且較難適應光照變化。當前,基于深度學習的兩階段目標檢測算法在精度上有著較好的表現。
由于架空線路上的鳥巢以及塑料袋、碎布等掛空懸浮物目標多數為小目標,其包含像素少,且容易被背景干擾,導致檢測較為困難。此類小目標物體的檢測有著長遠的研究價值,一直廣受關注。一些研究證明組合不同特征層可以提升小目標檢測的效果。文獻[2]利用特征金字塔融合機制構建圖像金字塔,并將金字塔4 個不同特征層學習到的特征與SSD (single shot multibox detector)框架的原始特征進行融合用于獲取全局信息。此外,他們將上一層與本層的特征進行合并以獲取到局部信息。文獻[3]除了組合卷積層和反卷積層的特征圖外,還在“編碼器-解碼器”架構中使用了反卷積層,進一步提高了檢測效果。除了組合不同特征層,獲取上下文信息也被證明可用于提高小目標檢測的效果。其中,基于注意力機制的方法通過為提取的特征分配不同權重以實現更好的上下文關聯效果。擠壓和激勵網絡(squeeze-and-excitation networks,SENet)[4]找到輸入特征中每個通道的重新校準權重,并使用這些權重來提升重要通道。卷積塊注意模塊(convolutional block attention module, CBAM)[5]使用通道注意和空間注意來校準特征并學習更好的表示,以便網絡可以在下游任務上表現更好。匯集和激發模塊(GE)[6]在全局級別聚合特征,并使用匯集的信息增強局部特征的重要組成部分。
當前已有一些研究試圖驗證深度學習在輸電線檢測中的有效性。文獻[7]提出了一種結合卷積神經網絡和支持向量機的對絕緣子狀態進行分類的方法。文獻[8]介紹了深度隱含網絡在絕緣子分類任務中的有效性。這兩篇論文都展示了深度學習方法在傳輸線檢測領域的潛力。一些研究人員嘗試使用基于深度學習的目標檢測方法來定位輸電線路塔上的組件。文獻[9]構建了一個具有兩個前景類對象的數據集,并訓練了一個六層的神經網絡。文獻[10-12]采用更快的基于感興趣區域的卷積神經網絡(faster R-CNN[13])算法。文獻[14]提出了一種基于YOLO 算法的絕緣體和減振器檢測模型。這些研究僅應用基于深度學習的對象檢測方法來定位塔上的組件,但未能檢測到傳輸線照片中的缺陷。
在深度學習與輸電線路的結合中,越來越多的研究集中在缺陷檢測[15-16]上。采用的方法主要分為兩階段方法(如Faster R-CNN[17-18])以及一階段方法(如YOLO 或SSD)。文獻[15]采用基于區域候選的卷積神經網絡模型,實現絕緣子的端到端智能檢測,并可以檢測出故障爆炸的坐標。文獻[19]通過基于 Faster R-CNN 以及U-net 來檢測破損絕緣子的位置。文獻[20]采用3 種方法對輸電線路異物實際數據集進行測試驗證,討論了不同參數對識別結果的影響。文獻[21]進行了預測架構的級聯設計和并行目標檢測結果的邏輯推理,該機制可以更快地提高算法在實際項目下的應用效果。文獻[22]基于YOLO 搭建檢測系統,使用無人機自動檢查電力傳輸塔和絕緣體。文獻[23]引入了超分辨率卷積神經網絡來增強絕緣子或阻尼器故障的訓練數據。文獻[24]利用了在線硬樣挖掘和樣本平衡等的優點。這些研究為輸電線路航拍圖像缺陷檢測提供了初步的解決方案。
本文提出了一種基于注意力獲取和Soft-NMS的傳輸線路中鳥巢與掛空懸浮物的檢測算法。對比實驗結果表明,提出的方法可以有效地提高輸電線路鳥巢與掛空懸浮物的檢測效果。本文的主要貢獻為:
1)設計了一種基于注意力機制和ResNet 的主干網絡,允許提取的特征進行自適應權重調整,更充分地進行上下文信息的學習,有利于鳥巢和掛空懸浮物這類小型目標的檢測;
2)將Faster R-CNN 中的后處理程序換為Soft-NMS。用于減少同類別檢測框重疊時的漏檢情況,防止小目標的丟失。
本文設計的檢測網絡整體框圖如圖1 所示,其主要由特征提取模塊和檢測模塊兩部分組成。

圖1 網絡整體架構
首先,對輸入的無人機圖像進行尺寸縮放、填充和歸一化等預處理,接著將預處理后的圖像輸入特征提取模塊,獲得其深層特征表示,以進行下一步的檢測。隨后,將獲得的圖像特征輸入檢測模塊,結合區域建議網絡產生的密集錨框和預設的篩選機制,獲取本文感興趣的鳥巢和掛空懸浮物的區域,并進一步使用全連接層對感興趣區域中缺陷的位置和類別進行檢測,輸出兩種缺陷的具體位置、標簽和置信度。最后,對輸出的檢測框進行濾除和非極大值抑制等后處理,輸出最終網絡認為屬于鳥巢和掛空懸浮物的檢測結果。
本文設計的特征提取模塊主要包括主干網絡和特征金字塔結構,如圖2 所示。

圖2 加入特征金字塔網絡的Resnet50-CBAM 圖解
主干網絡被設計為嵌入注意力模塊的ResNet50[25]組合式結構。主干網絡主要包括C1,C2,C3,C4,C5 共5 個部分。其中,C1 部分由一個卷積層、批歸一化層[26]、Relu 激活函數[27]和最大池化層構成。C2,C3,C4,C5 則由參數不同而結構相同的融入注意力機制的殘差塊堆疊構成,所使用殘差塊的數量分別為3,4,6,3。預處理后的無人機圖像將依次通過C1,C2,C3,C4,C5 五個部分提取特征。
融入注意力機制的殘差塊是所提出主干網絡的基礎結構,如圖3 所示。每一個殘差塊會在輸入端將輸入的特征信息保留,并在末端將輸入端特征信息與輸出進行融合,以防止網絡深度過深時梯度消失或梯度爆炸以及退化問題的發生。每個殘差塊由3 個卷積層(分別為一個1×1 卷積、3×3 卷積和另一個1×1 卷積)提取特征,本文選擇在每個殘差塊的3 個卷積層提取特征后,加入卷積塊注意力模塊,對殘差塊提取的特征進行更加合理的權重分配。這樣的操作允許網絡在訓練過程中,學習到更應該關注小目標的哪些信息,從而更好地判斷小目標的位置和類別。

圖3 ResNet50-CBAM 中殘差塊的結構圖
推斷一個小目標的類別和位置并不一定只依賴其本身的少量像素,還可以利用其周邊信息,即上下文信息。如鳥巢更有可能出現在輸電塔而不會出現在輸電線路上。本文使用了CBAM 結構來有效地提供這種上下文信息。
CBAM 是一種由卷積層、全連接層、激活函數等組成的有效的注意力模塊,結構如圖4 所示。給定一個尺寸為C×H×W的中間特征圖,CBAM 會依次計算出通道注意力圖和空間注意力圖,并分別將其與輸入注意力模塊的特征圖進行廣播相乘,以實現考慮了上下文信息的參數優化,如式(1)所示。

圖4 卷積塊注意力模塊結構圖
式中,F為輸入的張量;F′是學習到上下文信息的輸出張量;Mc與Ms分別為通道注意力和空間注意力的獲取過程。兩個過程可以分別表示為:
式中,A vgPool()和 M axPool()分別為全局平均池化和全局最大池化操作;f7×7為卷積核大小為7×7 的卷積層。
如圖中通道注意力虛線部分所示,在通道注意力圖的獲取部分,特征圖F分別經過基于寬度W和高度H的池化操作后,得到兩個C×1×1 的特征圖。然后,將它們分別送入一個兩層的全連接層,并將輸出結果執行對位相加操作。最后,將注意力圖和特征圖F進行對位相乘,得到通道注意力校正后的特征圖。
如圖4 中空間注意力虛線部分所示,輸入特征圖首先通過基于通道維度C的池化操作得到兩個1×H×W的特征圖,然后將這兩個特征圖在通道維度上進行拼接得到2×H×W的特征圖。接下來,經過一個卷積核大小為7×7的卷積操作,將特征圖重新降維為單通道。再經過Sigmoid 激活函數生成空間注意力圖。最后將該注意力圖和與空間注意力部分的輸入特征圖進行廣播相乘,得到最終同時考慮了通道注意力和空間注意力的特征圖。
淺層的網絡更關注像素本身包含的信息,深層次的網絡則可以提煉出更準確的語義信息,因此深層次的網絡更有利于準確的檢測出較大的目標。Faster R-CNN 只在最終特征圖上進行預測,然而圖像中存在不同尺寸的目標,通過深度確定的網絡輸出的結果并不一定完全適配。而網絡深度增加后,也有可能在下采樣過程中丟失小目標的信息。本文所采用的特征金字塔的設計思想就是融合主干網絡中提取的低層特征和高層特征,并且分別在不同的層同時進行預測,尤其能夠有效改善小目標的檢測效果。
如圖2 所示,特征金字塔網絡以主干網絡的C2、C3、C4、C5 結構輸出的特征圖作為輸入,從語義信息最為豐富的最高層也就是第五層開始,進行上采樣然后與第四層對位相加。融合特征圖進一步與第三層以相同操作融合,依次操作,第二層融合特征圖融合了所有上層的信息。各融合特征圖分別經過卷積層生成用于預測的特征圖。第五層融合特征圖還通過最大池化層產生僅用于在區域建議網絡中生成錨框和建議框的更高層特征圖。
在檢測模塊中,首先通過過濾預先設定的錨框,獲得代表前景區域的建議在RPN 中的坐標;然后將其投影到特征提取模塊生成的多尺度特征圖上。根據提出的方案在特征圖上分割特征矩陣,并利用ROI 池化層進行平化。然后,分別通過回歸層和Soft max 層得到預測位置和標簽信息。最后,利用后處理方法對網絡的冗余輸出進行過濾。
后處理算法采用柔和的非極大值抑制(Soft-NMS)算法[28]。執行過程如下。該算法對鳥巢和掛空懸浮物兩個類別分別執行。Soft-NMS 算法偽代碼如下。

損失函數直接移植于Faster R-CNN 的損失函數。主要包括區域建議網絡和檢測網絡兩部分損失。其中區域建議網絡的損失可以表示為:
式中,Lcls表示前景背景的分類損失,類型為交叉熵損失;Lcls為初步的邊界框回歸損失,類型為光滑的L1損 失;pi表 示第i個錨框預測為真實標簽的概率;為正樣本時為1,為負樣本時為0;ti表示預測第i個錨框的邊界框回歸參數;表示第i個錨框對應的真值框;Ncls表示一個批次中的所采樣的樣本數量;Nreg表示特征圖中生成錨框的位置的個數。
Fast R-CNN 檢測網絡的損失為:
式中,Lcls表示類別分類損失,類型為交叉熵損失;Lloc表 示邊界框回歸損失,類型為光滑的L1損失;p為分類器預測的softmax 概率分布;u為對應目標類別的真實標簽;tu為邊界框回歸器預測的對應類別u的回歸參數;V對應真實目標的邊界框回歸參數
本文使用的數據集為無人機采集的輸電線路圖像,共有2 701 張。其中包括鳥巢圖像1 542 張,掛空懸浮物圖像1 159 張。數據集中小目標(被定義為目標邊界框小于 3 2×32像素或寬高與圖像的寬高比例小于0.1 的目標)較多,如圖5 所示。此外,數據集圖像中鐵塔結構和傳輸線路交錯,有著復雜的背景,給檢測小目標帶來了較大的難度。所有真值框的標注均由變電站工作人員通過數月標注完成,并以XML 文件的形式與無人機圖像一同保存為PASCALL VOC 數據集格式。所有無人機采集的輸電線路圖像都為高質量的PNG 格式。數據集中真值框的尺寸分布如圖6 所示,小目標的數量大,顏色密集。據統計,小目標占比高達31%。

圖5 數據集中的小目標樣例

圖6 測試集中真值框的尺寸分布
將2 701 張無人機圖像以8:2 的比例隨機制作成訓練集和測試集,其中訓練集和測試集分別包含2 160 幅和541 幅圖像。在實驗過程中,始終保持訓練集和測試集的嚴格分離。
在實驗中使用隨機翻轉、亮度變換、仿射變換、圖像銳化、噪聲等對原始圖像進行5 倍原始圖像數量的數據增強,如圖7 所示。數據增強可以模擬不同亮度,以及無人機攝像頭損壞或遭遇信號干擾等情況,從而增加網絡在實際應用中的魯棒性。

圖7 數據增強圖像示例
使用了在Imagenet[28]數據集上預訓練的ResNet50主干網絡權重,對于加入的CBAM 結構使用凱明初始化。本文模型在2 個GPU NVIDIA GeForce GTX 2080ti 顯卡上進行訓練,整個網絡架構進行端到端的訓練。學習率預設為0.015,在前500 次迭代采用學習率升溫策略(warm-up),在第12 個和17 個迭代輪次執行學習率的衰減。批次大小為16,采用SGD 梯度下降策略,動量為0.9,權重衰減為0.000 1,共訓練了24 個epoch。訓練的流程如圖8 所示。圖9 表示了訓練過程中損失與測試集AP 的變化,其中淺色線條為實際值曲線,深色線條為數值平滑后的變化曲線。可見在訓練后期,損失和AP 已經不再有大幅度的變化,實現了收斂狀態。

圖8 模型訓練流程

圖9 訓練過程中損失與AP 的變化
除了分類的準確性,還需要對檢測出的隱患的位置的準確性進行評估,因此圖片分類的評估標準不再適用。平均準確率(AP)能夠同時兼顧檢測的準確率和召回率,是最可靠也是當前目標檢測領域最常用的性能指標。AP 的計算依賴于準確率和召回率的計算。
準確率(Precision)為:
召回率(Recall)為:
式中,TP 表示成功檢測到某個真值框的預測框的數量;FP 表示沒能匹配到某個真值框的預測框的數量;FN 表示沒能檢測出來的真值框的數量。判斷成功檢測到的標準為交并比閾值,當檢測框與真值框的交并比高于閾值時視為成功檢測到物體。通常情況下交并比閾值設為0.5。
基于準確率和召回率的計算,AP 的計算流程如下:1)網絡最終輸出的某一類別的檢測框為N個,將N個檢測框按照置信度進行排序;2)依次計算排名的前1 個、前2 個、···、前N個檢測框的準確率和召回率;3)將準確率作為縱軸,召回率作為橫軸,依次將步驟2)中計算得到的準確率和召回率連接成線,該曲線的下面積即為該類別的平均準確率。
將具有代表性的目標檢測架構與本文模型的檢測效果進行了對比,如表1 所示。所有代表性的網絡架構都使用了與本文模型相同的數據作為訓練集和測試集,使用相同的數據增強策略。訓練過程中,所有網絡架構均使用了Imagenet[29]上的預訓練權重初始化主干網絡,經過參數的調整達到了最佳效果,以保證對比實驗的有效性。

表1 檢測算法AP 對比
各架構訓練所得的結果均為IOU 閾值為0.5 時的AP 檢測結果。與基礎 Faster R-CNN 相比,本文方法在兩個類別上分別提高了約4.7%和5.9%。
訓練后的網絡在部分測試集中鳥巢和掛空懸浮物上的檢測效果分別如圖10 和圖11 所示。圖10中大部分鳥巢(如第二、三、五、六張)為像素占比極低的小目標,網絡有著較好的檢測效果。圖11中,部分懸浮物(如第一、三、四張)為小目標,且存在定位較難的長條形目標(如第二、五、六張)。其中第五張由于懸浮物屬于長條形,其一部分也被定位為目標。但同時,網絡也檢測到了整體懸浮物,在實際應用中,對檢測效果影響較小。此外,本文模型在復雜的背景下,如交錯的鐵塔和線路構造(圖10 中第三張,圖11 中第一、四張)采樣圖像中,模型也有可觀的表現。

圖11 掛空懸浮物檢測效果
使用熱力圖對提出方法的可視化結果如圖12所示,其中,第一行為在原圖中的熱力顯示,第二行為網絡的熱力圖。方框內如期望檢測的目標。第一張與第二張圖像為鳥巢檢測,第三與第四張為懸浮物檢測。可見,提出方法對輸電線敏感,存在較低熱度,而對鳥巢與懸浮物極為敏感,在熱力圖中呈現為紅色。

圖12 提出方法的熱力圖可視化
表2 中使用基準算法Faster R-CNN 以及本文提出的方法對邊界框小于3 2×32像素或寬高與圖像的寬高比例小于0.1 的目標進行了檢測,召回率對比顯示,本文方法對于小目標的召回率更高,有效減少了小目標的漏檢。

表2 小目標召回率對比
本文提出了一種基于注意力機制和Soft-NMS的兩階段傳輸線路目標檢測方法。制作了包含鳥巢和掛空懸浮物無人機圖像的目標檢測數據集。該方法利用了注意力機制的優勢,更好地利用了圖像的上下文信息。此外,采用了更適配小目標檢測的后處理算法,減少了小目標的漏檢。