李 純,張洪斌,李嘉毅,謝啟勝(通信作者)
(北京首都國際機場股份有限公司 北京 101317)
隨著交通運輸業的快速發展,安全檢查的壓力也日漸增大。以廣州市為例,在航空運輸方面,2017 年廣州白云國際機場的年旅客吞吐量已突破6 500 萬人次。在城市軌道交通方面,2019 年廣州地鐵的日均客流量達到906.8萬人次。在鐵路運輸方面,僅2019 年廣州南站的日均列車??看螖导s為800 趟,日均發送旅客量和到達旅客量均超過20 萬人。
為應對日益增長的安檢需求,本文提出了一種違禁品檢測系統,用于從X 光安檢圖像上檢測違禁品[1]。在該系統中,X 射線設備對需要安檢的物品進行圖像采集,利用深度學習檢測算法對圖像中的違禁品進行檢測,安檢人員根據系統檢測結果進行進一步查驗。相較于純人工視覺檢測,該違禁品檢測系統效率更高、成本更低,能夠實現對槍支、刀具、毒品等違禁品的高精度檢測。
基于深度學習的目標檢測模型一般分為一階段算法和二階段模型,前者以YOLO(you only look once)和SSD(system specification description)等模型為代表,而后者以Faster R-CNN 模型為代表。其中,一階段模型最大的優勢在于速度快,更能夠適用于對實時性有較高要求的應用場景,而二階段模型首先在第一個階段用主干網絡預測出一些目標區域建議,然后在第二階段利用分類網絡進行分類和回歸。相較于一階段模型,二階段模型往往速度較低,但具有較高的精度優勢。然而,傳統的二階段模型也存在一些問題。兩個階段所提取的信息是不同的。第一,傳統的模型不能適應兩個階段網絡信息的差異;第二,傳統的二階段模型用全連接層輸出所有的物體檢測結果,但不同的物體類別會在網絡中存在競爭;第三,在傳統二階段模型中,不同物體類別信息難以分離,很難重新訓練單一物體類別或者擴展新的物體類別。
在安檢圖像智能分析應用方面,國內已有諸多科研機構、安檢設備制造商以及安防解決方案提供商提出了針對安檢X 光機的智能識別算法和產品[2-3]。在其模型中,少量使用了傳統的非深度學習的傳統計算機視覺算法[4-5],而更加廣泛地應用了基于深度學習的目標檢測、圖像分割以及圖像分類技術。除此之外,還應用特征融合、注意力機制等新的技術手段。算法的接入方式也包括原始圖像信號的直接接入和視頻流接入兩種主要方式。
本文采用的違禁品檢測系統結構如圖1 所示。該系統由違禁品識別模型訓練和違禁品檢測兩個流程組成。

圖1 X 光機違禁品檢測系統結構
模型訓練流程在線下完成,主要包括樣本采集、標注、模型訓練等環節,通過迭代方式不斷吸收新樣本、改進模型,以實現模型性能的持續提升。在識別流程中,智能識別系統以原始圖像信號和視頻信號兩種方式獲取圖像,經必要的圖像處理后,將結果提交給預先訓練好的違禁品檢測模型進行識別。獲得識別結果后,以報警框的方式對相關人員進行違禁品展示報警[6]。圖2 展示了利用違禁品檢測系統檢測違禁品的輸出。

圖2 利用違禁品檢測系統檢測出違禁品的示例
圖3 展示了多分類網絡的整體結構。該模型包含兩個階段:第一階段利用主干網絡提取圖像整體特征,并通過區域提取網絡提取區域,該區域中的特征在二階段網絡中進行處理。第二階段,分類分支網絡在一階段網絡中提取錨點和區域,在二階段網絡中進一步處理信息,生成分類結果并回歸邊界框以確定最終物體位置。這種網絡結構既靈活又可訓練,適用于聯合訓練和分割任務[7-8]。

圖3 多分類網絡結構
不同的數據集有不同的信息特點,因此也應采取不同的訓練方式。Pascal 數據集中的圖像為彩色圖像,相較于違禁品的灰度圖像有更多的信息量。因此,需要采用凍結主干網絡參數的訓練方式,以避免分類分支網絡之間的競爭。凍結主干網絡的訓練過程包括3 個步驟:在第一步中,訓練一個二階段網絡(比如Faster R-CNN 網絡);在第二步中,凍結主干網絡參數作為多分類網絡中主干網絡的參數;第三步為訓練多分類網絡中分類分支網絡的參數。
本文采用圖4 所示的流程重新訓練多分類網絡。訓練完多分類網絡之后,凍結主干網絡的參數,重新訓練分類分支網絡。在第一次訓練參數的分類分支網絡以及重新訓練參數的分類分支網絡中,多分類網絡選擇檢測精度有優勢的網絡作為選定的分類分支網絡輸出檢測結果。

圖4 多分類網絡的重新訓練過程
本文采用采集的違禁品X 光數據集以及Pascal 數據集對多分類網絡進行實驗。違禁品X 光數據集包含灰度圖,而Pascal 數據集則包含彩色圖。由于數據集的信息差異,采用不同的訓練過程訓練這兩個數據集。Pascal 數據集采用凍結主干的方式進行訓練,而違禁品X 光數據集則利用直接訓練的方法訓練多分類網絡。
多分類網絡主干網絡根據Swin Transformer[9]的主干網絡結構。在實驗過程中,運用Swin Transformer 主干網絡結構的多分類網絡與采用Swin Transformer 主干網絡結構的Faster R-CNN 網絡進行效果對比。采用Swin Transformer 主干網絡結構的Faster R-CNN 網絡的具體網絡結構如圖5 所示。

圖5 采用Swin Transformer 結構的Faster R-CNN 網絡
相對于傳統的Faster R-CNN 等二階段網絡,多分類網絡可以顯著提升檢測精度,尤其是對于X 光的灰度圖像。此外,多分類網絡可以靈活地重新訓練特定的物體類別并保證每種檢測物體類別的檢測精度。
在Pascal 數據集上進行實驗,評估了多分類網絡的性能。實驗中采用了特定的網絡結構,如圖6 所示。主干網絡和分類分支網絡均采用了Swin Transformer 的網絡結構。在分類分支網絡中,全物體類別分類分支網絡輸出所有物體類別的檢測結果,而擴展分類分支網絡則提升了單個物體類別的檢測準確度。在所使用的網絡中,主干網絡與全物體類別分類分支網絡的連接方式與傳統的二階段網絡相同。

圖6 訓練Pascal 數據集時所用的多分類網絡
由于Pascal 數據集彩色圖的復雜性,直接用多分類網絡訓練會導致數據集不收斂。Pascal 數據集采用的訓練流程包括3 個步驟:第一步,訓練一個Swin Transformer 主干網絡結構的Faster R-CNN 網絡;第二步,凍結Faster RCNN 網絡的主干網絡,繼承Faster R-CNN 網絡中對應的參數作為全物體類別分類分支網絡的參數;第三步,針對不同的物體類別,使用不同的擴展分類分支網絡進行訓練。如果針對某個物體類別的擴展分類分支網絡在檢測方面相較于全物體類別分類分支網絡表現更好,本文會保留該擴展分類分支網絡,并使用其具有更高檢測精度的結果來替代全物體類別分類分支網絡對應類別的檢測結果。如果針對某個物體類別的擴展分類分支網絡并沒有展現出更高的檢測精度,本文將視全物體類別分類分支網絡對應類別的檢測結果為整個多分類網絡的檢測結果。因此,整個多分類網絡的檢測結果可以確保不弱于原始的Faster R-CNN 網絡。Pascal 數據集實驗檢測結果如表1 所示,由平均精度均值(mean average precision, mAP)進行度量。

表1 Faster R-CNN 網絡與多分類網絡檢測精確度對比
為了進一步驗證多分類網絡的效果,本文使用違禁品X 光數據集進行了實驗。該數據集包含了35 萬張灰度圖像,其中包括7 種需要檢測的違禁物品,包括電池、步槍、手槍、刀具、相機、香水和香煙。
針對違禁品X 光數據集,本文直接對多分類網絡進行訓練,并根據圖4 所示的流程重新訓練分類分支網絡。重新訓練后,步槍、刀具和相機的檢測精度得到了提高,因此本文采用重新訓練的結果來提升物品檢測的準確度。違禁品X 光數據集的檢測結果如表2 所示,多分類網絡顯著提升了檢測精度。例如,手槍的召回率從60%提高到86.13%,同時誤報率為0。刀具的召回率從85.58%提高到93.47%。通過重新訓練,在誤報率下降的同時,刀具的召回率進一步提高到96.03%。

表2 對比Faster R-CNN 網絡和多分類網絡的檢測準確度
對于多分類網絡而言,違禁品X 光數據集在檢測準確度的提升方面表現較Pascal 數據集更為顯著。在處理違禁品X 光數據集時,本文直接對整個網絡進行訓練,從而使整個網絡在檢測精度上協調一致地提升。相比之下,在處理Pascal 數據集時,本文采用了凍結主干網絡的訓練方式。這種方法避免了不同物品類別之間的相互影響,但無法提升主干網絡本身的性能表現。
綜上所述,隨著人工智能技術的快速發展,其在安防等領域的應用日益廣泛。本文提出了一種基于人工智能技術的違禁品檢測系統,利用X 光安檢設備收集圖像,并通過人工智能技術進行違禁品的檢測,從而提高工作效率并降低人力成本。
本文提出了一種高精度的多分類網絡,用于違禁品檢測系統中的違禁品檢測任務。多分類網絡利用深度學習網絡在不同階段提取不同信息特征的優勢,采用不同的網絡結構對物體進行檢測。實驗結果表明,多分類網絡在公開數據集上展現出良好的檢測精度,并在使用的違禁品X光圖像上表現出極佳的性能。