王玉維,楊波,馬衛東
(1.北京市地鐵運營有限公司安保部;2.北京聲迅電子股份有限公司)
在地鐵安檢工作中,X射線安檢常用于識別乘客隨身物品是否帶有禁帶品,是地鐵安檢環節中極其重要的一部分。近年來,深度學習作為人工智能的一個分支,由于在圖象識別領域擁有較快的檢測速度、較高的檢測準確率,被廣泛的應用于各類需要目標檢測的領域。X光圖片中禁帶品的標記識別過去常常由人工完成,在保證精度的前提下,如何提高X光圖片禁帶品的識別速度便成為了一個重要的課題。
區域卷積神經網絡是當前目標檢測領域的主流框架之一。本文根據Pascal VOC數據集格式建立訓練數據集和測試數據集,并使用了VGG16作為基礎特征提取網絡進行禁帶品識別模型訓練,研究采用基于區域卷積神經網絡框架的識別模型來輔助X光圖片禁帶品識別。
區域卷積神經網絡由基礎特征提取網絡,區域推薦網絡(RPN)和區域卷積神經網絡三部分組成。其中,基礎特征網絡首先對輸入圖片進行特征提取,然后RPN網絡進行區域推薦,給出一系列候選框,最后由區域卷積神經網絡在RPN網絡提取的推薦框中進行物品類別的判斷和物品概率的判斷。區域卷積神經網絡原理流程框架如下圖所示:

圖1 區域卷積神經網絡原理流程框架
區域卷積神經網絡運用同一個VGG16網絡對輸入圖片進行特征提取,然后RPN網絡和CNN網絡在共享卷積層的前提下,分別完成推薦框生成和分類功能,最終實現了端到端的目標檢測。算法實現步驟為:
1)對輸入圖像進行卷積操作得到卷積特征圖;
2)在卷積特征圖上使用滑動窗口進行卷積,在最后的卷積層上獲得候選區域推薦框;
3)使用非最大值抑制算法,將步驟二獲得的候選推薦框降低到300個;
4)在提取的特征向量后分別計算邊框回歸評分和分類評分。
基于機器學習的禁帶品識別模型極其依賴訓練樣本大小,訓練數據量越大往往訓練效果越好。禁帶品識別模型訓練數據集采用Pascal VOC數據集格式,分為三個部分JPEGImages、Annotations和ImageSets。JPEGImages保存所有的訓練圖片和測試圖片,Annotations存放xml格式的標簽文件,單個xml文件對應JPEGImages中的同文件名的圖片,ImageSets文件夾將訓練集和測試集的圖片文件名分別保存在train.txt文件和test.txt文件夾中。
本次實驗的數據集通過收集軌道交通真實樣本,將采集到的槍支器械、易燃易爆、管制刀具等禁帶品得到的,禁帶品的坐標標注由人工完成保存在txt文件中。由于物品標注后的坐標信息保存在txt文件內,因此,本文實驗首先將原txt文件轉為Pascal VOC數據集中Annotations文件夾中的xml文件。在去掉了部分標注有誤、格式有誤的錯誤數據之后,按照九比一的比例劃分成了訓練集和測試集,劃分結果保存在ImageSets文件夾下train.txt和test.txt文件內。JPEGImages中的樣本圖片如圖2所示。為了增強識別模型的健壯性,本研究還對樣本圖像進行了旋轉變換操作,增加了樣本數量。

圖2 JPEGImages中的樣本圖片
3.2.1 訓練方式選擇
區域卷積神經網絡擁有兩種訓練方式:Alternating training(alt-opt)和Approximate joint training(end2end)。Alternating training訓練方式分為兩個階段,stage1和stage2。第一階段首先獨立的對RPN網絡進行訓練,獲得RPN模型M1,然后使用初步訓練后的RPN網絡模型M1對區域卷積神經網絡網絡進行初始化,獲得區域卷積神經網絡模型M2,同時使用RPN網絡模型M1輸出的推薦結果P1作為區域卷積神經網絡的輸入值來訓練區域卷積神經網絡模型M2。這部分是區域卷積神經網絡訓練過程的第一階段,最終獲得了一個區域卷積神經網絡模型M2。第二階段在共享卷積層權值的前提下,利用區域卷積神經網絡模型M2來訓練獲得RPN網絡模型M3,然后使用RPN網絡模型M3生成推薦結果P2。使用RPN網絡模型M3初始化區域卷積神經網絡網絡得到模型M4,并使用P2來訓練調整區域卷積神經網絡模型M4的參數,最后將M3的RPN層添加到區域卷積神經網絡模型M4中,組成一個區域卷積神經網絡模型。這一部分是區域卷積神經網絡訓練過程的第二階段,第二階段訓練完成后便得到一個調整過一次參數的區域卷積神經網絡模型網絡。根據預先設定的兩個階段的迭代次數,不斷迭代這個訓練過程最后能獲得一個參數調整非常充分的禁帶品識別模型。Approximate joint training訓練方式則將RPN和區域卷積神經網絡融入到同一個網絡中,同時進行迭代訓練。本文在訓練禁帶品識別模型時,采用的是Alternating training訓練方式。
3.2.2 訓練參數選擇
本文實驗選擇VGG16作為基礎特征提取網絡,VGG16提供了初始學習率和批尺寸等輔助禁帶品識別模型訓練的參數。Base lr影響VGG16網絡中所有層的學習率,它表明的是網絡的初始學習率。本文實驗中,采用的學習率改變策略為每迭代30000次,便根據gamma參數(gamma值取0.9)和當前迭代次數iter來降低學習率。本次實驗學習率改變公式如下所示:
batch size(批處理尺寸)是機器學習中的重要參數,它定義了訓練過程中一次讀入多少批量的圖片。增大batch size可以提高數據處理速度,提高內存的利用率,但是也會導致訓練時間增加,泛化能力差,容易陷入局部最優,模型收斂速度降低。
在區域卷積神經網絡框架中,常常將AP值(Average Precision)作為模型的評價指標。AP值的計算需要使用召回率和精確率兩個值。正樣本mTP指模型正確的將物體識別出來并標注正確,負樣本mFN指模型將物品識別出來但標注為了其他的物品。將召回率作為橫坐標,精確度作為縱坐標可得到一個precision/recall曲線圖。AP值用來概括該曲線圖的形狀。首先,設定一組包含十一個點的閾值,當召回率大于某個閾值時,可以獲得一個對應的最大精確度,這樣我們能獲得一組精確度,AP為這組精確度的平均值。
召回率和精確度的計算方式為:
本文實驗采用的操作系統為Ubuntu14.04平臺,編程環境基于Python,GPU為NVIDIA TITAN Xp,在深度學習框架Caffe下進行實驗。擁有數據標注的X光圖片總共有39000張,隨機選擇其中的90%作為訓練數據集,剩余的10%作為測試數據集,其中訓練數據集用于禁帶品識別模型的參數調整,測試集用于檢測訓練完畢的禁帶品識別模型的好壞。設定的迭代次數為第一二階段區域卷積神經網絡迭代次數為80000次,第一二階段RPN網絡迭代次數40000次。訓練完成的禁帶品識別模型都可以做到200ms一張圖片的識別速度。試驗結果表明:基于機器學習的區域卷積神經網絡框架可以滿足地鐵安檢工作的實時性要求。
表1對比分析了batch size分別取值為32,64,128時的X光禁帶品識別模型的表現。可以看出,batch size為64時,能達到最終收斂精度上的最優。

表1 不同批處理尺寸對mAP的影響
表2對比分析了采用了不同的初始學習率時禁帶品識別模型的性能表現。可以看出當初始學習率為0.0012時,禁帶品識別模型能擁有更好的識別效果。

表2 不同初始學習率對mAP的影響
為了提高人工檢測的效率,本文提出一種基于區域卷積神經網絡的禁帶品智能識別技術,并對兩種不同的基礎特征提取網絡對禁帶品識別精度影響進行了對比實驗。通過實驗驗證了該方法在保證了較高的檢測準確率的情況下能擁有很快的檢測速度。該技術能輔助地鐵X射線安檢工作,提高安檢工作效率。下一步可圍繞對漏識別和誤識別的圖片數據集的整理,這些數據可用于微調現有的禁帶品智能識別模型的參數,以進一步提高禁帶品識別的準確率。