徐 鑫,潘 杰,曹利安,羅 偉,謝 松
(中國鐵路成都局集團(tuán)有限公司 科學(xué)技術(shù)研究所,成都 610081)
隨著我國鐵路的高速發(fā)展,截至2022年底,全國鐵路運(yùn)營里程已達(dá)15.5萬km,其中,高鐵里程達(dá)到4.2萬km。2022年,鐵路貨運(yùn)總發(fā)送量達(dá)49.84億t,鐵路發(fā)送旅客量達(dá)到16.73億人[1],鐵路運(yùn)輸在我國經(jīng)濟(jì)發(fā)展中發(fā)揮著越來越重要的作用,鐵路運(yùn)輸安全的重要性也愈發(fā)凸顯。然而,鐵路沿線行人、家畜、野生動(dòng)物等侵入鐵路線路的事件時(shí)有發(fā)生,威脅鐵路行車安全。
目前,針對(duì)異物侵入界限(簡(jiǎn)稱:侵限)檢測(cè)的方法主要有電網(wǎng)檢測(cè)法、光纖光柵檢測(cè)法、視頻檢測(cè)法、雷達(dá)檢測(cè)法、超聲檢測(cè)法和紅外線屏障法等[2]。這些方法的檢測(cè)原理不同,適用的場(chǎng)景也不盡相同,其中,以視頻檢測(cè)法較為通用,使用該方法時(shí),完全不需要對(duì)鐵路線網(wǎng)進(jìn)行任何設(shè)施改造。根據(jù)《鐵路綜合視頻監(jiān)控系統(tǒng)技術(shù)規(guī)范》[3],鐵路沿線均建設(shè)有監(jiān)控?cái)z像頭,并由專人24 h盯控,以便及時(shí)發(fā)現(xiàn)異物侵限等異常事件。由于這種方法監(jiān)測(cè)的時(shí)空范圍和防護(hù)能力有限,仍存在誤報(bào)、依賴人工判識(shí)等問題[4],基于此,本文研究YOLOv5深度學(xué)習(xí)模型[5],針對(duì)鐵路場(chǎng)景,對(duì)該模型進(jìn)行適應(yīng)性改進(jìn),并將其作為鐵路異物侵限檢測(cè)模型,檢測(cè)鐵路線路異物侵限情況,實(shí)現(xiàn)提高檢測(cè)精確率的目的。
YOLOv5模型網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要由主干(Backbone)網(wǎng)絡(luò)、頸部(Neck)網(wǎng)絡(luò)、頭部(Head)網(wǎng)絡(luò)組成。其中,Backbone網(wǎng)絡(luò)采用較為輕量級(jí)的跨階段局部網(wǎng)絡(luò)(CSPDarknet,Cross Stage Partial Darknet)[6],提取目標(biāo)特征,減少模型參數(shù)數(shù)量,在保證高精度的同時(shí)大幅減少了計(jì)算量;Neck網(wǎng)絡(luò)采用路徑聚合網(wǎng)絡(luò)(PANet,Path Aggregation Network)[7],通過上采樣和下采樣操作實(shí)現(xiàn)多尺度特征的融合,構(gòu)建特征金字塔網(wǎng)(FPNet,F(xiàn)eature Pyramid Network);Head網(wǎng)絡(luò)對(duì)FPNet進(jìn)行目標(biāo)檢測(cè),輸出檢測(cè)結(jié)果。

圖1 YOLOv5模型網(wǎng)絡(luò)結(jié)構(gòu)
鐵路異物侵限檢測(cè)場(chǎng)景往往背景復(fù)雜多變、各類目標(biāo)尺寸和形態(tài)差異較大、遠(yuǎn)小目標(biāo)數(shù)量占比較大,并且真實(shí)目標(biāo)樣本數(shù)量過少。為了提高檢測(cè)精度,本文主要在目標(biāo)框損失函數(shù)和檢測(cè)尺度方面對(duì)YOLOv5模型進(jìn)行了適應(yīng)性改進(jìn),以此作為鐵路異物侵限檢測(cè)模型。
1.2.1 目標(biāo)框損失函數(shù)改進(jìn)
YOLOv5模型使用CIoU損失函數(shù)作為目標(biāo)框回歸的損失函數(shù),CIoU利用預(yù)測(cè)框和真實(shí)框之間的距離、重疊區(qū)域、寬高比等指標(biāo)指導(dǎo)模型收斂。但是CIoU及GIoU等損失函數(shù)均未考慮預(yù)測(cè)框和真實(shí)框之間的方向性,大量“游離在外”的預(yù)測(cè)框?qū)τ谀P褪諗坎荒芴峁┤魏斡行畔ⅰR虼耍疚囊隨IoU作為目標(biāo)框損失函數(shù)[8],將預(yù)測(cè)框和真實(shí)框之間的位置關(guān)系加入到模型回歸參數(shù)中,有效降低了預(yù)測(cè)框的自由度,使模型收斂速度更快,訓(xùn)練結(jié)果也更準(zhǔn)確。
1.2.2 檢測(cè)尺度改進(jìn)
YOLOv5模型使用FPNet+PANet的方式提供3個(gè)尺度的特征圖輸出,以(像素為)640×640的圖像輸入為例,YOLOv5將輸出3個(gè)像素分別為20×20、40×40、80×80的特征圖。YOLOv5使用20×20的特征圖檢測(cè)大目標(biāo),通過2次上采樣和拼接操作,進(jìn)行特征融合,分別得到40×40、80×80的特征圖,用于檢測(cè)中等尺度的目標(biāo)和小目標(biāo)。
本文經(jīng)過對(duì)相關(guān)數(shù)據(jù)集整理發(fā)現(xiàn),在鐵路異物侵限檢測(cè)場(chǎng)景中,發(fā)生侵限的目標(biāo)(如行人、動(dòng)物等)在監(jiān)控?cái)z像機(jī)畫面中的像素面積占比通常都較小,特別是發(fā)生在距離攝像機(jī)較遠(yuǎn)處的侵限,即便是YOLOv5提供的最大尺度(80×80)的特征圖仍無法對(duì)遠(yuǎn)處的小型侵限目標(biāo)進(jìn)行精準(zhǔn)檢測(cè)。此外,現(xiàn)實(shí)場(chǎng)景中極少出現(xiàn)在畫面中占比非常大的侵限目標(biāo),因此,YOLOv5提供的最小尺度(20×20)的特征圖在本文場(chǎng)景中幾乎沒有實(shí)際作用。
基于上述考慮,本文對(duì)YOLOv5的檢測(cè)尺度進(jìn)行了適應(yīng)性修改,通過增加一個(gè)額外的上采樣和特征融合模塊,獲得尺度更大的特征圖(160×160),能夠檢測(cè)到更遠(yuǎn)、更小的侵限目標(biāo)。此外,還裁剪掉了原模型中作用不大、最小尺度為20×20的相關(guān)檢測(cè)模塊,減少了模型推理期間的計(jì)算量,提升模型推理速度。
改進(jìn)后的模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,圖中,紅色背景為本文新增的、更大尺度的檢測(cè)模塊,灰色連接箭頭及模塊為本文移除的檢測(cè)模塊。

圖2 改進(jìn)后的YOLOv5模型網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)后模型輸出的3個(gè)尺度的特征圖為40×40、80×80、160×160,分別用于檢測(cè)大、中、小目標(biāo),能更好地適應(yīng)鐵路場(chǎng)景的異物侵限檢測(cè)。
當(dāng)前并沒有專門針對(duì)鐵路場(chǎng)景的行人和動(dòng)物的圖像數(shù)據(jù)(簡(jiǎn)稱:數(shù)據(jù))集,既有的公開數(shù)據(jù)集,如COCO等[9],缺乏鐵路軌道及列車(特別是我國的各類高速動(dòng)車組列車)背景,若將此類公開數(shù)據(jù)集直接用于鐵路場(chǎng)景異物檢測(cè)模型的訓(xùn)練,模型不能有效學(xué)習(xí)到鐵路軌道相關(guān)場(chǎng)景特征,容易產(chǎn)生大量的誤檢和漏檢。例如,基于此類數(shù)據(jù)集訓(xùn)練出來的檢測(cè)模型極易將鐵路扣件、鐵路道外立桿、動(dòng)車組列車部件等多種鐵路常見場(chǎng)景誤識(shí)為行人類型,而在鐵路軌道中行走的行人(特別是夜間或者雨天)和動(dòng)物則會(huì)產(chǎn)生較多的漏檢。
因此,本文將通過多種途徑采集鐵路場(chǎng)景專用的異物侵限數(shù)據(jù),并從公開數(shù)據(jù)集中挑選部分相關(guān)樣本、輔以多種數(shù)據(jù)增強(qiáng)技術(shù),構(gòu)建一個(gè)更適合鐵路場(chǎng)景的異物侵限數(shù)據(jù)集。
本文從鐵路綜合視頻監(jiān)控平臺(tái)中選取了60路運(yùn)營中的鐵路軌道旁的常規(guī)監(jiān)控視頻,包括有砟普速客、貨運(yùn)鐵路,以及無砟高速鐵路,涵蓋橋梁、隧道口、隧道內(nèi)等多種場(chǎng)景。根據(jù)實(shí)際使用需要,從選取的監(jiān)控視頻中采集了白天、夜間、陰天、晴天、雨天、雪天、霧天等多種條件下的數(shù)據(jù),經(jīng)過人工篩查,構(gòu)建了含有6 000張樣本的數(shù)據(jù)集,并對(duì)這些樣本進(jìn)行了標(biāo)注。其中,5 500張樣本中包含鐵路軌道中行走的行人(主要是夜間上道作業(yè)的人員和部分經(jīng)過居民聚居區(qū)的貨運(yùn)線路上行走的行人)及少量動(dòng)物,剩余500張樣本為不包含行人和動(dòng)物的鐵路軌道背景及各式列車背景,作為負(fù)樣本使用。
真實(shí)線路中,能采集到的動(dòng)物數(shù)據(jù)非常有限,遠(yuǎn)不足以滿足模型訓(xùn)練要求。經(jīng)過對(duì)鐵路沿線異物侵限情況的調(diào)研、與鐵路巡線人員及鐵路綜合視頻盯控人員的溝通,最終選定了牛、羊、狗、貓、兔、雞、松鼠、猴、狐貍、鹿等多種線路上較為常見的動(dòng)物作為訓(xùn)練類別。針對(duì)其中的羊、雞、豬等易發(fā)生侵限的動(dòng)物,在鐵路試驗(yàn)場(chǎng)地內(nèi)按真實(shí)線路規(guī)格架設(shè)攝像機(jī),以可控方式引入這些動(dòng)物進(jìn)行樣本采集,共采集并標(biāo)注了約500張包含行人和動(dòng)物的樣本。其他動(dòng)物的數(shù)據(jù)由于獲得性和可控性較差,不便進(jìn)行現(xiàn)場(chǎng)采集,故通過公開數(shù)據(jù)集獲取到這些動(dòng)物的數(shù)據(jù),通過技術(shù)手段疊加到此前采集的真實(shí)線路背景樣本中,又生成了3 500張包含各類動(dòng)物的鐵路場(chǎng)景樣本。
至此,本文共得到了10 000張包含鐵路場(chǎng)景下的行人、常見動(dòng)物、列車的樣本。完成標(biāo)注后,共有28 000個(gè)各類目標(biāo)。
圖3為本文采集和生成的部分樣本圖片示例。圖3(a)為本文在鐵路試驗(yàn)場(chǎng)地內(nèi)采集的動(dòng)物(羊、雞)樣本,圖3(b)為真實(shí)鐵路上采集的動(dòng)物(貓、猴)侵限樣本,圖3(c)為使用本文方法將動(dòng)物(狗、牛)素材疊加至鐵路線路生成的樣本。

圖3 采集和生成的部分樣本圖片示例
由于樣本采集的設(shè)備數(shù)量和場(chǎng)景有限、各個(gè)場(chǎng)景相似度也略高,直接將上述數(shù)據(jù)用于模型訓(xùn)練,很容易產(chǎn)生過擬合,泛化能力較差。如果將來應(yīng)用于訓(xùn)練集中未曾出現(xiàn)過的場(chǎng)景、或者采用像素值相差較大的攝像機(jī)進(jìn)行拍攝,模型準(zhǔn)確性可能會(huì)有所下降。因此,在模型訓(xùn)練前需要對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng),提高數(shù)據(jù)集的豐富程度。
為提高模型泛化能力、減少過擬合現(xiàn)象的發(fā)生,本文使用改變圖像的亮度、對(duì)比度、飽和度、色調(diào),進(jìn)行隨機(jī)旋轉(zhuǎn)、裁剪、翻轉(zhuǎn)[10],增加額外噪聲等技術(shù)對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)處理。通過此類數(shù)據(jù)增強(qiáng)技術(shù)可彌補(bǔ)數(shù)據(jù)采集設(shè)備型號(hào)、現(xiàn)場(chǎng)光照環(huán)境等的不足,從而更好地將模型應(yīng)用于訓(xùn)練集之外的設(shè)備和場(chǎng)景。
此外,本文還使用Mosaic、Cutout、Mixup等數(shù)據(jù)增強(qiáng)技術(shù),將多張樣本進(jìn)行隨機(jī)縮放、裁剪、拼接,將多個(gè)目標(biāo)集成于單張圖像中,有效提升學(xué)習(xí)效率,同時(shí),可隨機(jī)將圖像中的部分區(qū)域剪切,模擬目標(biāo)被部分遮擋的情況,提高模型魯棒性。圖4為使用數(shù)據(jù)增強(qiáng)技術(shù)產(chǎn)生的部分用于訓(xùn)練的樣本圖片示例。

圖4 數(shù)據(jù)增強(qiáng)技術(shù)產(chǎn)生的部分樣本圖片示例
本文進(jìn)行模型訓(xùn)練使用的軟、硬件配置如表1所示。

表1 模型訓(xùn)練軟、硬件配置
基于YOLOv5網(wǎng)絡(luò),初始學(xué)習(xí)率(learning rate)為0.001,使用Adam優(yōu)化器,IOU閾值0.7,批大小(batch size)為64,啟用了旋轉(zhuǎn)、色調(diào)、飽和度、翻轉(zhuǎn)、Mosaic、Cutout、Mixup等數(shù)據(jù)增強(qiáng)技術(shù)。模型訓(xùn)練共使用10 000張樣本,按照8 : 1 : 1的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。
深度學(xué)習(xí)目標(biāo)檢測(cè)任務(wù)中,一般使用精確率(precision)、召回率(recall)、平均精度均值(mAP)等指標(biāo)評(píng)估模型性能。其中,精確率表示在所有檢出目標(biāo)中真實(shí)目標(biāo)的占比,精確率越高,代表錯(cuò)檢率越低;召回率表示所有真實(shí)目標(biāo)被檢出的比例,召回率越高,代表漏檢率越低。計(jì)算公式為
式中,P為精確率,R為召回率,TP表示檢測(cè)出的真實(shí)目標(biāo)數(shù)量,F(xiàn)P表示檢測(cè)出的錯(cuò)誤目標(biāo)數(shù)量,F(xiàn)N表示未被檢出的目標(biāo)數(shù)量。
精確率和召回率從兩個(gè)不同的角度衡量模型性能,單獨(dú)看任何一個(gè)指標(biāo)都不足以評(píng)價(jià)模型的好壞,故引入了AP(Average Precision)概念,用于表述不同召回率下的平均精確率。而目標(biāo)檢測(cè)任務(wù)包含多個(gè)類別,對(duì)所有類別的AP取平均即得到評(píng)估指標(biāo)mAP。
圖5為模型訓(xùn)練過程中,訓(xùn)練集和驗(yàn)證集的損失函數(shù)曲線,包括目標(biāo)框損失函數(shù)(box_loss)、目標(biāo)置信度損失函數(shù)(obj_loss)、目標(biāo)類別損失函數(shù)(cls_loss)。本文共訓(xùn)練了約250輪迭代(epoch),從損失函數(shù)曲線可以看到,模型訓(xùn)練約200輪后,驗(yàn)證集的各個(gè)損失值均已趨于平穩(wěn),不再有明顯下降趨勢(shì)。最終,采用訓(xùn)練250輪得到的模型文件進(jìn)行后續(xù)試驗(yàn)。

圖5 模型訓(xùn)練損失函數(shù)曲線
圖6為本文最終選擇的模型在驗(yàn)證集上的精確率-召回率曲線(PR曲線,IoU閾值為0.5)。圖中,灰色線條為各類別的PR曲線,藍(lán)色線條為所有類別平均的PR曲線。根據(jù)PR曲線,模型所有類別最終平均精度(mAP)為0.863。

圖6 模型精確率-召回率曲線
使用本文訓(xùn)練得到的模型對(duì)測(cè)試樣本中的鐵路場(chǎng)景和非鐵路場(chǎng)景的行人、動(dòng)物數(shù)據(jù)進(jìn)行檢測(cè)。按行人、動(dòng)物兩大類別統(tǒng)計(jì),本文訓(xùn)練模型在1 000張測(cè)試樣本(含各類目標(biāo)共2 713個(gè))中的檢測(cè)性能指標(biāo)如表2所示。從表2的指標(biāo)可以看到,模型在測(cè)試集上整體精確率為0.897左右、召回率為0.854左右,其中,行人的精確率和召回率均略高于動(dòng)物的。部分檢測(cè)結(jié)果如圖7所示。

表2 測(cè)試集檢測(cè)結(jié)果
測(cè)試結(jié)果表明,模型能以較高的置信度檢測(cè)出樣本中的行人和動(dòng)物,特別是對(duì)于真實(shí)線路夜間場(chǎng)景和圖像質(zhì)量較低的樣本,本文模型也能取得較為理想的檢測(cè)效果,模型具有良好的魯棒性和充分的泛化能力。
針對(duì)異常侵入鐵路股道、影響鐵路運(yùn)營安全的行人和常見動(dòng)物,本文提出了基于深度學(xué)習(xí)的鐵路異物侵入界限檢測(cè)模型。該模型已在某客運(yùn)專用線試用,多次檢測(cè)出入侵動(dòng)物,提高了鐵路線路安全防護(hù)水平,同時(shí),漏檢率和誤檢率也較低,取得了較好的試用效果,滿足鐵路異物侵限檢測(cè)要求。