姜 雪,哈大雷,徐慧星,楊 帥,江升輝
(1. 中車長春軌道客車股份有限公司,長春 130062;2. 中車青島四方車輛研究所有限公司,青島 266031)
目前,我國已建成運營速度最快、里程最長的高速鐵路網,取得了令世界矚目的成就。為保持競爭力,我國高速鐵路需要在列車技術上持續創新,不斷提升旅客服務質量,為旅客提供更加安全、舒適、高效的出行體驗。
智能視頻分析技術借助計算機強大的數據處理功能,對監控攝像機所拍攝的海量視頻進行高速分析,從視頻圖像的背景中將目標分離出來,自動捕獲和跟蹤可疑目標,一旦場景中的目標出現違反預定義分析規則的行為,會觸發預設置的聯動規則主動告警,為用戶提供有價值的關鍵信息。
為此,提出高速列車視頻智能分析應用方案,在高速列車車廂內安裝高清攝像機,構建高速列車智能視頻分析系統,對攝像機采集的視頻數據流進行智能分析,自動檢測和識別高速列車上的異常狀況,并將告警信息傳輸至車廂控制器,由車廂控制器將告警信息顯示在車載顯示設備上,或通過車載廣播設備播放告警信息,為改善旅客服務和保障列車安全運行提供信息服務。
目前,智能視頻分析主要采用深度學習,構造深層次的網絡結構,學習機制為以數據為驅動,算法分為訓練和推理2個階段;訓練階段使用預先標記的樣本(輸入和預期輸出)對模型進行訓練,通過網絡參數迭代得到一個最優模型;推理階段使用訓練好的深度神經網絡模型,預測無標記的新的輸入的輸出,輸出為連續值稱為回歸,輸出為離散值稱為分類。
按照智能視頻分析的任務類型,智能視頻分析技術包括目標檢測、目標跟蹤、目標識別、目標行為識別4種類型。
目標檢測是智能視頻分析的基礎,是從視頻圖像中去除掉背景成分,找出檢測目標的區域,在這個過程中盡可能地減少背景噪聲和前景噪聲的干擾;目標檢測方法主要包括光流法[1]、特征匹配法[2]和基于深度學習的方法[3]。
目標跟蹤是在視頻圖像中尋找與目標模板最相似的候選目標區位置的過程,其中目標跟蹤方法主要基于特征的跟蹤、基于區域的跟蹤和基于深度學習的方法[4]。
目標識別是指根據視頻圖像中的目標內容,自動將其劃分到預定義類別,如人、車輛等不同目標;根據可利用信息的不同,目標識別可分為基于形狀信息[5]和基于深度學習的方法。
目標檢測、跟蹤和識別屬于智能視頻分析中底層和中層處理部分,而目標行為識別是對目標的運動模式進行分析和識別,通過在跟蹤過程中目標的行為變化,根據用戶的自定義行為規則,判斷被跟蹤目標的行為是否存在異常,屬于智能視頻分析中高層處理部分;目標行為識別方法主要基于時空興趣點的方法、基于骨骼關節軌跡的方法和基于深度學習的方法[6]。
國內關于智能視頻分析技術在列車上的應用已開展了一些研究。段旺旺等人[7]基于視頻監控圖像,使用Faster R-CNN模型進行車廂人數檢測與統計,實現動車組車廂擁擠度分析,車廂擁擠度預測結果的準確率達到93.89%;馮勇等人[8]設計了行李架遺留物檢測方法,對指定的行李檢測區域采用幀差法完成初檢,判斷是否有物品遺留在行李架上,當初檢檢測到行李遺留物時,使用YOLOv3模型對遺留物的位置、類別進行復檢。
高速列車智能視頻分析系統主要由車廂攝像機、視頻監控服務器和智能分析主機等設備組成,這些設備通過列車以太網組網進行信息交互,系統構成如圖1所示。

圖1 高速列車智能視頻分析系統構成示意
(1)車廂攝像機:選用高清網絡攝像機,主要安裝在車門通過臺、客室、吧臺區及司機室等區域,安裝位置應不影響現場設備運行和人員正常活動,并確保能夠獲取監視目標區域清晰、完整的視頻畫面;所采集的監視目標區域數字視頻流數據同時發送給視頻監控服務器和智能分析主機。
(2)視頻監控服務器:每節車廂布置布置1臺視頻監控服務器,主要由供電模塊、通信模塊、網絡視頻錄像機(NVR,Network Video Recorder)模塊和存儲模塊組成;視頻監控服務器采用視頻中間件的方式,可兼容多種數字攝像機設備的編碼格式,集中存儲車廂攝像機采集的視頻流數據,具備視頻數據管理功能,提供視頻數據查詢和下載、刪除服務。
(3)智能分析主機:根據智能視頻分析功能算力分析,每列 8編組動車組列車配置2臺智能分析主機,分別處理1~4車和5~8車的視頻數據;智能分析主機主要由供電模塊、通信模塊和智能分析模塊組成;智能分析模塊采用CPU+GPU+NPU硬件架構,具有高算力和高性能,主要完成列車智能視頻分析,自動識別和檢測各種異常事件;通過通信模塊接入基于車廂控制器構建的列車骨干網,可將智能分析模塊生成的告警事件信息發送給車廂控制器;還可從車廂控制器接收相關信息,實現與其他車載設備的信息交互,例如從車載旅客信息系統(PIS,Passenger Information System)獲取視頻流數據的補充信息。
車廂控制器接收到告警事件信息,將告警信息發送給公共區域車載顯示設備(如吊頂電視、內外顯示器等,面向乘客提供引導信息)、工作人員車載顯示設備(如乘務員室智慧屏),或通過司機室廣播設備播放告警信息。
高速列車智能視頻分析系統工作過程如圖2所示。

圖2 高速列車智能視頻分析系統工作過程
(1)車廂攝像機通過車廂以太網,基于實時流傳輸協議(RTSP,Real-TimeStream Protocol ),同時向視頻監控服務器和智能分析主機傳輸監視目標區域的視頻流。
(2)視頻監控服務器接收RTSP視頻流,從中抽取H.264裸流數據(含時間、日期、攝像機標識符),同時從車廂控制器獲取其他車載系統提供的補充信息(包括車次、列車運行區間、車廂號、攝像機位置號等),將視頻流數據和補充信息整合在一起后集中存儲,便于視頻數據檢索與查詢;提供視頻數據存儲管理,列車工作人員可在車載顯示設備上使用視頻管理軟件,進行指定監控視頻的下載、回放、刪除等操作,授權操作可被記錄以備查詢。
(3)智能分析主機接收車廂攝像機傳輸的數字視頻流數據后,利用內置的視頻數據預處理程序與深度學習算法程序,對視頻流數據進行實時處理,自動完成車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監控及司機疲勞駕駛監測等智能視頻分析;發現異常事件時,生成異常事件告警信息發送給車廂控制器。
(4)車廂控制器作為列車骨干網節點設備,可與智能視頻分析系統的智能分析主機及視頻監控服務器進行信息交互,接收智能分析主機發送的異常事件告警信息;從PIS等其他車載系統或設備獲取視頻補充信息(如車次、列車運行區間、車廂號、攝像機位置號等),并將這些相關信息發送給智能分析主機和視頻監控服務器。
(5)當車廂控制器接收到智能分析主機發送的異常事件告警信息時,將告警信息轉發給PIS;PIS根據告警事件類別,自動觸發告警信息的顯示或播報。對于車廂擁擠告警事件,PIS觸發公共區域車載顯示設備(如吊頂電視、內外顯示器等)顯示面向乘客的引導信息,方便乘客隨時了解各車廂擁擠程度;對于司機疲勞駕駛告警事件,PIS觸發司機室廣播設備播放報警信息,提醒駕駛員注意安全駕駛,及時解除危險行為;對于車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監控識別的告警事件,PIS觸發工作人員車載顯示設備(如乘務員室智慧屏)顯示告警信息,告警信息包含車廂號、攝像機位置號、報警描述、報警圖像或報警視頻,工作人員可通過操作智慧屏,實時查看或回放指定車廂的監控畫面,進一步了解車廂內祥情。
車廂敏感人員人臉識別屬于目標識別任務類型,是基于人的面部特征信息進行身份識別的一種生物識別技術,利用深度神經網絡和多階段回歸從千萬級別的圖像中學習先驗知識,快速準確地對人臉進行檢測并定位,能夠克服光照情況不理想、人臉姿態變化復雜等因素的影響。采用人臉識別技術可實現敏感人員的智能檢測和預警,提供更加安全的乘車環境。
系統從公安系統備案獲取人臉黑名單庫或其他敏感人員人臉庫,將其提前導入智能分析主機,智能分析主機對車廂視頻監控畫面進行人臉識別。車廂敏感人員識別流程如圖3所示。

圖3 車廂敏感人員識別流程
本文實現的人臉識別應用主要包含5個模塊:人臉檢測、人臉對齊、人臉特征提取、特征比對以及人臉識別;其中,人臉檢測采用MTCNN模型[9],如圖4所示,這是一種層層遞進的多任務級聯卷積神經網絡,主要包含Proposal Network(P-Net),Refine Network(R-Net)及Output Network(O-Net)3個網絡。在進行人臉識別時,先由P-Net通過卷積神經網絡快速生成目標候選檢測框, R-Net接收PNet生成的目標候選檢測框,通過卷積神經網絡進行目標檢測框過濾,丟棄重疊窗體;最終由O-Net使用卷積神經網絡完成人臉位置的檢測,同時回歸生成5個面部關鍵點。人臉對齊則使用5個面部關鍵點將人臉進行歸一化處理以便進行人臉特征提取。人臉特征提取模塊核心單元采用了卷積神經網絡提取高層語義特征,生成目標特征向量,特征比對模塊計算各特征向量之間的相似度,最終完成人臉識別,當檢測到車廂敏感人員時,智能分析主機發送報警信息。

圖4 MTCNN網絡結構示意
車廂乘客擁擠度檢測屬于目標檢測任務類型,其目的是自動識別車廂內乘客擁擠程度。動車組車廂乘客一般按照座號就坐,座椅區域極少會出現乘客擁擠的現象,車廂擁擠檢測主要針對車廂通過臺區域和車廂通道區域[4]。本文以車廂通過臺和通道區域作為檢測區域進行人數統計,車廂座椅排數作為比較基準值,計算兩者比例判定車廂擁擠度。車廂擁擠度c定義為
其中,N為車廂通過臺和通道區域統計出的乘客數量;M是當前車廂座椅排數。
根據預先設置的車廂不同擁擠度等級的閾值,判斷車廂擁擠程度,車廂擁擠度系數閾值如表1所示。

表1 車廂擁擠度系數閾值表
列車車廂內空間狹小,當出現擁擠時,人體往往會嚴重遮擋。考慮到攝像機拍攝位置較高,本文采用目標檢測模型是通過對頭部的檢測實現人數統計,車廂乘客擁擠度檢測流程圖如圖5所示。

圖5 車廂乘客擁擠度檢測流程
YOLOv5 是用于目標檢測的最有效的深度學習算法之一[10], 包括 YOLOv5s、YOLOv5m、YOLO5l和 YOLOv5x 4種變體,每個變體具有特定的寬度和深度。車廂乘客擁擠度檢測使用輕量級的YOLOv5s模型,主要包括骨干網絡、特征融合及預測層3個組件,其輸出結果分別為目標位置矩陣框、目標類型和模型檢測置信度,如圖6所示。

圖6 YOLOv5s網絡結構示意
其中,骨干網絡包括Focus模塊、Conv模塊、C3模塊和SPP模塊,通過多重卷積和池化從輸入圖像中提取不同大小的特征圖,創建4個不同大小的特征圖。特征融合是將一組融合圖像特征并將其轉發到預測層的網絡層,融合了幾個層次的特征圖,用以收集更多的上下文信息并減少信息丟失,在融合過程中利用FPN和PAN的特征金字塔結構,FPN和PAN共同增強了網絡的特征融合能力。特征融合層生成小、中、大3種尺寸新特征圖。預測層是預測圖像特征,構造邊界框,然后預測目標類別。
車廂遺留行李檢測屬于目標檢測任務類型,當乘客在終點站下車時,如有行李物品遺落在車廂內,智能分析主機可識別出行李物品遺留情況,并向乘務人員發出報警,方便乘務人員查找乘客遺留的行李物品。
車廂遺留行李檢測采用基于目標檢測模型YOLOv5s,模型輸出結果包含檢測目標位置矩陣框、目標類型和模型檢測置信度。當列車到達車次終點站時,乘客信息系統向智能分析主機發送到達列車終點站信號和列車行駛速度,智能分析主機先觸發車廂遺留人員檢測,當本車廂遺留乘客人數總數小于設定閾值時(如3人,可設置),隨即觸發終點站遺留物檢測,并生成行李遺留物信息,包括行李類別(手提箱、背包、其它)、位置等。當檢測到終點站車廂行李遺留時,智能分析主機發送報警信息,終點站車廂行李遺留檢測具體流程如圖7所示。

圖7 終點站車廂行李遺留檢測流程
車廂重點位置監控屬于目標識別任務類型,其目的是對列車重要區域進行實時監測和預警,以保證列車安全運行。本文以乘客緊急制動手柄作為監測對象。
智能分析主機提前導入緊急制動拉桿區域的背景圖像,智能分析主機基于背景差分法 ,對緊急制動拉桿區域的圖像進行實時分析。背景差分法通過將圖像序列中的當前幀與背景參考圖像對比來檢測運動物體,可快速檢測運動目標,且檢測準確率較高。本文采用背景差分法進行初檢,判斷是否存在可疑的入侵行為,再將初檢中發現的可疑圖像送入目標分類網絡進行復檢,進一步分析緊急制動拉桿區域是否存在異常動作。復檢采用基于經典卷積神經網絡ResNet構建的目標分類模型,ResNet網絡特有的殘差結構加深了網絡深度,并能夠加速網絡訓練速度,使網絡更快收斂。當檢測到緊急制動拉桿區域有乘客異常行為入侵時,智能分析主機發送報警信息,車廂重點位置監控流程如圖8所示。

圖8 車廂重點位置監控流程
司機疲勞檢測屬于目標行為識別任務類型,其目的是監督司機的駕駛行為,避免其在駕駛過程中出現的危險行為,確保行車安全。本文以司機眼部狀態作為智能分析對象,據此推斷司機的疲勞狀態。
司機眼部關鍵點檢測基于改進的YOLOV5s模型,在YOLOv5-Face中添加人臉68個關鍵點坐標回歸,模型使用wing loss作為損失函數,對于小誤差,它表現為具有偏移量的對數函數,而對于大誤差,則表現為L1損失函數,wing loss損失函數的定義為
其中,w是一個正數,將非線性部分的范圍限制在 [-w,w]區間內;ε約束非線性區域的曲率,且C=w-wln(1+|x|/ε))是一個常數,可平滑的連接分段的線性和非線性部分,ε應設置為一個很小的數值,因為它會使網絡訓練變得不穩定,且很小的誤差就會導致梯度爆炸問題。
YOLOv5-Face模型輸出結果包含檢測目標位置矩陣框、檢測目標的關鍵點位置、目標類型和模型檢測置信度。根據司機眼睛的6個關鍵點的相對位置,對司機疲勞狀態進行識別。當駕駛員處于睜眼狀態時,眼睛關鍵點之間歐氏距離較大;在閉眼狀態時,眼睛關鍵點之間歐氏距離較較小。當識別到司機閉眼且持續時間超過一定的閾值(可進行設置)時,即可判斷司機處于疲勞狀態,當檢測到司機疲勞駕駛時,智能分析主機發送報警信息,司機疲勞檢測流程如圖9所示。

圖9 司機疲勞檢測流程
采用基于深度學習技術設計了一種高鐵列車智能視頻分析應用方案,實現了車廂乘客擁擠度檢測、車廂敏感人員識別、車廂遺留行李檢測、車廂重點位置監控及司機疲勞駕駛監測,提升了高速列車旅客服務智能化水平,減輕了乘務人員排查各車廂異常事件的工作負擔,有助于增強列車運行安全。
目前在實際應用中,高速列車智能視頻分析系統尚存在較高的誤報和漏報率,其原因主要是智能分析模型的訓練樣本數量有限。下一步將收集更多的視頻圖像數據,完成圖像標注,通過構造高質量的訓練數據集,持續對智能分析模型進行改進和優化,提升檢測和識別的準確度。