李 君,陳瑞鳳,徐春婕,呂曉軍
(1.北京經緯信息技術有限公司,北京 100081;2.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
隨著運營里程的增加和旅客發送量的突增,中國高速鐵路建設取得了舉世矚目的成就,客運服務信息系統承擔著舉足輕重的作用,如何保障旅客安全出行始終排在客運服務首要位置[1]。客運服務的安全管控也從一開始的被動監管、巡查式管理、追溯不及時到主動監控、安全預警、智能化管控,實現了鐵路客運服務安全管理質的飛躍,但在保障旅客運輸和客運服務的安全方面仍然存在問題追溯滯后、潛在隱患發現不及時、運輸組織不暢等問題[2-3]。據此,利用從綜合視頻網接入的實時綜合視頻流等數據,結合列車運行時刻表等運輸調度數據,通過卷積神經網絡的算法,選取客運車站站臺這一重點區域,進行對視頻場景中旅客跨越站臺白線、禁區徘徊等異常行為的識別、判斷、跟蹤、告警[4],及時提醒車站工作人員和客運值班人員,對鐵路客運車站旅客異常行為進行主動監測和實時調控,同時根據預判信息提早預防客運作業風險,及時發現潛在客運作業安全隱患,保障客運車站安全穩定運營。后續可以考慮對監控到的異常事件進行結構化信息的提取,如重點人員的識別及跨域追蹤、站內遺留物檢測等。
對于客運車站內售票大廳、檢票口、候車室等人員密集度較大區域,采用多列卷積神經網絡算法,較為精準的定位人員具體位置并以識別概率的形式進行清晰標記,主動監測和識別人員密度,并按照人員聚集程度進行合理引流分流,適當開放進站閘機或按需增減檢票口,為更為順暢的安排客運組織和客運作業計劃提供數據依據。后續可以以客流組織為基礎,結合具體的作業場景和作業模式,分析比對客流組織過程中的關鍵環節,得出不同場景、不同區域、不同周期的進站客流統計結果,從而預測下一階段該區域客流。通過對典型流線布局的形式和特點進行系統性分析,并結合排隊系統有關理論完善客運設備配置、優化客流組織流線。
針對目前存在的客運服務管控分散、生產管理效率低下、客流組織安排不合理等弊端,選取鐵路客運車站站臺和候車廳等重點區域,采用神經網絡的基本算法對越界入侵識別不及時、站段防護不到位、客運作業流線設計不合理、客運組織安排不當等問題進行算法選取和模型搭建,借助智能化的技術手段對以上車站痛點進行研究。針對旅客站臺越界和站內重點區域人員密度監控兩個典型場景進行研究,分別搭建“旅客站臺白線越界入侵監控及預警模型”和“人員密集度主動監測控制模型”。在“旅客站臺白線越界入侵監控及預警模型”中,采用CNN網絡提取站臺白線附近區域視頻圖像特征信息并根據旅客與白線的距離進行閾值判斷,從而對旅客進行主動監控和預警;在“人員密集度主動監測控制模型”中選取站內人群較為密集的候車室、檢票口、售票廳等重點區域進行監控,利用MCNN模型動態識別人員數量,用不同顏色直觀標示密度大小,便于客運工作人員實時監控站內重點區域人群密度,提前做出客運計劃安排。
對于旅客異常行為的智能識別和控制,分別選取站臺和候車室兩個區域白線越界入侵監控預警和人員密集度主動監控的設計。對于站臺白線越界,目前有很多較為成熟的檢測方法且準確率也較高,但在鐵路客運車站這種客流量大,旅客行為不受控制可能性大的應用場景較為特殊,針對此類典型場景進行設計可為后續相關研究提供應用參考。對于人員密度的主動監測,采用較為先進的MCNN算法,在不容易識別的選擇框上疊加識別概率,且選取人群密度大的客運車站候車大廳,更加容易疊加相關算法進行后續試驗。具體設計思路和具體描述如下。
1)設計思路及方法:
鐵路客運車站作為現階段最主要的交通樞紐,人員流動性較大,車站上下車人數較多、人員流動性大且換乘站客流量較大,站臺上經常會出現旅客跨越白線、站端入侵等現象,以上旅客異常行為又往往容易被車站工作人員所忽視[5],尤其在車站運營高峰時期和大面積晚點等情況下顯得尤為突出,極大程度上增加了車站客運安全事故發生的概率,嚴重影響到車站的客運作業安全。為有效保證每位乘客的人身以及財產安全,往往需要車站安保人員和站臺客運工作人員長期對站臺的安全狀況實時盯控,耗費極大的人力和物力。隨著近年來車站視頻監控及視頻分析技術的不斷完善和飛速發展,尤其是對于人員的姿態估計、行為識別等的檢測和識別技術逐漸成熟,如:通過檢測圖像中所有人的關節進而分配給對應個人的OpenPose人體姿態估計算法、通過CNN網絡提取圖像特征信息并分類的行人識別算法、以及通過改進網絡結構、結合3D卷積的各種行人識別的深度學習算法,這些算法的準確度和精細度也更高,更容易精準的識別出目標行人[6-7]。對于鐵路客運車站這一具體應用場景來講,通過視頻畫面實時進行行人越界入侵的檢測,能夠大幅提升車站客運工作人員作業效率和客運車站智能化安全管理水平,被越來越廣泛的運用于車站安保工作當中。
目前,我國鐵路客運車站在行人越界入侵檢測方面普遍采用事后調取視頻或圖像進行逐幀比對的方式,這種傳統的檢測方式極大地降低了鐵路客運管理的運營效率,且上述檢測方法往往是在事故發生后所采取的,不能給現場安保人員提供提前預處理的指導,實時性差。因此,提供一種能夠快速、精準、實時的完成鐵路客運站站臺白線越界入侵報警的車站監控視頻檢測技術,以提高工作效率、減少人力物力資源的浪費,成為亟需解決的技術問題。
2)實現流程圖:
通過對由視頻監控網獲取到的視頻圖像進行分析,確定視頻畫面中的白線邊界,并根據車站要求人工定義警戒區域為白線邊界以內5~10 cm。根據接收到的列車到發信號,開始檢測站臺指定區域內的行人,并對站臺白線進行檢測(即獲取白線邊界位置及白線警戒區域);然后在預設時間段(根據實際需要進行設置,如30秒)內,判斷列車停穩信息,如果確定列車已停穩則停止檢測區域內的行人,否則持續檢測直到收到列車停穩信號為止。若目標行人與白線邊界距離大于第一預設距離(白線內邊界以外10~60 cm,則啟動入侵越界報警;若目標行人與白線邊界距離在第一預設距離與第二預設距離(白線內邊界以外5~10 cm)之間,且逗留時間超過10秒,則系統啟動徘徊報警跟蹤;若目標行人距離白線內側距離5 cm以內,則開啟重點人員追蹤,必要時跨域跟蹤,具體思路如圖1所示。

圖1 站臺白線越界入侵檢測條件判斷示意圖


圖2 目標行人尺寸示意圖

圖3 目標行人具體位置
3)算法實現描述:
針對站臺兩側、候車室等重要區域實時監測,結合卷積神經網絡(CNN,convolutional neural networks)算法,對跨越白線、站端侵入、禁區徘徊等旅客異常行為進行識別,對檢測到的異常情況提前給出預警信息,完成旅客異常行為分析、相關區域警情預測等。
CNN包括對特征提取層和特征映射層的操作,前者負責提取上一個輸入神經元的局部特征(文中為上一幀圖像特征,該特征被提取后,與其它特征之間的位置關系便可確定),特征映射結構采用影響函數核小的sigmoid函數作為卷積網絡激活函數,使得特征映射具有位移不變性。后者為特征映射層,該網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有的神經元權值相等。
基于CNN的基本架構,結合Selective Search思想,首先將被測的某一幀圖像(如某趟列車停穩前的某一幀視頻畫面)分割成很多小區域,將這些區域看作單獨的圖片,然后將這些區域圖片傳遞給CNN,根據其相似性(相似性衡量標準可以為顏色、輪廓、紋理等)進行區域合并,劃分到不同的類別中,不斷迭代小區域合并成大區域,并對每幀圖像處理,最終結合并獲得包含異常人員特征圖像。對于目標行人和背景的區分需要以每張區域圖片的感興趣區域為基礎進行不斷識別、改造,通過對支持向量機(SVM)的不斷訓練,為每個辨識到的目標行人生成更為精準的邊界框[8-9]。具體思路如下:

圖4 CNN的大致思想
利用算法計算目標行人位置時,通過安裝在站臺指定位置的攝像頭獲取目標行人所在檢測區域的視頻畫面(行人檢測結果)和相鄰幀的檢測視頻原始圖像(下一幀監測畫面),將檢測區域圖像輸入至卷積神經網絡中,獲取到目標行人的行人特征信息,同時將下一幀原始監測畫面輸入卷積神經網絡,獲取全局行人特征信息。經比對,在全局行人特征信息中獲取到包含目標行人的行人特征信息的區域,作為該目標行人在下一幀圖像中的位置。依次對每一幀圖像進行上述處理,則可以獲取到該目標行人的運動軌跡,完成對其的位置跟蹤。識別到越界人員后,啟動入侵越界報警,通過檢測該異常人員徘徊次數和時長,判斷是否與接入的公安系統重點人像庫進行比對,以便篩查可疑人員或重點人員,具體方法如下:

圖5 目標行人位置徘徊報警跟蹤示意圖

圖6 站臺白線入侵越界人員的檢測系統流程圖
對于站臺白線警戒區域越界人員的檢測,本算法首先按照系統接收到列車到發信號且列車處于停穩前5分鐘為基本條件,對于滿足此條件且通過站臺視頻監測畫面監測得到的檢測區域內行人開始進行白線距離歸一化(即:將目標行人雙腳中心點與所述白線邊界位置之間的距離乘以歸一化矩陣)。之后,將待檢測畫面作為輸入圖像輸入至預先訓練好的卷積神經網絡中,獲取到目標行人的特征圖以及多個候選區域;將兩者結合,計算出每個候選區域中具有目標行人的概率值。若概率值大于預設概率值0.5,則可確定目標行人所在候選區域,并認定為目標行人的具體位置,將其與白線內邊界位置比較。若兩者距離大于60 cm則認為正常,不作任何操作;若兩者距離大于10 cm(第一預設距離),啟動入侵越界報警;若兩者間距離在5 cm(第二預設距離)與10 cm之間,啟動入侵越界報警和行人跟蹤監測,對于逗留時間超過30秒的行人,則啟動徘徊報警跟蹤;若小于5 cm,啟動入侵越界報警并考慮是否啟用重點人員比對,以進行跨域追蹤。另外,針對一些敏感性區域,設置虛擬檢測區域監測(可同時設置多個虛擬監測區域,虛擬監測區域均可自定義調整),對未經允許而入檢測區域的人員進行監測,并向工作人員發出告警信息,嚴格控制不明物體或人接近,形成高安全系數的入侵檢測防范體系。
4)硬件環境搭建:
選取太原站和北京西站作為旅客異常行為實時監控及預警的視頻監測試驗點,搭建的智能視頻分析平臺能夠同時接入模擬視頻或數字視頻信號,適用于多級聯網的集中監控管理結構,可以同多家主流視頻監控平臺無縫對接。通過智能視頻分析,返回事件預警信息,以便采取實時視頻流彈出、聲光電報警等方式提醒監控人員。使用智能分析終端,針對模擬和數字攝像頭混合的場景,在前端完成處理和計算。

圖7 綜合視頻前端分析結構示意圖
模擬視頻可從模擬攝像機到智能分析終端進行分析,也可通過矩陣對接入的視頻源進行分流、切換,還可通過DVR/DVS轉化為數字視頻后,再通過智能分析終端實時分析。數字視頻可直接從數字攝像機傳輸到智能分析終端進行分析,也可傳輸至流媒體服務器,流媒體服務器再把視頻信號轉發給智能分析終端進行視頻分析。視頻分析處理后,產生的報警信息通過網絡發送給綜合監控平臺進行報警聯動觸發,并給出報警信息,提醒工作人員及時處理。
1)設計思路及方法:
鐵路客運車站作為旅客跨城市的主要交通工具,客流量數量可觀,尤其在進站口、檢票口、候車廳、出站通道等場所,人群較為密集,往往容易由于突發事件導致人群失控從而發生擁擠、踩踏等事件,影響旅客人身安全和客運組織效率[10-11]。
通過采集到的站前廣場實時監控錄像,結合旅客身份核驗時獲取的人臉圖像等相關身份信息,采用多列卷積神經網絡(MCNN,multi-column convolutional neural network)算法,分析站內主要區域人流密集情況,將人員聚集區識別標記,對短時間內超過客流閾值的區域給出預警信息。
2)算法實現原理:
目前常用的人群計數方法主要有基于目標檢測的方法和基于回歸的方法,前者通過對圖像上每個人或人頭進行定位與識別,根據結果統計人數,此法較為準確但不適應識別高密度人群;后者只能大概估計人群數目并沒有精確定位行人位置[12-13]。采用回歸算法中的密度圖回歸算法[14-15],即:每幀視頻圖像中的每個人頭所在近似中心位置,采用MCNN的方法估計人頭覆蓋范圍,將該區域轉化為該區域內可能為人頭的概率(表示每個像素可能有多少人),該區域概率總和為1,最終得到人群密度圖。具體的算法表述如下:

針對旅客異常行為識別和人群密度識別,選取北京西站作為試點車站進行試驗驗證,結合列車運行計劃和調度作業計劃,選取列車到達至發車前這段時間作為旅客異常行為識別的驗證時間段,利用CNN算法進行模擬驗證;另選取北京西站某候車大廳在發車高峰時間段的視頻作為訓練數據,利用MCNN算法進行模擬驗證,驗證具體方法及分析結論如下:
1)實驗步驟及方法:
根據列車運行計劃和站臺作業情況,綜合考慮,選取北京西站12站臺作為旅客白線越界分析的監測分析場景,選取該站臺發車前5分鐘至發車時的視頻作為監測分析的視頻源,通過CNN算法對其進行分析處理,驗證預警范圍是否為擬定的范圍閾值。利用KNN算法對監測過程中畫面內行人距離白線實時數據進行聚類分析,直觀得出行人越界情況。
2)實驗數據和監測結果:
對于旅客異常行為的檢測,選取對車站安全運營影響程度較高的站臺越界檢測作為研究對象,以北京西站12站臺某段時間的視頻監控圖像為驗證場景,截取4~5段視頻圖像作為檢測數據,得到站臺附近及站臺越界的目標檢測結果。
3)實驗結果分析:
從圖8和圖9可以看到,對于圖8左側圖片為列車停檢之前檢測到的站臺邊緣旅客停留情況,監測到的旅客以綠色框進行標注(即:按正常狀況進行處理),對于列車停檢之后發車之前的時段(如圖8右側圖片),探測到距離站臺白線內邊界5 cm范圍內的行人以紅色框線進行標注并通過平臺的后臺給出工作人員預警信息,必要時將識別出的旅客人臉與公安庫中的人臉圖像進行比對,以決定是否重點人員監控和下一步的視頻跨域追蹤。圖8左側圖片中標注為person1的人員雖然壓白線,但距離站臺白線內邊界在10~60 cm之間,不進行預警提示,僅作為徘徊跟蹤監測的目標對象進行處理,對于上圖中除此兩種情形之外的其余人員則分別按照對應距離進行標注顯示。圖9選取北京西站12站臺某趟列車開檢前進行目標行人越界檢測,左側圖像為檢測之前的原始視頻畫面,右側圖像為采用算法檢測之后的視頻畫面。

圖8 北京西站12站臺某時段行人站臺越界檢測結果

圖9 北京西站12站臺某時段行人站臺越界檢測前后對比
為了更好地將以上北京西站12站臺的行人越界情況進行直觀展示,選取該站臺5分鐘的視頻,按照1秒鐘播放25幀視頻的速度,5分鐘視頻總幀數為7 500幀,對應圖10 的橫軸,縱軸表示行人距離站臺邊界的距離,目標行人尺寸及行人距離站臺邊界的距離統一換算為像素值,監測圖像分辨率為72 dpi(即:72像素/英寸),監測圖像分辨率為1 080×1 920,

圖10 行人越界檢測數據分析結果
按照1 cm=28 dpi,則每幀監測圖像的畫面尺寸為38.6 cm高×68.6 cm寬,另外,目標行人距離站臺邊界的距離基本按照10:1的比例進行換算,則判斷行人距離站臺邊界的位置相當于判斷58.6-x-w-16的值是否屬于[10,10.5]、[10.5,11]、[11,16]、[16,25]這3個區間,若屬于[16,25]區間則代表目標行人無異常行為,不作任何操作;若屬于[11,16]區間則認為目標行人有白線越界行為,啟動入侵越界報警;若屬于[10.5,11]區間范圍則代表目標行人距離站臺邊界的距離在第一預設距離與第二預設距離之間,認為目標行人有越界行為,啟動入侵越界報警并進行行人跟蹤監測,若該狀態持續時間超過30秒,則啟動徘徊報警跟蹤;若屬于[10,10.5]區間范圍則代表目標行人距離站臺邊界的距離小于第二預設距離,禁止停留并進行報警和必要的重點人員比對和視頻跨域追蹤。
從圖10對某一幀視頻畫面中人員越界狀態的統計結果可以看出,視頻剛開始1分30秒的時間內(對應視頻幀數0~2 000幀),停留在[10,10.5]和[10.5,11]這兩個區間的人員較多,此時剛開檢,旅客大量聚集到站臺上,后經車站工作人員疏導,旅客聚集和越界現象明顯改善,視頻進行到4分鐘的時候,檢測到有部分旅客距離站臺白線內側位于[10,10.5]區間,此時列車已進入站臺,基本停穩,開始有極少數旅客陸續上車。
根據以上檢測結果得出,無論是虛擬監測區域的行人目標檢測還是站臺區域的行人越界監測,按照如上算法和CNN計算模型都基本上檢測出了目標對象,且根據圖10的檢測結果來看,基本按照實際情況能夠直觀的給出檢測區間視頻內的行人越界情況,易于后期以各種方式進行統計展現。
1)實驗步驟和方法:
關于人員密度檢測,選取北京西站發車客流較大的第七候車室的多個檢票口、第三候車室的門口區域以及北京西站候車大廳通道作為人群密度檢測的數據集,針對不同時段不同檢票口的視頻圖像進行檢測,得到對應的人群密度圖。根據人群密度不同以不同顏色進行標識,直觀展示站內重點區域人群分布。
2)實驗數據和監測結果:
檢測出的人群密度圖中按照人群聚集程度的不同自動以不同顏色標記人頭,以便清晰的區分。對于候車大廳通道,選取10秒的錄像進行檢測,得到實時動態的旅客人像標記圖,以藍色方框表示識別到的目標群體,方框上可顯示該目標被識別正確的概率,具體結果如圖11。

圖11 北京西站候車大廳目標識別具體效果
3)實驗結果分析:
從以上檢測結果可以看出,采用MCNN算法基本檢測出了目標區域內的人群密度和估計的人員數量,識別效果較好。候車大廳通道較長,根據圖11可以看出,通過CNN的算法基本能夠識別出聚集的目標人員,但對于距離攝像頭較遠區域(即:視頻最后段端)區域的目標人員,識別不是很全面,出現部分區域覆蓋不到的現象,需要靠優化識別算法來實現。對于候車檢票口等人員較為密集的區域,該算法能夠較為精準的識別并以不同顏色表示密集的程度(用藍色、綠色、黃色、橙色、紅色依次表示人員密集程度,紅色為人員密集度最大的區域,因印刷問題此處無法顯示顏色)。其中,人員密集區域(紅色紅區域)具體的識別概率會出現概率總和為4~5的狀況,但對于近距離范圍內側面、背面、帶遮擋的人像識別不是很清楚,有時會出現識別不全的情況,以上情形可以從圖12、圖13中反映出來,此類情況可以針對性的考慮疊加其他的相關算法進行后續改善。

圖12 北京西站第七候車室第一檢票口人群密度檢測結果

圖13 北京西站第三候車室門口人群密度檢測結果
以鐵路客運車站旅客異常行為監測為契機,對監測內容進行了較詳細的描述,提出了安全監控相應算法并進行了模擬驗證,以上關鍵技術和相應算法在客運車站重點區域進行了實際驗證并取得了較滿意的試驗效果,為車站優化了客運組織流程、減少了冗余的人員配置、提升客運工作效率。
由于行人目標檢測中需要根據目標物體占用圖片空間大小、目標物體形狀及長寬比等因素進行考慮,對應需要將某一幀的視頻畫面分割為多個區域,因此需要大量的計算力。考慮到盡量減少區域分割來減輕計算量,后續可以使用基于區域的CNN模型(即RCNN算法),采用選擇性搜索的方法從一張圖片中提取中多個邊界框(邊界框的定義依據目標物體的變化尺度、顏色、結構、所占面積進行劃分),隨之分成多個區域,合并生成最后最終的目標物體位置。而且如圖9、圖11所示視頻監測畫面中距離攝像頭較遠區域,由于采用算法模型精準度不夠,對于目標行人的辨識有所欠缺,可以通過后續改進現有算法或采用更為精準的模型進行辨識程度和準確性的改善,如Faster R-CNN算法采用RepLoss和RepLoss損失函數解決了同類物體間相互遮擋問題,并利用隨機森林對候選區域進行了人體多個部位的分類和檢測結果組合,大幅提升了檢測的準確度;HyperLearner算法通過增加分支網絡,與主體網絡特征一并送入RPN(區域生成網絡,Region Proposal Network)進行處理,從而解決了行人與背景的區分度困難問題,在擁擠的場景中可以準確的定義行人。