嚴(yán)磊,車靚,王寶會
1.北京地鐵科技發(fā)展有限公司,北京,100072;2.北京航空航天大學(xué)軟件學(xué)院,北京,100000
2022年初,國內(nèi)有50座城市建成了城市軌道交通,運營里程9192.62公里。其中地鐵占比78.9%,人們對地鐵的依賴程度與日俱增。隨著線路里程與客流大幅度增長,發(fā)車間隔縮短,運營時間延長,極大地增加了車站運營壓力,對車站服務(wù)工作的要求也越來越嚴(yán)格,車站的運營安全風(fēng)險問題也隨之更為突出、復(fù)雜,對地鐵運營安全風(fēng)險識別和管理也提出了更高的要求[1]。
地鐵車站不同崗位的工作人員人數(shù)眾多,職業(yè)素養(yǎng)、工作能力、工作負(fù)荷、工作疲勞程度各不相同,出現(xiàn)風(fēng)險隱患的時候,急需智能化、自動化工具及時、全面、精準(zhǔn)地提醒執(zhí)崗員工及其上級監(jiān)管人員。
目前,國內(nèi)地鐵公司針對重點崗位員工執(zhí)崗行為的監(jiān)控與管理,主要通過主管部門及管理者人工檢查視頻安全監(jiān)控系統(tǒng)這種傳統(tǒng)的方式進(jìn)行。傳統(tǒng)的安全執(zhí)崗行為監(jiān)控系統(tǒng),存在著如下問題:①看不及時,視頻錄像只為查證內(nèi)容而無預(yù)警功能;②看不過來,過多的監(jiān)控畫面無法得到實時的監(jiān)控;③看不全面,監(jiān)控值守人員面對繁多視頻畫面疏忽、大意;④特定場景(如車輛駕駛員連續(xù)動作的執(zhí)行)下的風(fēng)險預(yù)警幾乎無法實現(xiàn)。這些問題會導(dǎo)致重點崗位員工執(zhí)崗行為風(fēng)險隱患無法及時、全面地給以警示,導(dǎo)致運營安全風(fēng)險事故概率增高,同時也會增加主管部門及管理者的監(jiān)管壓力,間接導(dǎo)致風(fēng)險隱患的產(chǎn)生及管理成本的升高。
基于視覺AI技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等進(jìn)行執(zhí)崗行為監(jiān)控系統(tǒng)的設(shè)計及應(yīng)用研究,根據(jù)地鐵領(lǐng)域特定的重點崗位執(zhí)崗行為的應(yīng)用場景,定制構(gòu)建一系列的安全生產(chǎn)預(yù)警模型,實現(xiàn)安全監(jiān)控的無人值守,做到隱患和事故的提前預(yù)警,及早發(fā)現(xiàn)問題,避免重大事故的發(fā)生。對重點崗位員工執(zhí)崗行為識別,作業(yè)過程加強(qiáng)監(jiān)控,及時、全面地感知和預(yù)警人員違章違紀(jì)等行為,強(qiáng)化對員工執(zhí)崗過程和執(zhí)崗行為的監(jiān)督與管控[2],具有深遠(yuǎn)的意義。
AI深度學(xué)習(xí)技術(shù)的應(yīng)用是基于視覺AI的執(zhí)崗行為監(jiān)控系統(tǒng)實現(xiàn)隱患預(yù)警、安全行為診斷的關(guān)鍵。圖像、視頻流識別與分析等技術(shù)其實都采用AI深度學(xué)習(xí)技術(shù),通過大量的圖像、視頻的樣本數(shù)據(jù),提取了地鐵業(yè)務(wù)領(lǐng)域的圖像、視頻的典型特征,并構(gòu)建專業(yè)診斷模型,再通過對模型的長期訓(xùn)練學(xué)習(xí),來不斷提高算法的準(zhǔn)確率和識別準(zhǔn)確率[3-4]。
經(jīng)典的目標(biāo)檢測算法模型有faster-rcnn系列[5-6]、SSD[7]、YOLO系列[8-10]等。其中YOLO系列算法應(yīng)用最為廣泛。
YOLO v1版本采用了回歸的方式直接獲取目標(biāo)的分類信息和回歸信息,但近距離及小目標(biāo)檢測效果不盡人意且泛化能力偏弱。YOLO v2在v1版本的基礎(chǔ)上添加了批規(guī)泛化層,加速網(wǎng)絡(luò)的收斂,采用了新的提取網(wǎng)絡(luò)結(jié)構(gòu),新增轉(zhuǎn)移層連接高低分辨率的特征圖,提高小物體的檢測能力,同時設(shè)置預(yù)選框,降低位置預(yù)測的計算量,性能明顯提高。但由于未采用類似殘差的網(wǎng)絡(luò)結(jié)構(gòu),多目標(biāo)和小目標(biāo)檢測能力,依然有待提升[12-13]。
YOLO v3采用Darknet-53經(jīng)典的網(wǎng)絡(luò)結(jié)構(gòu),通過調(diào)節(jié)卷積步長控制輸出特征圖的尺寸,在保證檢測速度的前提下,同步提升檢測精度[12-13]。該模型采用多個尺度圖像融合的方式做預(yù)測,小目標(biāo)檢測及實時檢測方面表現(xiàn)良好,但在物體遮擋的時候,檢測效果不好[12-13]。
YOLO v4模型,則采用了CSP DarkNet-53結(jié)構(gòu)作為特征圖提取網(wǎng)絡(luò),引入Mish激活函數(shù)并通過Mosaic進(jìn)行數(shù)據(jù)增強(qiáng),同時進(jìn)行上下采樣對特征融合進(jìn)一步加強(qiáng)。檢測速度和檢測精度大幅提升。如圖1所示,在COCO數(shù)據(jù)集上,v4達(dá)到了43.5%AP和65FPS, v4模型的AP和FPS比v3模型分別提高了10%和12%[11-12]。
在本文項目中,使用了YOLO V4模型算法。
YOLO v4網(wǎng)絡(luò)結(jié)構(gòu)主要包括特征提取網(wǎng)絡(luò)(CSPDarknet53)、空間金字塔池化結(jié)構(gòu)(SPP)和路徑聚合結(jié)構(gòu)(PANet)。CSPDarknet53包含5個CSP模塊,解決深度CNN中網(wǎng)絡(luò)優(yōu)化的梯度信息重復(fù)問題,減少網(wǎng)絡(luò)計算量,在特征融合層利用了PANet融合兩個特征金字塔對應(yīng)的尺度特征,增強(qiáng)該網(wǎng)絡(luò)在三個特征尺度的特征提取能力和對不同尺度目標(biāo)的檢測能力。該網(wǎng)絡(luò)由輸入層、卷積層、池化層、輸出層構(gòu)成,檢測效果進(jìn)一步提升[12-13]。
首先,Backbone的選擇:YOLO v4卷積層使用group(1-8)比較小的卷積,并將ResNeXt50、Darknet53分別與CSP結(jié)合,組成了CSPResNeXt50和CSPDarknet53。實驗證明CSPResNeXt50更適合于分類網(wǎng)絡(luò),CSPDarknet53更適合于檢測網(wǎng)絡(luò),因此YOLO v4的backbone選擇CSPDarknet53,參見圖2 Darknet-53。
其次,neck主要考慮如何擴(kuò)大感受野以及如何更好地進(jìn)行特征融合。對應(yīng)檢測網(wǎng)絡(luò)而言,主要有三個要求:提高網(wǎng)絡(luò)輸入的分辨率和檢測小目標(biāo)的可能性;更多的網(wǎng)絡(luò)層,擴(kuò)大網(wǎng)絡(luò)的感受野用以支持大分辨率的輸入;更多的網(wǎng)絡(luò)參數(shù)用于檢測不同尺寸的目標(biāo)。選擇SPP module和PANet中的path-aggregation neck作為YOLO v4的neck。
最后,Head則沿用YOLO v3的Head。
人體關(guān)鍵點檢測是人體行為識別非常重要的一個步驟,在人體步態(tài)識別、人體行為檢測、人體跟蹤識別等領(lǐng)域都具有重要的作用[15]。但該項技術(shù)在應(yīng)用場景可能會受現(xiàn)場光照、識別角度、物體遮擋等因素的影響,需進(jìn)一步研究[16]。
人體關(guān)鍵點主要提取表示人體骨骼特征的部位,重點檢測人體的頭、頸、手、腿、臂、腳踝等多處關(guān)節(jié)點。多人骨骼關(guān)鍵點檢測粗略分為自頂而下和自底而上兩種檢測方式[18]。自底而上的檢測方法步驟:關(guān)鍵點檢測和關(guān)鍵點聚類,即先找到人的關(guān)鍵點,檢測完成,再利用聚類算法把關(guān)鍵點聚類,從而完成每個人的關(guān)鍵點檢測。Openpose是最為常用的算法[19]。Openpose姿態(tài)估計算法是利用人體關(guān)鍵點親和域(part affinity fields,PAFs)以及自底而上的多人骨架提取算法,此方法可以提取2D和3D兩種人體骨架[17]。整體執(zhí)行大致為圖像輸入、關(guān)鍵點檢測、關(guān)鍵點聚類和關(guān)鍵點聯(lián)結(jié)組裝骨架[14]。
基于視覺AI技術(shù)執(zhí)崗行為安全監(jiān)控系統(tǒng),其核心在于利用深度學(xué)習(xí)技術(shù),是一套完備的智能視頻監(jiān)控、分析、處理、預(yù)警體系,包括模型構(gòu)建及訓(xùn)練、視頻數(shù)據(jù)接入及視頻流解析、推理分析、結(jié)果生成、預(yù)警告警、分析統(tǒng)計、校驗審核。
系統(tǒng)分層設(shè)計,按基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層、業(yè)務(wù)邏輯層及應(yīng)用展示層進(jìn)行總體規(guī)劃、設(shè)計。上層調(diào)用下層服務(wù),下層為上層提供服務(wù),每層各司其職。
(1)基礎(chǔ)設(shè)施層。支持系統(tǒng)運行的網(wǎng)絡(luò)環(huán)境、軟件環(huán)境及硬件資源。主要包括網(wǎng)絡(luò)、主機(jī)、存儲、備份、軟件系統(tǒng)等。
(2)數(shù)據(jù)資源層。數(shù)據(jù)資源層是重點崗位員工執(zhí)崗行為分析數(shù)據(jù)統(tǒng)一集合和后臺處理中心的重要組成部分,實現(xiàn)了視頻數(shù)據(jù)從接入、標(biāo)注、建模、分析完整的處理過程,是整個視頻分析功能的數(shù)據(jù)基礎(chǔ),為業(yè)務(wù)邏輯層提供數(shù)據(jù)服務(wù)。
地鐵內(nèi)部現(xiàn)有的視頻監(jiān)控系統(tǒng)的數(shù)據(jù)通過視頻數(shù)據(jù)接入部分對接。執(zhí)崗行為模型及模型訓(xùn)練是該層的重要組成部分,基于YOLO V4、OpenPose模型,實現(xiàn)對目標(biāo)及動作的識別,使用Labelimg實現(xiàn)對所有圖片的精準(zhǔn)標(biāo)注,最終利用Darknet深度學(xué)習(xí)框架進(jìn)行YOLO V4模型的訓(xùn)練。
(3)業(yè)務(wù)邏輯層。部署業(yè)務(wù)邏輯組件分業(yè)務(wù)應(yīng)用功能組件和系統(tǒng)運行技術(shù)支撐等。功能組件主要包括視頻分析、視頻配置、告警統(tǒng)計、告警設(shè)置、樣本庫、角色管理、用戶管理、配置引擎和規(guī)則引擎等;技術(shù)組件部分,包括JAVA、SpringBoot框架、FFmpeg視頻推流、Websocket實現(xiàn)實時告警等及 YOLO V4等算法模塊。樣本庫為針對地鐵重點崗位生成員工執(zhí)崗行為違規(guī)樣本庫和員工執(zhí)崗行為標(biāo)準(zhǔn)樣本庫。
(4)應(yīng)用展現(xiàn)層為用戶使用系統(tǒng)功能的窗口,提供多樣化的界面展現(xiàn)形式和數(shù)據(jù)發(fā)布手段,通過調(diào)用業(yè)務(wù)邏輯層的相關(guān)組件,實現(xiàn)對重點崗位員工執(zhí)崗行為分析結(jié)果的展示。主要對地鐵重點執(zhí)崗場景員工執(zhí)崗違規(guī)行為視頻分析及告警,針對綜控室、司機(jī)室、電梯場景的實時視頻和歷史視頻,通過視頻分析,識別員工執(zhí)崗違規(guī)行為并進(jìn)行告警。支持多路視頻同時接入和分析、本地視頻上傳分析等功能。
利用視頻數(shù)據(jù),對重點崗位員工執(zhí)崗行為分析,通過算法模型構(gòu)建高準(zhǔn)確度等級的違規(guī)行為識別,將識別結(jié)果生成告警信息,通過學(xué)習(xí)、感知、認(rèn)知、行動、告警等流程,實時發(fā)現(xiàn)、實時處置。
根據(jù)地鐵領(lǐng)域特定的重點崗位執(zhí)崗行為的應(yīng)用場景,定制構(gòu)建一系列的安全執(zhí)崗行為模型、生產(chǎn)預(yù)警模型,及時、全面、精準(zhǔn)地發(fā)現(xiàn)執(zhí)崗行為中存在的不規(guī)范、具有安全隱患的行為。
重點崗位員工執(zhí)崗行為分析基于地鐵內(nèi)部視頻系統(tǒng),對視頻進(jìn)行標(biāo)注,進(jìn)而進(jìn)行模型的構(gòu)建及訓(xùn)練,對擬分析對象與模型進(jìn)行比對形成分析結(jié)果,并對分析結(jié)果進(jìn)行展示,支撐違規(guī)行為告警功能及其他相關(guān)功能。地鐵監(jiān)控場景下視頻數(shù)據(jù)的收集,這部分?jǐn)?shù)據(jù)需要長期的積累和收集,且需要人工對數(shù)據(jù)進(jìn)行標(biāo)注和打標(biāo)簽。系統(tǒng)上線階段屬于冷啟動階段,在初期構(gòu)建的模型基礎(chǔ)上進(jìn)行運行。而在運行后依然需不斷優(yōu)化、學(xué)習(xí)和訓(xùn)練。通過業(yè)界所公開的行為和動作識別的相關(guān)數(shù)據(jù)集,擇取和地鐵業(yè)務(wù)相關(guān)的作為識別的學(xué)習(xí)、訓(xùn)練樣本。兩者數(shù)據(jù)相輔相成,構(gòu)建地鐵重點崗位的執(zhí)崗行為庫。
系統(tǒng)運行分為訓(xùn)練環(huán)境和生產(chǎn)環(huán)境。在訓(xùn)練環(huán)境中,對原始樣本進(jìn)行數(shù)據(jù)處理、特征提取及映射,生成訓(xùn)練樣本;根據(jù)地鐵車站(及司機(jī)室)特定業(yè)務(wù)場景,選擇不同的算法模型,進(jìn)行標(biāo)簽創(chuàng)建、數(shù)據(jù)抽取、數(shù)據(jù)標(biāo)注、標(biāo)注質(zhì)檢、模型訓(xùn)練、模型評估。
在生產(chǎn)環(huán)境中,根據(jù)既定的業(yè)務(wù)邏輯規(guī)則,對采集到的視頻進(jìn)行實時的檢測、識別、分析,最終系統(tǒng)會給出及時、全面的警示信息。安全模型設(shè)計如表1所示。
本文將基于視覺AI的執(zhí)崗行為監(jiān)控系統(tǒng)實際運用到北京地鐵車站重點崗位的執(zhí)崗工作監(jiān)管環(huán)境中,在實際生產(chǎn)環(huán)境中驗證系統(tǒng)的功能及性能,重點場景介紹如下。

表1 重點崗位執(zhí)崗行為視覺AI安全模型
綜控室(即綜合控制室)是車站的中樞,分為多個監(jiān)控分區(qū)。如果綜控室工作人員離開崗位,或者撥打手機(jī)及把玩手機(jī)等處于非工作狀態(tài),系統(tǒng)則發(fā)出帶告警事件的圖片信息[3],立即推送給相關(guān)管理人員,并啟動聲光告警,提示執(zhí)崗人員有違規(guī)動作的出現(xiàn),對執(zhí)崗工作人員行為進(jìn)行有效的監(jiān)督和提醒。綜控員違規(guī)使用手機(jī)告警如圖5所示。
電扶梯屬于特種設(shè)備,必須定期對地鐵電扶梯特種設(shè)備進(jìn)行維護(hù)保養(yǎng)及隨時加強(qiáng)對地鐵電扶梯的日常檢修管理。在指定時間特定區(qū)域沒有穿制服的維修人員出現(xiàn)、未攜帶工具箱、在指定時間未完成一定的操作都定義為違規(guī)行為。
系統(tǒng)模型設(shè)定對輔助工作人員(藍(lán)色T恤)、維修人員(綠領(lǐng)深灰工作服)、圍擋進(jìn)行識別。通過識別到指定的員工類型,判定檢修人員規(guī)范工作。指定的維修時間內(nèi)若未發(fā)現(xiàn)有上述特征目標(biāo)出現(xiàn)在維修作業(yè)區(qū)域,則發(fā)出聲光報警并推送至管理人員,避免在計劃的作業(yè)時間工作人員沒有按時出現(xiàn)或作業(yè)中著裝不規(guī)范、未按規(guī)定設(shè)置圍擋等帶來的安全隱患,減小管理存在漏洞而導(dǎo)致的安全事故發(fā)生概率[3]。參見圖6所示。
在行車過程中,駕駛員起立觀望、操作、抬手平移、坐下、操作發(fā)車等操作動作及順序,是有嚴(yán)格要求的。如果駕駛員未完成規(guī)定動作其中一個或多個、順序顛倒、打電話、乘務(wù)室人員大于4人時等,都定義為違規(guī)行為。系統(tǒng)將進(jìn)行提醒,同時系統(tǒng)可對動作范圍及時間進(jìn)行調(diào)整,如人員接打電話時間過長,如超過5秒,則告警。
系統(tǒng)實現(xiàn)駕駛員整套動作序列按順序按規(guī)范的識別功能。如發(fā)現(xiàn)違規(guī)情況,即刻發(fā)出聲光報警,同步推送相關(guān)管理人員,避免由于其動作不規(guī)范而帶來的安全隱患,減小人員管理方面存在漏洞而導(dǎo)致的安全事故發(fā)生概率[3]。參加下圖7所示。
基于北京地鐵的實際數(shù)據(jù),對系統(tǒng)進(jìn)行評估。為了驗證基于視覺AI的執(zhí)崗行為監(jiān)控系統(tǒng)在實際業(yè)務(wù)場景中的可用性及優(yōu)勢和特性,本文選擇了違規(guī)使用手機(jī)、駕駛員序列動作識別、電扶梯檢修三個場景,主要驗證系統(tǒng)的AI檢測準(zhǔn)確率、事件響應(yīng)率等指標(biāo),并與常規(guī)傳統(tǒng)的視頻監(jiān)控系統(tǒng)下的安全監(jiān)控效果做對比。對比結(jié)果,參見表2所示。表中的“傳統(tǒng)監(jiān)控”場景是指利用北京地鐵CCTV系統(tǒng),人員現(xiàn)場值守監(jiān)控所得的實測值。

表2 應(yīng)用場景監(jiān)測驗證結(jié)果
由表2結(jié)果數(shù)據(jù)可知,本文設(shè)計的執(zhí)崗行為監(jiān)控系統(tǒng)在生產(chǎn)運營環(huán)境中的應(yīng)用,可以達(dá)到實時監(jiān)測的效果,全部都是在秒級就可識別到并且產(chǎn)生告警、預(yù)警,而傳統(tǒng)的利用視頻監(jiān)控系統(tǒng),只能依靠值守人員進(jìn)行事件的響應(yīng),且都是在分鐘級別,并且還存在誤報、漏報可能。綜上所述,相對于傳統(tǒng)人工監(jiān)控方式,本系統(tǒng)確實可以做到及時、全面、精準(zhǔn)的實時監(jiān)測及告警,改善了人工耗時、耗力、低效且存在漏報、誤報的可能,改變了監(jiān)管方式。
針對現(xiàn)代地鐵運營線路增多、客運量增大、運營時間變長等對地鐵運營和服務(wù)造成的壓力,該研究對基于視覺AI的執(zhí)崗行為監(jiān)控系統(tǒng)進(jìn)行了研究分析,并以北京地鐵某車站為示范,進(jìn)行設(shè)計研究的驗證。該研究進(jìn)行了以下技術(shù)設(shè)計:
(1)構(gòu)建一套基于視覺AI技術(shù)執(zhí)崗行為安全監(jiān)控系統(tǒng),通過該系統(tǒng),將智能視頻監(jiān)控、分析、處理、預(yù)警體系融為一體,實現(xiàn)模型構(gòu)建及訓(xùn)練、視頻數(shù)據(jù)接入及視頻流解析、推理分析、結(jié)果生成、預(yù)警告警等一體化設(shè)計。隨著科學(xué)技術(shù)的發(fā)展,基于視覺AI的執(zhí)崗行為監(jiān)控管理成為各地鐵監(jiān)控管理發(fā)展的趨勢。
(2)構(gòu)建執(zhí)崗行為模型并選擇適合的算法模型。根據(jù)地鐵領(lǐng)域特定的重點崗位執(zhí)崗行為的應(yīng)用場景,基于YOLO V4、OpenPose模型,定制構(gòu)建一系列的安全執(zhí)崗行為模型、生產(chǎn)預(yù)警模型,并根據(jù)深度學(xué)習(xí)框架進(jìn)行模型訓(xùn)練。
本文研究設(shè)計的系統(tǒng)在地鐵生產(chǎn)運營環(huán)境中的應(yīng)用,改善了傳統(tǒng)監(jiān)控系統(tǒng)的低效、漏報、誤報的情況,改變了監(jiān)管方式;可以實現(xiàn)地鐵運營全面監(jiān)管及安全隱患的實時提醒,做到及時、全面、精準(zhǔn)的告警,降低了企業(yè)管理成本、提高了地鐵運營安全管控水平。