呂佳歡 陳子昂 冷佳昱 銀培宇 于杭

摘 要:確認呼喚作為機車乘務員行車過程的重要制度,通過物件指示、口誦確認、心手并用,將人的安全意識水平提升到清醒狀態,以減少人為失誤導致的意外,在我國鐵路安全方面起到了重要作用。本項目組設計的基于機器學習的機車乘務員確認呼喚判別系統,分為視頻取幀、目標檢測、機器識別、語音識別、判斷提醒五大模塊,達到對司機的確認呼喚行為進行監測,對錯誤行為進行及時提醒的效果,創新性地解決了目前人工察看機車乘務員駕駛行為的效率低、工作量大、時效性差等問題,有效提高鐵路安全技術的智能化、數字化與信息化水平。
關鍵詞:確認呼喚;機器學習;目標檢測
中圖分類號:TP181 文獻標識碼:A 文章編號:1671-2064(2020)06-0041-02
1研究背景
火車作為一種特殊的交通工具,它為人們出行帶來了巨大的方便。機車乘務員在駕駛過程中需進行指差確認來保持良好的注意力以確保駕駛的安全。目前和諧機車上安裝的車載安全防護系統(6A系統)能對駕駛員在駕駛過程中的確認呼喚作業進行視頻監控,但視頻數據的地面分析采用人工瀏覽察看方式,此方式不僅需要配備大量的視頻數據分析人員和設備,分析效率低、工作量巨大、容易遺漏,并且無法對駕駛員在機車運行過程中不當行為進行實時提醒。
目前國內外已有不少學者進行了相關研究:專利公告號為CN101639894B[1]的中國發明專利公開了在線監測列車駕駛員行為和疲勞狀態的方法及其檢測系統,其僅是通過檢測視野范圍內是否有人臉來判斷駕駛員是否脫崗,但無法對列車駕駛員所做出的動作或手勢進行進一步識別。論文《基于表情及姿態的機車司機疲勞駕駛檢測技術》(北京交通大學)[2]通過混合高斯模型提取運動目標,然后利用幀間差分法和膚色模型提取手部,利用形狀上下文和HOG+Adaboost的方式對手勢進行判斷,該技術僅檢測手部手勢,并不對整個上臂的動作進行識別,因此容易造成誤報,此外采用HOG+Adaboost的方式的魯棒性不高。
我們基于機器學習技術設計了機車乘務員確認呼喚判別系統,此系統能大幅降低回看錄像的人力、時間成本,實現不規范行為的實時提醒,保障機車運行安全,有效節省鐵路局運營成本。
2技術原理
2.1 技術路線
本系統的功能是通過GPS定位,當機車運行到某個路段時,事先向系統輸入標準的動作序列和標準用語,啟動車內攝像頭拍攝視頻,即可實時地監測乘務員是否按要求執行確認呼喚作業。若動作缺失或用語不正確,則實時向駕駛室發出語音提醒,減少機車乘務員的失誤,進而提升列車的運行安全性。最終將產品的全部功能集成在APP中。
本系統的核心部分為監測乘務員是否按要求執行確認呼喚作業,其工作流程如下:由列車駕駛室的攝像頭采集一段視頻,對視頻進行取幀處理獲取圖片,用ImageAI主體識別將圖片中的人裁剪生成主體圖像,之后并行實現另外兩個功能。其一是語音提取及語音識別,由判別器鑒別口令是否正確;其二是根據主體圖像,利用訓練好的CNN網絡將姿勢分成幾個大類,再將姿勢較像的幾種動作做手部截取及手勢識別,進一步細化分類,提高分類準確度。兩個功能完成后,最終由判別器輸出判別結果,輸出語音提醒,告知機車乘務員,如圖1所示。
2.2組成模塊
本系統主要組成結構為:數據集圖片預處理模塊、CNN卷積分類模型準備模塊、視頻處理取幀模塊、ImageAI主體識別模塊、CNN網絡分類模塊、手部截取及手勢識別模塊、動作分類輸出模塊、語音識別及判別模塊、產品界面模塊。
2.2.1數據集圖片收集與預處理模塊
(1)收集。在開始項目之前,我們對機車乘務員的確認呼喚機制做了充分的研究,弄清了每個動作和用語的含義,并從中挑選了一部分動作與用語用于系統實現。通過上網搜索、自行拍攝等方法,對直行通過、正向徑路停車、側向徑路運行等常規動作進行規范的數據采集,要求每個動作采集到的圖像數據達到500張。
(2)預處理。利用打標簽工具LabelImg為圖片添加label,將圖片和xml保存在不同文件夾。新建一個帶有2個子文件夾的文件夾,分別存放測試圖片與訓練圖片。這兩個文件夾下再分別建立N個子文件夾,按照xml中的標簽數據將目標剪裁后按類別保存在不同子文件夾,每個子文件夾代表一個分類,一共有N類。
在圖片輸入訓練模型之前將圖片尺寸統一為256×256,之后將圖片轉換為計算機可以識別的tensor數據類型并歸一化。測試集圖片和訓練集圖片處理方法相似。
2.2.2 CNN卷積神經網絡模型的建立、訓練與優化模塊
本系統的核心就是建立機器學習模型,訓練神經網絡使其具備對圖片分類的能力。由于涉及圖片處理及分類,所以我們選擇神經網絡模型中的卷積神經網絡(CNN)對圖片數據進行學習,并根據實際情況調整模型參數,優化算法性能。
神經網絡(neural networks)的基本組成包括輸入層、隱藏層、輸出層。而卷積神經網絡的特點在于隱藏層分為卷積層和池化層(pooling layer,又叫下采樣層)。
卷積層和池化層的工作就是提取特征,并減少原始圖像帶來的參數。然而,為了生成最終的輸出,我們需要應用全連接層來生成一個等于我們需要的類的數量的分類器。[3]
在整個卷積網絡中,有卷積(CONV)、激活(RELU)、池化(POOL)等步驟,每一層神經網絡都必須包含CONV、RELU和POOL三個部分。最后是一個全連接層(FC)輸出類別,這個和目標值的類別個數有關[4]。
在我們的模型中,我們使用的輸入圖片尺寸為256×256,3通道RGB圖像,采用16個輸出高度,卷積的觀察窗口大小為5×5,步長為1,批訓練的數據個數32,學習率0.001的設置下學習,最終得到的模型準確度達到98%。
2.2.3視頻處理取幀模塊
此模塊模擬列車攝像頭采集視頻數據,由于我們的模型基于圖像分類且需要進行語音識別,所以需要對視頻進行處理,分為幀序列和聲音部分。為了不產生較多圖片占用內存且不會錯過每一個動作,我們此處設置為每2幀取一張圖片,在接下來的模塊中再對幀序列進行主體識別。
2.2.4 ImageAI主體識別模塊
由于訓練模型時的輸入為圖片中只有人的部分,所以對駕駛員姿勢判別之前需要先實現主體識別,將圖片中只有人的部分提取出來。在該模塊,我們采用python中的ImageAI庫對視頻中圖片進行主體識別。
2.2.5 CNN網絡分類模塊
主體識別之后,需要對駕駛員的姿勢進行判別。此處我們利用之前訓練好的CNN網絡,輸入主體識別之后的圖片,對動作進行大體分類,即除手部姿勢外都一樣的姿勢當做一類。
2.2.6手部截取及手勢識別模塊
對上一模塊中獲得的大類進行進一步細化分類,對手部進行截取,運用手勢識別模塊再次識別,以實現更高性能更加精準的動作分類。
2.2.7動作分類輸出模塊
每一張圖片都會產生一個代表類別的數字,則一個視頻會產生一個序列。由于圖片來自于視頻取幀,所以駕駛員的同一個姿勢會產生多個圖像,從而一個姿勢在輸出序列中不只有一個數字。此處我們設置為只有三個以上連續的數字有效算為一個動作,對序列進行處理后輸出與視頻動作匹配的短序列。
2.2.8語音識別及判別模塊
利用ffmpeg獲取視頻中的聲音為MP3格式,之后格式轉換為pcm形式,再對聲音部分進行語音識別,與標準用語進行比較。圖1為語音識別之后產生的文件。
2.2.9產品界面模塊
我們整合了視頻取幀、ImageAI主體識別、CNN判別、手勢提取及識別、語音識別等各個模塊,最終實現了從MP4視頻中判別并輸出動作及口令的正誤情況。
為了實現友好的人機交互,提高系統的適用性,我們利用tkinter模塊實現可視化界面。
通過路徑選擇來選擇視頻檢測,進行主體識別時同時播放視頻,并將主體識別結果顯示在視頻上。視頻播放完畢之后進行語音識別和動作識別,并將結果顯示在界面上,其中藍色進度條顯示程序進度。
3創新特色
基于機器學習的機車乘務員確認呼喚判別技術具有效率高,實時性強等優點,所以利用它代替人工識別具有深遠的意義和研究前景。本課題的創新點如下:(1)新功能:系統在提升動作識別專業度的基礎上,增加了語音識別功能。(2)及時性:系統在列車員做手勢以及說口令時可以檢測并起到實時提醒作用。(3)高效性:系統可以提取列車的運行狀態及道路信息產生相應的行為序列,并與司機的行為比對。(4)準確性:細化識別:先識別姿勢,再識別手勢,大大提高識別系統的準確率。(5)復雜環境適應性:從形態學、色彩信息以及亮度信息等多個方面進行探索,找到適用于復雜環境的人體行為檢測方法。(6)低成本:系統所需成本低,能夠節省大量的人力成本,同時也為人工檢測存在的一些缺陷提供了可行的解決方案。
4結語
本文介紹了基于機器學習的機車乘務員確認呼喚判別系統的基本架構,目前已經實現了部分指差確認的手勢和口誦識別。該系統不僅可以運用到鐵路領域,在民航領域、建造業、制造業、機電工程業等需要進行指差確認的地方都很適用。例如,在民航領域,空姐在每次飛機起飛前要對乘客進行一整套的應急疏散教育,包括嚴格的動作和語言提示。我們的系統可對這一套動作進行判別,從而對空姐的行為進行監督。同時也可以應用于飛機乘務員的培訓。
后期還需要錄入整套手勢信號、擴大數據庫以提高判別系統在不同背景下的準確率。該確認呼喚判別系統運用到識別機車乘務員行為的時候還需與列車原有6A系統等安全控制系統相結合,以便判斷是否在正確時間點完成指差確認作業。同時,為應對更復雜的駕駛環境和更嚴苛的評判標準,可以在不同的角度增加攝像頭數量,以此保證對多個機車乘務員動作的識別準確率。
參考文獻
[1] 秦華標,程東旭,倪向東.在線檢測列車駕駛員行為和疲勞狀態的方法及其檢測系統,CN101639894[P].2010-02-03.
[2] 王瑩.基于表情及姿態的機車司機疲勞駕駛監測技術[D].北京:北京交通大學,2012.
[3] 袁冰清.深度學習[J].數字通信世界,2019(6):01.
[4] 張莉.神經網絡概述[J].中國高新技術企業,2008(21):109+114.