申天嘯,韓怡園,韓冰,高新波
(1.西安電子科技大學(xué) 電子工程學(xué)院, 陜西 西安 710071; 2.重慶郵電大學(xué) 重慶市圖像認(rèn)知重點(diǎn)實(shí)驗(yàn)室, 重慶400065)
隨著全球工業(yè)和經(jīng)濟(jì)的快速發(fā)展,各國(guó)汽車保有量和機(jī)動(dòng)車駕駛?cè)藛T逐年上升,其中我國(guó)駕駛員已超4億人,約占全國(guó)總?cè)丝诘娜种籟1]。與此同時(shí),車禍發(fā)生數(shù)目也逐年上升,根據(jù)統(tǒng)計(jì)顯示我國(guó)2019年交通事故發(fā)生數(shù)超20萬(wàn)次,死亡和受傷人數(shù)則高達(dá)30多萬(wàn)人,車禍帶來(lái)了巨大的生命財(cái)產(chǎn)損失。
交通事故發(fā)生是由多種因素引起的,而駕駛員接收的大部分外界信息經(jīng)由視覺(jué)獲得,所以很多交通事故都由駕駛員的危險(xiǎn)行為造成。目前,針對(duì)駕駛員行為的研究多集中于異常檢測(cè),如分心行為檢測(cè)[2-3]、疲勞駕駛[4]等。這些方法多采用人臉關(guān)鍵點(diǎn)檢測(cè),通過(guò)眼睛、鼻子、嘴巴等區(qū)域位置的變化來(lái)識(shí)別駕駛員的狀態(tài),或者直接利用支持向量機(jī)或一些簡(jiǎn)單的人工智能方法如神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)這些行為進(jìn)行檢測(cè)和分類。然而它們都僅從客觀上對(duì)駕駛員行為進(jìn)行檢測(cè)識(shí)別,而沒(méi)有從主觀上分析駕駛員的心理和視覺(jué)認(rèn)知模式。
眼動(dòng)儀作為一種能有效采集佩戴者的主觀視覺(jué)信息的工具,能真實(shí)地記錄佩戴者正在注意的區(qū)域以及正在交互的對(duì)象。它在多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域取得了較大的應(yīng)用,其中也有應(yīng)用于駕駛行為分析,如將駕駛員視野區(qū)域分為多個(gè)部分,根據(jù)眼動(dòng)儀記錄注視點(diǎn)在不同區(qū)域間的變化[5],通過(guò)數(shù)學(xué)分析、馬爾科夫鏈等傳統(tǒng)方法,得到駕駛員變道行為時(shí)的注視轉(zhuǎn)移特性[6]。但上述方法使用的眼動(dòng)數(shù)據(jù)較少且多采集于封閉路段或汽車模擬軟件。
針對(duì)目前駕駛員眼動(dòng)數(shù)據(jù)分析方法對(duì)真實(shí)道路場(chǎng)景下識(shí)別能力弱的問(wèn)題,我們收集了10名駕駛員約11 h的眼動(dòng)駕駛視頻數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)篩選與標(biāo)注,最終構(gòu)建了一個(gè)有350段視頻片段,超9萬(wàn)視頻幀,包含多場(chǎng)景下真實(shí)路況的駕駛員眼動(dòng)視頻數(shù)據(jù)庫(kù)VIPDAR_5。此外本文參考了人類大腦皮層視覺(jué)系統(tǒng)中定位和識(shí)別結(jié)構(gòu)[7],提出了一種基于三維卷積的雙通路動(dòng)作識(shí)別網(wǎng)絡(luò)TWNet。網(wǎng)絡(luò)的What通路提取圖像信息,Where通路經(jīng)過(guò)自適應(yīng)池化層,降低圖像分辨率,使其更加關(guān)注于捕獲視頻序列中的運(yùn)動(dòng)信息。最后通過(guò)權(quán)重超參數(shù)設(shè)置來(lái)融合兩個(gè)通道信息并得到最終結(jié)果。
本文的主要貢獻(xiàn)如下:
1) 構(gòu)建了新的駕駛員眼動(dòng)行為數(shù)據(jù)庫(kù)VIPDAR_5,包含不同路況、氣候、時(shí)間等情況下約11 h的原始視頻序列,共350個(gè)視頻片段。
2) 針對(duì)駕駛員眼動(dòng)行為識(shí)別任務(wù),模擬人類大腦皮層視覺(jué)雙通路機(jī)制,提出了基于三維卷積的雙通路網(wǎng)絡(luò)TWNet。在網(wǎng)絡(luò)通道中加入自適應(yīng)最大池化層降低輸入圖像分辨率,減少網(wǎng)絡(luò)參數(shù),提高對(duì)運(yùn)動(dòng)信息的捕獲能力。在網(wǎng)絡(luò)輸出部分設(shè)置超參數(shù),控制兩個(gè)通道的輸出權(quán)重。
3) TWNet在VIPDAR_5數(shù)據(jù)庫(kù)上取得良好表現(xiàn),性能超過(guò)了現(xiàn)有行為識(shí)別方法。
目前常用行為識(shí)別數(shù)據(jù)庫(kù)有KTH[8]、UCF101[9]、Kinetics[10]等。KTH是最早的動(dòng)作識(shí)別數(shù)據(jù)庫(kù)之一,包含4個(gè)場(chǎng)景下的6類人體行為,如:走路、跑步、拳擊等,這些視頻片段中存在尺度和光照變化,但背景較為單一且拍攝位置固定。UCF101是目前最廣泛使用的動(dòng)作識(shí)別數(shù)據(jù)集,通常用于評(píng)估模型性能。其中視頻主要采集于互聯(lián)網(wǎng),由人類行為、人人交互、人機(jī)交互、樂(lè)器演奏和體育運(yùn)動(dòng)這五類構(gòu)成,包含101個(gè)子種類共計(jì)13 320個(gè)視頻序列。這些序列持續(xù)時(shí)間都在10 s左右且每個(gè)片段中包含一個(gè)完整的動(dòng)作。由于來(lái)源自網(wǎng)絡(luò),這些片段的背景較為雜亂且是任務(wù)驅(qū)動(dòng)的,不具有普適性。Kinetics包含人物互動(dòng)、人人交互、僅人體行為三大類。因?yàn)樗罅康臉?biāo)注信息,所以廣泛用于預(yù)訓(xùn)練。
雖然基于自然場(chǎng)景下的行為識(shí)別數(shù)據(jù)庫(kù)已較為完善,但它們僅記錄動(dòng)作的客觀表示而無(wú)法分析行為發(fā)生時(shí)的主觀信息。近年來(lái)越來(lái)越多的以人為中心的主觀數(shù)據(jù)庫(kù)被提出,如Charades-ego[11]和Epic-Kitchens[12],通過(guò)錄制第一視角視頻,記錄被試與物體間的交互,但由于僅使用頭戴式攝像頭,無(wú)法記錄受試者的實(shí)時(shí)注視位置。
眼動(dòng)儀是記錄人類視覺(jué)認(rèn)知變化最有效的工具。它可以獲取設(shè)備佩戴者的瞳孔狀態(tài)、注視點(diǎn)位置、注視時(shí)間等相關(guān)信息,已應(yīng)用于顯著性檢測(cè)、行為識(shí)別等計(jì)算機(jī)視覺(jué)任務(wù),表1比較了6個(gè)眼動(dòng)數(shù)據(jù)庫(kù)。LEDOV[13]針對(duì)視頻顯著性預(yù)測(cè)任務(wù),采集了來(lái)自不同網(wǎng)站的158類視頻共538段,并提供了32個(gè)被試觀看時(shí)的關(guān)注點(diǎn)。EGTEA Gaze+[14]與GTEA Gaze+[15]主要用于行為識(shí)別,它們記錄了被試在室內(nèi)烹飪時(shí)的動(dòng)作。EGTEA Gaze+更是在GTEA Gaze+基礎(chǔ)上擴(kuò)大了數(shù)據(jù)量,并提供多模態(tài)信息如音頻、被試手部掩膜等。Hollywood[16]由Hollywood-2[17]和UCF sports[18]這兩個(gè)動(dòng)作識(shí)別數(shù)據(jù)庫(kù)組成。其中Hollywood-2挑選自69部電影中的12類行為,如開(kāi)車、吃飯和握手等,UCF sports取自體育資料片,分為9個(gè)動(dòng)作共150個(gè)視頻。Hollywood捕捉了19名被試觀看這些視頻時(shí)的關(guān)注區(qū)域,用于視頻的顯著性預(yù)測(cè)。MIT[19]是最早建立的眼動(dòng)追蹤數(shù)據(jù)庫(kù)之一,針對(duì)大多數(shù)方法不符合實(shí)際眼球運(yùn)動(dòng)情況的問(wèn)題,Judd采集了15位被試在1 003幅圖像上的眼球軌跡數(shù)據(jù)。POET[20]是一個(gè)開(kāi)源的物體檢測(cè)數(shù)據(jù)庫(kù),由Pascal VOC 2012[21]中10類圖像組成,并記錄了5位被試觀察這些圖像時(shí)的眼動(dòng)信息。

表1 眼動(dòng)數(shù)據(jù)集對(duì)比Table 1 Comparison of eye movement datasets
視頻序列相較于靜態(tài)圖像,不僅包含空間語(yǔ)義信息,還包含時(shí)間運(yùn)動(dòng)信息。目前,基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法主要分為二維卷積和三維卷積[22]兩類。
Simonyan等[23]針對(duì)卷積神經(jīng)網(wǎng)絡(luò)時(shí)間信息建模能力弱的問(wèn)題,設(shè)計(jì)了雙流法。它由空間與時(shí)間流組成,分別輸入單幀RGB圖像和幀間光流圖來(lái)提取圖像特征與運(yùn)動(dòng)特征,但通道間沒(méi)有信息交換,無(wú)法學(xué)習(xí)特征間的對(duì)應(yīng)關(guān)系。Ng等[24]提出將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[25]用于聚合視頻序列的特征,獲得視頻的時(shí)序信息。Wang等[26]為解決長(zhǎng)時(shí)間行為識(shí)別以及數(shù)據(jù)量較少產(chǎn)生的過(guò)擬合問(wèn)題,在雙流法基礎(chǔ)上提出了temporal segment networks (TSN)網(wǎng)絡(luò)。通過(guò)稀疏采樣,將長(zhǎng)時(shí)序列分割為若干片段,再?gòu)母髌沃须S機(jī)采樣一幀,使得輸入包含序列的各時(shí)間段,具有了提取全局特征的能力。Lin等[27]提出了temporal shift module (TSM)來(lái)處理時(shí)序信息,通過(guò)移位時(shí)域通道,完成了幀間信息交換。
Tran等[28]在三維卷積基礎(chǔ)上提出了C3D,它同時(shí)捕獲時(shí)空間信息,獲得的特征更加緊湊。Tran等[29]因殘差網(wǎng)絡(luò)在圖像分類等任務(wù)上表現(xiàn)出色,將其應(yīng)用于動(dòng)作識(shí)別并提出Res3D[30]。又通過(guò)將三維卷積解耦成二維空間和一維時(shí)間卷積,提出了R(2+1)D[31]。雖然參數(shù)量不變,但由于卷積塊中存在額外的ReLU函數(shù),所以它具有更小的誤差,便于優(yōu)化。Feichtenhofer針對(duì)行為識(shí)別中空間信息變化慢而動(dòng)作信息變化快,根據(jù)人眼不同細(xì)胞對(duì)時(shí)空信息的敏感度差異,設(shè)計(jì)由兩路卷積神經(jīng)網(wǎng)絡(luò)組成的SlowFast[32]網(wǎng)絡(luò),該網(wǎng)絡(luò)用低幀率和高幀率通道來(lái)分別捕捉空間信息和動(dòng)作信息。然而,三維卷積引入大量的參數(shù),造成較高的計(jì)算量和內(nèi)存消耗。
針對(duì)駕駛員眼動(dòng)數(shù)據(jù),文獻(xiàn)[33]按里程數(shù)將12名被試分為熟練與非熟練兩類,并通過(guò)數(shù)學(xué)方法分析不同區(qū)域的注視次數(shù)以及心率的變化,得到了駕駛經(jīng)驗(yàn)和通行方式對(duì)視覺(jué)特性的影響。文獻(xiàn)[34]用眼動(dòng)儀測(cè)錄了7名受試者的視角分布、注視時(shí)間等眼動(dòng)信息,分析在不同車速下路側(cè)標(biāo)志信息對(duì)駕駛員視覺(jué)搜索模式的影響。但這些駕駛員眼動(dòng)數(shù)據(jù)多采集于封閉道路或模擬機(jī)器,難以應(yīng)對(duì)真實(shí)復(fù)雜的道路場(chǎng)景。
本節(jié)介紹眼動(dòng)駕駛行為數(shù)據(jù)庫(kù)VIPDAR_5的構(gòu)建過(guò)程,包括數(shù)據(jù)收集、數(shù)據(jù)篩選及標(biāo)注等。
我們使用便攜式眼動(dòng)儀Tobii Glasses pro 2記錄被試的眼動(dòng)數(shù)據(jù),該眼動(dòng)設(shè)備質(zhì)量?jī)H45 g,能確保駕駛員的自由感和舒適性,且不會(huì)影響正常的駕駛操作。目前已記錄10位不同性別、車輛和駕駛經(jīng)驗(yàn)的駕駛員的眼動(dòng)視頻。
數(shù)據(jù)采集的具體流程:(1)在數(shù)據(jù)采集前對(duì)被試佩戴的眼動(dòng)儀進(jìn)行校正,以確保設(shè)備能夠準(zhǔn)確地跟蹤被試的眼睛和瞳孔,設(shè)置眼動(dòng)視頻的幀率為30 f/s,分辨率為1920像素×1080像素;(2)告知參與者按照平時(shí)的駕駛習(xí)慣在道路上自由駕駛,從而得到他們駕駛過(guò)程中的真實(shí)意圖而不是完成特定任務(wù)的行為;(3)被試開(kāi)始駕駛5 min后開(kāi)始錄制,并在錄制過(guò)程中記錄駕駛員動(dòng)作起止的時(shí)間戳,以便提取數(shù)據(jù)時(shí)更方便地將這些長(zhǎng)序列中剪切成短片段,且這些動(dòng)作在錄制中也不會(huì)告知駕駛員,以防打擾到被試,與其平時(shí)的駕駛習(xí)慣產(chǎn)生差異;(4)在行駛約20 min后,被試者會(huì)停下來(lái)休息一段時(shí)間,這是由于較長(zhǎng)時(shí)間記錄可能會(huì)導(dǎo)致眼動(dòng)儀對(duì)瞳孔的跟蹤產(chǎn)生誤差,也避免因被試者的疲勞造成駕駛行為變化。因此,每次短暫休息后需要對(duì)眼動(dòng)儀重新校正。每個(gè)被試者每次將記錄2~3個(gè)序列,單次總記錄時(shí)間控制在1 h左右。
數(shù)據(jù)庫(kù)中記錄的眼動(dòng)視頻圖像如圖1所示,其中紅色圓圈表示駕駛員當(dāng)前的注視區(qū)域。圖1(a)中給出了一個(gè)左轉(zhuǎn)駕駛行為片段中的第1幀、第51幀與第101幀的示例圖,可以看出該片段光照變化強(qiáng)烈且存在視線受限或遮擋等情況。圖1(b)中分別是VIPDAR_5數(shù)據(jù)庫(kù)中不同時(shí)間與天氣下錄制的駕駛行為視頻幀,時(shí)間不同因此光照條件區(qū)別很大,且雨天前擋風(fēng)玻璃上雨水也會(huì)增加駕駛員注視的難度。因此該數(shù)據(jù)庫(kù)較現(xiàn)有動(dòng)作識(shí)別數(shù)據(jù)庫(kù)更具挑戰(zhàn)性。

圖1 左轉(zhuǎn)視頻片段中的示例圖以及不同環(huán)境的視頻幀F(xiàn)ig.1 Example of left turn and frames in different conditions
在獲得所有被試眼動(dòng)駕駛視頻后,將對(duì)這些數(shù)據(jù)進(jìn)行篩選與標(biāo)注。首先去除采樣正確率在80%以下的數(shù)據(jù)以及一些明顯受其他事物影響的駕駛行為片段,接著將眼動(dòng)數(shù)據(jù)與車輛駕駛視頻數(shù)據(jù)進(jìn)行時(shí)間上進(jìn)行對(duì)齊,最后在不改變幀速率和分辨率的情況下,根據(jù)記錄的時(shí)間戳對(duì)這些長(zhǎng)視頻序列進(jìn)行分割并按照動(dòng)作類型進(jìn)行分類整理和排序,每個(gè)視頻片段的長(zhǎng)度在10 s左右。
考慮到數(shù)據(jù)多樣性,VIPDAR_5中包含了不同場(chǎng)景下不同路況、環(huán)境、天氣和時(shí)間,數(shù)據(jù)庫(kù)具體內(nèi)容如表2所示。

表2 VIPDAR_5中視頻片段多樣性Table 2 Diversity of video clips in VIPDAR_5
根據(jù)動(dòng)作類型將駕駛員行為分為5個(gè)主要類別。與其他行為識(shí)別數(shù)據(jù)庫(kù)不同,本數(shù)據(jù)庫(kù)根據(jù)駕駛員眼動(dòng)關(guān)注點(diǎn)與眼動(dòng)軌跡對(duì)視頻片段進(jìn)行分類:左轉(zhuǎn)、右轉(zhuǎn)、左變道、右變道、直行,選擇這幾類駕駛行為是因?yàn)樗鼈冊(cè)谌粘q{駛較為常見(jiàn),方便采集。
圖2是VIPDAR_5與UCF101視頻圖像對(duì)比,圖2(a)是本數(shù)據(jù)庫(kù)中直行片段的某幀示例圖,圖2(b)和(c)分別是UCF101中JumpRope和HorseRiding類中某片段的一幀。從圖中可以發(fā)現(xiàn)我們的數(shù)據(jù)庫(kù)圖像分辨率更高且包含駕駛員注視點(diǎn)信息。

圖2 VIPDAR_5與UCF101視頻圖像對(duì)比Fig.2 Video image comparison between VIPDAR_5 and UCF101
圖3給出了VIPDAR_5數(shù)據(jù)庫(kù)中每個(gè)類的視頻片段數(shù)量,兩種不同的顏色分別表示數(shù)據(jù)庫(kù)中白天和夜晚的視頻片段。表3中給出了不同駕駛行為的幀數(shù)、總時(shí)長(zhǎng)、平均時(shí)長(zhǎng)以及片段分布情況,從中可以看到,這五類中左轉(zhuǎn)和右轉(zhuǎn)的時(shí)間比其他類稍長(zhǎng),且10~15秒片段的數(shù)量比例較大,這是因?yàn)轳{駛員在左轉(zhuǎn)或右轉(zhuǎn)時(shí)會(huì)考慮更多的交通路況信息。

表3 VIPDAR_5數(shù)據(jù)庫(kù)各類數(shù)據(jù)統(tǒng)計(jì)Table 3 Summary of per action class on VIPDAR_5

圖3 白天與夜晚的視頻片段在各類中的分布Fig.3 Number of daytime and night video clips per action class
這些視頻片段中有的是同一條路上的不同時(shí)間,有的是同一時(shí)間下的不同道路,以及不同天氣情況下記錄的。由于雨水對(duì)駕駛者視線的影響,在雨天錄制的駕駛員眼動(dòng)視頻數(shù)據(jù)更具挑戰(zhàn)性。
在日常生活中,若是要準(zhǔn)確地描述一個(gè)物體,可能需要一個(gè)清晰的圖像。然而,如果只是為了識(shí)別它的動(dòng)作,只需要給出幾副連續(xù)的低分辨率圖像甚至是剪影,通過(guò)分析物輪廓和運(yùn)動(dòng)信息,就可以得出它的行為類別。
根據(jù)神經(jīng)學(xué)與生理學(xué)研究,根據(jù)神經(jīng)元種類和連接方式,人腦視覺(jué)皮層包括紋狀皮層和紋外皮層兩類,紋狀皮層通常也稱為初級(jí)視皮層即視覺(jué)第一區(qū)域V1,紋外皮層包含視覺(jué)第二三四五區(qū)域即V2、V3、V4、V5。初級(jí)視皮層接受到來(lái)自視網(wǎng)膜經(jīng)外側(cè)膝狀體的信息,再通過(guò)兩個(gè)通道輸出,這兩個(gè)通道分別稱為背側(cè)流Dorsal stream和腹側(cè)流Ventral stream。背側(cè)流常被稱為空間通路,通常認(rèn)為由V1、V2和V5等組成,參與處理物體的空間位置信息,確定物體的空間位置。而腹側(cè)流常被稱為內(nèi)容通路,通常認(rèn)為由V2和V4等組成,參與物體識(shí)別,確定物體的形狀、顏色等,該通路也與長(zhǎng)期記憶有關(guān)。
根據(jù)人類大腦對(duì)事物認(rèn)知的視覺(jué)皮層結(jié)構(gòu),本文設(shè)計(jì)了TWNet(What-Where Network),它具有雙通路結(jié)構(gòu),分別為What通路和Where通路,用于捕獲駕駛員眼動(dòng)視頻數(shù)據(jù)的圖像語(yǔ)義信息和空間運(yùn)動(dòng)信息。如圖4所示,其中藍(lán)色部分為Where通路,黃色部分為What通路,參考Res3D_18模型的設(shè)置,具體的網(wǎng)絡(luò)結(jié)構(gòu)如表4所示。

圖4 TWNet網(wǎng)絡(luò)結(jié)構(gòu)示意Fig.4 Example of the proposed architecture TWNet

表4 TWNet的網(wǎng)絡(luò)結(jié)構(gòu)Table 4 The TWNet architecture
由上述分析可知,圖像的清晰度并不會(huì)對(duì)物體動(dòng)作的識(shí)別造成很大的影響。如圖4所示,TWNet中Where通道內(nèi)第一個(gè)自適應(yīng)最大池化層模塊對(duì)輸入的圖像進(jìn)行處理,降低圖像分辨率,在不影響輸入幀數(shù)的情況下,使得整體網(wǎng)絡(luò)的參數(shù)量下降,降低網(wǎng)絡(luò)復(fù)雜性,同時(shí)因?yàn)閳D像分辨率下降,該通道能更加關(guān)注于幀與幀之間的運(yùn)動(dòng)信息,從而更好地捕獲眼動(dòng)視頻中的時(shí)序信息。
本方法主要利用自建的眼動(dòng)數(shù)據(jù)庫(kù)VIPDAR_5中的眼動(dòng)信息,如視點(diǎn)軌跡,注視位置等來(lái)對(duì)這些駕駛行為進(jìn)行分類。而背景信息主要用于判斷眼動(dòng)信息相似的類別,如左轉(zhuǎn)和左變道,右轉(zhuǎn)和右變道。我們?cè)趦蓚€(gè)通道的輸出各設(shè)置了一個(gè)超參數(shù)α和β,通過(guò)調(diào)整這兩個(gè)超參數(shù)的值來(lái)控制最終輸出結(jié)果中圖像信息與運(yùn)動(dòng)信息的權(quán)重,從而更好的讓網(wǎng)絡(luò)分類駕駛員眼動(dòng)視頻數(shù)據(jù)。

式中: O utput_What是What通路的預(yù)測(cè)輸出;Output_Where指眼動(dòng)視頻數(shù)據(jù)經(jīng)Where通路得到的結(jié)果; O utput_mix是在α和β超參數(shù)控制下得到的最終輸出,兩參數(shù)α與β之和為1。由于在Where通路中加入了最大池化層降低輸入分辨率,所以單獨(dú)通路識(shí)別準(zhǔn)確率并不高,需要通過(guò)設(shè)置權(quán)重,使得兩通道獲得的圖像和運(yùn)動(dòng)信息融合起來(lái)而不影響最終輸出準(zhǔn)確率。針對(duì)雙通路的消融實(shí)驗(yàn)以及超參數(shù)的具體設(shè)置將在下一章實(shí)驗(yàn)與結(jié)果中詳細(xì)描述。
在本節(jié)中,首先簡(jiǎn)要地介紹了5種基于卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法。接著給出了本文實(shí)驗(yàn)環(huán)境以及對(duì)這五種方法的調(diào)整,最后通過(guò)消融實(shí)驗(yàn)證明了TWNet網(wǎng)絡(luò)雙通道的優(yōu)越性,對(duì)超參數(shù)進(jìn)行設(shè)置說(shuō)明Where通路捕獲視頻動(dòng)作信息的有效性。并將這五種相關(guān)方法在眼動(dòng)駕駛行為視頻數(shù)據(jù)庫(kù)VIPDAR_5上進(jìn)行訓(xùn)練和測(cè)試,比較它們的Top-1和Top-3性能,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。
本文將對(duì)比近年來(lái)行為識(shí)別領(lǐng)域中的五種常見(jiàn)模型包括: C3D[28],Conv+LSTM[24],Res3D[30],R(2+1)D[31],SlowFast[32]。下面將簡(jiǎn)要介紹方法設(shè)置:C3D包含8個(gè)卷積層、5個(gè)池化層、2個(gè)全連接層和一個(gè)Softmax層;Conv+LSTM中使用了ResNet50作為底層網(wǎng)絡(luò),同時(shí)在全連接層輸出后添加了一個(gè)有300個(gè)隱藏層節(jié)點(diǎn)的LSTM用來(lái)存儲(chǔ)視頻時(shí)序信息,并添加2個(gè)全連接層用來(lái)進(jìn)行視頻分類。對(duì)于Res3D和R(2+1)D方法,考慮到數(shù)據(jù)量大小,選擇使用網(wǎng)絡(luò)深度較淺的Res3D_18和R(2+1)D_18。SlowFast使用ResNet101作為底層網(wǎng)絡(luò)。同時(shí)在對(duì)比實(shí)驗(yàn)中不改變這些方法中的其他模塊結(jié)構(gòu)。
VIPDAR_5中將訓(xùn)練集和驗(yàn)證集的視頻片段數(shù)目劃分比例設(shè)置為2:1,同時(shí)保證它們包含不同時(shí)間和天氣的的視頻片段且數(shù)目比例基本相同。
上述對(duì)比方法直接在VIPDAR_5的訓(xùn)練集上訓(xùn)練,并在數(shù)據(jù)讀取階段保持輸入圖像尺寸為64×64,訓(xùn)練采用Adam優(yōu)化算法,批處理(batchsize)大小設(shè)置為4,學(xué)習(xí)率設(shè)置為0.000 1,且設(shè)置階梯學(xué)習(xí)率,每迭代20次,學(xué)習(xí)率下降10倍。若驗(yàn)證集的損失若在迭代10次之后仍不下降,那么訓(xùn)練結(jié)束。所有的實(shí)驗(yàn)都是基于開(kāi)源框架Pytorch,操作系統(tǒng)為Windows 7,處理器型號(hào)為Intel i5-9400F CPU,顯卡型號(hào)為NVIDIA RTX2070 GPU。
對(duì)本文所提出的TWNet方法的兩通道性能進(jìn)行了驗(yàn)證,通過(guò)將超參數(shù)α和β分別設(shè)置為0和1以及1和0,得到了TWNet單獨(dú)使用某一通道時(shí)的性能表現(xiàn)。
消融實(shí)驗(yàn)結(jié)果如表5所示,前兩行數(shù)據(jù)展示了僅單獨(dú)使用某通路結(jié)構(gòu)時(shí)的分類準(zhǔn)確率,可以看到單獨(dú)使用What和Where通道時(shí)的Top-1和Top-3準(zhǔn)確率都低于同時(shí)使用雙通道時(shí)的結(jié)果。

表5 TWNet消融實(shí)驗(yàn)結(jié)果Table 5 Results of the ablation experiment %
表6給出了VIPDAR_5中各行為類準(zhǔn)確率在不同超參數(shù)設(shè)置下的結(jié)果對(duì)比。當(dāng)α=0.7,β=0.3時(shí),What-Where的Top-1和Top-3準(zhǔn)確率達(dá)到了66.9%和93.3%,相較于單獨(dú)使用某一通路分別提高了3.5%和3.3%。通過(guò)調(diào)整兩通道的權(quán)重,最終準(zhǔn)確率得到了提高并超過(guò)了單獨(dú)使用What的結(jié)果,這是因?yàn)閃here通路彌補(bǔ)了What通路對(duì)時(shí)序運(yùn)動(dòng)信息不敏感的弱點(diǎn)。經(jīng)過(guò)兩通路輸出的結(jié)合,識(shí)別這些動(dòng)作持續(xù)時(shí)間短、幅度大類別的能力增強(qiáng),所以準(zhǔn)確率提升了。

表6 VIPDAR_5中各行為類準(zhǔn)確率在不同超參數(shù)情況下的結(jié)果對(duì)比Table 6 Accuracy comparison of each action class under different hyperparameters on VIPDAR_5
表7中給出了5種對(duì)比方法在VIPDAR_5上的實(shí)驗(yàn)結(jié)果,TWNet相較于其他對(duì)比算法,Top-1和Top-3分別提高了8.0%和1.7%。另外,Slow-Fast算法在眼動(dòng)駕駛行為數(shù)據(jù)集中的性能表現(xiàn)并不好,這可能是由于VIPDAR_5數(shù)據(jù)集與UCF101等其他數(shù)據(jù)集之間的差異,如數(shù)據(jù)集中左右變道類的動(dòng)作持續(xù)時(shí)間較短,眼動(dòng)軌跡點(diǎn)變化劇烈,并可能存在遮擋的問(wèn)題。

表7 不同方法在VIPDAR_5上的實(shí)驗(yàn)結(jié)果對(duì)比Table 7 Comparison of the results of different methods on VIPDAR_5 %
TWNet網(wǎng)絡(luò)中加入的時(shí)空信息權(quán)重模塊,通過(guò)設(shè)置兩通道的不同權(quán)重控制了運(yùn)動(dòng)信息對(duì)最終結(jié)果的影響,使得分類準(zhǔn)確率獲得了提升。同時(shí)針對(duì)不同的數(shù)據(jù)庫(kù),也可以通過(guò)調(diào)整時(shí)空信息權(quán)重及時(shí)適配。
本文首先構(gòu)建了基于眼動(dòng)的駕駛員行為識(shí)別視頻數(shù)據(jù)集VIPDAR_5。它包含多種路況、天氣、時(shí)間情況的共超9萬(wàn)幀的350個(gè)視頻片段。針對(duì)眼動(dòng)行為識(shí)別任務(wù),提出了基于人類視覺(jué)的雙通道模型TWNet,實(shí)驗(yàn)結(jié)果表明該模型具有良好的性能。同時(shí)本文還有一些不足,因?yàn)榇嬖趦蓚€(gè)通路的網(wǎng)絡(luò),所以訓(xùn)練時(shí)間較長(zhǎng)參數(shù)量較多,在后續(xù)研究中將會(huì)針對(duì)該問(wèn)題進(jìn)一步優(yōu)化。本文希望通過(guò)分析駕駛員的眼動(dòng)數(shù)據(jù),理解駕駛心理,總結(jié)駕駛習(xí)慣,在后續(xù)研究中根據(jù)這些信息,預(yù)測(cè)駕駛員的注視區(qū)域及行為,提前對(duì)進(jìn)行預(yù)警,輔助駕駛,提高道路安全。