詹智成,董衛華
1. 北京師范大學地理科學學部,北京 100875; 2. 根特大學地理學院,比利時 根特 9000
對環境的感知和理解是智能駕駛領域的一個重大挑戰。視覺是駕駛過程中駕駛員感知和理解道路場景信息的主要途徑。在駕駛過程中,駕駛員會選擇性地關注場景中感興趣的信息,而忽略不重要的信息,這種機制稱為駕駛過程的視覺選擇性注意機制,選擇性注意的區域稱為視覺顯著區域。在智能駕駛系統開發中,引入人類的視覺選擇性注意機制能夠降低處理的信息量,提高智能駕駛系統對駕駛環境的理解效率,并有助于預測和定位潛在的風險。視覺顯著性建模方法能夠模擬人類的視覺注意機制提取場景中的顯著區域,從而支持信息處理和決策。對駕駛員在駕駛過程中的視覺注意機制進行研究,開展真實道路場景下動態道路場景的視覺顯著性建模,能夠準確和快速地提取動態駕駛場景的視覺顯著區域,從而提高智能駕駛系統的環境理解效率和能力。
目前,國內外對道路場景視覺顯著性的研究已有不少的經驗,特別是在行人導航領域。人類的視覺注意機制被歸結為場景的低級視覺特征和高級視覺特征[1]。低級視覺特征是圖像對視覺的直接刺激,這類特征包括顏色、亮度和紋理等[2]。高級視覺特征一般指語義特征,這種特征與人類的認知相關,比如在某些場景中人臉等物體對視覺具有引導作用[3]。道路場景的視覺顯著性分析可以用來評價導航任務下場景中地標的有效性[4]、用戶的尋路策略[5]、地圖的可用性[5]等。視覺顯著性的測量流程主要包括設計眼動跟蹤實驗,收集眼動數據和分析注視點的分布[6]。視覺顯著性模型可以模擬人類的視覺注意機制自動計算和提取場景的視覺顯著區域,在導航系統設計[7]、用戶導航任務推理[8]和地標設計[9]等方面具有廣泛的應用。
雖然場景的視覺顯著性在遙感影像檢測[10]和行人導航領域等地理信息領域研究比較成熟,但駕駛環境下道路場景的視覺顯著性建模的研究相對較少,主要原因是駕駛場景相對復雜。首先,駕駛過程具有動態性[11]。動態性包括3個方面:場景的動態變化、駕駛關注區域的變化和車輛的運動。場景的動態指車輛位置的改變使得駕駛場景不斷變化,駕駛關注區域的變化是指駕駛員的視覺注意區域的改變,車輛的運動指車輛的速度,加速度和位置隨時間的改變。場景動態特征通常用光流圖表征[12],定義為后一個時刻場景像素相對于前一個時刻場景像素位移的方向和強度。其次,駕駛場景的復雜性來自道路場景的多樣性[13],主要表現在道路類型、道路結構、交通狀況和空曠度等方面,而這些道路屬性也是自動駕駛所需要的基本信息[14]。再次,駕駛環境下駕駛員具有雙重任務,駕駛員不僅要保證行駛方向的正確,更要確保行車過程的安全。研究表明,駕駛環境下道路場景的動態性[15]、道路場景特征[16]和任務[17]都是影響駕駛員視覺行為的重要因素。
駕駛員的視覺注意力會受到多種因素的影響。其中駕駛速度是一個關鍵因素。有研究顯示高速行駛時駕駛員的視線更集中[18],同時駕駛員的視覺認知負荷也越大[19]。道路結構也影響駕駛員的視覺注意和認知負擔。文獻[20]通過模擬器試驗發現,駕駛員在交叉口駕駛時注意力分散是導致事故多發的主要原因;文獻[21]通過設計40名受試者觀察100張靜態交通圖的眼動試驗發現受試者傾向于觀察道路消失點;文獻[19]發現道路曲率越大,駕駛員的視覺負載越重。不同的語義信息也會導致駕駛員的視覺注意差異。道路場景中出現的車輛、行人和路標等目標都能不同程度地吸引駕駛員的注意,因此現有的輔助駕駛系統大都包含行人檢測模塊[22]、車輛檢測模塊[23-24]、道路和車道檢測[25-26]及交通信號識別模塊[27]。上述分析表明,建立駕駛員的視覺注意機制模型需要考慮多種因素的影響。目前對于駕駛環境道路場景視覺顯著性建模的研究大多是在靜態桌面環境和虛擬環境為試驗平臺下進行,見表1。對于文獻[18]開展的真實環境中道路場景顯著性的模型研究,雖然考慮了車輛速度的作用,但沒有考慮道路結構對駕駛員視覺注意機制的影響。
本文在分析駕駛員視覺特征的基礎上,引入了表征動態性的駕駛速度和表征場景類型復雜性的道路結構為建模要素,提取了道路場景的低級視覺特征、以語義信息為主的高級視覺特征和動態特征,構建了駕駛環境下動態場景的視覺顯著性計算模型。
本文所使用的數據為意大利摩德納大學發布的DR(eye) VE駕駛場景數據集[18]。該數據集記錄了8名駕駛員(7男1女)74次駕駛過程,每個駕駛過程持續5 min。這組數據包含了駕駛員的注視點、行車錄像、GPS軌跡和駕駛速度等信息。駕駛員位置每秒更新一次,駕駛速度每秒記錄25次。數據收集的硬件配置和數據格式如圖1所示。車頂攝像頭Garmin配置為1080p/25 fps,用于固定觀察視角,車輛配有GPS。駕駛員駕駛過程中佩戴眼鏡式眼動儀ETG,該眼動儀注視點采集頻率為60 Hz,眼動儀的攝像頭配置為720p/30 fps,可同步記錄駕駛員視角下的場景。

表1 駕駛場景視覺顯著性模型研究

圖1 視頻與眼動數據采集Fig.1 The equipment and process of movement collection
標準顯著圖是由眼動數據生成的用于訓練視覺顯著性模型和檢驗模型精度的顯著性真值。本文研究使用了駕駛員1 s內的注視點構造道路場景的標準顯著圖。該過程首先用二維高斯函數對注視點進行平滑,然后累加注視點的平滑結果得到標準顯著圖。該過程的描述如下
(1)
(2)
式中,(x,y)為像素坐標;(xi,yi)為第i個注視點坐標;gi(x,y)表示第i個注視點對于像素(x,y)顯著性的貢獻大小;σ為表示高斯函數的影響范圍的參數,本文根據經驗取值70 px。n表示1 s內注視點的數量;I(x,y)表示像素(x,y)的顯著值。主要的數據格式如圖2所示。

圖2 標準顯著圖Fig.2 Standard visual saliency image
道路曲率由原始的GPS點位數據計算得到(圖3)。GPS定位的偏差使得軌跡無法直接用于計算道路曲率,因此本文采用了指數多項式平滑算法(PAEK)來平滑原始軌跡點然后將平滑后的線條重新采樣成點,最后用三次B樣條法[37]計算曲率,計算方法為

(3)
式中,ρi為第i個點的曲率;(xi+1,yi+1)為前一個點的坐標;(xi-1,yi-1)為后一個點的坐標。

圖3 道路曲率計算過程Fig.3 Calculation of road curvature
道路消失點的計算方法主要有直線交點法和紋理特征法兩種。直線相交法檢測場景中所有直線,并統計直線相交點從而得到道路消失點[38]。此法適用于具有明顯邊界線和車道線的結構化道路,如城市道路、高速路等。基于紋理特征的提取方法[39-40]計算所有點的紋理方向,并統計紋理方向以獲得最佳消失點。基于紋理特征的方法適用于幾乎所有的道路場景,但相對于直線相交法計算更為復雜。鑒于本文研究的數據中含有非結構化道路(鄉下道路),直線法難以精確地提取場景中的直線,本文引用文獻[41]基于Gabor計算紋理和使用投票機制得到道路消失點的方法。提取結果表明,大部分的道路消失點提取準確(圖4),少數提取錯誤的場景采用人工方法進行了修正。

圖4 道路消失點提取示例Fig.4 Examples of vanishing point detection
場景語義信息屬于視覺高級特征。人工提取注視點語義信息耗時耗力,計算機視覺技術的發展使自動提取場景語義信息成為可能。本文引入了由Google公司開發的Deeplab V3+圖像語義分割模型[42],該模型將深度卷積神經網絡和概率圖模型相結合,融合多尺度信息,并引入了encoder-decoder架構,對圖像和場景的分割有很強的效果。該模型的訓練數據集為CityScape[43],模型的Iou精確度可達82.1%。Deeplab V3+模型對本文道路場景的分割結果例子如圖5所示,其精度可以滿足本文研究的使用要求。
本文結合3種類別的特征構建動態道路場景的視覺顯著性:低級視覺特征、由駕駛環境和駕駛任務決定的高級特征和人眼對動態場景感知的動態特征。表2列出了本文特征的選取及其描述。低級視覺特征中,除了顏色,紋理和亮度之外,還選取了Itti,SUN和GBVS 3種顯著性模型的顯著圖。高級視覺特征包括語義特征和道路消失點。動態特征則為光流圖的方向和強度分量的組合。

表2 視覺特征列表
場景的視覺顯著性是多特征共同作用的結果,本文采用了機器學習中的邏輯回歸(LR)模型[44]計算場景顯著性,處理流程如下。
(1) 分析了速度、曲率與駕駛員視覺注意的關系(見附錄),以考慮駕駛場景的動態性和路面結構特性。分析結果表明,速度和曲率對人的視覺注意的位置和語義信息具有重要的影響。為此,本文在LR模型中引入速度和道路曲率2個因素。
LR模型的基本原理是將特征線性組合,然后根據Sigmoid函數對組合結果進行二分類。本文以像素為單位計算顯著圖,其公式如下
(4)
θTx=θ0+θ1x1+…+θnxn
(5)
式中,hθ(x)為目標函數;g為Sigmoid函數;x為像素的特征向量;xn表示第n個特征;θ為特征向量的系數,表示特征的線性組合。
(2) 對上述經典邏輯回歸模型中的系數增加以下的定義
θ=VK1+CK2+K3
(6)
式中,V為駕駛場景的速度;C為駕駛場景道路曲率;K1、K2、K3分別為速度系數、道路曲率系數和常數項。
(3) 運用訓練數據對模型進行最小二乘法擬合,求得各特征系數。殘差平方和成本函數用于擬合度的評估為
(7)
式中,SSres為殘差平方和;n為測試樣本數;f為訓練模型;xi為測試像素特征;yi為像素的顯著性。
LR模型運行流程如圖6所示,主要包括特征提取,隨機像素抽樣、模型訓練和模型測試評價。
本文從74段視頻中共提取出22 200個場景,由圖片和注視點生成的標準顯著圖大小為1920×1080像素,為方便計算重采樣成大小為480×360像素的圖片。訓練數據集占全部數據集的70%,即15 540個場景。本文數據場景數量太多,為了保證每一個場景都能參與模型訓練,且訓練的樣本足夠,本文在每一場景中隨機選取10個顯著的像素點和10個不顯著的像素點作為模型的輸入。此外本文選用了廣為接受的指標ROC(receiver operating characteristic curve)和AUC(area under curve)來評估模型的預測結果。
驗證數據集占全部數據集的30%,即6660個場景。本文提取驗證數據集的3類特征,并逐像素地輸入訓練好的LR模型,將輸出的像素值組合成預測顯著圖。LR模型計算得到的顯著圖是一張連續的灰度圖像,灰度的大小表示像素的顯著程度。部分視覺顯著圖計算結果如圖7所示。灰度值高的區域能夠與注視點生成的標準顯著圖顯著區域對應。在不同的駕駛情況下,LR模型對道路消失點、車輛和指示牌等目標的顯著性都能準確預測,模型的AUC值達到90.43%。

圖5 語義分割結果Fig.5 Result of the image segmentation

圖6 LR模型顯著圖計算框架Fig.6 Framework of LR model for calculating visual saliency

圖7 注視點分布和預測顯著圖的比較Fig.7 Comparison of the gaze point distribution and visual saliency prediction
LR模型將視覺顯著性看作是特征的線性組合,因此LR模型的系數能較好地反映各特征對場景顯著性圖的貢獻大小(表3)。
在所有特征中,消失點對視覺顯著圖的貢獻最大;紅色通道的系數明顯大于綠色和藍色通道;在經典顯著性模型生成的特征顯著圖中,GBVS特征系數遠大于Itti和SUN特征,僅次于紅色通道的系數;高級視覺特征中的4種語義特征均為正值,其中行人特征圖對顯著圖的貢獻最大,其次為車輛特征圖。運動強度的系數為正值。
綜而觀之,《回憶與隨想》一書詳細論述了陸徵祥一生的思想轉變歷程,向讀者清晰地展示了他的思想與實踐軌跡。

表3 LR模型特征系數
對特征系數進行分析,亮度特征對駕駛環境下的場景視覺顯著性為負,主要原因可能是整個場景中天空的亮度值最大,然而駕駛員在駕駛過程中并不關注天空。紅色通道系數大于綠色和藍色通道的系數,一個主要的原因在于顏色通道特征和語義特征的關聯性。在所有場景中植被區域的綠色通道比重大,天空區域的藍色通道比重大。而這2類語義信息并不顯著,從而導致了RGB 3通道系數的差異。GBVS模型顯著圖的顯著區域集中于圖像的中心區域如圖8所示,與道路消失點特征有一定的關聯,所以GBVS模型顯著圖對場景的視覺顯著性的貢獻較大。Itti模型顯著圖和SUN顯著圖對最終顯著圖的貢獻不大,這可能是因為這2個模型側重于檢測邊緣信息,然而這類信息在駕駛過程中對視覺引導作用很弱。

圖8 Itti、GBVS和SUN模型顯著特征圖對比Fig.8 Comparison of significant features of Itti, GBVS and SUN models
行人特征圖的系數在各系數中最大,其次是車輛語義系數,這2個系數較高的原因可能是2者都是動態的,駕駛員需要判斷這2個語義類別是否對自己的駕駛過程有影響;而道路由于覆蓋范圍較廣,只是在消失點處顯著,因此總體系數值不大;交通標志貢獻不大的主要原因在于有經驗的駕駛員熟悉駕駛環境之后并不會特別關注交通標志。運動強度對視覺顯著性有正向影響,反映了在駕駛環境下人們對移動目標有一定程度的敏感性。
為了探索不同速度和曲率下模型的顯著性計算結果,本文驗證了模型在不同的速度和曲率下的精度。
不同曲率下的ROC曲線如圖9所示,其預測精度在不同曲率下相差很大,當曲率大于1000時,ROC曲線比曲率小于1000的ROC曲線低。各種曲率下的AUC見表4。

圖9 不同的曲率下的ROC曲線比較Fig.9 Comparison of ROC under different road curvature
不同速度下的ROC曲線如圖10所示。當速度為0時,ROC曲線最高,而其他速度下的ROC曲線比較接近。各種速度的AUC值見表5。

表4 不同曲率下的AUC

圖10 不同速度下的ROC曲線比較Fig.10 Comparison of ROC under different speeds
與Itti、GBVS、SUN,傳統LR模型相比較,本文的擴展的LR模型精度最高(表6),而Itti和SUN模型預測精度均小于0.5。結果表明,本文所提出的模型預測道路場景視覺顯著性具有可行性和優越性。

表5 不同速度下的AUC

表6 各模型AUC值比較
對場景重要的物體和區域檢測對智能駕駛系統至關重要。本文提取了低級視覺特征、高級視覺特征和動態特征,構建帶有速度和曲率系數的LR視覺顯著性檢測模型。研究結果表明提出的LR模型的ROC曲線AUC值為90.43%,模型預測區域和視覺關注區域匹配準確。通過特征系數分析發現,消失點對視覺顯著性貢獻最大,場景的紅色通道和GBVS顯著圖次之,同時亮度、紋理、Itti和運動方向特征在LR模型中的系數值為負值,說明這些特征與視覺顯著性呈負相關。本文提出的模型有助于智能駕駛系統的環境理解,并在特定對象跟蹤檢測、駕駛訓練,安全警告和交通標志檢測等方面有重要作用。
數據可用性是本文的一個限制。每段駕駛場景僅包含單個駕駛員的注視點,個體偏差會影響模型的預測準確性。另外,注視時長和注視點均為視覺顯著性評價的重要眼動指標,由于數據集沒有提供注視時長數據,所以本文僅根據注視點的個數和分布進行建模。而加入注視時長數據能更加準確地表達視覺顯著性。駕駛員的年齡、性別和駕齡等因素也是影響道路場景視覺顯著性建模的重要因素,本文所收集的數據僅來自8名駕駛員,其中7名為男性,沒有年齡和駕齡等信息,因此無法發掘個體信息對視覺注意機制的影響。試驗并探究不同環境下的視覺顯著性,其主要原因是在光線較暗的下雨天和晚上采集的圖像語義分割效果不理想。今后還會完善駕駛數據收集過程,增加駕駛員數量和注視點自身的注視時長信息,發布全面的駕駛數據集,還需要深入探討駕駛員個體差異對真實駕駛環境中道路場景視覺顯著性的影響,并對不同駕駛環境的差異進行探索,包括道路類型、駕駛時間、天氣條件等。這些將服務于構建結合人的屬性、環境屬性和車輛狀態構建人-車-環境一體化的道路場景視覺注意模型。