劉敏
近年來,針對自動駕駛各個領域的研究成果層出不窮。人們希望通過加大對自動駕駛技術的研發投入,最終從繁復的車輛駕駛任務中解放出來。
自動駕駛本身無疑是一項會顛覆人類交通出行方式的革命性技術。但和任何其他新技術的誕生與發展過程一樣,自動駕駛的發展目前也面臨著各種挑戰和技術路線選擇的問題。一種可能的演進路線是逐步地用高級別自動駕駛車輛或具備部分自動駕駛能力的車輛去替代現有汽車。在這樣的假設下,道路上就會存在自主駕駛的車輛與人類駕駛的車輛混合并行的狀況。這些自動駕駛車輛無疑會和人類司機駕駛的車輛進行頻繁的交互,這就要求自動駕駛車輛能夠通過車載傳感器去獲取到其他車輛的行駛狀態信息。基于這些信息,自動駕駛車輛還應具備推理相應車輛的駕駛行為意圖的能力。尤其是在自動駕駛車輛與人類司機駕駛的車輛可能產生互動時,對其他車輛的行為預測以及意圖識別就直接關系到碰撞事故的發生與否。
由人類駕駛的車輛會基于司機的離散決策,開出一條連續的軌跡。如一位司機出于避讓前方低速車輛或者試圖獲得更好地視野等原因,而作出了“向左換道”的決策。基于這一決策,我們能觀察到車輛的速度會逐步增加,車頭朝向偏向左側車道,車輛位置逐漸向左側車道靠近,
最終并入左側車道繼續直行。對這樣一輛車的行為估計過程,包含了對其連續的駕駛情況的觀測以及最終對司機意圖(導致了所觀測到的一系列軌跡的根本原因)的識別。為了更好地估計車輛駕駛行為,需要一個能夠定性且定量描述車輛駕駛行為的框架方法。
在之前的很多研究中,司機、車輛的決策機制往往用一種混合狀態系統來表示。這種系統提供了一種可描述車輛連續的狀態參數以及離散的駕駛行為狀態的耦合關系的直觀模型。之前的研究中也借用了很多信號處理領域的理論工具來對此系統中的部分模塊的狀態進行識別。這使得此模型具備了一種基本的對車輛駕駛行為的定量估計。如使用中的隱馬爾科夫模型來針對離散狀態進行一種行為特征的識別,得到車輛司機的決策行為狀態。這是一種可以識別觀測值和產生這些觀測值的隱藏狀態之間的潛在關系的,用來描述隨機過程的概率模型。隱馬爾科夫模型早已在語音識別、人類行為預測以及駕駛事件識別上有了大量成功的應用。在本文中,車輛的連續觀測量被建模為高斯混合模型,來對隱馬爾科夫模型進行學習訓練和評價。總而言之,混合狀態系統提供了一整套行為估計的框架,而隱馬爾科夫模型對完整系統中的各個狀態模塊間的關系進行定量描述。
本文中提出的混合決策系統同時參考了混合狀態系統以及隱馬爾科夫模型。其中混合狀態系統用于發掘車輛和司機之間的交互狀態,包含了駕駛員根據突發事件作出應對產生的高維的離散狀態,以及車輛跟隨駕駛員意圖行駛形成的低層級的連續狀態。像這類基于混合狀態系統的理論也已經被廣泛地應用在了自動駕駛領域。如圖1所示,對于離散系統中的不同狀態,其之間的交互及轉換關系會被建模為有限狀態機的形式。


其中持續輸入的觀測量對應于車輛的連續狀態,隱馬爾科夫模型中的各種車輛行為取決于在建立數據集時特意收集的實際道路場景。通過(1)式的計算,輸出當前時刻預測對象概率最高的離散狀態。此離散狀態即代表了當前駕駛員的行駛意圖。隱馬爾科夫模型則描述了連續的觀測量與離散狀態之間的關系。
上文主要關注駕駛員在特定地點、特點時間、特定工況下的行為估計,也即一種短期的行為估計。然而在實際應用過程中,會有對車輛的完整行為序列的預測需求,也即一種長期的行為估計。如一位駕駛員從家里開車出門,期間會經歷一系列的事件以及作出相應的變道、轉彎等行為來最終順利抵達目的地。前文提到的混合決策系統盡管已經在司機的行為估計上有了很好的表現,但是其仍然難以對長時域的行為進行很好的預測估計。這一方面由于長觀測序列帶來的離散狀態的似然概率縮減。同時該混合決策系統并沒有將外部環境的信息納入決策衡量的范圍之內。

在混合決策系統針對車輛進行連續觀測,并將觀測量輸入給隱馬爾科夫模型進行高可能性的駕駛行為估計時,并沒有使用額外的外界信息。例如這些所使用到的離散狀態,直行、轉彎等在高速路上以及在城市道路上是類似的。但如果將用于評估駕駛員在很少會碰到十字路口場景的狀態,挪用到滿是交叉口的城區環境進行相應的估計時是不合適的。更重要的是,一個完備且高魯棒性的駕駛員行為估計系統應該能夠充分地利用外部信息,以更好地針對車輛長期駕駛行為序列進行估計。比如當車輛行駛在高速路上時,“左轉彎”狀態應該被刪去;在城市道路上行駛時,就不可能有“離開閘道”這一行為。囊括更高層級的環境信息,能夠在自動駕駛車輛行駛在不同工況下的決策過程中提供更有價值的參考依據。
上節內容總結了由于長期的連續觀測帶來的某些離散狀態概率縮減,以及沒有將更多有用的外部信息納入混合決策系統的評估體系這兩個主要缺點帶來的無法應對長期行為估計的問題。這些問題可以通過自動化地限制輸入的連續觀測序列的長度,以及為系統提供更全面的信息輸入等手段來解決。本節中提出了一種能夠根據當前行駛環境自動調整混合決策系統中離散狀態模塊中狀態種類和數量的方法。每次狀態的增刪,都伴隨著相應的狀態機的調整,過程如圖3所示。
這些狀態的增刪由額外輸入的外部環境信息的變化引起。在不同的環境下,同樣的觀測輸入會導致不同的行為狀態。例如觀察到車輛在十字路口處的最左側車道處打了左轉燈,他可能的行為是準備在該路口左轉彎或者調頭;若是觀察到一輛在高速路上中間車道的車輛打起了左轉燈,則其對應的行為應該是向左變道。在本文中,將這些會影響駕駛行為狀態估計的外界高維信息歸納為以下兩類:道路種類(如城市道路、城市路口、高速道路、高速閘道口等)和環境條件(雨天、晴天、夜晚等)。于是原先圖2中所示的系統工作流就會如圖4所示,在初始時多出一步:根據當前的外部高維環境信息來決定目前隱馬爾科夫模型需要關注的離散狀態量。


任何外界環境的變化,都會及時引起系統策略的動態調整,針對駕駛行為的估計也會更加地準確。而這些外界環境的高維信息可以通過GPS定位、V2X以及先進的感知算法獲得。圖5是在實際城市道路中收集到的由人類司機駕駛的車輛的狀態信息進行駕駛行為估計的結果。
其中道路種類1、2、3分別代表城市道路、城市路口以及高速路段。駕駛行為狀態1、2、3、4、5、6分別代表直行、停車、左轉、右轉、左變道、右變道。其中估計的駕駛行為狀態與實車路試過程中采集到的目標車輛的實際行為基本一致。本實驗也證實了本文提出的可根據外界環境信息動態調整的混合決策系統的有效性。
自動駕駛汽車能夠徹底改變人們未來交通出行的模式,并解決當下許多和交通運輸相關的商業、社會問題。在一個可預見到的人車共駕的混合交通環境下,自動駕駛車輛具備對其他車輛駕駛行為的估計能力是極為重要的。本文提出的混合決策系統通過將外界會影響車輛駕駛行為的更高維豐富的環境信息納入考量,并動態地調整更新離散的車輛狀態,使自動駕駛車輛具備模仿人類司機面對復雜動態環境的決策能力。在未來的研究中,會繼續關注對車輛駕駛風格識別的探索上,進一步加強車輛的駕駛行為估計能力。也希望嘗試將本決策系統擴展到具備車輛導航規劃的能力。
作者單位:廣州市第三腦人工智能芯片研究院