李平飛,金思雨,胡文浩,高 立,車瑤櫟,譚正平,董小飛
(1.西華大學 汽車與交通學院,成都 610039,中國;2.四川西華交通司法鑒定中心,成都 610039,中國;3.國家市場監督管理總局缺陷產品管理中心,北京 100191,中國;4.上海機動車檢測認證技術研究中心有限公司,上海 201805,中國)
自動駕駛汽車需要大量的測試[1]來證明其各項功能及其性能可靠性、穩定性等。基于場景的測試方法[2]憑借應用方式靈活、針對性強、可重復性高等優點成為目前自動駕駛汽車主要的測試方法之一。與自然駕駛場景不同,事故場景更易提取危險工況,以測試自動駕駛汽車應對危險的能力。目前事故場景的研究多集中于事故場景再現分析[3-5]及典型場景的提取與構建[6-9],有關場景綜合評價的研究較少。其中對場景進行復雜度評價,可為自動駕駛仿真測試場景提取、篩選等技術難點提供解決思路,提升測試效率。
在場景復雜度理論研究方面,多數學者主要結合駕駛員的生理、心理響應展開研究[10-12]。張海潮[10]通過駕駛員對交通環境的認知負擔定義復雜度,提出基于引力模型的道路交通環境復雜度計算方法。畢蕊[11]提出了一種基于腦電特征指標的交通因素復雜度的量化方法。張朋[12]利用人工勢場法量化道路動態交通環境復雜度,并研究其與駕駛人的工作負荷、主觀復雜度和次任務反應時間之間的關系。此外,也有學者從不同工況對復雜度展開研究。王宇雷等人[13]提出一種面向復雜超車場景的行駛任務復雜度量化評估方法。董漢等[14]提出了一種對危險駕駛工況場景數據采集和復雜度評估的方法。而面向自動駕駛場景的復雜度研究正處于初步階段,李江坤[15]圍繞自動駕駛系統提出一種結合影響傳遞模型和層次分析法的場景復雜度評價方法,但場景元素對自動駕駛系統的影響還需進一步研究;王榮等[16]采用引力模型和信息熵相結合的方法從靜態和動態場景兩個方面綜合評價自動駕駛場景復雜度。目前的方法均有不同側重,少有基于事故場景對自動駕駛場景復雜度展開研究。
本文利用車-車事故預碰撞數據,從場景不同維度出發,建立場景復雜度評價模型,實現場景的量化分級,有助于篩選復雜且事故嚴重程度高的場景,為自動駕駛仿真測試典型場景的選擇提供依據。
本文的道路交通事故數據來源于(中國)國家車輛事故深度調查體系(National Automobile Accident In-Depth Investigation System,NAIS),NAIS 是由國家市場監督管理總局缺陷產品管理中心牽頭建立的道路交通事故深度調查體系[17]。NAIS 制定了統一的數據采集標準,在采集點的分布上充分考慮了中國交通地域分布的特點和差異,2011—2020 年期間,NAIS 數據庫共采集約5 500 起道路交通事故案例。表1 為NAIS 數據與《中華人民共和國道路交通事故統計年報(2017 年度)》的對比,表中數據為指標水平占全部樣本的百分比及相應差值(統計年報占比-NAIS 數據庫占比)。

表1 NAIS 數據庫與道路交通事故統計年報的對比
結果表明:NAIS 數據庫的事故特征與全國道路交通事故統計年報信息較為吻合,整體數據具備一定代表性。從5 500 余起事故案例中初步篩選涉及汽車與汽車碰撞的事故1 702 例,進一步篩選符合標準的數據進行分析,篩選標準如下:
1)事故參與方數目為2;2)參與方類型均為汽車;3)事故信息采集完整,滿足場景構建需要。
按照篩選標準,最終有670 個案例符合要求,作為后續研究的原始數據。670 例事故中,死亡案例占比達30.6%,這與NAIS 的采集條件“人員損傷等級不低于AIS3”有關。
在自動駕駛領域內,場景被看作是在特定的時間和空間范圍內周圍環境對行駛車輛產生一定影響的綜合反映。駕駛場景的描述包括駕駛人因素、車輛因素、道路因素、環境因素4 個方面[18]。在自動駕駛場景中,駕駛人因素被弱化,結合NAIS 數據庫車-車事故信息及相關研究[19],本文將場景信息分為主車信息、目標車信息、道路信息與環境信息4 個維度。
按照場景4 個維度信息,共選取NAIS 數據庫中13 項變量。由于在自動駕駛測試場景中默認主車為乘用車(包括轎車、運動型多用途汽車(sport utility vehicle,SUV)、多用途汽車(multi-purpose-vehicles,MPV)、和面包車),因此在主車信息中未考慮車輛類型,各維度具體變量選取情況如圖1 所示。13 個變量具體水平如表2 所示,各變量水平來自670 例事故數據。

圖1 場景信息

表2 各變量(V)水平(L)及賦值情況
根據信息熵思想,自動駕駛測試場景每個維度蘊含不同的信息量。若某類事故場景發生概率較低,場景庫中信息量不足,熵值高,自動駕駛預期功能安全系統對其沒有充分的認識和準備,就無法對此進行準確的把握從而無法精準的執行相關避撞措施,事故難以避免,即此類場景對于自動駕駛系統來說可定義為復雜場景;反之即為簡單場景。
參考中國汽車技術研究中心提出的關于場景復雜度的概念,借用信息熵理論計算變量下各水平的信息量,即場景各水平的復雜度為[20]

式中:ω為不同場景變量某一水平的權重,c為某變量單個水平復雜度。
場景中每個變量水平對應一個熵值,即復雜度。對于某一具體場景,一個變量僅對應一個具體的水平,即各場景維度下的每個變量均對應一個復雜度,某一維度的復雜度為該維度下所有變量復雜度的加權總和,再對4 個維度的復雜度進行加權求和,得到某一具體場景的整體復雜度為

式中:Ci為第i個維度的復雜度,σi為第i個維度的權重系數,i=1,2,3,4;cij為第i個維度下第j個變量的復雜度,μij為第i個維度下第j個變量的權重系數,n為某維度的變量個數。
1)邏輯回歸模型及驗證。
本文篩選的670 例事故案例中死亡案例為30.6%。由信息熵理論,變量水平權重與場景中指標發生危險事故的概率有緊密聯系,利用邏輯回歸方式[21]可有效計算事故造成人員死亡的概率,將其概率轉換為變量水平權重。本文采用SPSS 軟件建立二元邏輯回歸模型,將事故是否造成人員死亡作為因變量:1 表示有;2 表示無,自變量為前文從NAIS 數據庫中選取的13 項變量,變量水平以數字1~7 賦值,如表2 所示。在二元邏輯回歸模型中,造成人員死亡的概率可表示為

式中:x1、x2、…、xm為選擇的影響因素;β0為常數項;β1、β2、…、βm為影響因素x1、x2、…、xm的回歸系數,表示自變量與因變量之間的相關性。
由此,造成人員死亡的概率與未造成人員死亡概率的比值,即優勢比(odds ratio,OR)為

根據模型測試集(由2.2 節變量數據得到)預測概率繪制受試者工作特征(receiver operator characteristic,ROC)曲線,如圖2 所示。得到測試集ROC 曲線下的面積(area under curve,AUC)為0.901,預測正確概率為82.8%,模型預測能力較好。Omnibus 檢驗是模型系數的綜合檢驗,根據表3 顯著性小于0.05,表示邏輯回歸模型總體有意義,即模型有效。Hosmer Lemeshow 檢驗是檢驗模型的擬合優度,顯著性大于0.05,可以認為:該邏輯回歸模型擬合度較高。

表3 模型的檢驗

圖2 預測模型ROC 曲線
2)水平權重及各水平復雜度確定。
由上述邏輯回歸分析模型得到每個變量水平對應的優勢比,即得出以每個變量最后一個水平為參考,其余水平發生致死事故的概率,如當主車運動狀態為左轉,相對于運動狀態為停車時發生致死事故的概率為0.254;將每個變量下所有水平的權重值總和設為1,根據OR 值中各水平之間的倍數關系計算每個變量下各水平的權重,即歸一化后所得結果,以衡量每個變量水平在該變量下對場景復雜度影響的重要程度。根據式(1),計算得到每個變量各水平的復雜度值,按照表2 定義以V=x(x為變量序數)表示變量,以L=y(y為各變量水平序數)表示水平,如表4 所示。

表4 水平權重及各水平復雜度
場景中每個維度因素對于場景復雜程度的影響不一致,故不同維度及變量應有不同的權重系數,若僅靠人為決定某個因素對場景的復雜程度的影響程度的大小,忽略了實際案例的客觀性將造成主觀因素對結果影響過大,故在此需要一種模仿人類思維的深度學習方法對維度權重系數進行計算。選擇反向傳播(back propagation,BP)神經網絡算法[22]可以科學有效地確定每個維度及變量在場景復雜程度中的權重系數。
對670 例車-車碰撞數據進行BP 神經網絡訓練,BP 神經網絡的輸入層數據為13 項變量的所有數據,根據數據需要設置隱藏層層數為1,隱藏層中神經單元設置為10 個,輸出層為事故是否造成人員死亡的數據,設置一個單元層。選用均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)和相關系數(R)作為評估模型性能的指標;若這2 個誤差值越小、R值越接近于1,則表示模型的準確性越好[23]。模型訓練完成后,所得均方誤差為0.103 9,平均絕對誤差為0.008 6,相關系數R為0.845 6,總體來看,該模型準確性較好。其中得到輸入層與隱藏層之間的權值系數ωki,以及隱藏層與輸出層之間的權值系數ωjk,將各神經元之間的權值系數轉化為各相應權重,再經過權重影響處理后得到各維度下變量權重μ和各維度權重σ,如表5 所示。
根據得到的場景4 個維度及變量的權重和3.1 節場景復雜度的計算公式,最終得到車-車場景復雜度模型為
由這4 個權重系數可知:主車信息和環境信息對場景的復雜度影響比目標車輛信息和道路信息對場景的復雜度影響低。主車作為可控因素各方面性能可以進行調節,也能減輕惡劣天氣或照明情況不佳帶來的影響,故在場景復雜度中主車信息和環境信息權重不高。道路信息對場景的復雜度影響較大,道路幾何結構和道路狀況在一定程度上決定了車輛行駛中交通狀況的復雜度,若道路幾何結構較復雜便會加劇車輛的沖突關系,同理道路行政等級較低也可能伴隨路況不佳增加車輛行駛復雜度。而作為場景復雜度中權重最高的目標車輛因素,同時也是自動駕駛預期功能安全主要研究的對象,其不可控也難以精準預測,造成的信息變化對主車產生巨大影響,在場景復雜度評價中起到顯著作用。
根據式(5)對本文中670 例車-車事故進行場景復雜度計算,得到每例事故場景復雜度指數,分布如圖3所示。

圖3 670 例事故場景復雜度指數分布
根據計算結果對復雜度等級進行劃分。對場景復雜度進行等級劃分時,若使用傳統的等量分割人為影響因素過大,且容易忽略數據的聚集性,故本文采用K-means 聚類方法對場景復雜度指數進行聚類分析,將場景復雜度指數作為聚類樣本劃分數據集,將樣本間距離最緊密的數據劃分為一個數據集,使多個數據之間形成明顯的閾值界限便可得到場景復雜度等級。本文采用常見的“肘部法”來確定聚類個數K,將曲線肘部位置對應的聚類數K確定為最合適的聚類數K(見圖4)。由圖4 可知:肘部位置處(紅點)對應的聚類數K為4 時,聚類效果最好。根據復雜度指數大小將場景復雜等級劃分為4 個等級,復雜程度依次遞增,并界定其取值范圍,如表6 所示。

圖4 聚類數(K)與誤差平方和(SSE)關系圖

表6 場景復雜度等級劃分
由等級劃分結果,場景復雜度指數小于等于0.183的復雜等級為1 級,場景復雜度指數在(0.183,0.227]范圍內的復雜等級為2 級,3 級復雜場景的復雜度指數在(0.227,0.290]范圍內,復雜等級最高的4 級場景復雜度指數大于0.290。
結合場景復雜度指數分布圖及等級劃分可以看出,在670 例事故案例中,場景復雜程度較低的1 級和2級所占比例較大(共計71.6%),且占比較接近。隨著復雜程度增加,案例占比依次減小,其中復雜程度最高的4 級場景占比最小(1.6%),符合真實交通事故場景分布規律。
由場景復雜程度評價結果,按場景復雜等級分別對670 例車—車場景的13 項變量數據進行統計,以具有明顯占比優勢的變量水平作為場景特征,各等級場景主要特征占比如表7 所示,其中“其他”為單個變量其余水平占比總和。

表7 場景特征提取
從各復雜等級場景特征最高占比情況來看,1 級復雜場景以白天城市道路路口的垂向沖突形式為代表,復雜等級為2 級的場景以路口對向沖突為主,1、2 級場景的主車行駛速度相對較低;而3 級、4 級復雜場景主要發生在夜間高速公路,分別以同向追尾和向右變道為代表,主車行駛速度相對較高;隨著復雜度增加,主車碰撞速度主要分布區間由1 級的20~40 km/h 增長到4級的80~100 km/h,而4 級復雜場景中目標車碰撞速度降低到0~20 km/h,且目標車以重型貨車占比最多,對于同向行駛車輛發生的碰撞事故而言,由于相對速度較大導致事故后果較嚴重。
從事故后果嚴重程度方面,統計不同復雜度場景的傷亡情況發現,1 級和2 級復雜場景事故死亡率分別為1.6%、28.7%,復雜等級為3 級的場景事故死亡率為69.8%,4 級復雜場景事故死亡率為90.9%。4 級復雜場景占比最小(1.6%),但死亡率高達90%以上。結合相應場景特征,這類高復雜度且事故后果嚴重程度較高的場景值得重點關注。
本文基于信息熵理論,從事故場景主車信息、目標車信息、道路信息與環境信息4 個維度提取變量,通過邏輯回歸分析模型獲取優勢比確定變量各水平復雜度,利用BP 神經網絡算法得到各維度及變量權重,綜合加權建立車-車事故場景復雜度模型。基于復雜度評價模型計算670 例案例的場景復雜度指數,在此基礎上運用K-means 聚類方法聚類得到了4 個場景復雜等級,復雜等級為1 級和2 級的比例較大且較接近,復雜等級最高的場景占比最小。對13 項變量數據及傷亡情況進行統計,得到各復雜度場景具有明顯占比優勢的場景特征。4 級復雜場景占比1.6%,但死亡率高達90.9%,此類場景值得重點關注。本研究結果可為面向自動駕駛的車-車仿真測試場景的選取提供依據和方向,具有一定實際意義。