黃耀鵬


在高速公路上,按照美國國家公路交通安全管理局(NHTSA)劃分的標準,擁有L1、L2級輔助駕駛的車輛,看起來和其他車輛沒什么區別。L4級則完全無須人工干預,自主駛向目的地。所有自動駕駛項目的終極目標都是L4級無人駕駛系統。
不過,指望無人系統“無師自通”是難以如愿的。無人系統就像剛出生的嬰兒一樣,擁有用于感知外界環境的“感官”(攝像頭、毫米波雷達、激光雷達),也擁有高速大腦(計算單元、圖像處理單元),但“大腦”功能尚在分化中,需要教它識別環境中一切可能出現的人和物體。是的,你沒看錯,是一切可能。
如何識別
教無人系統分辨道路和其他可能遇到的一切,是訓練的第一步。就像教嬰兒看圖識物一樣。因為圖像的信息太豐富,難以建模,深度學習似乎能發揮特殊優勢。
深度學習既可以用于感知,也可以用于決策。比如AlphaGo的走子網絡,就是一套DNN訓練系統。用最簡單的話說,就是根據當前狀態做出決策。它的設計者和訓練師不是要教它決策(事實上人類不知道系統將如何決策),而是教它一些基本知識。
首先,在一大批車的圖像中提取基本特征,比如車的正面和側面大致的幾何形狀,令系統分辨出車的左側和右側(用不同特征標記)。
有了連續多幀的圖像,根據其間的連續變化,可以分辨車的行駛方向。并可以辨識出遠處視野中很小的車輛,比任何人類都看得遠、看得清楚。如何評估它們對自身的影響,將放在后面訓練。
其次,傳統圖像中,路肩和馬路本身顏色難以區分、立體視覺也很難辨別(畢竟高程差太小)。人類是如何輕易識別的?靠陰影。區區10厘米的路肩,將形成一條連續暗色的窄帶區域。系統,你學會了嗎?
用連續窄帶陰影(斷開的個別路段,正好可以做高危提醒信號),結合道線識別,勾勒出可行駛區域。
看上去很完美,可是有時候沒有道線,或者由于天氣原因道線難以識別,可以用人類在缺乏道線標識的情景下開車圖像,來讓系統學習人類是如何駕駛的,系統可以從大量的視頻中(實際上是多幀圖像)提取出人類策略,并加以優化。
因此,我們看到系統和明智的人類駕駛員,采取幾乎相同的步驟,只不過判斷更果斷迅捷。
訓練開始
當無人系統具備了辨識能力之后,它需要面對兩類場景:一類是真實世界,另一類是數字世界。從前者取得“實操”經驗后,在后者里面變換各種條件(比如將障礙物移動位置、讓行人的行為更加不可預測),不斷磨練應對策略,直到最優。
我們可能需要從更簡單的情況開始,譬如在高速路上超車和并道,只涉及兩輛車。A車搭載無人系統,B車將作為阻礙出現。
當A車以90公里的速度在內側道路直行,右側B車猛然超車并到A車前方,并且緊接著剎車。A車能否迅速、平穩地剎車,同時還要給后面車輛留出足夠的剎車時間?
讓我們將情況復雜一點:高速多車并道,遇到在車道上后退車輛、路上突然出現滾動的籃球或者從隔離帶上突然躥出行人,以考核無人系統的應對是否得當。
值得指出的是,軟件設計師并不預先設定無人系統將如何應對,他們也無法在程序中窮盡所有情景。他們只希望無人系統在數萬種情景中提煉出方法,以便在“超綱”情景中也能做出理智決策。
逐漸擴張
為了加速訓練,有必要創造出虛擬世界(城市),模擬數萬個無人系統在其中日夜奔跑。軟件完善后,虛擬空間的設定越來越宏大、場景越來越復雜,直到像一個真實的城市。
一方面,訓練師可以看到無人系統所能“看”到的一切,另一種視角下,人類也能俯瞰整個數字世界,監視無人系統之間的復雜互動。真實場景以數字化方式呈現在無人系統感官世界里,從人類的角度看,不能分辨是虛擬的場景,還是無人系統真的“看”到了這一切。
Waymo的專家們吹噓他們是惟一一個采用“加速訓練系統”的公司,實際上,福特、優步和通用也都在硅谷建立了類似的訓練系統。Waymo只不過是開始得最早的一個。當然,他們取得的數據也是最多的。不過,大家對各自的訓練效果以及如何改進,都秘而不宣。
有人認為,一旦無人系統在虛擬城市中的數量達到數百萬個,其群體行為模式,已經非常接近真實的超級城市日常。而在其背后,必須部署足夠的實際車輛和傳感器,建立公路數據庫。完全依靠虛擬場景訓練出來的無人系統,可能面對真實路況時表現“不大一樣”。
訓練雖然開始時借鑒了人類司機應對的場景,但最終人工智能可能會采取不同的策略。無人系統對人類行為理解得更深刻,反過來促使它形成自己的駕駛風格。令人吃驚的是,無人系統面對另一個無人系統時采取的策略,與它面對人類駕駛車輛時不一樣,雖然都以乘客的安全作為最高準則。
這意味著,無人系統統治整個城市的時候,可能自發形成全新的交通準則,且更高效、更默契。人類在上百年汽車時代所積累并奉為圭臬的準則,很可能被替代。但這不是令人悲傷的故事。就像人類最終不再掌握方向盤一樣。