■ 文 /王 捷 楚天舒
王捷,斯坦福大學(xué)咨詢教授,斯坦福可持續(xù)發(fā)展與全球競(jìng)爭(zhēng)力中心執(zhí)行主任。
楚天舒,斯坦福大學(xué)博士。
強(qiáng)化學(xué)習(xí)在大規(guī)模交通信號(hào)燈控制系統(tǒng)中的成功應(yīng)用,將成為普適性人工智能發(fā)展道路上的一座里程碑。
近幾年,隨著深度學(xué)習(xí)的興起,機(jī)器學(xué)習(xí)正在進(jìn)入飛速成長(zhǎng)期。除了學(xué)術(shù)界,DeepMind、OpenAI等新興公司也投入了大量人力和財(cái)力研究。作為機(jī)器學(xué)習(xí)的一個(gè)分支,強(qiáng)化學(xué)習(xí)讓基于數(shù)據(jù)的控制決策學(xué)習(xí)成為可能。如今,強(qiáng)化學(xué)習(xí)展現(xiàn)出對(duì)海量訓(xùn)練數(shù)據(jù)驚人的學(xué)習(xí)能力,讓其在越來(lái)越多的領(lǐng)域被嘗試和接受。這種影響也滲透到了像交通信號(hào)燈控制等傳統(tǒng)控制領(lǐng)域。實(shí)時(shí)的交通數(shù)據(jù)監(jiān)測(cè)讓基于強(qiáng)化學(xué)習(xí)的智能交通信號(hào)燈控制成為可能。

強(qiáng)化學(xué)習(xí)受啟發(fā)于動(dòng)物的學(xué)習(xí)過(guò)程:不斷地對(duì)環(huán)境進(jìn)行探索并基于結(jié)果的好壞來(lái)修正特定的行為。強(qiáng)化學(xué)習(xí)的理論原型最早在1951年由美國(guó)計(jì)算機(jī)科學(xué)家馬爾溫·明斯基(Marvin Minsky)等提出,他們建立了一個(gè)簡(jiǎn)單的算法來(lái)模擬老鼠走出迷宮的行為。之后的又一次突破發(fā)生在1992年,IBM公司的研究員杰拉爾德·特索羅(Gerald Tesauro)利用足夠多的試錯(cuò)來(lái)訓(xùn)練計(jì)算機(jī)程序玩西洋雙陸棋。然而,當(dāng)時(shí)的強(qiáng)化學(xué)習(xí)受限于算法本身的設(shè)計(jì),很難應(yīng)用到復(fù)雜的控制決策問(wèn)題中。
直到2016年,DeepMind公司將強(qiáng)化學(xué)習(xí)與近幾年發(fā)展起來(lái)的深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,數(shù)以萬(wàn)計(jì)的權(quán)值(weight)讓強(qiáng)化學(xué)習(xí)擁有了驚人的能力。這讓人們對(duì)強(qiáng)化學(xué)習(xí)在實(shí)際控制中的應(yīng)用有了更多的期待。事實(shí)上,強(qiáng)化學(xué)習(xí)已被應(yīng)用于工業(yè)機(jī)器人、無(wú)人車、數(shù)據(jù)中心冷卻等多個(gè)領(lǐng)域,并取得了可觀的成績(jī)。然而,目前強(qiáng)化學(xué)習(xí)在實(shí)際控制領(lǐng)域的應(yīng)用還處于試驗(yàn)性階段。首先,這種純基于數(shù)據(jù)的決策方法始終存在不穩(wěn)定性和安全隱患,尤其像神經(jīng)網(wǎng)絡(luò)這種“黑箱”學(xué)習(xí)模型。其次,強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過(guò)程需要大量數(shù)據(jù)和時(shí)間。這些數(shù)據(jù)往往通過(guò)仿真獲取,所以其結(jié)果依賴于仿真的真實(shí)性。此外,強(qiáng)化學(xué)習(xí)依賴于明確定義的單一反饋信號(hào),無(wú)法真實(shí)反映控制系統(tǒng)的全面情況。
信號(hào)燈是城市交通控制的主要手段。它的發(fā)展歷史可以追溯到1914年,之后的控制方式并沒有顯著的革新,其演化過(guò)程大致可以分為3個(gè)階段。在第一階段,信號(hào)燈的控制方案是預(yù)先設(shè)計(jì)好的,在很長(zhǎng)時(shí)間內(nèi)固定不變。專家們通過(guò)數(shù)學(xué)統(tǒng)計(jì)模型對(duì)歷史交通數(shù)據(jù)做出分析,并以此來(lái)設(shè)計(jì)較優(yōu)的信號(hào)燈控制方案。TRANSYT(Traffic Network Study Tool)系統(tǒng)便是采用了這樣的方法來(lái)計(jì)算城市交通網(wǎng)中信號(hào)燈的配時(shí)方案。
信號(hào)燈控制發(fā)展的第二階段始于20世紀(jì)80年代。人們開始利用一些裝置(如環(huán)形探測(cè)器)對(duì)交通流量進(jìn)行實(shí)時(shí)監(jiān)測(cè),并基于觀測(cè)的數(shù)據(jù)對(duì)信號(hào)燈控制進(jìn)行簡(jiǎn)單的調(diào)控。一些成功的產(chǎn)品,例如SCOOT(Split Cycle Offset Optimizing Technique)和SCATS(Sydney Coordinated Adaptive Traffic System),在全世界幾百個(gè)城市都有使用,并沿用至今。
第三階段始于20世紀(jì)90年代,計(jì)算機(jī)技術(shù)的發(fā)展使得智能信號(hào)燈控制的概念逐步推廣開來(lái)。智能信號(hào)燈通過(guò)運(yùn)用人工智能或仿生學(xué)優(yōu)化算法實(shí)現(xiàn)交通數(shù)據(jù)利用的最大化。雖然各種優(yōu)化算法百家爭(zhēng)鳴,但很多算法目前尚處于仿真試驗(yàn)性階段,并沒有實(shí)際應(yīng)用。常見的智能信號(hào)燈控制算法有模糊邏輯、遺傳算法、集群智能和強(qiáng)化學(xué)習(xí)等。
強(qiáng)化學(xué)習(xí)在一些控制應(yīng)用中取得了令人矚目的成績(jī)。例如,DeepMind公司研發(fā)的AlphaGo在2016年擊敗了世界著名的圍棋大師李世石,在2017年舉行的雙人圍棋比賽中又展現(xiàn)出人機(jī)配合的能力;谷歌公司利用強(qiáng)化學(xué)習(xí)來(lái)管理數(shù)據(jù)中心的冷卻系統(tǒng),比傳統(tǒng)的控制方案降低了約40%的成本。但是,要將強(qiáng)化學(xué)習(xí)應(yīng)用到交通信號(hào)燈控制中,還面臨一些新的挑戰(zhàn)。
在強(qiáng)化學(xué)習(xí)的主要應(yīng)用領(lǐng)域,學(xué)習(xí)所需的數(shù)據(jù)類型在每一決策時(shí)刻都是單一的:或是圖片信息,或是語(yǔ)音信息,或是觀測(cè)信息……但是,城市交通網(wǎng)是個(gè)多元的控制系統(tǒng),路網(wǎng)信息、起訖點(diǎn)分布、交通流變化等各種類型的數(shù)據(jù)流錯(cuò)綜復(fù)雜,如何通過(guò)專業(yè)知識(shí)或深度神經(jīng)網(wǎng)絡(luò)來(lái)設(shè)計(jì)合適的特征值和學(xué)習(xí)模型來(lái)挖掘城市交通的空間和時(shí)間動(dòng)態(tài)變化將會(huì)變得更有挑戰(zhàn)性。
強(qiáng)化學(xué)習(xí)是完全基于數(shù)據(jù)的優(yōu)化控制算法,所以觀測(cè)數(shù)據(jù)的誤差會(huì)影響實(shí)時(shí)的控制。交通控制中的這種不穩(wěn)定性和安全隱患會(huì)造成重大事故。因此,比起單純的強(qiáng)化學(xué)習(xí),與專業(yè)知識(shí)相結(jié)合的混合型控制算法更符合實(shí)際應(yīng)用的需求。
城市信號(hào)燈系統(tǒng)是一個(gè)龐大復(fù)雜的網(wǎng)絡(luò)。因此,我們不可能也不需要訓(xùn)練一個(gè)復(fù)雜的集控式學(xué)習(xí)單體,基于所有交通網(wǎng)的信息,學(xué)習(xí)一個(gè)全局的控制方案。更自然、更有效的方法是將每個(gè)路口當(dāng)作一個(gè)相對(duì)簡(jiǎn)單的分控式學(xué)習(xí)單體來(lái)訓(xùn)練,然后根據(jù)交通的擁堵程度來(lái)形成多學(xué)習(xí)單體間的協(xié)同控制。
強(qiáng)化學(xué)習(xí)在交通信號(hào)燈應(yīng)用中的挑戰(zhàn)主要來(lái)自交通網(wǎng)的大規(guī)模度和高復(fù)雜度。所以,一些處理大數(shù)據(jù)的方法論,例如分布并行計(jì)算,對(duì)設(shè)計(jì)高效率的強(qiáng)化學(xué)習(xí)算法有一定的啟發(fā)。從某種角度講,城市交通網(wǎng)中實(shí)時(shí)的交通觀測(cè)數(shù)據(jù)具有數(shù)據(jù)量龐大、采集速度快、數(shù)據(jù)種類繁多等特征,其本身就是大數(shù)據(jù)。換言之,強(qiáng)化學(xué)習(xí)在交通信號(hào)燈控制中的挑戰(zhàn),也是基于特定格局的大數(shù)據(jù)的強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。
由于強(qiáng)化學(xué)習(xí)是定義在馬爾可夫決策過(guò)程的框架下,其本身?yè)碛袑?duì)環(huán)境的可預(yù)測(cè)性和自適應(yīng)性,所以當(dāng)前最大的難題便是如何提高學(xué)習(xí)模型對(duì)高頻率、大規(guī)模實(shí)時(shí)交通數(shù)據(jù)的處理能力,并在學(xué)習(xí)優(yōu)化控制方案過(guò)程中平衡好對(duì)大數(shù)據(jù)的探索和利用。后者與如何提高深度學(xué)習(xí)的學(xué)習(xí)(訓(xùn)練)效率有著共同點(diǎn),在這兩年也被廣泛地研究。例如,2016年DeepMind公司提出的異步優(yōu)勢(shì)決策評(píng)估模型,可同時(shí)維護(hù)一個(gè)全局深度神經(jīng)網(wǎng)絡(luò)和若干個(gè)局部深度神經(jīng)網(wǎng)絡(luò)。在每一輪的訓(xùn)練數(shù)據(jù)搜索中,全局深度神經(jīng)網(wǎng)絡(luò)將已習(xí)得的權(quán)值復(fù)制給每個(gè)局部神經(jīng)網(wǎng)絡(luò),從而可以對(duì)不同的局部環(huán)境同時(shí)進(jìn)行多線程探索。然后,每個(gè)局部神經(jīng)網(wǎng)絡(luò)根據(jù)自己觀測(cè)的訓(xùn)練數(shù)據(jù)來(lái)計(jì)算局部的學(xué)習(xí)梯度。最后,所有的梯度將會(huì)被收集匯總,來(lái)更新全局神經(jīng)網(wǎng)絡(luò)的權(quán)值。這種訓(xùn)練方式大大提高了強(qiáng)化學(xué)習(xí)的收斂速度。這與大數(shù)據(jù)中并行計(jì)算的想法不謀而合。
總之,因?yàn)槌鞘薪煌ňW(wǎng)的龐大和復(fù)雜性,強(qiáng)化學(xué)習(xí)在交通信號(hào)燈控制中的應(yīng)用仍是任重道遠(yuǎn)。如何將機(jī)器學(xué)習(xí)與交通大數(shù)據(jù)進(jìn)行有效的結(jié)合是解決這一挑戰(zhàn)的關(guān)鍵。另一方面,信號(hào)燈網(wǎng)絡(luò)是極具代表性的復(fù)雜控制系統(tǒng),也展現(xiàn)出了所有可能的空間時(shí)間信息類型。因此,強(qiáng)化學(xué)習(xí)在大規(guī)模交通信號(hào)燈控制中的成功應(yīng)用,將成為普適性人工智能發(fā)展道路上的一座里程碑。