機(jī)器學(xué)習(xí)與交通大數(shù)據(jù)

2017-05-12 03:37:12楚天舒

張江科技評(píng)論 2017年2期

關(guān)鍵詞：深度

■ 文 /王捷楚天舒

王捷，斯坦福大學(xué)咨詢教授，斯坦福可持續(xù)發(fā)展與全球競(jìng)爭(zhēng)力中心執(zhí)行主任。

楚天舒，斯坦福大學(xué)博士。

強(qiáng)化學(xué)習(xí)在大規(guī)模交通信號(hào)燈控制系統(tǒng)中的成功應(yīng)用，將成為普適性人工智能發(fā)展道路上的一座里程碑。

近幾年，隨著深度學(xué)習(xí)的興起，機(jī)器學(xué)習(xí)正在進(jìn)入飛速成長(zhǎng)期。除了學(xué)術(shù)界，DeepMind、OpenAI等新興公司也投入了大量人力和財(cái)力研究。作為機(jī)器學(xué)習(xí)的一個(gè)分支，強(qiáng)化學(xué)習(xí)讓基于數(shù)據(jù)的控制決策學(xué)習(xí)成為可能。如今，強(qiáng)化學(xué)習(xí)展現(xiàn)出對(duì)海量訓(xùn)練數(shù)據(jù)驚人的學(xué)習(xí)能力，讓其在越來(lái)越多的領(lǐng)域被嘗試和接受。這種影響也滲透到了像交通信號(hào)燈控制等傳統(tǒng)控制領(lǐng)域。實(shí)時(shí)的交通數(shù)據(jù)監(jiān)測(cè)讓基于強(qiáng)化學(xué)習(xí)的智能交通信號(hào)燈控制成為可能。

強(qiáng)化學(xué)習(xí)日新月異

強(qiáng)化學(xué)習(xí)受啟發(fā)于動(dòng)物的學(xué)習(xí)過(guò)程：不斷地對(duì)環(huán)境進(jìn)行探索并基于結(jié)果的好壞來(lái)修正特定的行為。強(qiáng)化學(xué)習(xí)的理論原型最早在1951年由美國(guó)計(jì)算機(jī)科學(xué)家馬爾溫·明斯基（Marvin Minsky）等提出，他們建立了一個(gè)簡(jiǎn)單的算法來(lái)模擬老鼠走出迷宮的行為。之后的又一次突破發(fā)生在1992年，IBM公司的研究員杰拉爾德·特索羅（Gerald Tesauro）利用足夠多的試錯(cuò)來(lái)訓(xùn)練計(jì)算機(jī)程序玩西洋雙陸棋。然而，當(dāng)時(shí)的強(qiáng)化學(xué)習(xí)受限于算法本身的設(shè)計(jì)，很難應(yīng)用到復(fù)雜的控制決策問(wèn)題中。

直到2016年，DeepMind公司將強(qiáng)化學(xué)習(xí)與近幾年發(fā)展起來(lái)的深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，數(shù)以萬(wàn)計(jì)的權(quán)值（weight）讓強(qiáng)化學(xué)習(xí)擁有了驚人的能力。這讓人們對(duì)強(qiáng)化學(xué)習(xí)在實(shí)際控制中的應(yīng)用有了更多的期待。事實(shí)上，強(qiáng)化學(xué)習(xí)已被應(yīng)用于工業(yè)機(jī)器人、無(wú)人車、數(shù)據(jù)中心冷卻等多個(gè)領(lǐng)域，并取得了可觀的成績(jī)。然而，目前強(qiáng)化學(xué)習(xí)在實(shí)際控制領(lǐng)域的應(yīng)用還處于試驗(yàn)性階段。首先，這種純基于數(shù)據(jù)的決策方法始終存在不穩(wěn)定性和安全隱患，尤其像神經(jīng)網(wǎng)絡(luò)這種“黑箱”學(xué)習(xí)模型。其次，強(qiáng)化學(xué)習(xí)模型的訓(xùn)練過(guò)程需要大量數(shù)據(jù)和時(shí)間。這些數(shù)據(jù)往往通過(guò)仿真獲取，所以其結(jié)果依賴于仿真的真實(shí)性。此外，強(qiáng)化學(xué)習(xí)依賴于明確定義的單一反饋信號(hào),無(wú)法真實(shí)反映控制系統(tǒng)的全面情況。

信號(hào)燈發(fā)展簡(jiǎn)史

信號(hào)燈是城市交通控制的主要手段。它的發(fā)展歷史可以追溯到1914年，之后的控制方式并沒有顯著的革新，其演化過(guò)程大致可以分為3個(gè)階段。在第一階段，信號(hào)燈的控制方案是預(yù)先設(shè)計(jì)好的，在很長(zhǎng)時(shí)間內(nèi)固定不變。專家們通過(guò)數(shù)學(xué)統(tǒng)計(jì)模型對(duì)歷史交通數(shù)據(jù)做出分析，并以此來(lái)設(shè)計(jì)較優(yōu)的信號(hào)燈控制方案。TRANSYT（Traffic Network Study Tool）系統(tǒng)便是采用了這樣的方法來(lái)計(jì)算城市交通網(wǎng)中信號(hào)燈的配時(shí)方案。

信號(hào)燈控制發(fā)展的第二階段始于20世紀(jì)80年代。人們開始利用一些裝置（如環(huán)形探測(cè)器）對(duì)交通流量進(jìn)行實(shí)時(shí)監(jiān)測(cè)，并基于觀測(cè)的數(shù)據(jù)對(duì)信號(hào)燈控制進(jìn)行簡(jiǎn)單的調(diào)控。一些成功的產(chǎn)品，例如SCOOT（Split Cycle Offset Optimizing Technique）和SCATS(Sydney Coordinated Adaptive Traffic System)，在全世界幾百個(gè)城市都有使用，并沿用至今。

第三階段始于20世紀(jì)90年代，計(jì)算機(jī)技術(shù)的發(fā)展使得智能信號(hào)燈控制的概念逐步推廣開來(lái)。智能信號(hào)燈通過(guò)運(yùn)用人工智能或仿生學(xué)優(yōu)化算法實(shí)現(xiàn)交通數(shù)據(jù)利用的最大化。雖然各種優(yōu)化算法百家爭(zhēng)鳴，但很多算法目前尚處于仿真試驗(yàn)性階段，并沒有實(shí)際應(yīng)用。常見的智能信號(hào)燈控制算法有模糊邏輯、遺傳算法、集群智能和強(qiáng)化學(xué)習(xí)等。

強(qiáng)化學(xué)習(xí)在信號(hào)燈控制中的機(jī)遇和挑戰(zhàn)

強(qiáng)化學(xué)習(xí)在一些控制應(yīng)用中取得了令人矚目的成績(jī)。例如，DeepMind公司研發(fā)的AlphaGo在2016年擊敗了世界著名的圍棋大師李世石，在2017年舉行的雙人圍棋比賽中又展現(xiàn)出人機(jī)配合的能力；谷歌公司利用強(qiáng)化學(xué)習(xí)來(lái)管理數(shù)據(jù)中心的冷卻系統(tǒng)，比傳統(tǒng)的控制方案降低了約40%的成本。但是，要將強(qiáng)化學(xué)習(xí)應(yīng)用到交通信號(hào)燈控制中，還面臨一些新的挑戰(zhàn)。

●城市交通網(wǎng)絡(luò)的多元性

在強(qiáng)化學(xué)習(xí)的主要應(yīng)用領(lǐng)域，學(xué)習(xí)所需的數(shù)據(jù)類型在每一決策時(shí)刻都是單一的：或是圖片信息，或是語(yǔ)音信息，或是觀測(cè)信息……但是，城市交通網(wǎng)是個(gè)多元的控制系統(tǒng)，路網(wǎng)信息、起訖點(diǎn)分布、交通流變化等各種類型的數(shù)據(jù)流錯(cuò)綜復(fù)雜，如何通過(guò)專業(yè)知識(shí)或深度神經(jīng)網(wǎng)絡(luò)來(lái)設(shè)計(jì)合適的特征值和學(xué)習(xí)模型來(lái)挖掘城市交通的空間和時(shí)間動(dòng)態(tài)變化將會(huì)變得更有挑戰(zhàn)性。

●觀測(cè)數(shù)據(jù)存在誤差

強(qiáng)化學(xué)習(xí)是完全基于數(shù)據(jù)的優(yōu)化控制算法，所以觀測(cè)數(shù)據(jù)的誤差會(huì)影響實(shí)時(shí)的控制。交通控制中的這種不穩(wěn)定性和安全隱患會(huì)造成重大事故。因此，比起單純的強(qiáng)化學(xué)習(xí)，與專業(yè)知識(shí)相結(jié)合的混合型控制算法更符合實(shí)際應(yīng)用的需求。

●多學(xué)習(xí)單體間的協(xié)同控制

城市信號(hào)燈系統(tǒng)是一個(gè)龐大復(fù)雜的網(wǎng)絡(luò)。因此，我們不可能也不需要訓(xùn)練一個(gè)復(fù)雜的集控式學(xué)習(xí)單體，基于所有交通網(wǎng)的信息，學(xué)習(xí)一個(gè)全局的控制方案。更自然、更有效的方法是將每個(gè)路口當(dāng)作一個(gè)相對(duì)簡(jiǎn)單的分控式學(xué)習(xí)單體來(lái)訓(xùn)練，然后根據(jù)交通的擁堵程度來(lái)形成多學(xué)習(xí)單體間的協(xié)同控制。

大數(shù)據(jù)強(qiáng)化學(xué)習(xí)的未來(lái)發(fā)展

強(qiáng)化學(xué)習(xí)在交通信號(hào)燈應(yīng)用中的挑戰(zhàn)主要來(lái)自交通網(wǎng)的大規(guī)模度和高復(fù)雜度。所以，一些處理大數(shù)據(jù)的方法論，例如分布并行計(jì)算，對(duì)設(shè)計(jì)高效率的強(qiáng)化學(xué)習(xí)算法有一定的啟發(fā)。從某種角度講，城市交通網(wǎng)中實(shí)時(shí)的交通觀測(cè)數(shù)據(jù)具有數(shù)據(jù)量龐大、采集速度快、數(shù)據(jù)種類繁多等特征，其本身就是大數(shù)據(jù)。換言之，強(qiáng)化學(xué)習(xí)在交通信號(hào)燈控制中的挑戰(zhàn)，也是基于特定格局的大數(shù)據(jù)的強(qiáng)化學(xué)習(xí)的挑戰(zhàn)。

由于強(qiáng)化學(xué)習(xí)是定義在馬爾可夫決策過(guò)程的框架下，其本身?yè)碛袑?duì)環(huán)境的可預(yù)測(cè)性和自適應(yīng)性，所以當(dāng)前最大的難題便是如何提高學(xué)習(xí)模型對(duì)高頻率、大規(guī)模實(shí)時(shí)交通數(shù)據(jù)的處理能力，并在學(xué)習(xí)優(yōu)化控制方案過(guò)程中平衡好對(duì)大數(shù)據(jù)的探索和利用。后者與如何提高深度學(xué)習(xí)的學(xué)習(xí)（訓(xùn)練）效率有著共同點(diǎn)，在這兩年也被廣泛地研究。例如，2016年DeepMind公司提出的異步優(yōu)勢(shì)決策評(píng)估模型，可同時(shí)維護(hù)一個(gè)全局深度神經(jīng)網(wǎng)絡(luò)和若干個(gè)局部深度神經(jīng)網(wǎng)絡(luò)。在每一輪的訓(xùn)練數(shù)據(jù)搜索中，全局深度神經(jīng)網(wǎng)絡(luò)將已習(xí)得的權(quán)值復(fù)制給每個(gè)局部神經(jīng)網(wǎng)絡(luò)，從而可以對(duì)不同的局部環(huán)境同時(shí)進(jìn)行多線程探索。然后，每個(gè)局部神經(jīng)網(wǎng)絡(luò)根據(jù)自己觀測(cè)的訓(xùn)練數(shù)據(jù)來(lái)計(jì)算局部的學(xué)習(xí)梯度。最后，所有的梯度將會(huì)被收集匯總，來(lái)更新全局神經(jīng)網(wǎng)絡(luò)的權(quán)值。這種訓(xùn)練方式大大提高了強(qiáng)化學(xué)習(xí)的收斂速度。這與大數(shù)據(jù)中并行計(jì)算的想法不謀而合。

總之，因?yàn)槌鞘薪煌ňW(wǎng)的龐大和復(fù)雜性，強(qiáng)化學(xué)習(xí)在交通信號(hào)燈控制中的應(yīng)用仍是任重道遠(yuǎn)。如何將機(jī)器學(xué)習(xí)與交通大數(shù)據(jù)進(jìn)行有效的結(jié)合是解決這一挑戰(zhàn)的關(guān)鍵。另一方面，信號(hào)燈網(wǎng)絡(luò)是極具代表性的復(fù)雜控制系統(tǒng)，也展現(xiàn)出了所有可能的空間時(shí)間信息類型。因此，強(qiáng)化學(xué)習(xí)在大規(guī)模交通信號(hào)燈控制中的成功應(yīng)用，將成為普適性人工智能發(fā)展道路上的一座里程碑。