王坤峰 茍 超,2 王飛躍,3
平行視覺:基于ACP的智能視覺計算方法
王坤峰1茍 超1,2王飛躍1,3
在視覺計算研究中,對復雜環境的適應能力通常決定了算法能否實際應用,已經成為該領域的研究焦點之一.由人工社會(Artificial societies)、計算實驗(Computational experiments)、平行執行(Parallel execution)構成的ACP理論在復雜系統建模與調控中發揮著重要作用.本文將ACP理論引入智能視覺計算領域,提出平行視覺的基本框架與關鍵技術.平行視覺利用人工場景來模擬和表示復雜挑戰的實際場景,通過計算實驗進行各種視覺模型的訓練與評估,最后借助平行執行來在線優化視覺系統,實現對復雜環境的智能感知與理解.這一虛實互動的視覺計算方法結合了計算機圖形學、虛擬現實、機器學習、知識自動化等技術,是視覺系統走向應用的有效途徑和自然選擇.
平行視覺,復雜環境,ACP理論,數據驅動,虛實互動
引用格式王坤峰,茍超,王飛躍.平行視覺:基于ACP的智能視覺計算方法.自動化學報,2016,42(10):1490-1500
何謂平行視覺?為什么要研究發展平行視覺?
平行視覺是復雜系統建模與調控的ACP(Artificial societies,computational experiments,and parallel execution)理論[1-3]在視覺計算領域的推廣應用.其核心是利用人工場景來模擬和表示復雜挑戰的實際場景,通過計算實驗進行各種視覺模型的訓練與評估,最后借助虛實互動的平行執行來在線優化視覺模型,實現對復雜環境的智能感知與理解.這一虛實互動的視覺計算方法結合了計算機圖形學、虛擬現實、機器學習、知識自動化等技術,是視覺系統走向應用的有效途徑和自然選擇.
在智能視覺計算研究中,一個受到廣泛關注的問題是算法在復雜環境下的有效性[4-8],它直接決定了算法能否實際應用.以交通環境為例,雨雪霧等惡劣天氣、強陰影、夜間低照度等因素經常導致圖像細節模糊,目標具有各種類型、外觀和運動特征,并且目標之間可能存在遮擋,又進一步增加了視覺算法的設計難度.許多視覺算法沒有經過充分測試,盡管在簡單的受約束環境下有效,但是在實際應用時面對復雜的開放環境,算法很容易失敗[4-8].
在深度學習熱潮之前,傳統視覺計算方法的基本思路是手動設計圖像特征(例如Harr小波、SIFT(Scale invariant feature transform)、HOG(Histogram of oriented gradient)、LBP(Local binary pattern)等),然后利用標記數據集訓練模式分類器(例如SVM(Support vector machine)、Adaboost、隨機森林等),取得了較好的實驗效果(例如DPM(Deformable parts model)目標檢測器[9]).然而由于模型限制,這類方法通常依賴于小規模的標記數據集(例如INRIA Person[10]、Caltech Pedestrian[11]、KITTI[12]等數據集),樣本數大致在幾千到幾十萬之間,難以覆蓋復雜環境對應的特征空間.近年流行的深度學習方法[13-16]具有強大的特征表達能力,能夠利用標記數據集通過端到端訓練(Endto-end training)得到分層特征描述,在圖像分類、目標檢測等競賽中顯著優于傳統方法,并且性能仍在持續提升.深度學習依賴于大規模標記數據集(例如ImageNet[17]、PASCAL VOC[18]、MS COCO[19]等),樣本數通常在百萬級以上,能夠覆蓋更大的特征空間.
由于實際環境的復雜性,為了建立有效的視覺模型,不但要求標記數據集規模足夠大,還要求具有足夠的多樣性(Diversity).ImageNet等數據集盡管規模龐大,卻并不滿足多樣性要求,不能覆蓋復雜挑戰的實際環境.這一狀況來自兩方面原因.1)在復雜環境下采集大規模多樣性數據集需要耗費大量人力,目前ImageNet[17]主要從Internet上搜集圖像,但是網絡空間與物理空間并不等價[20].2)對大規模多樣性數據集進行標注需要耗費大量人力并且容易出錯,尤其在惡劣天氣、夜間低照度等環境下,由于圖像細節模糊,由人眼觀察標注圖像中的目標位置、姿態、運動軌跡都很困難.標記數據集的不足,降低了視覺模型的泛化能力,無法保證實際應用時的有效性.
為了解決大規模多樣性數據集的采集和標注困難,一種可選方案是建立人工場景,模擬和替代復雜挑戰的實際場景,生成人工場景數據集.近年來隨著游戲引擎[21-22]、虛擬現實[23-25]等技術的發展,使構建色彩逼真的人工場景成為可能.利用人工場景,可以模擬實際場景中的各種要素,包括光照時段(白天、夜間、黎明、黃昏)、天氣(晴、多云、雨、雪、霧等)、目標類型(行人、車輛、道路、建筑物、植物等)和子類等.并且可以靈活地設計各種場景類型、目標外觀、目標行為、攝像機配置等.由此可以生成大規模多樣性的視頻圖像數據集,并且可以自動得到精確的標注信息,包括目標位置、運動軌跡、語義分割、深度、光流等.
平行視覺建立在實際場景與人工場景之上,是一種虛實互動的智能視覺計算方法.它借鑒了復雜系統建模與調控的ACP理論[1-3],即人工社會(Artificial societies)、計算實驗(Computational experiments)和平行執行(Parallel execution).通過構建色彩逼真的人工場景,模擬實際場景中可能出現的環境條件,并且自動得到精確的標注信息.結合大規模的人工場景數據集和適當規模的實際場景數據集,能夠訓練出更有效的機器學習和視覺計算模型.利用人工場景,能夠進行各種計算實驗,全面評價視覺算法在復雜環境下的有效性,或者優化設置模型的自由參數.如果將視覺模型在實際場景與人工場景中平行執行,使模型訓練和評估在線化、長期化,則能夠持續優化視覺系統,提高其在復雜環境下的運行效果.
本文其他部分內容安排如下:第1節對相關工作進行綜述;第2節提出平行視覺的基本框架;第3節介紹平行視覺的核心算法和關鍵技術;第4節對本文進行總結,并對平行視覺的發展趨勢進行展望.
正如Bainbridge在Science上發表的論文[21]所述,虛擬世界以視頻游戲和計算機游戲的形式,在視覺上模擬復雜的物理空間,為科學研究提供一個新的環境.構建虛擬世界或人工場景的相關技術正在快速發展,在科學研究、人類生活等方面發揮著重要作用.
科幻電影“阿凡達(Avatar)”以令人震撼的視覺效果,構建了潘多拉星球這一虛擬世界,呈現了參天巨樹、群山、怪獸、Na′vi族人等虛擬對象,給觀眾留下了深刻印象.Miao等[22]提出一種基于游戲引擎的平臺,進行人工交通系統的建模和計算.作者將人工人口設計為游戲中的角色,利用Delta3D游戲引擎構建3D仿真環境,利用Delta3D的動態角色層機制管理所有移動的角色(包括車輛、行人等),設計了一種面向Agent的模塊化分布式仿真平臺.Sewall等[23]提出虛擬化交通(Virtualized traffic)概念,基于離散時空數據來重建和可視化連續交通流,使用戶能夠在虛擬世界中觀看虛擬化交通事件.給定路段上每個車輛的兩個位置點和對應的行駛時間,該方法能夠重建交通流,實現虛擬城市的沉浸式可視化.該方法可應用于高密度交通,包括任意的車道數,同時考慮了車輛的幾何、運動和動態約束.Prendinger等[24]利用Open-StreetMap、CityEngine、Unity3D等軟件構建虛擬生活實驗室(Virtual Living Lab),用于交通仿真和用戶駕駛行為研究.作者基于免費地圖數據生成車輛出行路網,并通過車輛Agent與路段Agent的交互實現環境感知.Karamouzas等[25]提出一種新的行人小群體運動模型,描述群體成員如何與其他成員、其他群體和個體交互,并且通過構建人工場景來驗證所提模型的有效性.這些工作雖然不是直接針對視覺計算研究,但是對人工場景構建很有啟發意義.
構建的人工場景可用于攝像機網絡控制方法研究.Qureshi等[26]利用OpenGL構建虛擬火車站和虛擬行人,并在場景中設置虛擬攝像機,組成攝像機網絡,如圖1所示.該工作建立的人工場景規模較小(最多仿真16臺虛擬攝像機、100個行人),并且逼真度較低,沒有仿真陰影、復雜光照、反射高光等成像細節.作者從人工場景視頻中提取目標檢測和跟蹤信息,在此基礎上研究PTZ攝像機控制算法,包括攝像機指派、交接等.Starzyk等[27]基于Panda3D游戲引擎,設計了一套分布式虛擬視覺仿真器,建立了支持攝像機網絡研究的軟件實驗室.他們仿真辦公室場景,生成人工場景視頻,進行行人檢測、跟蹤等視覺處理.根據視覺分析結果進行攝像機操作,例如攝像機控制、協調、交接等.該系統在多臺計算機上聯網實現,具有較強的可擴展性,能夠仿真大尺度攝像機網絡.作者設計了由100多臺虛擬攝像機組成的視覺網絡.

圖1 虛擬火車站的平面圖[26](包括站臺和火車軌道(左)、主候車室(中)和購物商場(右).該攝像機網絡包括16臺虛擬攝像機)Fig.1 Plan view of the virtual train station[26](Revealing the concourses and train tracks(left),the main waiting room(middle),and the shopping arcade(right).An example camera network comprising 16 virtual cameras is illustrated.)
一些工作基于人工場景數據集進行視覺模型訓練.Sun等[28]利用Google 3D Warehouse獲得目標的3D模型,并通過3D模型旋轉生成2D圖像數據,得到虛擬圖像集.在此基礎上利用判別去相關(Discriminative decorrelation)方法訓練2D目標檢測器,在缺少實際場景標記圖像的情況下進行領域適應.實驗發現,與基于實際圖像集訓練出的目標檢測器相比,他們基于虛擬圖像集的方法能夠獲得類似的精度.Hattori等[29]在缺少實際場景訓練圖像的情況下,完全依靠虛擬數據,訓練面向特定場景(Scene-specific)的行人檢測器.已知場景幾何信息和攝像機標定參數,他們利用Autodesk 3DS Max軟件建立人工場景,生成虛擬行人數據,作為訓練集.他們的行人檢測器在精度上超過了以DPM為代表的通用檢測器(Generic detector),并且超過了基于少量實際行人數據訓練出來的面向特定場景的檢測器.
此外,還有更多的工作結合人工場景數據集和實際場景數據集進行視覺模型訓練.例如,等[30]利用Half-Life 2游戲引擎生成逼真的虛擬世界圖像,訓練行人檢測器.他們發現,基于虛擬世界的訓練能夠在真實世界中產生很高的測試精度,但是存在數據集偏移(Dataset shift)問題.于是他們設計了一種領域適應框架V-AYLA,先基于虛擬世界數據集訓練行人檢測器,然后利用真實世界圖像進行主動學習,發掘困難的正例和反例,迭代調節檢測器參數.與基于大量真實世界標記樣本訓練的檢測器相比,雖然V-AYLA只利用了少量的真實世界標記樣本,卻能夠獲得相同的性能.該研究組進一步提出利用虛擬世界數據集訓練基于DPM的行人檢測器[31].
Gaidon等[32]利用Unity游戲引擎克隆KITTI數據集[12],生成“虛擬KITTI”數據集,并自動生成目標檢測、跟蹤、語義分割、深度和光流的標注信息,如圖2所示.另外,對每段克隆的虛擬視頻,模擬環境條件(包括攝像機朝向、光照和天氣條件等)變化,得到更加多樣化的虛擬數據.他們實驗發現:基于真實數據訓練的深度學習算法,當應用于真實世界和虛擬世界時表現相似;首先利用虛擬KITTI數據做模型預訓練,然后利用真實KITTI數據做模型參數微調,能夠提高性能.他們還將基于真實數據訓練的目標跟蹤器應用于環境條件變化的虛擬視頻,發現光照和天氣條件顯著降低跟蹤性能,惡劣天氣(例如霧天)導致性能的最大下降.對此進一步感興趣的讀者,可以參考項目網址 http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds.

圖2 虛擬KITTI數據集[32](上:KITTI多目標跟蹤數據集中的一幀圖像;中:虛擬KITTI數據集中對應的圖像幀,疊加了被跟蹤目標的標注邊框;下:自動標注的光流(左)、語義分割(中)和深度(右))Fig.2 The virtual KITTI dataset[32].(Top:a frame of a video from the KITTI multi-object tracking benchmark. Middle:the corresponding synthetic frame from the virtual KITTI dataset with automatic tracking ground truth bounding boxes.Bottom:automatically generated ground truth for optical flow(left),semantic segmentation(middle),and depth(right).)
Handa等[33]利用CAD模型倉庫,建立人工室內場景數據集SceneNet,包括床、書、天花板、桌子、椅子、地板、沙發等虛擬對象,自動生成像素級語義標注.他們研究基于深度(Depth)的圖像語義標注,先利用人工場景數據集訓練卷積神經網絡,然后利用實際場景數據集對網絡參數進行微調.實驗發現,雖然只是將深度作為輸入,由于人工場景數據集的輔助,訓練出的CNN(Convolutional neural network)模型達到了接近甚至優于State-of-theart的性能.與此同時,Ros等[34]利用Unity游戲引擎,建立虛擬城市圖像集SYNTHIA,包括街區、高速路、郊區、商店、公園、植物、各種路面、車道標線、交通標志、燈柱、行人、車輛等元素,并且自動生成像素級語義標注,如圖3所示.SYNTHIA中的圖像具有較高的逼真度,可以模擬季節變化(例如冬季地面有雪、春季植物開花等)、動態光照、投射陰影、惡劣天氣等自然現象.由于手動標注圖像語義需要耗費大量人力并且容易出錯,該工作能夠顯著增大訓練數據集的規模和多樣性.他們利用虛擬城市圖像集和真實城市圖像集共同訓練深度卷積神經網絡,實驗結果表明這項工作顯著提高了圖像語義分割的精度.對此進一步感興趣的讀者,可以參考項目網址http://synthia-dataset.net/.

圖3 SYNTHIA數據集[34](左:人工場景中的一幀圖像;中:對應的語義標記;右:虛擬城市的全貌)Fig.3 The SYNTHIA dataset[34](A sample frame(left)with its semantic labels(middle)and a general view of the virtual city(right).)
Movshovitz-Attias等[35]利用3DS MAX軟件和91種精細的3D CAD車輛模型,生成虛擬車輛圖像集RenderCar,并且自動得到精確的視角(Viewpoint)標注.在圖像渲染時考慮了光源的位置、強度和顏色、攝像機的光圈大小、快門速度和鏡頭漸暈效應、復雜背景、圖像噪聲、隨機遮擋等因素,使生成的虛擬圖像非常逼真,同時增加了圖像的多樣性,如圖4所示.作者利用Render-Car、PASCAL3D+、CMU-Car三個圖像集,訓練深度卷積神經網絡,進行目標視角估計.實驗發現,基于虛擬圖像集訓練出的模型與基于真實圖像集訓練出的模型性能相近,都存在數據集偏移問題;如果結合虛擬和真實圖像集,訓練出的模型具有更高的精度.

圖4 RenderCar中的樣本圖像[35]Fig.4 Sample images from RenderCar[35]
還有許多工作利用人工場景數據集進行算法測評,例如利用SABS[36]或BMC[37]數據集驗證背景消減算法、利用CROSS數據集[38]驗證行為分析算法、利用MPI-Sintel數據集[39]評價光流算法、利用虛擬城市和自由女神雕像數據集[40]評價圖像特征、利用OVVV數據集[41]評價跟蹤和監控算法等. Zitnick等[42]利用剪貼畫組合技術創建了1002個語義場景,每個場景包含10個語義相似的抽象圖像,來研究視覺數據的高層語義理解.該方法能夠創建大量語義相似的場景,并且避免了目標檢測錯誤,便于直接進行高層語義研究.作者通過數據集分析,研究了視覺特征的語義重要性、目標的顯著性與可記憶性,以及這些概念之間的關系.Veeravasarapu等[43-44]利用Blender渲染軟件構建人工交通場景,來驗證視覺系統在復雜環境(光照變化、惡劣天氣、高頻噪聲等)下的性能.作者從亮度不變性、梯度不變性、二色大氣散射等角度證明人工場景視頻能夠用于視覺模型訓練和評估,并且以背景消減、行人檢測為例驗證了幾種視覺算法.
綜上所述,近年來平行視覺的相關研究呈現出兩個趨勢.1)開源和商業3D仿真工具越來越豐富,功能也越來越強大,使構建的人工場景越來越逼真.通過對比圖1(2008年成果)和圖2~圖4(2016年成果),可以清晰地感受到這一趨勢.2)對人工場景的構建和利用已經觸及視覺計算研究的方方面面,從低層的光流估計、目標檢測、語義分割等,到中層的目標跟蹤,再到高層的行為分析、語義理解等,虛擬現實和人工場景技術都開始發揮作用.2016年10月召開的歐洲計算機視覺會議(ECCV)將舉行第1屆Virtual/Augmented Reality for Visual Artificial Intelligence研討會,表明該方向已經引起國際同行的重視.但是目前來看,基于人工場景的視覺計算研究工作較為分散,缺少統一的理論支持.因此,本文提出平行視覺的基本框架和關鍵技術,希望能夠為視覺計算研究人員帶來一些啟發,促進該領域更好更快地發展.
王飛躍于2004年提出了復雜系統建模與調控的ACP理論[1-3],即:

ACP理論通過這一組合,將人工的虛擬空間Cyberspace變成解決復雜問題的新的另一半空間,同自然的物理空間一起構成求解復雜問題之完整的“復雜空間”.新興的物聯網、云計算、大數據等技術,是支撐ACP理論的核心技術.從本質上講,ACP的核心就是把復雜系統“虛”的和“軟”的部分建立起來,通過可定量、可實施的計算實驗,使之“硬化”,真正地用于解決實際的復雜問題.在ACP理論的基礎上,形成了實際系統與人工系統并行互動的平行系統.目前,ACP理論和平行系統思想已經在城市交通控制、乙烯生產管理、社會計算等領域獲得示范應用[2-3],其中平行交通被國家發改委列入“互聯網+”便捷交通重點示范項目[45].基于ACP的平行方法在計算機視覺方面,也進行了一些初步的探討[46].
本文提出的平行視覺是ACP理論在視覺計算領域的推廣應用,目標是解決復雜環境“視覺計算方案”的科學難題.圖5顯示了平行視覺的基本框架和體系結構.總體上,平行視覺之ACP由“三步曲”組成.

圖5 平行視覺的基本框架與體系結構Fig.5 Basic framework and architecture for parallel vision
第一步(A步).構建色彩逼真的人工場景,模擬實際場景中可能出現的環境條件,自動得到精確的標注信息,生成大規模多樣性數據集.一定意義下,可以把人工場景看作“視頻游戲”,就是用類似于計算機游戲的技術來建模.這里主要運用了計算機圖形學、虛擬現實、微觀仿真等技術.大體上,可以把計算機圖形學和計算機視覺看作一對正反問題.計算機圖形學是給定3D世界模型及其參數,按照實際攝像機圖像生成的原理和過程,合成出人工場景圖像.而計算機視覺是給定圖像序列,反求3D世界模型、參數和語義信息.平行視覺正是利用了計算機圖形學和計算機視覺之間的這種正反關系.
在許多情況下,由于數據采集和標注困難,從實際場景中無法獲得令人滿意的數據集,影響視覺算法的設計與評估.利用人工場景數據集,可以解決這些問題.首先,借助計算機平臺,人工場景可以提供“無限”規模的數據,通過在圖像生成過程中設定各種物理模型和參數,可以得到“無限”多樣的數據,并且自動生成標注信息,從而滿足對標注數據集的“大規模”和“多樣性”要求.其次,實際場景通常不可重復,而人工場景具有“可重復性”,通過固定一些物理模型和參數,改變另外一些,可以“定制”圖像生成要素,以便從各種角度評價視覺算法.然后,某些實際場景由于特殊性,無法從中獲得實際數據集,人工場景可以避免這一問題.例如為戰場環境設計視覺監控系統,可能無法事先得到敵方活動的視頻圖像,可以在計算機上建立人工場景數據集,對視覺算法進行設計和評估.又例如為火星無人車設計視覺導航系統,我們現在無法獲得火星地面的大規模實際圖像集,可以通過構建人工場景來輔助設計視覺算法.總之,構建人工場景意義重大,能夠為視覺算法設計與評估提供一種可靠的數據來源,是對實際場景數據的有效補充.
第二步(C步).結合人工場景數據集和實際場景數據集,進行各種計算實驗,設計和優化視覺算法,評價視覺算法在復雜環境下的性能.這里主要運用了機器學習、領域適應、統計分析等技術.已有的多數視覺系統,由于應用環境太復雜,沒有經過全面實驗,只是在有限環境下做算法設計和評估,然后不管三七二十一實施了再說,對實施效果卻是“心中無數”.若要視覺系統真正有效,必須在人工場景中進行全面充分的實驗.就是把計算機變成視覺計算“實驗室”,利用人工場景做“計算實驗”,全面設計和評估視覺算法.與基于實際場景的實驗相比,在人工場景中實驗過程可控、可觀、可重復,并且可以真正地產生“大數據”,用于后續的知識提取和算法優化.
計算實驗有兩種操作模式,即學習與訓練、實驗與評估.“學習與訓練”是針對視覺算法設計而言,機器學習是智能視覺計算的核心,無論傳統的統計學習方法(SVM、Adaboost、隨機森林等),還是目前流行的深度學習,主要依靠“Learning from data”,訓練數據集起著至關重要的作用.結合大規模人工場景數據集和適當規模的實際場景數據集,有監督訓練機器學習模型,能夠提高視覺算法的性能.尤其對于深度學習技術,訓練數據增多,性能會更好[47-49].由于機器學習過程中普遍存在數據集偏移問題,即源領域數據和目標領域數據具有不同的統計分布,因此必須進行領域適應.可以首先利用人工場景數據集預訓練模型,然后利用目標領域的實際場景數據集微調模型參數;也可以為人工場景數據和實際場景數據設定比例,同時利用它們訓練模型.“實驗與評估”是針對視覺算法評價而言,也就是利用人工場景數據集(以及實際場景數據集)評價算法的性能.由于可以完全控制人工場景的環境條件(例如光照、天氣、目標外觀和運動等),對視覺算法的測試會更充分,結合統計分析技術,能夠在系統實施之前定量評價視覺算法在各種環境條件下的表現,做到“心中有數”.總之,將計算實驗從實際場景擴展到人工場景,不但拓寬了實驗的廣度,更增加了實驗的深度,有助于提高視覺算法性能.
第三步(P步).將視覺模型在實際場景與人工場景中平行執行,使模型訓練和評估在線化、長期化,通過實際與人工之間的虛實互動和人機混合,持續優化視覺系統.這里主要運用了在線學習、知識自動化等技術.從相關工作綜述可知,許多學者都有類似于ACP的想法,主要集中在前兩步,但是要解決復雜環境的視覺計算問題,“三步曲”缺一不可.由于應用環境的復雜性、挑戰性和變化性,不存在一勞永逸的解決方案.只能接受這些困難,在運行過程中不斷調節和改善,即將虛實互動和人機混合常態化,以平行執行的方式持續優化視覺系統,在復雜環境下進行有效的感知與理解.
平行執行的最大特色是“把人工場景構建在環內”(The artificial scenes are constructed in the loop),依靠數據來驅動.除物理空間的實時視頻數據外,還包括實時光照和天氣條件,以及來自Web和Cyberspace豐富的虛擬對象模型等數據.在海量數據的基礎上,自動生成各種有實際意義的人工場景.在物聯網和云計算技術的支持下,與實際場景對應的人工場景可以有多個,不是為了“復制”或“重建”實際場景,而是為了“預測”、“培育”實際場景的可能存在,為視覺計算增加主動性.通過實際與人工的虛實互動,在線訓練和評估視覺模型,不斷改善視覺系統,一方面提高在當前場景中的運行效果,另一方面為應對未來場景做好準備.總之,平行執行是一種基于大數據,以在線仿真和優化為主要手段的感知與理解復雜環境的方法,它可以實現視覺計算的知識自動化,邁向智能視覺計算.
至此,我們可以進一步明確平行視覺的基本原則:在物理和網絡空間大數據的驅動下,結合計算機圖形學、虛擬現實、機器學習、知識自動化等技術,利用人工場景、計算實驗、平行執行等理論和方法,建立復雜環境下視覺感知與理解的理論和方法體系.
本節分別針對平行視覺之ACP三步曲,提出若干核心算法和關鍵技術,希望為本領域研究人員帶來一些啟發.
3.1人工場景的核心算法和關鍵技術
我們以室外場景為例,對人工場景構建進行說明.首先應當指出,構建人工場景不需要從頭做起,而是借助已有的開源或商業游戲引擎和仿真工具,例如 Unity、Half-Life 2、Delta3D、OpenGL、Panda3D、Google 3D Warehouse、3DS MAX、OVVV、VDrift等.每種工具都有其特點,可以根據具體應用需要進行選擇.
人工場景由許多要素構成,包括靜態物體、動態物體、季節、天氣、光源等.用Agent表示場景要素,按照物理規律進行多Agent仿真.人工室外場景的構成要素如表1所示.可以利用Web空間(例如Google 3D Warehouse)海量且豐富的靜態和動態物體的3D模型.動態物體應具有路徑生成和障礙物規避功能.季節和天氣直接影響人工場景的渲染效果,要求與物理世界的自然規律一致,例如春季植物開花、冬季地面有雪、晴天投射陰影、霧天物體模糊等.白天光源主要是太陽,夜間光源主要是路燈和車燈.從白天向夜間過渡時,會自動開啟路燈和車燈;從夜間向白天過渡時,會自動關閉路燈和車燈.總之,要求人工場景的構成要素盡可能逼真并且多樣化.圖6顯示了同一種車型(貨車)的3D模型樣例.

圖6 貨車的3D模型樣例Fig.6 Sample 3D models of trucks

表1 人工室外場景的構成要素Table 1 Components for artificial outdoor scenes
在人工場景中設置虛擬攝像機,生成人工場景圖像序列.虛擬攝像機可以是槍式、云臺式或全景式.攝像機可以是固定的,例如模擬視頻監控;也可以是移動的,例如模擬自動駕駛或航拍監控.相應地,攝像機位置可以在路口、路段或車載(機載).圖像生成過程是復雜的:光從光源發出,經過大氣散射,到達物體表面;然后,被物體漫反射或鏡面反射,再次經過大氣散射,到達攝像機鏡頭;最后,經過光電轉換,生成數字圖像.每個環節都對最終圖像有所影響,例如光源影響光強和色溫、天氣條件影響大氣散射、物體表面影響光的反射、攝像機影響鏡頭扭曲和圖像噪聲等.要想生成色彩逼真的人工場景圖像,必須模擬所有這些過程.
基于實際場景圖像,難以獲得復雜環境下的目標姿態、運動軌跡、語義分割、深度、光流等標注信息.而人工場景圖像是從3D模型出發,自底向上生成的,因此無論光照和天氣條件多么惡劣,圖像細節多么模糊,都很容易自動得到詳細且精確的標注信息.根據應用需要,標注應該各有不同.但總體上,可以標注的信息包括目標邊框、目標區域、目標類型、目標姿態、運動軌跡、圖像語義分割、深度、光流等.基于上述方法和技術,能夠生成色彩逼真的大規模多樣性人工場景數據集.
3.2計算實驗的核心算法和關鍵技術
利用人工場景數據集,進行各種計算實驗,把計算機變成視覺計算“實驗室”.我們首先為計算實驗的兩種操作模式(學習與訓練、實驗與評估)分別提出一個例子,然后簡要說明更多的實驗思路.
作為第一個例子,復雜交通環境下的目標檢測是一項困難的視覺任務.在實際應用時,光照和天氣條件、目標和背景外觀都很復雜.在白天和夜間,光源不同,光照條件差別很大.在惡劣天氣、夜間低照度、白天強陰影區域等條件下,目標與背景模糊不清.相對于攝像機,目標姿態多樣,并且可能被部分遮擋,為檢測增加了新的難度.在這些因素的綜合影響下,很難設計一個魯棒的目標檢測器.Faster R-CNN[15-16]是目前精度最高且實時性較好的目標檢測器之一,它由區域提議網和深度殘差網組成,二者共用卷積特征,如圖7所示.在文獻[15-16]中,Faster R-CNN利用ImageNet、PASCAL VOC和MS COCO數據集進行學習與訓練.但是這些數據集是從Internet上搜集得到,圖像清晰度較高,缺少惡劣天氣和夜間低照度條件的圖像,因此訓練的模型在實際應用時很可能失敗.而人工場景能夠模擬復雜挑戰的交通環境,提供色彩逼真的大規模多樣性數據集,作為實際場景數據集的補充.結合人工場景數據集和實際場景數據集,共同訓練Faster R-CNN模型,在每一批訓練數據中為人工場景數據和實際場景數據設定比例(例如1:1),在訓練時能夠降低數據集偏移和實現領域適應,生成更加魯棒的目標檢測器.

圖7 Faster R-CNN的結構圖[15]Fig.7 Flowchart of Faster R-CNN[15]
作為另一個例子,智能車視覺系統測評也是一項困難任務.從2009年開始,在國家自然科學基金委的資助下,每年舉辦一次“中國智能車未來挑戰賽”[50].通過在城市和鄉村道路上測試智能車視覺系統的車道識別、障礙物規避、信號燈識別、交通標志識別等功能,促進了中國智能車領域的發展.但是,這種實際場景測試只能覆蓋很小一部分環境條件,是不完備的測試,無法保證視覺系統在實際應用時的有效性.如果建立模擬實際場景的人工場景,“定制”各種場景要素(天氣、光照、路況、交通標志等),則能夠建立更完備的測試數據集,在計算機上測試智能車視覺算法的性能.人工場景測試覆蓋的環境范圍更廣,并且成本更低,可以作為實際場景測試的補充.目前,國家自然科學基金委已經設立相關項目,并取得初步結果[51].
總體上,我們可以面向具體應用,利用人工場景做可控、可觀、可重復的計算實驗,全面設計和評估視覺算法.計算實驗之所以重要,是因為在復雜挑戰的實際場景,難以獲得目標姿態、運動軌跡、語義分割、深度、光流等標注信息.但是人工場景能夠模擬復雜環境,并且自動得到精確的標注信息,使得以前不易進行甚至無法進行的實驗通過計算實驗得以順利進行.在“學習與訓練”操作模式下,結合大規模人工場景數據集和適當規模的實際場景數據集,有監督訓練機器學習模型,優化參數學習和選擇.無論傳統的統計學習模型,還是目前流行的深度學習模型,都可以利用人工場景數據集獲得更好的泛化性,更加勝任復雜環境下的視覺計算任務.在“實驗與評估”操作模式下,利用人工場景數據集(以及一定的實際場景數據集),全面評價視覺算法在復雜環境下的性能.控制人工場景的生成要素,比較算法在各種環境下的性能,生成“算法-環境”性能矩陣,嚴格量化算法性能,可以為算法改進提供客觀依據.
3.3平行執行的核心算法和關鍵技術
將視覺模型在實際場景與人工場景中平行執行,使模型訓練和評估在線化、長期化,是平行視覺的最高階段.在復雜環境下,視覺感知與理解是極其困難的,不存在一勞永逸的解決方案,只能在運行過程中不斷調節和改善,以平行執行的方式持續優化.當系統運行時,在物理和網絡空間大數據的驅動下,能夠把人工場景構建在環內.從實時圖像中(自動或者半自動)獲取場景關鍵要素,包括靜態物體、動態物體、天氣、光照等,結合Web和Cyberspace海量且豐富的虛擬對象模型,在線“培育”各種有實際意義的人工場景.“有實際意義”不是指人工場景必須在外觀上“復制”或“重建”當前的實際場景,而是指人工場景必須與實際場景有相通之處,必須對模型訓練和評估有借鑒意義.在物聯網和云計算技術的支持下,雖然實際場景是唯一的,但是與某個實際場景對應的人工場景可以有多個.當然,也可以多個實際場景共享多個人工場景.因此,實際與人工是一對多、多對多的關系.
在線構建的人工場景提供了“無限”的在線數據,可以用來在線訓練和評估視覺模型.在線數據蘊含了實際場景的動態變化信息,例如場景光照、天氣等條件在不斷變化.在運行過程中,視覺模型不應該一成不變,必須通過計算實驗,隨著場景變化逐漸調節和改善.在“學習與訓練”操作模式下,如果是深度學習模型,可以在線累積人工場景數據,同時隨機選擇離線的實際場景數據,按照一定比例組成每一批訓練數據,有監督微調神經網絡參數,使模型自動適應實際場景的最新變化.在“實驗與評估”操作模式下,利用在線的人工場景數據和實際場景數據,定期評價模型性能.如果模型性能下降較多,則需要增加更多的訓練數據以調節模型,甚至替換成性能表現更好的模型.總之,平行執行將虛實互動常態化,通過對人工場景的在線構建和利用,持續優化視覺系統,實現視覺計算的知識自動化.
本文將ACP理論推廣到視覺計算領域,提出平行視覺的基本框架和關鍵技術.平行視覺在物理和網絡空間大數據的驅動下,結合計算機圖形學、虛擬現實、機器學習、知識自動化等技術,利用人工場景、計算實驗、平行執行等理論和方法,建立復雜環境下視覺感知與理解的理論和方法體系.平行視覺利用人工場景來模擬和表示復雜挑戰的實際場景,使采集和標注大規模多樣性數據集成為可能,通過計算實驗進行視覺算法的設計與評估,最后借助平行執行來在線優化視覺系統.
平行視覺相關研究已經引起國際同行的高度重視.在近幾年召開的計算機視覺重要會議(例如CVPR、ECCV等)上,將計算機圖形學和虛擬現實技術用于解決復雜環境下的視覺計算問題,在論文數量和關注程度上呈現出上升趨勢.隨著虛擬現實技術的進一步發展,構建的人工場景會更加逼真,為平行視覺研究提供更可靠的基礎支撐.我們相信,平行視覺將成為視覺計算領域一個重要的研究方向.尤其是,平行視覺與深度學習相結合,將推動越來越多的智能視覺系統發展成熟并走向應用.
References
1 Wang Fei-Yue.Parallel system methods for management and control of complex systems.Control and Decision,2004,19(5):485-489,514(王飛躍.平行系統方法與復雜系統的管理和控制.控制與決策,2004,19(5):485-489,514)
2 Wang F Y.Parallel control and management for intelligent transportation systems:concepts,architectures,and applications.IEEE Transactions on Intelligent Transportation Systems,2010,11(3):630-638
3 Wang Fei-Yue.Parallel control:a method for data-driven and computational control.Acta Automatica Sinica,2013,39(4):293-302(王飛躍.平行控制:數據驅動的計算控制方法.自動化學報,2013,39(4):293-302)
4 Wang K F,Liu Y Q,Gou C,Wang F Y.A multi-view learning approach to foreground detection for traffic surveillance applications.IEEE Transactions on Vehicular Technology,2016,65(6):4144-4158
5 Wang K F,Yao Y J.Video-based vehicle detection approach with data-driven adaptive neuro-fuzzy networks.International Journal of Pattern Recognition and Artificial Intelligence,2015,29(7):1555015
6 Gou C,Wang K F,Yao Y J,Li Z X.Vehicle license plate recognition based on extremal regions and restricted Boltzmann machines.IEEE Transactions on Intelligent Transportation Systems,2016,17(4):1096-1107
7 Liu Y Q,Wang K F,Shen D Y.Visual tracking based on dynamic coupled conditional random field model.IEEE Transactions on Intelligent Transportation Systems,2016,17(3): 822-833
8 Goyette N,Jodoin P M,Porikli F,Konrad J,Ishwar P. A novel video dataset for change detection benchmarking.IEEE Transactions on Image Processing,2014,23(11): 4663-4679
9 Felzenszwalb P F,Girshick R B,McAllester D,Ramanan D. Object detection with discriminatively trained part-based models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645
10 INRIA person dataset[Online],available:http://pascal.inrialpes.fr/data/human/,September 26,2016.
11 Caltech pedestrian detection benchmark[Online],available: http://www.vision.caltech.edu/Image_Datasets/Caltech-Pedestrians/,September 26,2016.
12 The KITTI vision benchmark suite[Online],available: http://www.cvlibs.net/datasets/kitti/,September 26,2016.
13 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Advances in Neural Information Processing Systems 25(NIPS 2012). Nevada:MIT Press,2012.
14 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-444
15 Ren S Q,He K M,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.IEEE Transactions on Pattern Analysis and Machine Intelligence,to be published
16 He K M,Zhang X Y,Ren S Q,Sun J.Deep residual learning for image recognition.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016.770-778
17 ImageNet[Online],available:http://www.image-net.org/,September 26,2016.
18 The PASCAL visual object classes homepage[Online],available:http://host.robots.ox.ac.uk/pascal/VOC/,September 26,2016.
19 COCO-Common objects in context[Online],available: http://mscoco.org/,September 26,2016.
20 Torralba A,Efros A A.Unbiased look at dataset bias.In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Colorado,USA: IEEE,2011.1521-1528
21 Bainbridge W S.The scientific research potential of virtual worlds.Science,2007,317(5837):472-476
22 Miao Q H,Zhu F H,Lv Y S,Cheng C J,Chen C,Qiu X G.A game-engine-based platform for modeling and computing artificial transportation systems.IEEE Transactions on Intelligent Transportation Systems,2011,12(2):343-353
23 Sewall J,van den Berg J,Lin M,Manocha D.Virtualized traffic:reconstructing traffic flows from discrete spatiotemporal data.IEEE Transactions on Visualization and Computer Graphics,2011,17(1):26-37
24 Prendinger H,Gajananan K,Zaki A B,Fares A,Molenaar R,Urbano D,van Lint H,Gomaa W.Tokyo Virtual Living Lab:designing smart cities based on the 3D Internet.IEEE Internet Computing,2013,17(6):30-38
25 Karamouzas I,Overmars M.Simulating and evaluating the local behavior of small pedestrian groups.IEEE Transactions on Visualization and Computer Graphics,2012,18(3): 394-406
26 Qureshi F,Terzopoulos D.Smart camera networks in virtual reality.Proceedings of the IEEE,2008,96(10):1640-1656
27 Starzyk W,Qureshi F Z.Software laboratory for camera networks research.IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2013,3(2):284-293
28 Sun B C,Saenko K.From virtual to reality:fast adaptation of virtual object detectors to real domains.In:Proceedings of the 2014 British Machine Vision Conference.Jubilee Campus:BMVC,2014.
29 Hattori H,Boddeti V N,Kitani K,Kanade T.Learning scene-specific pedestrian detectors without real data.In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,Massachusetts:IEEE,2015.3819-3827
32 Gaidon A,Wang Q,Cabon Y,Vig E.Virtual worlds as proxy for multi-object tracking analysis.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016. 4340-4349
34 Ros G,Sellart L,Materzynska J,Vazquez D,A M. The SYNTHIA dataset:a large collection of synthetic images for semantic segmentation of urban scenes.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016.3234-3243
35 Movshovitz-Attias Y,Kanade T,Sheikh Y.How useful is photo-realistic rendering for visual learning?arXiv: 1603.08152,2016.
36 Haines T S F,Xiang T.Background subtraction with Dirichlet process mixture models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(4):670-683
37 Sobral A,Vacavant A.A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos.Computer Vision and Image Understanding,2014,122:4-21
38 Morris B T,Trivedi M M.Trajectory learning for activity understanding:unsupervised,multilevel,and long-term adaptive approach.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2287-2301
39 Butler D J,Wulff J,Stanley G B,Black M J.A naturalistic open source movie for optical flow evaluation.In:Proceedings of the 12th European Conference on Computer Vision(ECCV).Berlin Heidelberg:Springer-Verlag,2012.
40 Kaneva B,Torralba A,Freeman W T.Evaluation of image features using a photorealistic virtual world.In:Proceedings of the 2011 IEEE International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.2282-2289
41 Taylor G R,Chosak A J,Brewer P C.OVVV:using virtual worlds to design and evaluate surveillance systems.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Minneapolis,MN,USA: IEEE,2007.1-8
42 Zitnick C L,Vedantam R,Parikh D.Adopting abstract images for semantic scene understanding.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4): 627-638
43 Veeravasarapu V S R,Hota R N,Rothkopf C,Visvanathan R.Model validation for vision systems via graphics simulation.arXiv:1512.01401,2015.
44 Veeravasarapu V S R,Hota R N,Rothkopf C,Visvanathan R.Simulations for validation of vision systems.arXiv: 1512.01030,2015.
45 Qingdao“Integrated Multi-Mode”Parallel Transportation Operation Demo Project.Notice from National DevelopmentandReformCommission.[Online],available: http://www.ndrc.gov.cn/zcfb/zcfbtz/201608/t20160805_ 814065.html,August 5,2016(國家發展改革委,交通運輸部.青島市 “多位一體”平行交通運用示范.國家發展改革委交通運輸部關于印發《推進“互聯網+”便捷交通促進智能交通發展的實施方案》的通知[Online],http://www.ndrc.gov.cn/zcfb/zcfbtz/201608/t20160805_ 814065.html,August 5,2016)
46 Yuan G,Zhang X,Yao Q M,Wang K F.Hierarchical and modular surveillance systems in ITS.IEEE Intelligent Systems,2011,26(5):10-15
47 Jones N.Computer science:the learning machines.Nature,2014,505(7482):146-148
48 Silver D,Huang A,Maddison C J,Guez A,Sifre L,van den Driessche G,Schrittwieser J,Antonoglou I,Panneershelvam V,Lanctot M,Dieleman S,Grewe D,Nham J,Kalchbrenner N,Sutskever I,Lillicrap T,Leach M,Kavukcuoglu K,Graepel T,Hassabis D.Mastering the game of Go with deep neural networks and tree search.Nature,2016,529(7587): 484-489
49 Wang F Y,Zhang J J,Zheng X H,Wang X,Yuan Y,Dai X X,Zhang J,Yang L Q.Where does AlphaGo go: from Church-Turing Thesis to AlphaGo Thesis and beyond.IEEE/CAA Journal of Automatica Sinica,2016,3(2): 113-120
50 Huang W L,Wen D,Geng J,Zheng N N.Task-specific performance evaluation of UGVs:case studies at the IVFC. IEEE Transactions on Intelligent Transportation Systems,2014,15(5):1969-1979
51 Li L,Huang W L,Liu Y,Zheng N N,Wang F Y.Intelligence testing for autonomous vehicles:a new approach. IEEE Transactions on Intelligent Vehicles,2016,to be published

王坤峰中國科學院自動化研究所復雜系統管理與控制國家重點實驗室副研究員.2008年獲得中國科學院研究生院博士學位.主要研究方向為智能交通系統,智能視覺計算,機器學習.
E-mail:kunfeng.wang@ia.ac.cn
(WANG Kun-FengAssociate professor at the State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences.He received his Ph.D.degree from the Graduate University of Chinese Academy of Sciences in 2008.His research interest covers intelligent transportation systems,intelligent vision computing,and machine learning.)

茍 超中國科學院自動化研究所復雜系統管理與控制國家重點實驗室博士研究生.2012年獲得電子科技大學學士學位.主要研究方向為智能交通系統,圖像處理,模式識別.
E-mail:gouchao2012@ia.ac.cn
(GOU ChaoPh.D.candidate at the State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences.He received his bachelor degree from the University of Electronic Science and Technology of China in 2012.His research interest covers intelligent transportation systems,image processing,and pattern recognition.)

王飛躍中國科學院自動化研究所復雜系統管理與控制國家重點實驗室研究員.國防科學技術大學軍事計算實驗與平行系統技術研究中心主任.主要研究方向為智能系統和復雜系統的建模、分析與控制.本文通信作者.
E-mail:feiyue.wang@ia.ac.cn
(WANGFei-Yue Professor at the State Key Laboratory of Management and Control for ComplexSystems,InstituteofAutomation,Chinese Academy of Sciences.Director of the Research Center for Computational Experiments and Parallel Systems Technology,National University of Defense Technology.His research interest covers modeling,analysis,and control of intelligent systems and complex systems.Corresponding author of this paper.)
Parallel Vision:An ACP-based Approach to Intelligent Vision Computing
WANG Kun-Feng1GOU Chao1,2WANG Fei-Yue1,3
In vision computing,the adaptability of an algorithm to complex environments often determines whether it is able to work in the real world.This issue has become a focus of recent vision computing research.Currently,the ACP theory that comprises artificial societies,computational experiments,and parallel execution is playing an essential role in modeling and control of complex systems.This paper introduces the ACP theory into the vision computing field,and proposes parallel vision and its basic framework and key techniques.For parallel vision,photo-realistic artificial scenes are used to model and represent complex real scenes,computational experiments are utilized to train and evaluate a variety of visual models,and parallel execution is conducted to optimize the vision system and achieve perception and understanding of complex environments.This virtual/real interactive vision computing approach integrates many technologies including computer graphics,virtual reality,machine learning,and knowledge automation,and is developing towards practically effective vision systems.
Parallel vision,complex environments,ACP theory,data-driven,virtual/real interaction
Manuscript August 24,2016;accepted September 26,2016
10.16383/j.aas.2016.c160604
Wang Kun-Feng,Gou Chao,Wang Fei-Yue.Parallel vision:an ACP-based approach to intelligent vision computing.Acta Automatica Sinica,2016,42(10):1490-1500
2016-08-24錄用日期2016-09-26
國家自然科學基金(61533019,61304200),國家留學基金資助
Supported by National Natural Science Foundation of China(61533019,61304200)and China Scholarship Council
本文責任編委劉德榮
Recommended by Associate Editor LIU De-Rong
1.中國科學院自動化研究所復雜系統管理與控制國家重點實驗室北京1001902.青島智能產業技術研究院青島2660003.國防科學技術大學軍事計算實驗與平行系統技術研究中心長沙410073
1.The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 1001902.Qingdao Academy of Intelligent Industries,Qingdao 2660003.Research Center for Computational Experiments and Parallel Systems Technology,National University of Defense Technology,Changsha 410073