王飛躍
大數據時代的信息急速膨脹和計算硬件的快速發展,使得計算機視覺開始嶄露頭角。尤其是,在人臉識別、目標檢測、圖像分割等任務中,近年來基于深度學習的計算機視覺模型取得了優秀的研究成果,并且大部分成果已經從實驗室階段邁入了我們的日常生活。此外,計算機視覺正在與智慧安防、智能機器人、無人駕駛、智能家居等諸多前沿領域互相結合與滲透,以期更好地服務大眾、造福社會。
盡管許多計算機視覺模型在一些方面已經取得了極大的成功,但是現有的這類模型卻容易犯一些在正常成年人眼里低級而又不可思議的錯誤。例如,特斯拉生產的自動駕駛汽車就曾將白色貨車的貨箱錯認成了天空,進而引發交通事故,造成了人員傷亡。顯然,我們人類的視覺系統在正常情況下不可能將白色的貨箱錯認成天空。
人類不僅擅長處理各種直觀的視覺任務,還善于利用已有的“知識”進行視覺推理和理解。例如,當駕駛員觀察路況意圖變道時,駕駛者可能首先觀察到前后左右有幾輛車和這些車所在的位置,隨后會根據這些車輛的指示燈和相對位置來決定自己何時變道。而現有模型卻很難獲得這些“知識”,從而導致其在進行處理視覺推理與視覺理解時常常受限。那么,我們何不將人類知識與現有的視覺模型相結合,從而彌補現有視覺模型的不足呢?
其實,人類知識和人工智能的交匯由來已久。在20世紀70年代,愛德華·費根鮑姆(Edward A.Feigenbaum)倡議要將知識引入到人工智能中,并提出了“知識工程”的概念,后來又在此基礎上,提出“知識表征”。隨著知識工程和知識表征的發展,我們現在耳熟能詳的語義網、知識圖譜以及新興的知識范疇等技術逐漸出現并得到蓬勃發展。

前事不忘后事之師。啟發于知識工程,一種邁向智能視覺推理的新范式——計算知識視覺(computational knowledge vision,CKV)就此誕生。計算知識視覺的關鍵在于將人類知識融入到現有的計算機視覺模型之中。為了達到這一點,通常需要用結構化的方法來表征人類知識。換句話說,要將人類知識轉化為計算機可以接受輸入的結構化知識。由于人類知識存在顯式和隱式兩種類型,那么對應的結構化知識模型也是兩種。另外,計算知識視覺不僅考慮了視覺模型和結構化知識的表征,還考慮了結構化知識作用下的視覺模型的推理和理解。一般來說,可以通過構建結構化知識來指導視覺模型的訓練,視覺模型也可以從具體任務中獲得知識,從而增強結構化知識的效用。相信這一新的研究方向,可將智能視覺推理方法推向新的范式和高度。
未來,計算機視覺應用將更多地出現在我們的日常生活中,人們對智能視覺系統的有效性和穩定性方面的要求會越來越高,而結合人類知識的計算知識視覺無疑會為計算機視覺領域的發展帶來新的可能。隨著智能技術、物聯網等的進一步發展,特定知識在不同的智能視覺系統中必將發揮更大作用。