計算機視覺是人工智能研究的基礎領域之一,也為深度學習等方面的巨大進步做出了貢獻。
斯坦福大學計算機科學系教授李飛飛認為,這些進步幾乎都依賴于對“北極星”(指代科學研究的關鍵問題)的追求。
近日,她發表了一篇題為《尋找計算機視覺“北極星”》的文章,闡述了計算機視覺中對象識別的最新發展觀點、ImageNet 數據集的簡要歷史與相關工作進展。
李飛飛表示,關鍵問題的提出會推進計算機視覺,甚至整個人工智能領域的發展。
目前,人工智能領域正在快速發展,從垃圾郵件過濾器、個性化零售到自動駕駛等,人工智能的成功實施無處不在。就像阿爾伯特·愛因斯坦所說:“提出一個問題往往比解決一個問題更重要。”

李飛飛團隊(前排右二)
但這些實踐背后涉及的科學問題或者哪些問題最需要解決可能并不總是顯而易見的。一旦制定了某領域的一個基本問題——確定一顆“北極星”,就可以推動該領域跨越式發展。
李飛飛提到,她在計算機視覺上的研究,一直由自己的系列“北極星”所驅動。
視覺能力是智能的核心,正如眼睛的進化是造就包括人類在內的許多不同物種的關鍵。人類可以使用視覺感知來理解世界,并與它互動。那么,怎么讓人工智能去看呢?這里面需要解決許多問題,而對基本問題的選擇是計算機視覺科學探索的重要組成部分。
“起初,怎么樣讓計算機正確識別給定圖像中的內容是我們特別想要了解的問題。2000年代初,由于互聯網和數碼相機的快速發展,數字圖像的數量呈爆炸式增長,從而產生了自動對照片集進行編目,并使用戶能夠搜索這些圖像集等需求,而這就需要用到對象識別。”李飛飛在文章中說到。
識別物體需要理解數字圖像在視覺世界中意味著什么,計算機無法理解這些概念。對于計算機來說,數字圖像只不過是像素的集合,沒有任何意義。
教計算機識別物體需要以某種方式讓它將每個數字集合連接到一個有意義的概念。
計算機從接觸的例子中學習,這是機器學習的本質。具體而言,這意味著只有通過訪問大量、多樣化、高質量的訓練數據,才能在對象識別方面取得重大進展。
因此,李飛飛等人在2009年創建了一個名為Image Net的數據集來實現以下3個設計目標:規模(大量數據)、多樣性(豐富多樣的對象)和質量(高分辨率、準確標記的對象)。
“專注于這3個目標的過程中,我們已經從一般的‘北極星’(圖像識別)轉向了更具體的問題表述。”李飛飛說。
據了解,ImageNet包括上千萬張標記圖像,可供機器學習模型訓練。如今,當我們在互聯網上搜索圖像、根據智能手機里的人臉自動對照片進行分組時,都會使用與ImageNet相關的算法。
此外,研究人員還將ImageNet開源,并免費供人使用。同時,他們還設立了Image Net大規模視覺識別挑戰賽(簡稱ImageNet挑戰賽)。
值得一提的是,在2012年ImageNet挑戰賽上,一個團隊首次將卷積神經網絡(一種受人腦工作方式啟發的算法)應用于對象識別,識別圖像的準確率比當時第二名高出41%。在2015年,這些機器識別圖像的準確率達到97.3%,超越了人類的識別能力(準確率約為95%)。
盡管神經網絡作為機器學習的方法已經存在了幾十年,但它直到當年的ImageNet挑戰賽才被廣泛使用,在某一年中,幾乎每篇人工智能論文都是關于神經網絡的。像谷歌和Meta(原Facebook)這樣的大型科技公司都在部署基于神經網絡的技術。
然后,對象識別與計算機視覺中的其他任務,如對象檢測和活動識別等之間存在重要的相似之處。
這種相似性意味著計算機不需要從頭開始處理新任務。從理論上講,計算機應該能夠利用這些相似性,應用它從一項任務中學到的知識來執行一項稍微不同的任務。對于計算機和人類來說,這種將知識從一個任務推廣到類似任務的過程被稱為遷移學習。例如,人學會了法語,再學習西班牙語就會相對容易一點。事實上,能夠發現任務之間的相似之處,并利用這種共享的知識來幫助我們學習新任務,是人類智能的標志之一。
計算機進行遷移學習的一種方法是通過預訓練。即在給機器學習模型一個新的挑戰之前,首先使用已有的有效數據訓練它做類似的事情。如今,幾乎每種計算機視覺方法都使用在ImageNet上預先訓練的模型。對象檢測是將ImageNet數據應用于對象識別以外用途的第一次嘗試。
計算機視覺(或視覺智能)還有著更為廣泛的應用,例如,醫生可以用計算機視覺來幫他們診斷和治療患者;用機器學習通過分析大量衛星圖像可評估作物產量、環境和氣候變化等;科學家在機器的幫助下,可以發現新的物種、更好的材料和未知的邊界。
最后,在計算機視覺領域,下一步的“北極星”還有哪些?
李飛飛表示,其中最大的一個是在具身人工智能領域(指具有身體的人工智能),包括用于導航、操作等任務的類人機器人和在太空中移動的有形和智能機器、機器人吸塵器、工廠里的機器人手臂、自動駕駛汽車等。
她還談到,“還有一個是視覺推理。比如,在2D場景下對3D關系的理解。要人工智能執行將飯桌上的水杯移動到盤子右側這樣的簡單任務也需要視覺推理。除此之外,理解人類的社會關系和意圖更具復雜性,基本的社會智能是另一個關鍵問題。例如,如果一個女人抱著一個小女孩在她的腿上,人們很容易猜到這兩個人可能是母女,但計算機還很難判斷這類情況。”