文/山世光 中國科學院計算技術研究所

所謂計算機視覺,是希望利用科學技術實現能夠類像人的視覺一般敏銳的、讓機器能夠像人一樣去“看”、去理解這個世界的視覺效果。計算機視覺包括“看”人、“看”環境等內容,主要目的是幫助人做出更好的決策。在很多時候,我們希望AI能夠去幫助人類做一些人類不希望做、做起來比較困難的事,比如農作物的病蟲害的自動識別監測任務。
人具有非常強的視覺能力,我們可以非常容易地感覺,不費吹灰之力就可以看清楚這個世界、理解這個世界,但其實我們大腦在接受視覺信號后是經過非常復雜處理的,目前,我們希望讓機器也能夠完成這一復雜的處理過程,實現視覺智能。計算機視覺的輸入是攝像頭,攝像頭捕捉光的反射,特別是在可見光的波段里面來采樣物體對光的反射。當然,廣義的計算機視覺不只是在可見光波段,而是更寬的光的范圍采樣。在捕捉光的反射后,向計算機系統的輸入是一張照片,這張照片不是我們平時看的照片,而是存儲在計算機里面的一個個的數值,每一個數值是一個象素,這些數值輸出的就是標簽。計算機視覺的建模是輸入紅綠藍數值,輸出我們希望看到的結果。其中,淺層視覺模型,人為分成幾個步驟:一是光的預處理,二是特征設計與提取,三是特征匯聚或變換;深層級抽象視覺模型,則是在深度學習后,通過數據把任意復雜的非線性函數擬合出來,可以說是能力非凡,容量足夠大。簡而言之,計算機視覺在大數據、在深度學習的算法、在進行大的算率的結合之下,使我們在很多領域實現從過去靠人看到變成靠攝象頭來看的轉變。
視覺智能的應用領域有以下幾個例子:

左上:場景中的文字檢測與識別技術

左下:地面目標檢測與跟蹤技術:檢測率90%以上

右下:刷臉考勤或臉控閘機 (中科視拓SeetaFace系統)
一是人臉識別,目前已經廣泛應用,不管是手機的登錄、付款,還是高鐵、安防領域,比如一個單位幾千人,就可以做到不用刷卡而是“刷”臉通過閘機、進門。我認為,在接下來的兩到三年時間里,會有越來越多的園區、樓宇用人臉識別來代替刷卡。
二是無人機地面目標監測,可以監測地面上的車輛以及畫面中的文字等。
三是在電力行業還可以做輸電塔、輸電線上的故障識別,照片上顯示的是種植的莊稼,實際上是通過無人機飛行在檢測莊稼地里面的輸電樁。
除了以上幾點,當前,計算機視覺還可以進行操作規程檢查包括安全帽、雙人搬梯、無人扶梯等等。
在農牧領域,計算機視覺可能應用到動植物分類與識別、農牧魚病害識別或產品品質分類、農作物病蟲害識別與分類等方面。我們舉辦過機器識別農作物病害的競賽,即對圖像中的農作物葉子進行檢測,識別出物種、病害等等數據。此次需要處理數據集一共有61種分類,按照“物種-病害-程度”劃分,有10個物種、10類健康類別,有27種病害(共51類),其中24個病害分一般和嚴重兩種程度,共48種,3種病害未分程度。這61種不同的類別可測試樣率非常不均衡,它的識別的精度就會有非常大的差異,從人類視覺的角度來看,比如蘋果的黑星病,一般還是嚴重就不好區分。這次競賽第一名準確率為90%。可以說,視覺智能在農牧領域大有可為。
我認為,在未來數年里面,過去主要是靠人看來處理的任務或者做決策的事,只要是人不愿意做或者沒有足夠人力去做的事情,都可以實現用AI來完成。
從學術前沿來講,我們通過過去大量的數據解決了很多問題,但是,深度學習使得我們陷入另外兩個泥潭。一是過去主要依靠人設計特征和函數識別做出決策,現在轉變成靠數據分析做出決策,數據驅動還是需要靠大量的人工進行完成實現,而我們希望機器能夠實現自動地學習選擇;二是過去大量靠專家支持,現在靠大數據,相比人的話,現在進行大數據的智能與人類智能還存在著非常大的差距。所以,我們所謂的人工智能2.0,從計算機視覺角度來講,我們希望增加可解釋性。我們現在的分類系統可以把病蟲害分出來,但是分出來的深層次原因不得而知,同時,計算機視覺也容易受到影響,比如拍照的角度都會影響內容的結果。

上:輸電設備與缺陷檢測

下:大田中輸電樁檢測
從方法論的角度,我們希望突破現在需要大規模的數據驅動AI算法和設計方法,到一種可以像人類智能一樣,去依靠知識和相對消費者的數據來實現智能,這種我們稱為類人智能。從內容角度來講,人類智能之所以能夠做到這些,是因為我們有非常強的觸類旁通的能力,有舉一反三的能力,吃一塹長一智的能力,以及我們可以想象等等,而計算機在這些方面的能力還是非常弱的。
當然,目前也有一些前沿的探索,比如人工設計模型,可以自動的通過大規模的GPU卡,做長時間訓練;可以做內容監督學習或者弱監督;也可以做遷移學習,比如從一種數據類型遷移到另外一種數據類型,甚至可以描述病蟲害長什么樣子。也可以進行零樣本學習(H. Jiang, et al.ECCV2018),以斑馬為例,我們沒見過斑馬,但是可以通過對它的語義描述,從動物園里面找到斑馬。
類腦(Brain-like)非常難,卷積神經網絡是受腦神經科學啟發而設計的(MCP neuron模型,Perceptron…,Neurocognitron, Fukushima, 1980 CNN),但多數在功能層面,結構層面的類腦進展不明,更多腦和神經機制不清楚,更難形成計算模型。我們現在發現不一定非要做類腦,像飛機有翅膀,但是不一定非要像鳥類一樣扇動翅膀。我們甚至認為機器智能在很多方面一定超過人,比如之前提到的人臉識別。我們利用基于視覺的情感感知(從智商到情商)這個人的情感,他的情緒,以及他的意圖,或者感知學生在學習過程中的狀態。還可以做手勢識別,通過手勢控制機器。
總體來說,視覺智能它有非常多的需求,但是這個需求的解決其實也是五花八門的,它的不同的任務需要不同的模型設計,所以導致不同的任務它的解決程度也是很不一樣的,特別需要解決幾個問題,包括成本、規模化問題。從基礎設施來看,農業領域需要從軟件基礎設施、智件基礎設施(知識識別)、硬件基礎設施來考慮(AI云超算服務)。
總而言之,從計算機視覺角度來講,強監督、大規模數據條件下的AI任務多數都是可以解決得非常好的,而弱監督、消費者數據條件下的AI任務還在路上,解決程度各異。從農業落地角度來講,要想把現在成熟的視覺智能應用好,關鍵在于如何解決數據收集模式,優質數據收集和標注的業務模式非常重要,數據匱乏任務的解決尚需時日。