從《終結(jié)者》到《變形金剛》,理想中的機器人擁有強大的視覺系統(tǒng)。它們可以在“看”到物體時獲取其3D簡圖,并進行一系列的備注,夜視和紅外線掃描之類的技術(shù),更是不在話下。不要覺得這只是科幻電影里的濫俗橋段,通過攝像頭來獲取外界信息,是它們的第一命門。如果發(fā)展到了今天,一臺AI只能根據(jù)人類操作者輸入的信息來進行下一步動作,那它就是個徹頭徹尾的失敗作品。
把人眼的工作交給攝像頭?這聽起來就是一個不可能的任務(wù)。除了5.76億像素和1600萬像素的硬件差異外,人眼對環(huán)境的感知能力也絕非機器能比。舉個最簡單的例子,當你看到一條哈士奇時,可以在一瞬間判斷出它的品種,這并不僅僅是視網(wǎng)膜成像的功勞。而機器人要想擁有視覺成像系統(tǒng),還需要傳導(dǎo)神經(jīng)和記憶皮層。但這也只解決了“看”的問題,如何把看到的圖像轉(zhuǎn)換成有用的信息,并完成之后的判斷,才是難點所在。
一套完整的計算機視覺系統(tǒng),關(guān)鍵技術(shù)點在于圖像處理系統(tǒng)。它會根據(jù)拍攝物的像素點分布、色調(diào)等信息,轉(zhuǎn)化成具體的數(shù)字化信息。Facebook就植入了一種全新的技術(shù),可以將朋友圈中的照片“讀”出來。最初它只會告訴你照片發(fā)布者是誰,現(xiàn)在則會把圖片上的內(nèi)容描述出來,“有樹,有河流,有霞光,看上去是一張旅途風(fēng)景照”。這個功能的當下意義,在于幫助有視障問題的人刷朋友圈。而微軟方面則將其和“視覺”進行了深入整合。他們研發(fā)了一個名為Seeing AI的組件,將之放置到太陽鏡上時,可以在掃描完畢周圍環(huán)境后,提取出各種特征,對具體事物作出判斷,然后用語音播報的形式,把環(huán)境描述給盲人。
如果把AI視覺看作一個單獨的功能,那目前對其需求最為迫切的,當屬無人駕駛領(lǐng)域。通用集團和特斯拉兩大美國汽車公司,分別投入重金收購了初創(chuàng)公司Cruise和Mobileye。以Cruise為例,他們所提供的無人駕駛系統(tǒng)包括兩個攝像頭、一套GPS系統(tǒng)、慣性計算器、行車電腦,這就相當于一個閉環(huán)的人工視覺系統(tǒng)了。而為了讓信息采集變得更為豐富,它們還配備了測距雷達裝置。
把畫面即時呈現(xiàn)給我們并不困難,難的是人工智能親自看懂畫面中的一切。目前來看,它們在這一方向上已經(jīng)起步了,但成本控制仍然是最大的難題。