“天眼”何時開啟？

2016-07-15 21:39:14

商界·時尚 2016年5期

從《終結(jié)者》到《變形金剛》，理想中的機器人擁有強大的視覺系統(tǒng)。它們可以在“看”到物體時獲取其3D簡圖，并進行一系列的備注，夜視和紅外線掃描之類的技術(shù)，更是不在話下。不要覺得這只是科幻電影里的濫俗橋段，通過攝像頭來獲取外界信息，是它們的第一命門。如果發(fā)展到了今天，一臺AI只能根據(jù)人類操作者輸入的信息來進行下一步動作，那它就是個徹頭徹尾的失敗作品。

把人眼的工作交給攝像頭？這聽起來就是一個不可能的任務(wù)。除了5.76億像素和1600萬像素的硬件差異外，人眼對環(huán)境的感知能力也絕非機器能比。舉個最簡單的例子，當你看到一條哈士奇時，可以在一瞬間判斷出它的品種，這并不僅僅是視網(wǎng)膜成像的功勞。而機器人要想擁有視覺成像系統(tǒng)，還需要傳導(dǎo)神經(jīng)和記憶皮層。但這也只解決了“看”的問題，如何把看到的圖像轉(zhuǎn)換成有用的信息，并完成之后的判斷，才是難點所在。

一套完整的計算機視覺系統(tǒng)，關(guān)鍵技術(shù)點在于圖像處理系統(tǒng)。它會根據(jù)拍攝物的像素點分布、色調(diào)等信息，轉(zhuǎn)化成具體的數(shù)字化信息。Facebook就植入了一種全新的技術(shù)，可以將朋友圈中的照片“讀”出來。最初它只會告訴你照片發(fā)布者是誰，現(xiàn)在則會把圖片上的內(nèi)容描述出來，“有樹，有河流，有霞光，看上去是一張旅途風(fēng)景照”。這個功能的當下意義，在于幫助有視障問題的人刷朋友圈。而微軟方面則將其和“視覺”進行了深入整合。他們研發(fā)了一個名為Seeing AI的組件，將之放置到太陽鏡上時，可以在掃描完畢周圍環(huán)境后，提取出各種特征，對具體事物作出判斷，然后用語音播報的形式，把環(huán)境描述給盲人。

如果把AI視覺看作一個單獨的功能，那目前對其需求最為迫切的，當屬無人駕駛領(lǐng)域。通用集團和特斯拉兩大美國汽車公司，分別投入重金收購了初創(chuàng)公司Cruise和Mobileye。以Cruise為例，他們所提供的無人駕駛系統(tǒng)包括兩個攝像頭、一套GPS系統(tǒng)、慣性計算器、行車電腦，這就相當于一個閉環(huán)的人工視覺系統(tǒng)了。而為了讓信息采集變得更為豐富，它們還配備了測距雷達裝置。

把畫面即時呈現(xiàn)給我們并不困難，難的是人工智能親自看懂畫面中的一切。目前來看，它們在這一方向上已經(jīng)起步了，但成本控制仍然是最大的難題。