在寒武紀(jì),最早的三葉蟲進(jìn)化出了一套非常原始的視力系統(tǒng),就像最原始的照相機(jī),能捕捉到一丁點(diǎn)光。但這改變了一切:能“看”之后,動(dòng)物開始主動(dòng)捕食,獵手和獵物之間從此開始了持續(xù)數(shù)億年的“追蹤——躲藏”游戲,行為越來越復(fù)雜。5.4億年之后的今天,機(jī)器正在經(jīng)歷屬于它們的視覺“大爆發(fā)”。
人機(jī)視覺大PK
你認(rèn)為下面的說法是真的嗎?
1.你的同桌在視頻中僅出現(xiàn)了萬分之一秒(沒錯(cuò),比眨眼的時(shí)間還快),但你依舊能找到她。(真假)
2.機(jī)器進(jìn)行視覺識(shí)別的錯(cuò)誤率甚至比人還低!(真假)
答案
1.真的。20世紀(jì)60年代,一位好萊塢的導(dǎo)演做了個(gè)很有意思的實(shí)驗(yàn),他不斷縮短畫面播放的時(shí)間,從十幾秒到幾秒,最后到三分之一秒——他發(fā)現(xiàn)這個(gè)時(shí)長足夠讓觀眾看清楚并且充分理解畫面。
科學(xué)家們受此啟發(fā),開展了更進(jìn)一步的實(shí)驗(yàn):向參與者播放連續(xù)多幀畫面,每幀的顯示時(shí)間僅有100微秒(一萬分之一秒)。其中僅有一幅畫面里有一個(gè)人,而大家確實(shí)都能夠找出來!
2.真的。計(jì)算機(jī)視覺已經(jīng)攻關(guān)了很多年,從2010年到2017年,In ageNet挑戰(zhàn)賽的目標(biāo)識(shí)別錯(cuò)誤率一直在下降。到2015年,錯(cuò)誤率已經(jīng)達(dá)到甚至低于人類水平。
機(jī)器的眼睛是怎么“看”的?
來做一個(gè)小小的“看圖說話”練習(xí)吧!仔細(xì)看下圖,哪一選項(xiàng)的說法是錯(cuò)誤的呢?()
答案:選項(xiàng)A正確
沒錯(cuò),看到電腦屏幕了嗎?任何機(jī)器人外表漂亮的“眼睛”背后都是一架攝影機(jī)和電腦屏幕。對(duì)于人類來說,哪怕是幼兒園的小朋友,也能輕而易舉地認(rèn)出草莓,我們大腦內(nèi)會(huì)無意識(shí)地提取出草莓的特征:“表面有一粒一粒的”“稍微有點(diǎn)圓的三角形”。
在看到草莓時(shí),人們通常會(huì)想馬上嘗一口,哪怕還沒洗過。但機(jī)器會(huì)把草莓圖像分成非常細(xì)小的像素,成為一系列數(shù)字的羅列。(做個(gè)機(jī)器人好像很無聊耶!)
選項(xiàng)C錯(cuò)誤。
機(jī)器會(huì)按照特殊系統(tǒng)對(duì)這些數(shù)字進(jìn)行龐大的計(jì)算,最終提取出草莓的特征——“紅彤彤的”“表面有一粒一粒的”“稍微有點(diǎn)圓的三角形”等等,從而把草莓與蘋果、橘子等水果區(qū)別開來。
除了瓣認(rèn)草莓,機(jī)器視覺還有哪些超酷、超有用的應(yīng)用呢?以下幾項(xiàng)明星技能來亮相啦!
1.圖像搜索
在九張動(dòng)物圖片中找到獨(dú)一無二的“老虎”。你也許會(huì)想,這個(gè)工作太簡(jiǎn)單了,為什么非要機(jī)器來做?
但如果是從90張、900張,甚至9萬張圖片中找到老虎來做?你要頭昏眼花地看上幾天,但機(jī)器只要9秒鐘就完成了。
2.智慧安防
有沒有發(fā)現(xiàn)身邊的監(jiān)控?cái)z像頭越來越多了?銀行、超市、學(xué)校、街道……機(jī)器視覺會(huì)把鏡頭中的東西進(jìn)行“分割”,分成一個(gè)個(gè)像素組,如“汽車”“摩托車”“行人”“路燈”“樹木”“可疑分子”……從而幫你判斷環(huán)境是否安全,并做出記錄。
3.機(jī)器人的眼睛
看看這些形形色色的機(jī)器人吧:可以陪你打乒乓球,連玩10局不喊累:可以在工廠里分揀各類物品:可以在銀行大廳里跟你親切地打招呼……它們可大可小、可萌可帥,共同點(diǎn)在于:都有一雙能“看”的好眼睛。
4.無人駕駛
你可能在車上找不到“眼睛”,但它的車載傳感系統(tǒng)卻在時(shí)時(shí)刻刻監(jiān)控路面的情況,檢測(cè)交通標(biāo)志、燈光和其他視覺特征。