伊珊
計算機視覺是一門研究計算機如何去“看”的技術,是通過算法對圖像進行識別,從而使計算機像人類一樣甚至超越人類去觀察和理解世界,它是人工智能領域的一個重要的組成部分。這幾年隨著相關硬件、算法及大數據的不斷發展,整個人工智能領域出現了井噴式發展,各大巨頭紛紛收購視覺創業公司,各種新產品層出不窮。
生活中,每個人都問過別人“這件衣服是從哪買的?”“這雙鞋是什么牌子的?”這一問題很快會被AI技術解決,只需要拿出手機對著物品拍照,就會得到商品的各種信息,并且能一鍵買買買。這就是美國著名圖片社交網站Pinterest(拼趣)即將推出的應用圖片識別購買業務。
Pinterest總裁Tim Kendall表示,“Pinterest可以即刻在存儲750多億張圖片的巨大網絡空間內進行搜索,從而為用戶找到與所拍攝照片相似的配對圖片,以及查找到哪些地方能夠買到他們所需的商品。”
目前,Pinterest的估值已經達到了110億美元,該公司的專注點正在向營收增長和創收方面轉變。相比Facebook、Twiter等社交網站,Pinterest已經率先找到了一條清晰的創收道路。
從興趣到產品
亞里士多德曾經說過,古往今來人們開始探索,都應起源于對自然萬物的驚異。科技的進步也是如此,就像微軟研發主管和項目負責人Mitch Goldberg所說:“我們想通過該應用向人們展示識別技術的無限魅力。”
今年2月,微軟旗下的Garage實驗室發布了一款名為“Fetch!”的應用,它可通過機器學習系統識別照片中寵物狗的品種并用文字對該品種進行簡單的介紹。
隨著計算機視覺領域開始利用深層神經網絡這種模仿人類大腦生物過程的系統來從事機器學習,識別的精確度實現了巨大飛躍。也就是說通過機器學習技術,Fetch!識別的準確度會越來越高,隨著大量圖片的涌入,Fetch! 可以自我修復錯誤,從而更加精確地識別每一只狗的樣貌、形態、動作。除了測試狗類品種以外,你還可以把朋友的照片上傳至平臺,看看他們能夠對應出哪種寵物。
微軟的這款產品基于目前最為熱門的一種圖像識別技術——“深度神經網絡”,同樣基于這種技術,微軟還有另一款有趣的產品:How-Old.net。去年5月,有超過5.75億圖片被提交到How-Old.net,超過8500萬來自世界各地的使用者訪問了這個網站,只為尋找一個簡單問題的答案——顏齡機器人認為我看起來像幾歲?如果是合照,并且顏齡機器人識別出的自己比周圍人年齡小,則更能引發用戶的興趣,這種“損人利己”的識別應用著實在社交媒體上火了一把。
另一讓計算機視覺研究技術人員特別感興趣的領域是生物識別,當下最為火爆的莫過于人臉識別技術了。早期的人臉識別技術多為安防領域,如海關識別走私犯、商店識別小偷等。近年來,深度學習的研究與應用使得人臉識別和人工智能的核心技術得到了極大的提升,攝像頭等圖像硬件的發展為人臉識別提供了很好的圖像基礎,如今人臉識別技術應用更加廣泛,比如公司可以使用刷臉打卡來杜絕代人打卡簽到現象。
其實早在2012年,谷歌就開發出了安卓系統的“刷臉解鎖”技術,但因安全問題未解決,該技術一直未能得到普及。
而今年3月,電商巨頭亞馬遜提交了一項針購物付費的專利技術,即消費者在亞馬遜網站購物時可以通過自拍或者視頻來進行付費,無須再輸入賬號密碼。在消費時系統會提示用戶表現出特定的行為、情緒或手勢來證明消費者就是本人,而不是拿著照片的冒名頂替者。
亞馬遜表示,這項技術能使消費者更加安全地進行網上購物,因為很多用戶為了省事會把所有賬戶都用同一個密碼,或者把密碼記在手機里,一旦遭遇“撞庫”或者手機被盜,后果不堪設想,而刷臉技術則沒有這個風險。
除了識別人臉,在識別其他生物方面也有了突破性進展,比如識別寄生蟲。瘧疾,是一種由瘧原蟲造成的全球性急性寄生蟲傳染病,據統計,2015年有大約有2.14億人受瘧疾的影響。
一直以來,醫療工作者是通過肉眼觀察采樣玻片來確定采樣對象是否被瘧原蟲感染,這不但是對醫療工作者經驗的考驗,而且工作效率也十分低下,而貧困地區一直都缺乏有經驗的醫療工作者。
今年2月,根據MIT Technology Review報道,Intellectual Ventures Laboratory(智能事業實驗室)開發出了能夠檢測和評估瘧疾感染的便攜式顯微鏡。這種顯微鏡采用的是一個名為“Autoscope”的系統,通過計算機視覺和深度神經網絡技術,采用深度學習算法來鑒別瘧原蟲。這款便攜式顯微鏡今年在泰國實地測試,成功鑒別出了 170塊玻片中的瘧原蟲如果這項技術得到普及之后,只要診所有一臺Autoscope顯微鏡和一些載玻片,就可解決瘧疾的診斷問題,這將使瘧疾診斷不再依賴于有限的專業醫療人員。
技術轉化為產品
新技術的出現,讓計算機不但“看見”這個世界,更能“看懂”這個世界,可以代替人眼甚至超越人眼。
人的視野是有限的,并且會受到周邊條件的影響,駕駛員在開車時會有視野盲區,還會受到光線的影響,并且大霧、暴雨等極端天氣也會嚴重影響駕駛員的視線。而計算機視覺技術就不一樣了,視野會更開闊,受限制更小。根據汽車媒體《Leftlane》報道,福特公司最新的無人駕駛汽車研究計劃是由激光感應(LiDAR)和雷達、攝像頭形成一張周圍環境的高清3D地圖,不但讓無人駕駛汽車看到攝像頭視野范圍之外的物體,而且并不受光線限制。在夜間試駕后,福特工程師Wayne Williams說:“坐在汽車里,我能感到它在走,但是我往車外看,只能看到一片漆黑。結果令人驚喜,車輛準確地沿著蜿蜒的道路行駛。”
識別場景這一領域技術的發展,使得計算機不但能當機器的眼睛,還能變成人類的眼睛。
對于雙目失明的人來說,能親自感知這個世界是夢寐以求的事,而微軟2016 Build開發者大會上發布Seeing AI項目正是要幫助盲人實現這一愿望。
Seeing AI項目是通過計算機視覺和自然語言去形容一個人的周圍環境、朗讀文本、回答問題以及識別人的面部表情,可以在手機上使用,也可以在Pivothead的智能眼鏡上使用。如果投入使用,將有助于為視障人士營造更公平的環境,是一款能夠真正改變人們生活的產品,就像此項目的高級項目經理Anne Taylor所說的,這是“為真正重要的場景尋求解決方案”。也許不久微軟能開發出一種仿生眼,直接發送視覺信號到大腦,讓盲人真正看到這個世界。
這項融合了圖像識別和自然語言程序的研究除了能幫助視障人士獲得準確環境表述,也能幫助需要圖片信息但無法去看圖片的人們,比如正在開車的司機。
計算機視覺研究背后的圖像識別、自然語言處理和機器學習等領域的研究已持續數十年了。近年來的一系列研究的突破讓計算機視覺研究者們實現了在幾年前還不敢想的事情。微軟圖像描述(Image Captioning)技術資深研究員何曉冬說:“我們今天開發的技術比六年前好太多了,該領域的進步是如此之快,不用說六年,就是現在與六個月前相比都會有很多進步。”不遠的將來,最新研究進展都以會閃電般的速度轉化為人們可以實際使用的產品。