技術(shù)宅
電腦中保存的圖片多了以后,為了方便后續(xù)的查找和管理,我們經(jīng)常需要對(duì)圖片進(jìn)行分類。如果只是簡單地根據(jù)圖片類型、尺寸或者Exif版本等數(shù)字化元素進(jìn)行分類,那么借助資源管理器的“分組依據(jù)”就可以非常快速地完成(圖1)。
不過在實(shí)際的使用中,上述簡單的分類并不能滿足我們的需求,因?yàn)楹芏鄨D片的分類是根據(jù)人類的感覺、掌握的知識(shí),甚至情緒等進(jìn)行劃分的。比如下圖中需要將跑車歸為一類,因?yàn)槲覀冎琅苘嚨牡妆P都較低、外觀采用扁平設(shè)計(jì)、很多采用敞篷這些知識(shí),通過人工是很容易區(qū)分的,但是機(jī)器并不掌握這些知識(shí),這個(gè)簡單歸類就會(huì)讓機(jī)器識(shí)別有難度(圖2)。
如上所述,如果AI需要實(shí)現(xiàn)對(duì)于某一類圖片的精準(zhǔn)識(shí)別, 它就需要像我們?nèi)祟惸菢舆M(jìn)行學(xué)習(xí)。
首先AI需要設(shè)定模型,然后根據(jù)這個(gè)模型通過大量圖片的深度學(xué)習(xí)來掌握人類的判斷能力,這樣才能通過識(shí)別照片上的某些屬性進(jìn)行分類。要讓機(jī)器識(shí)別上述跑車圖片,那么可以根據(jù)一定的模型先準(zhǔn)備圖片數(shù)據(jù)集,數(shù)據(jù)集中會(huì)標(biāo)注每張圖片的標(biāo)簽、特征值和分類,比如將底盤高度作為特征值,并將這個(gè)數(shù)據(jù)量化。假設(shè)跑車底盤高度被設(shè)定為5,那么以后AI只要在圖片中發(fā)現(xiàn)汽車符合“5”的標(biāo)準(zhǔn)就將其歸類到“跑車”組,從而實(shí)現(xiàn)對(duì)“跑車”圖片的識(shí)別(圖3)。
不過這種傳統(tǒng)機(jī)器模型有很大的局限性,它們大多是基于每個(gè)樣本單特征進(jìn)行學(xué)習(xí)(比如上述底盤高度),但是在實(shí)際應(yīng)用中這種單特征的學(xué)習(xí)還是無法應(yīng)對(duì)更為復(fù)雜的圖片識(shí)別。因?yàn)樵跈C(jī)器學(xué)習(xí)中如何系統(tǒng)性地總結(jié)和解釋每個(gè)樣本的特征重要性得分很有難度,比如在上述跑車判斷中,就涉及到了外觀扁平設(shè)計(jì)、底盤高度、敞篷等特征,到底哪個(gè)特征更重要?
當(dāng)然這樣的問題如果交給人類判定就沒有什么難度,因?yàn)檫@些特征都可以通過我們的直覺獲得。在上述照片組中,人眼僅僅依靠汽車外觀是否扁平化設(shè)計(jì)就可以輕松區(qū)別出是否為跑車。為此谷歌提出ACE模型來解決這個(gè)問題,通過ACE模型的訓(xùn)練后可以讓AI擁有類似人的直覺功能,因此分辨類似上述照片就沒有難度了。那么ACE是怎么訓(xùn)練機(jī)器,從而讓AI擁有這樣的功能?
ACE首先是分割類別圖像,為了方便對(duì)圖片識(shí)別,它將圖片按照多個(gè)分辨率進(jìn)行分割。在谷歌的一個(gè)示例中,它將多張包含警車的圖片按照車輛的輪胎、警車上的執(zhí)法徽標(biāo)、警車上的小車窗進(jìn)行分割(圖5)
接著將相似的分割歸為同一個(gè)概念,借助這些相似的分割圖片訓(xùn)練出當(dāng)前最優(yōu)卷積神經(jīng)網(wǎng)絡(luò),從而找出識(shí)別這些圖片的最優(yōu)策略,最后通過這些策略的訓(xùn)練,實(shí)現(xiàn)對(duì)這類圖片的精準(zhǔn)識(shí)別。在上述警車?yán)又校?jīng)過ACE模型訓(xùn)練后,對(duì)于警車的圖像分類器來說,借助車輛上的執(zhí)法徽標(biāo)就可以很好地識(shí)別這類圖片。這種能力就像是人類的直覺一樣,只要AI“瞄一眼”這些圖片,通過車上醒目的標(biāo)記就可以知道這些是警車(圖6)。
當(dāng)然在實(shí)際訓(xùn)練中,ACE會(huì)根據(jù)不同圖像的性質(zhì)選擇最佳的識(shí)別屬性。在另一個(gè)例子里,對(duì)于預(yù)測籃球圖像的分類器,ACE是通過分割出來的籃球球員的球衣來進(jìn)行分類(而不是通過籃球本身,因?yàn)榛@球的顏色容易和背景顏色混淆,不利于識(shí)別)。這樣借助這種更為科學(xué)的模型,ACE可以擁有類似人類的直覺能力,從而可以更高效地實(shí)現(xiàn)對(duì)圖片的智能識(shí)別。
什么是ACE模型
ACE是Automated Concept-basedExplanation(基于概念的自動(dòng)解釋)的簡稱,它的核心是“自動(dòng)解釋”能力,這種能力是基于識(shí)別高級(jí)概念的方法獲取。ACE在提取概念并確定每個(gè)概念的重要性之前,會(huì)將一個(gè)訓(xùn)練過的分類器和一個(gè)類別的一組圖像作為輸入,并將片段圖像的類似片段作為相同概念進(jìn)行分組。ACE就像是人類的直覺一樣,可以快速實(shí)現(xiàn)對(duì)圖片顯著特征的識(shí)別(圖4)。
如上所述,通過AC E模型訓(xùn)練,我們可以讓AI擁有更加智能的能力。顯然這些高智商的AI能夠?yàn)槲覀兊纳顜砀嗟臉啡ぃ驗(yàn)檫@樣的AI就像擁有人類的眼睛和大腦一樣,對(duì)于海量的照片,它只要看一下就可以立刻做出判斷。
ACE的這種識(shí)別能力可以在生活中得到大量的應(yīng)用,比如很多朋友喜歡在朋友圈曬自己的照片,現(xiàn)在可以使用ACE將最值得發(fā)朋友圈的照片篩選出來(比如找到美顏效果最理想的,最容易突出自己身體特征的照片),這樣就可以將自己最美好的一面展示給朋友。我們期待類似ACE模型越來越強(qiáng)大,讓更智能的AI為我們提供更多的貼心服務(wù)。