你有沒有想過用手機(jī)拍下的照片來搜索,并獲得地圖位置、促銷、產(chǎn)品價格等多方面信息?
“那么多KFC,哪個才是我要找的呢?”在肯德基(KFC)的廣告里,男主角一臉無奈地向各地網(wǎng)友求助—女友故意要考驗他,眼看約定見面的時間快到了,卻只留下一張在KFC門前拍的照片作為線索。
未來的搜索技術(shù)正在攻克這一難題。微軟亞洲研究院從2004年開始,就開始研究照片搜索技術(shù)(Photo2Search)。數(shù)據(jù)搜索和挖掘組的研究員謝幸向《互聯(lián)網(wǎng)周刊》介紹了這項技術(shù)的研發(fā)方向和攻克難點(diǎn)。 
人們在一個陌生的城市旅游時,可能會迷失方向。這時,你的手機(jī)就會派上用場。由于手機(jī)輸入鍵盤較小,文字搜索太麻煩,你可以站在一個大的建筑物前,拍下一張照片,然后用彩信的方式傳給服務(wù)器,系統(tǒng)經(jīng)過查詢和匹配,會反饋給你一張標(biāo)有所在位置的周圍地圖。此外,系統(tǒng)還將反饋給用戶有關(guān)該建筑物的相關(guān)信息。比如,如果你站在首都劇場的前面拍下照片,系統(tǒng)返回到手機(jī)上的信息可能是一個頁面,介紹該劇場將放映什么電影。
當(dāng)然,并不是所有照片都能夠進(jìn)行這一搜索,必須是一些有特征的建筑物、餐館,或者海報等。如果你拍下了某個居民小區(qū)的照片,系統(tǒng)就無法識別,因為幾乎任何居民小區(qū)的樓看起來都很相似。在海報的應(yīng)用上,這一技術(shù)比現(xiàn)有的二維碼技術(shù)還要方便,因為不用在每個海報上都貼二維碼標(biāo)簽。你拍下一張海報的照片,系統(tǒng)將給你反饋回一些細(xì)節(jié)信息,比如告訴你到哪里買票等等。由于每張海報都是惟一的,因此很適于這一應(yīng)用。
據(jù)謝幸介紹,這個系統(tǒng)里面最重要的兩個研究方向:一個是準(zhǔn)確度和匹配度;另外一個是速度問題。這一系統(tǒng)的原理是,用戶發(fā)回彩信后,通過后臺服務(wù)器進(jìn)行接收,并與系統(tǒng)數(shù)據(jù)庫中的圖片進(jìn)行比對,尋找相同的圖片,再返回該圖片存在數(shù)據(jù)庫中的信息。
起先,微軟亞洲研究院采用了CBIR(基于內(nèi)容的圖像檢索)方法,基于圖片里面的顏色、紋理、邊緣對比度、亮度等一些基本的屬性,來比較兩個圖片是不是相似,“但是經(jīng)過試驗,結(jié)果并不是很好”。后來,研究員們想到了選取特征點(diǎn)的方法,在圖片中選取幾百個,將每個特征點(diǎn)用向量表示。比較圖片時,只是比較這些特征點(diǎn),看里面到底有多少個點(diǎn)相似。系統(tǒng)選取特征點(diǎn)時,會選那些相對位置不會發(fā)生改變的點(diǎn)。也就是說,即使你的手機(jī)沒有拿穩(wěn),照片角度有些傾斜,都不會影響比對的結(jié)果。
每張由手機(jī)拍下的照片要跟數(shù)據(jù)庫中的圖片進(jìn)行比對。這意味著只有當(dāng)數(shù)據(jù)庫中存有類似圖片,才會具備上述的功能。如果一個建筑物有多張不同角度拍攝的照片存于數(shù)據(jù)庫,系統(tǒng)辨識程度會相應(yīng)提高。
目前,微軟亞洲研究院用于此項研究的數(shù)據(jù)庫,已經(jīng)可以支持一萬張圖片,用不到一秒的時間就可以返回結(jié)果。現(xiàn)在圖片主要還依賴人工錄入,未來將有可能實(shí)現(xiàn)自動在互聯(lián)網(wǎng)上抓取的功能。
這項技術(shù)可以拓展新的商業(yè)模式。比如,查詢海報時,可以用來做廣告和優(yōu)惠券等;查詢建筑物時,就涉及到一些位置查詢的相關(guān)信息。同時,還可用它來做產(chǎn)品的搜索。比如,拍下一個產(chǎn)品,系統(tǒng)將反饋回產(chǎn)品的價格信息,也可以實(shí)現(xiàn)比價功能。現(xiàn)在,微軟亞洲研究院主要聚焦在購物、地理位置和廣告這三個方面。目前這一照片搜索也支持Web版本。用戶可以通過網(wǎng)站輸入一張照片(與圖片大小、格式無關(guān)),來查找匹配的圖片及信息。