陳婧


如果你閱讀過丹·布朗的暢銷小說《達·芬奇密碼》,一定會對這一幕記憶猶新:盧浮宮聲譽卓著的館長雅克·索尼埃被發現神秘死亡,他的裸尸以一幅意大利名畫《維特魯威人》的姿勢在盧浮宮地板上被發現,他用自己的血在肚子上畫上了“六芒星”的符號,并且在身邊寫下了一段隱秘的信息,成為亟待破解的難題。“維特魯威人”的姿態背后隱藏著什么含義?“六芒星”的符號又代表了什么?正在巴黎旅行的哈佛大學宗教符號學教授羅伯特·蘭登來到現場,試圖破譯這些達·芬奇著名作品中隱含的信息……
但現在一個名叫“按圖搜索”的谷歌工具,采用基于圖片的搜索技術,正成為幫助我們破解“圖像密碼”的專家。當你把維特魯威人姿勢的圖片直接拖拽到“按圖搜索”的搜索框,或者直接把圖像的鏈接地址復制進搜索框中,便可以得到相關的信息。通過這一功能,谷歌搜索結果提供的“最佳猜測”顯示,這幅畫的原作者是意大利文藝復興時期的畫家達·芬奇,這幅畫的核心內容是關于“斐波那契數列”和人體的“黃金分割比例”。
而當你把“六芒星”的圖像進行“按圖搜索”時,谷歌不僅提供了包含匹配圖片的頁面,提示“六芒星”又稱“大衛星”,代表了“冥界中的子宮和萬物中陰性的那一面”,它還提供了“外觀類似”的搜索結果,幫助用戶很快搜索到與之想接近的元素,比如“猶太教”和傳說中的“共濟會”的標志。或許不再需要羅伯特·蘭登,借助“按圖搜索”,我們都能成為達·芬奇密碼的破解者。
按圖搜索正越來越成為生活中必不可少的輔助工具。在海邊撿拾到不知名的海螺,想知道它叫什么,現在可以拍照下來,拖拽進搜索框里,找到相關圖片、知道答案,這種舉動更像是玩游戲。當你無意中發現希臘某地一張美麗的風景圖,可以用這張圖進行搜索,查找到所在的確切位置,然后將它添加到你的行程里。更巧妙的是,當你“按圖搜索”2012夏季奧運會舉辦地倫敦的地標“大笨鐘”的時候,它會給你更多的觀光建議,只要點擊“按主題分類”,它便能顯示更多值得花上半天逛一逛或者親身體驗一番的地方,比如登上“倫敦塔橋”、“倫敦眼”,或是坐一次“倫敦地鐵”和“倫敦出租車”。在“按圖搜索”的搜索方式中,圖片正發揮與文字同等重要的作用,甚至跨越關鍵詞某些無法實現的局限,成為新的搜索關鍵要素。
在谷歌公司中國區辦公室,記者與谷歌搜索高級產品經理皮特·林斯利(Peter Linsley)一起探秘“按圖搜索”,開展了一場面對面的對話。從離開Ask.com加盟谷歌的4年多的時間里,他成功地實現了谷歌圖像搜索業務的兩大關鍵性突破——即“按圖搜索”(Search by Image)與“視覺搜索”(Google Goggles)功能的開發。從2011年6月上線至今,“按圖搜索”成為了谷歌用戶增長速度最快的搜索產品之一。
記者:“按圖搜索”這個非常有意義的搜索工具是如何誕生的?
林斯利:谷歌在2009年底發布了一款手機圖像搜索應用——“視覺搜索”(Google Goggles),它是“按圖搜索”的前身。很多時候,手機用戶在博物館看到了某一幅畫,或者在路邊看到了一座橋,希望對這個畫或者對這座橋有更多的了解。這時,只要通過手機把照片拍下來,然后通過應用軟件把這張照片和圖片庫里的照片進行配對,尤其是線條、紋理、色彩等各個方面,就可以優化搜索的結果,提供更精準的信息。“視覺搜索”技術推出之后獲得了很大的成功,在這之后我們想,其實這個技術也完全可以適用于網絡。也就是說,一方面我們可能對自己所處的環境會有很多想要了解的問題,另一方面我們在瀏覽網頁的時候可能也會對某些內容有深入了解的興趣,就可以通過網絡去進行搜索。有了這樣一個理念和想法后,我們開始著手把這個技術搬到桌面電腦上。現在當你打開“按圖搜索”頁面,搜索框的右側有一個照相機圖標,通過它我們可以把網絡上搜索到、看到的各種不同的圖片輸入進去,進行新的探索。
記者: 繼谷歌之后,谷歌的競爭對手也開始競相推出類似的圖像搜索產品。你們的獨特優勢在哪里?
林斯利:谷歌從事圖像搜索服務已經有整整10年的時間。谷歌搜索產品最基本的理念就是當用戶輸入搜索請求,即可在最快時間內獲得最精準的答案,谷歌圖像搜索的理念與此是一致的,當你輸入搜索內容,就可以看到很多的圖片。但作為“按圖搜索”的項目團隊,我們更關注的是如何通過圖像進一步提升搜索的體驗,例如如何通過圖片找到一種花的名字。在這方面我們主要側重于兩點,首先是怎么通過這些圖片來豐富搜索結果,第二是用圖像識別的技術,讓輸入和結果都變得更便捷。
記者:你們團隊是如何做到你所提到“提升搜索的體驗”,尤其是豐富搜索的結果,給用戶提供更多的信息?
林斯利:谷歌通過提取圖片特征進行圖片匹配,每張圖片有成千上萬個特征,包括顏色、紋理、光線等。谷歌圖像搜索背后有一個很大的圖片庫,幾百億張圖片,每張圖片有成千上萬個特征,將這幾十萬億個特征與上傳到搜索框的一張圖片的幾千個特征做近似匹配,需要在100毫秒級的時間內完成。因此,谷歌內部設計用的計算機資源非常大,每一次用戶上傳圖片,有很多機器在同時運轉。為了給用戶呈現最具相關性的圖片搜索結果,谷歌圖像搜索會涉及很多種復雜的算法,涉及到幾百種指標,比如準確度、網頁信息的相關性、權威性、圖片的質量等來得出搜索結果,并對其進行排序。谷歌每做一次算法的調整基本上都要實驗幾百個搜索請求,就算是對原有圖片做了旋轉、變形、扭曲、拷貝,仍能搜的出來。“按圖搜索”功能得以實現,最關鍵是谷歌采用了超大規模實時并行計算,可以對來自互聯網的幾百億張圖片進行實時的圖像特征匹配,從而在數百毫秒內反饋給用戶最豐富的相關搜索結果。
記者: 在信息量增大的同時,有人疑問“按圖搜索”究竟能不能給出用戶“最想要的”結果?
林斯利:我們所用的技術可以對圖像進行更加深入的分析和識別,包括圖像的紋理、顏色、形狀等,從而呈現出更好的、更加精準的搜索結果。尤其是搜索結果頁左邊面板上“過濾器”的使用,過濾、篩選了大量不符合要求的信息,可以大大幫助用戶縮小搜索的范圍。比如你可以限定圖片的顏色,限定圖像的最大、最小或者理想尺寸,限制文件的特定類型。訪問高級搜索菜單中,你還可以找到更多方法,比如通過長寬比例菜單,指定是否查找長形、寬形或者方形的圖案。我們的中國工程師還發明了一種對攝影愛好者特別有幫助的過濾器,即根據相機參數進行搜索。當用戶在Chrome 網上應用商店中下載并安裝名為“Photo Finder”的擴展程序,就可以按照相機的型號、焦距、亮度、拍攝時間搜索,挑選最符合你審美眼光和創作要求的圖片。
記者: 按圖搜索抓取的結果,是不是可能會抓取到博客、微博空間中的一些照片,這個會不會涉及到個人隱私的問題?
林斯利:對相對專業的用戶來說,如果你自己有博客,你不希望博客上的照片出現在谷歌的搜索結果當中,非常簡單——你只要寫一句話在Robot.txt協議當中,告訴谷歌,你的圖片不希望出現在谷歌搜索引擎的結果里就可以。很多的社交網絡,可能對于圖片本身是沒有辦法控制的,但是很多圖片托管的網站是可以來進行控制的,而且也確實提供這種協議方面的服務,這樣用戶就可以提出相應的請求,不被谷歌搜索到。像Twitter這樣的社交網站就可以提供這方面的服務。另一方面,我們在高級搜索菜單中,也會對圖片進行分級,提示用戶圖像可能有版權限制,如用于報道或商業推廣演示就需要版權許可。
記者: 搜索結果排序的優先依據是什么?是圖片的相似度,還是圖片來源網頁的權重?
林斯利:這兩點都有可能,可能還會有一些其他因素。假設用戶先上傳了一張圖片,谷歌的技術要先搞明白這是什么。假如通過識別技術知道了這是埃菲爾鐵塔,接下來出現的搜索結果就和網絡搜索的內容差不多,一般優先考慮圖片來源網頁的權重,例如有相關的維基百科相應介紹的網頁,還有其他的網頁等。還有另外一種情況,用戶上傳了圖片,但是“按圖搜索”不能判斷這到底是什么,在這種情況下,就會考慮首先考慮圖片的相似度,同時還會考慮一些其他的指標,比如圖片到底有多大,它是來自于哪些比較受歡迎的網站或者哪些官方的網站,或者哪些網站中出現這張圖片的可能性和概率比較高等等,所以會有各種不同的優先依據。
記者: 圖像搜索和社交信息是如何結合在一起的?
林斯利:比如通過與Google+結合,有個功能叫Search Plus Your World,就可以將那些對你最相關的內容加進去,如果你的朋友在上面,也會看到最相關的新內容。有很多網頁搜索使用到的指標,在圖像搜索的過程中也會使用,比如追蹤用戶的點擊率,或判斷與用戶相關的信息。因為你會發現,圖片周圍其實也有很多關于這個圖片的信息。比如在某社交網站上,有人把自己的貓的圖片放上去,一般在圖片周圍會有一段文字,或者會有一個主題,谷歌的技術就是判斷這個圖片中的文字哪些是相關的,當然也會看有哪些人是和這個網站具有聯系,或者有指向鏈接。