如何從一堆亂糟糟的圖片搜索結果中理出頭緒?聚類的圖片搜索會帶來不同的體驗。
現在市場上的圖片搜索引擎多少有點懶人衣櫥的味道。當你用關鍵詞搜索圖片時,常常會因為關鍵詞本身的簡單或模糊,導致搜索結果雜亂無章。面對搜索引擎給出的幾千條結果而不耐煩地翻下去的時候,你的心情肯定就像臨出門前,要在一個不整齊的衣櫥里翻找今天要穿的衣服一樣糟糕。
有專業人士做過一項調查,對比搜索圖片經驗豐富和經驗有限的兩組人,結果發現了一個共同的規律:當他們進行圖片搜索時,往往不會主動去改變關鍵詞,而是在結果中不斷后翻,直至找到滿意的目標為止。不要怪他們懶惰,這種舉動是因為,在搜索一幅圖片時,很多人并不知道該怎樣定義關鍵字,而列得太多又往往適得其反。
新的技術能夠帶來什么改變嗎?來自微軟亞洲研究院(HSRA)的一對搭檔,推出了一個名為“IGroup”(Image Group)的圖片搜索聚類方向的研究項目,已經可以很好地解決用戶上述的煩惱。
喜歡K歌、熱愛音樂的研究員景風,和穿著時尚、寓有親和力的用戶體驗設計師王爍,絕對是MSRA里的兩個個性分子,前者負責該項目的具體算法和技術實現,后者則從用戶體驗的角度設計整個交互流程與界面。他們的IGroup和他們本人一樣,都有點突破傳統思路、另辟蹊徑的味道。目前,IGroup中的某些關鍵技術已申請了專利。
IGroup可以架構在某個基礎搜索引擎之上。它把用戶獲得的搜索界面分為了兩個區域,左側是與關鍵字相關的短語聚類和小型縮略圖,右側則是圖片搜索結果的展示區。這有點像是帶有分類格子的衣櫥,而所有的分類都是系統自動完成的。比如,當你搜索“Tiger”(老虎)一詞時,左側的聚類會顯示出與之相關的幾條短語,除了將其細分為“孟加拉虎”、“印度虎”、“西伯利亞虎”等類別外,還會出現類似“Tiger Woods”(“老虎”伍茲,一位著名的高爾夫運動員)的分類,甚至還有蘋果曾經發布的代號為“老虎”的操作系統。用戶可以先在左側根據分類詞條和小型縮略圖進行初選,而后再在與之相關的右側展示區中詳細瀏覽。
在右側的瀏覽區,初始結果有多種顯示排列方式。其一是從左側導航區的每個分類中抽取幾幅具有代表性的圖片而形成的聚類縮略圖;其二是自動顯示某一較大的圖片聚類。
這種結合了語義的歸納視圖能夠顯著提高圖片搜索的效率,且能夠帶給用戶額外的提示。比如,當你搜索“pentagon”(五角形)時,IGroup會在導航區列出美國五角大樓和五角形(pentagon shape)等不同聚類短語供用戶選擇,這樣用戶便可以在下一次的查詢中,直接輸入曾經點擊過的某個詞條作為關鍵字,由此獲得更精準的搜索結果。
事實上,關于圖片的搜索聚類并不是一個新鮮話題。傳統的做法是,對每張圖片抽取一個特征(文不的或者圖像的),然后進行聚類。但這一方式顯然在效率和速度上處于劣勢。IGroup選擇了個巧妙的做法,先根據用戶的圖片搜索關鍵字,再在搜索引擎中進行文本搜索,抽取出前幾百個結果中反復出現的高頻短語作為二次圖片搜索的關鍵詞(大約在20個以內),而對于一些無法分類的詞則存放在一個名為“Other”(其他)的類別中,這樣一來既覆蓋了所有搜索結果,又在不影響速度的情況下提高了查詢的效率。
在算法實現上,如何定義和獲得準確的聚類,如何消除各類中的冗余圖片等,都是IGroup研究的難點。景風和王爍也在嘗試進一步優化這一項目。在未來,他們可能采取類似Digg.com的機制,根據用戶的搜索和點擊情況,對聚類和縮略圖進行排序;也可能會將目前的聚類分為多個層級,讓用戶可以有進一步細化的選擇。
方式多種多樣,但可以預見的結果是,未來的圖片搜索將會變得越來越聰明、越來越方便。