胡昕 孫巍
摘 要 在實際的媒體檢索實踐中,可以觀察到普遍存在一種近鄰關系非可逆的現象:假設媒體對象i在媒體對象j的檢索結果中,但媒體對象_/并不一定存在于媒體對象f的檢索結果中。然而,如果兩個媒體對象各自存在于對方的檢索結果中,也就是兩個媒體對象滿足近鄰關系可逆性,那么這兩個媒體對象很有可能是真正相似的。于是就可以利用近鄰關系可逆性來幫助提高檢索精度。針對圖像檢索中近鄰關系對于近鄰數量的敏感性,提出了一種自適應近鄰數量選擇算法。該算法可以自動的為數據庫中的每個圖像選擇一個合適的近鄰數量,從而避免算法對不同類型圖像數據庫的差異性。
關鍵詞 跨媒體檢索 圖像檢索 LRGA算法
中圖分類號:TP3 文獻標識碼:A
跨媒體所包含的內容非常廣泛,包括多媒體數據的存儲、多媒體數據檢索、多媒體數據的組織管理、多媒體數據的傳播和應用等等多個方面相關理論和技術。跨媒體指的是跨越媒體數據的不同媒體形式而共同表達同一語義。也就是說,要研究的跨媒體包括多種媒體形式,而這些媒體數據相互協助來共同表達傳播者要傳播的信息和目的。如在一個新聞網頁中包含的圖像和文字兩種媒體形式就是所要研究的一個跨媒體對象,它們表達的形式不同,但都在描述該條新聞,在表達時文本和圖像做到互相補充、互相解釋,共同完成描述該條新聞的功能。
就目前而言,關于跨媒體的研究主要包括以下幾個方面:
(1)與跨媒體相關的硬件技術。如輸入輸出多媒體數據的硬件設備、存儲和傳輸多媒體數據的相關硬件設備配置等。
(2)跨媒體內容檢索技術。也就是本文主要介紹的在多種類媒體數據之間進行檢索。
(3)跨媒體數據的表達。如何更有效地表示跨媒體數據,方便計算機進行管理和檢索,是跨媒體研究的重要課題。
(4)跨媒體數據的推理。即如何讓計算機根據已知的多媒體數據,推理產生新的相同類型或不同類型的多媒體數據,從而實現更有效的對多媒體數據進行組織。
(5)跨媒體數據的存儲、組織和應用。更有效地對跨媒體數據進行存儲和組織,然后進一步利用好跨媒體數據,使其方便于人類的生產和生活,是跨媒體研究的重要內容。
上述跨媒體的五個研究內容中,跨媒體檢索的研究是所有其他研究內容的結合點和最終目標。跨媒體檢索的研究目標是分析一種媒體數據和多種媒體數據之間的語義關聯,在一種或多種媒體數據間進行檢索。具體而言,跨媒體檢索就是用戶提交任意一種媒體的查詢,檢索相同或者不同種類的相關多媒體數據。由于同種類媒體的檢索可以認為是單一媒體形式的檢索,所以人們更多關注于不同種類間媒體數據的檢索,也就是用戶提交某種媒體查詢來檢索出其他種類媒體數據。
比如,用戶提交一個文本查詢,檢索到與該文本相關的圖像或音頻等。另外,一些跨媒體檢索系統也支持用戶提交多種媒體數據對象,來檢索多種媒體數據對象。
對圖像提取的全局特征主要包括顏色特征、紋理特征、形狀特征和空間關系特征等。本小節將對這幾種全局特征做一簡要介紹。顏色特征:通常情況下,顏色特征由顏色直方圖來表示,而最常用的是1991年提出的顏色直方圖相交方法。
比較常用的局部圖像特征描述子有Harris角點、SIFT和SURF等,其中SIFT特征描述子在基于內容的圖像檢索中最為常見,本文后面實驗章節也是使用的SIFT特征描述子。
在跨媒體檢索研究領域中,最大的障礙就是人們常說的“語義鴻溝”,也就是說在不同媒體類型間找到它們的語義關聯。在文獻中,作者將照片剪輯根據場景分類進行了自動標注,然后根據這種關于場景的語義標注可以選擇合適的音樂來進行多媒體幻燈片的放映。深入挖掘圖像和聲音的語義關聯,成功對圖像和聲音數據進行了聚類。為了對跨媒體數據進行統一表示和組織,文獻提出了一種兩層流形學習方法來構建跨媒體檢索系統。該方法首先為圖像數據、音頻數據和文本數據。構建三個獨立的圖,這三個圖將圖像數據、音頻數據、文本數據映射到三個獨立的空間中,然后將這三個數據空間結合形成多媒體文檔語義空間(Multimedia Document Semantic Space縮寫成MMDSS)。然而這種方法有一定缺陷:在建立這三個獨立的空間時,不同種類的多媒體文件間的語義關聯并沒有被考慮到;另外,兩層流形學習方法需要調節大量的參數,其復雜程度并不適用于實際使用。于是文獻提出了只建立一個圖的跨媒體檢索系統方案,在這個圖中每個多媒體對象都是一個頂點,圖中頂點間的距離根據單一媒體對象來確定。盡管這種只建立一個圖的方法簡化了流形學習的困難程度,但仍然沒有能夠對不同種類多媒體文件間的語義關聯進行很好的分析和利用。
在多媒體關聯空間中,每個多媒體文檔就是該空間中的一個數據點。有研究人員提出了一種排序算法(local regression and global alignment,縮寫為LRGA算法),該算法通過學習一個拉普拉斯矩陣來對數據進行重排序。盡管LRGA算法在檢索過程中能夠將不同類型的多媒體對象結合起來,但它仍有一些缺陷。首先,盡管多媒體文檔距離能夠把多種類型的多媒體對象信息都包含在內,但它依賴于該類型的媒體對象的檢索精度,這有可能使得某種媒體對象對當前多媒體文檔表達語義的貢獻變得很小。其次,建立多媒體文檔語義空間需要對所有媒體對象的距離都進行計算,這在處理大型多媒體數據庫時變得困難,因為隨著多媒體文檔數據量的增大,多媒體文檔距離矩陣也變得異常龐大,這為進一步的處理帶來了困難。