李 凈,李 桃,富 斌
(上海健康醫學院附屬第六人民醫院東院 計算機中心,上海 201306)
相關反饋[1]和融合文本特征[2-4]的圖像檢索是解決圖像檢索中“語義鴻溝”最有效的兩種方式。傳統的反饋模式由于沒有明確指出當前查詢與特征間的聯系使得學習器很難快速、正確調整。因此,相關反饋時通過人工標注的方式獲取與當前查詢相關的特征信息會極大提高檢索精度,這種用戶直接標注特征的方法被稱為特征標注。
特征標注由Raghavan等[5]提出并成功應用于文本檢索中,此后Shama等[6]研究了基于特征標注的主動學習,解決了特征反饋時最佳文本特征的自動推薦問題;Sindhwani等[7]研究了基于特征標注和實例標注的主動的雙重學習,Attenberg等[8]研究了基于池的多項式雙重學習方法,證明了特征標注、實例標注交替學習的相關反饋模式優于單獨標準的反饋模式。
受到文獻[5,8]的啟發再加上圖像文本特征的便捷獲取(網頁標簽的便捷獲取和自動文本標注技術的發展),作者將特征標注的思想引入圖像檢索的相關反饋,但由于文本特征只是圖像的其中一類特征,特征標注相關反饋的成果無法直接應用于該領域,因此,本文主要研究:文本特征與底層視覺特征關聯方法;基于文本特征及圖像實例的混合反饋模式、標注模式;混合反饋主動學習中文本特征/實例選擇策略;反饋模式切換策略以及視覺特征的標注策略。
圖像檢索系統的流程如圖1所示:用戶首先提供待檢索圖像或文本,系統可以使用任意排序函數給出Top-n個圖像,當用戶對返回的結果不滿意時,系統給用戶提供待標注的文本特征或圖像實例,在獲取用戶標注后,標注為“相關”的特征或圖像實例正例點的yi值賦1;負例點賦0,然后系統自動進行啟發式視覺特征標注(此過程稱為混合反饋),接著使用高斯場和調和函數半監督學習(式(4))計算其它未標注圖像實例的f值并對其排序后返回Top-n個圖像實例,然后進行下一輪學習直到用戶滿意。

圖1 圖像檢索系統流程
我們采用了基于高斯場和調和函數的半監督學習法[9]進行混合反饋模式下的學習,該方法是一個基于圖的半監督學習方法,其算法描述如下。

(1)

圖2 特征標注和實例標注的雙重監督
在圖G上計算一個實數值函數f:V→,并對所有的標識樣本都滿足約束:f(i)≡fl(i)≡yi。基于圖的半監督學習一般建立在假設“相近的點具有相同的標記”,同樣的,相近的未標識樣本點應該具有相似的標記,基于此原則可以定義二次能量函數(式(2))
(2)
然后通過高斯場為f函數指派了一個概率分布

(3)

為計算方便,將W矩陣分成4塊


Δf=(D-W)·f




則
-Wulfl+(Duu-Wuu)fu=0且(Dll-Wll)fl-Wlufu=fl
-Wulfl+(Duu-Wuu)fu=0
? (Duu-Wuu)fu=Wulfl
?fu=(Duu-Wuu)-1Wulfl
另外,由于f=Pf,則

所以
fu=(Duu-Wuu)-1Wulfl=(I-Puu)-1Pulfu
(4)
式(4)表示雙重監督圖中未標注結點的標記fu等于(I-Puu)-1Pulfu。
基于特征標注和實例標注的混合反饋是在傳統的基于實例標注的基礎上將特征標注引入到系統中的一種新穎的方式,混合反饋模式的學習采用上一節的半監督學習算法。將文獻[8]中提出的3種標注模式(先特征后圖像實例(modeⅠ)、先圖像實例后特征(modeⅡ)和圖像特征交叉(modeⅢ))應用于圖像檢索中。
modeⅠ首先對隨機選擇的文本關鍵字提供標記,直到所有的文本關鍵字標注完成后再對隨機抽取的樣例進行標記;modeⅡ先對隨機選擇的圖像實例進行標記,然后再切換到隨機抽取的文本關鍵字標記階段;modeⅢ隨機選擇標注圖像實例或標注文本特征。在modeⅢ中,按照文獻[8]的思路某個概率進行取樣。圖3的對比實驗基于Corel5k數據庫,我們在50個類別中每個類中隨機選擇20個圖像作為查詢然后計算混合反饋模式下的平均精度,反饋過程中采用由系統完全正確的方式對文本特征和圖像實例進行標注,每次只標注一個特征或一個實例。這種方式在Corel5k中可以方便的提供,因為:圖片的編號整除100就可以得到其所述的分類,Corel5k的文本關鍵字采用4.2的方法對每個圖像進行了文本關鍵字標注,通過查詢圖像的文本標注文件可以獲得準確的特征標注情況。圖3的橫坐標表示用戶標注特征或實例的數目,縱坐標表示查詢的平均精度。3種模式在經過1000個查詢后最終的系統性能都不錯,3條曲線中,modeⅢ的總體性能比modeⅠ、modeⅡ更好,后續的標注方式采用了modeⅢ。

圖3 3種混合標注模式下系統的性能
圖4為modeⅢ分別在50、100、150個查詢時,不同特征/實例選取概率下的系統精度。圖中的橫坐標為特征/實例的概率值,縱坐標為系統的平均精度。圖中的3條曲線基本都在概率值等于0.1出現了最高點。我們以后的選取概率選擇0.1。其概率值可能與實驗數據庫中圖像數以及文本特征點數目有關(Corel5k中共有圖像實例5000個,文本特征點374個,其比值近0.1),因此,在其它數據庫中可以以此作為概率值的選取依據。

圖4 modeⅢ在不同選擇概率下系統的性能
文本特征或圖像實例隨機采樣的混合反饋方式已經初步展示了其高效性,不過其需要很大的樣本量,主動學習是減少標注樣本量最有效的手段。在該框架下,高斯場和調和函數半監督學習模型中文本特征的f值可以用于度量文本特征的不確定性。就某次檢索而言,將abs(0.5-f)作為文本特征的不確定度量值,該值越小表明此特征越不確定,當f=0.5時,abs(0.5-f)達到最小,不確定性也達到最大,不確定抽象策略選取abs(0.5-f)值小的為標準。確定性策略認為半監督學習中的某結點的f值在一定程度上反映了結點與查詢結點的相似程度,f=0.5表明它是最無法確定的結點。f=0.5的特征常常是比較中性的關鍵字,實際上分類器更需要知道那些具有判別能力的特征,該策略選擇f值大的特征。
在我們所使用的半監督框架下,圖像和文本特征都是圖中的點,它們具有同等意義,自然的,我們可以將基于特征的不確定抽樣、確定抽樣作為基于圖像實例的主動查詢策略。
圖5是modeⅢ混合反饋模式下,使用不確定抽樣、確定抽樣以及隨機抽樣3種主動學習策略下的系統平均準確率。對比實驗結果表明,使用基于確定抽樣的主動學習優于其它兩種策略,大幅度提升了系統的性能。

圖5 modeⅢ中3個主動特征學習策略的系統性能
圖6是modeⅢ混合反饋模式下,基于確定抽樣的主動特征學習與隨機實例抽樣、確定實例抽樣以及不確定實例抽樣組合使用時的系統性能。對比實驗結果表明,使用基于確定抽樣的主動學習+確定抽樣的實例學習方式優于其它兩種方式。確定抽樣是將f值大的圖像或文本特征作為查詢返回,讓用戶標注,而系統檢索時返回的也是Top-n個f值大的圖像。檢索結果正是確定策略需要選取的實例,這樣檢索和主動學習就是一個統一的過程,系統不再需要進行復雜的切換工作,解決了基于主動學習的圖像檢索系統樣例查詢過程與圖像檢索過程不同、切換復雜的難題。

圖6 modeⅢ下3個主動圖像實例學習策略對比
上面討論中,只是將特征/實例雙重監督圖中的視覺特征的f值簡單的設為0,并沒有進行進一步的學習。然而對某類圖像而言,某個視覺特征可能具有更好的分類效果,比如,Corel5k中海灘類與顏色相關特征應該占有較大的權值;而對于北極熊類別,形狀特征是比其它特征更具判別力的特征。下面通過兩種偽反饋方式對圖像視覺特征進行標注。
3.3.1 基于特征/實例雙重監督圖的視覺標注
在給定l個(特征-標記)或(圖像-標記)反饋后,計算式(4)后可以得到其它未標注特征/實例點的f值,其值就反映了該結點對原始查詢的相似程度。在雙重監督圖上,我們將f>c的視覺點的f值置1,此時將用戶標注從文本特征、圖像實例拓展到視覺特征中。為盡量保證這種偽反饋方式下選擇的視覺結點與查詢相關,將參數c設為0.8。為了節省系統的計算時間,我們將反饋調整為:①在雙重監督圖上學習,對f值排序,將f>c的視覺結點在雙重監督圖上置1,返回Top-n個圖像實例。②如果用戶不滿意,進行標注,將標注后的文本特征/實例點在雙重監督圖上置1,返回步驟①。調整后的反饋對系統性能基本沒有影響,但它卻將原本的兩次矩陣運算變為一次,提高了系統實時性。
3.3.2 啟發式視覺標注
啟發式的權重調整是傳統的相關反饋中典型的一種方式,它通過用戶標注的圖像實例對圖像的視覺特征進行學習。這里,我們通過用戶標注的文本關鍵字特征和圖像實例進行視覺權重的調整。此方法獨立于雙重監督圖,從另一種方式產生視覺特征標注。


IPi表示視覺特征Fi的重要程度,m為正例數目,s為負例數目,Poi表示在Top-m個圖像中正例的數目,Nei表示在末尾s個圖像中反例的數目;
計算第j個視覺特征的權值
將Wi>0.8的視覺特征階段的f值置1。
圖7為在無視覺特征標注以及兩種視覺特征標注方式下系統的性能,圖中的Method 1表示基于特征/實例雙重監督圖的方式,Method 2表示啟發式視覺標注方式。對比實驗結果表明,使用視覺標注偽反饋的系統性能比不使用視覺標注的基于確定抽樣的特征/實例主動學習總體性能好。基于啟發式視覺標注的Method 2也更優于Method 1。Method 2需要進行額外計算,計算量大于Method 1,但Method 2只對反饋正例和反例圖像進行相似度計算以及排序,計算量增加不大,計算時間基本可以忽略。

圖7 不同視覺標注方式下系統性能
目前,幾乎所有關于特征標注的研究都在最佳條件下對算法進行評估,上面章節已經研究并驗證了在最佳特征標注情況下的算法效果,不過這類研究與現實中用戶的選擇不完全一致。本章節對由真實用戶提供特征以及圖像實例標注的情況下算法的有效性進行驗證。
我們選用了25個真實的學生參與者使用系統并對系統的性能進行評估,評估數據集為在上章節介紹的Corel5k和數據庫和NUS-WIDE LITE兩個數據庫。這些參與者都是本科生,其中有18個男生,17個女生,它們當中19個是計算機專業的學生,6個信息管理與信息系統專業的學生,他們都能夠熟練使用檢索系統。標注和記錄方式參照文獻[4]。

雖然Corel5k提供了文本關鍵字的精確標注,但是為了符合現實情況,本文使用文獻[4]的方法進行文本關鍵字特征的構建。對NUS-WIDE LITE,我們采用TF模型。
4.3.1 各主動學習方法對比
圖8為SVMactive、主動特征學習以及無視覺標注下特征/實例雙重學習在Corel5k數據庫中,每輪返回20張圖像時的對比實驗。圖中的橫坐標為用戶返回輪次,縱坐標為系統的平均查準率。實驗做了如下設置:主動特征學習以及無視覺標注下特征/實例雙重學習每輪在返回20個圖像時,同時返回2個文本關鍵字特征(Corel5k中特征,實例比為0.1);SVMactive方法標注過程和檢索過程是兩個過程,在標注輪我們選擇10個圖像,檢索輪返回20個圖像,將兩個過程作為一次反饋。兩個數據庫上的實驗結果表明融入特征標注的方法優于無特征標注的方法;基于實例/特征的雙重學習比主動特征學習性能更優。

圖8 Corel5k的3種主動學習方法對比
4.3.2 不同視覺標注方法對比
圖9,圖10為3種算法在Corel5k數據集上返回不同數目圖像時的系統查準率,橫坐標為返回的圖像數目。實驗結果表明:實際用戶標注的場景下,拓展視覺標注方式在兩個數據集上都優于不使用的方式,Method 2(啟發式視覺標注)優于Method 1(特征/實例雙重監督圖的視覺標注)。

圖9 兩種視覺標注方法的系統查準率(第2輪)

圖10 兩種視覺標注方法的系統查準率(第4輪)
本文將主動特征學習引入圖像檢索領域,提出了基于文本關鍵字特征和圖像實例標注的混合學習模式,該模式的實現基于高斯場及調和函數的半監督學習和主動學習。與此同時,對混合標注方式、主動特征學習、主動實例學習等策略進行了詳細研究。特別的,本文提出了視覺特征標注拓展偽反饋的方法。通過最佳特征標注和真實用戶標注場景下的對比實驗,我們發現將主動特征標注學習引入圖像檢索是非常有效的,它不僅僅提高了系統的效率,還將標注選擇和結果返回兩個過程有機統一起來。