溫 超,屈 健,李 展
(1.西北大學 藝術學院 710127,陜西 西安;2.西北大學 信息科學與技術學院, 陜西 西安 710127)
古代陶俑作為珍貴的文物和藝術品,具有重要的歷史、科學和藝術價值。近20年來,隨著陜西秦兵馬俑二次發掘和漢唐墓葬考古等工作的進展,利用各種數字采集方法獲取了大量陶俑圖像數據。同時,伴隨互聯網數字圖像資源的不斷豐富,目前在西北大學數字博物館中已經擁有包括陶俑在內的大量文物圖像[1],如圖1所示。

圖1 西北大學數字博物館中的陶俑圖像Fig.1 Pottery figurine from digital archaeology museum of Northwest University
近年來,圖像理解技術,如圖像分割、圖像檢索、圖像標注、圖像分類等,已得到了廣泛的研究和應用,但是,針對陶俑的相關圖像理解研究仍有待展開。由于不同陶俑的形態(藝術)特征各不相同,通過對大量不同年代陶俑圖像的分析發現,陶俑文物圖像具有如下幾個特點:①不同年代和職能陶俑具有較大的類內差異,比如同樣都是兵俑圖像,秦代的兵俑與漢代的兵俑表現出完全不同的視覺特性;②陶俑圖像的局部區域如頭飾、面部、足部等特征,對于陶俑語義獲取起著重要的作用;③如果對陶俑圖像整體標注語義信息,則陶俑圖像分類問題就變成一個標準的多示例學習問題,即把陶俑圖像看作是包,圖像區域作為包中的示例,我們只知道該陶俑圖像(包)包含特定區域特征(正示例),卻不知道哪個示例是正示例。多示例學習適于表達不完備標記、歧義性問題,并可有效降低標注復雜度,因而受到了廣泛的關注,已應用到如文本分類[2]、目標跟蹤[3]、行人再識別[4]、計算機輔助醫學診斷[5]等諸多具有挑戰性的任務中。
基于陶俑圖像的自身特點并結合多示例學習的優勢,本文提出了一種結合深度特征與多示例學習的陶俑文物圖像分類方法。該方法首先對陶俑圖像進行分割,從而獲取陶俑局部特征區域;之后提取局部區域的手工特征如尺度不變特征變換(scale invariant feature transform, SIFT)特征和陶俑形態特征以及基于深度學習的卷積神經網絡(convolutional neural network,CNN)特征;然后,將特征分為兩部分,一部分是形態和深度特征,另一部分是SIFT特征,并通過多核融合多示例學習計算兩部分的相似性;最后,使用直推式支持向量機(transductive support vector machine, TSVM)進行陶俑圖像分類。
本文的主要貢獻在于:①通過有效的陶俑圖像分割,獲取重要局部區域,提取出分割區域的手工特征(包括SIFT和形態特征)和深度學習CNN特征,帶來了更好的特征表現能力;②使用聯合字典學習獲取多示例學習的多“概念點”,并通過多核學習將手工特征與深度特征融合到多示例學習框架中,獲取了不錯的分類效果。
多示例學習(multiple instance learning, MIL)作為和無監督學習、監督學習及強化學習并列的第4種學習框架,是由Dietterich在研究藥物活性預測問題時首次提出[6]。在MIL中,正包內存在至少一個正示例,而負包內所有示例都為負。MIL算法需要解決正包弱標記,以及由此引發的示例歧義性問題。針對MIL問題,近年來很多MIL算法被提出,跟據MIL算法的學習機制,可將其歸為3類:基于示例的MIL、基于包結構的MIL和深度MIL方法。
基于示例的MIL算法認為,正包標記由包內正示例決定[6-9],而基于結構的MIL算法則認為包標記由包內所有示例共同作用[10-14]。這兩類方法中研究比較多的是一種被稱為尋找示例空間聚集點即“概念點”的方法,有影響力的“概念點”方法包括APR,DD,DD-SVM和MILES。APR[6]和DD[7]算法認為正示例應該具有相似的特征,因而在歐式空間內存在聚集性,分別尋找矩形和橢圓形正示例稠密區域,這兩種方法獲取的是單“概念點”。而DD-SVM[12]和MILES[13]都尋找多“概念點”,兩種方法認為,具有相同標記的包,應該具有相似的結構,示例特征也是相似的。鑒于多示例學習模型的成功,它的算法研究多被直接應用到圖像分類。
隨著深度學習尤其是卷積神經網絡(CNN)的成功[15],近年來,許多深度MIL算法被提出,并應用于不同的圖像理解任務。例如,文獻[16]將示例或包信息輸入CNN網絡,提出了深度監督學習mi-Net和深度無監督學習MI-Net兩種方法;文獻[17]在卷積神經網絡中采用了注意力(Attention)機制,提出了基于注意力的MIL算法,在MUSK,MINIST 和Breast Cancer等數據集上取得了良好的性能;文獻[18]提出了一種基于深度MIL的端到端學習框架,該框架通過聯合光譜與空間信息融合進行全色和多光譜圖像分類;另外,深度MIL也被用于齒痕舌圖像識別[19]和圖像自動標注[20]等。
本文提出的方法將陶俑圖像作為多示例包(Bag),圖像的局部區域作為示例(Instance)。具體方法分為5個步驟:
1)采用Normalized Cut對陶俑圖像進行分割,獲取圖像的局部區域;
2)提取分割區域的陶俑形態特征和深度CNN特征以及尺度不變特征變換SIFT特征,其中,區域形態特征和CNN特征作為多示例包的示例特征,區域SIFT特征作為局部特征;
3)通過聯合字典學習將包內的示例投影到字典所生成的特征向量(示例)空間,獲取多示例包的多概念點;
4)使用多核學習融合多示例包和SIFT相似性;
5)采用TSVM完成陶俑圖像分類標注。
陶俑圖像分割的目的是為了提取陶俑局部目標區域。本文采用Normalized Cut(簡稱NCut)算法[21]進行陶俑圖像分割。作為一種基于圖譜理論的圖像分割方法,NCut可融合圖像的不同特征,其基本步驟如下:
1)對于給定的一幅圖像,NCut通過樣本集合建立無向加權圖G,用wij衡量邊的權重,

(1)
2)解出特征方程(D-W)y=λDy最小特征值和對應的特征向量,其中W為權重矩陣,D稱為對角矩陣。
3)使用第二最小特征值對應的特征向量進行圖像分割。
4)判別圖像分割結果,決定是否需要再做分割,若需要,則返回步驟3)。
圖2給出了秦俑的分割效果圖,分割后的不同區域做了標識。從圖2可以看到,陶俑的頭飾、面部、身體、足部、腿部及胳膊等這些重點區域可從分割結果中很快辨認出來,表明針對陶俑圖像NCut具有較好的分割效果。除了視覺評價之外,我們還選用分割圖像的區域內一致性和區域間對比度作為客觀評價指標。圖2分割圖像的區域內一致性為0.962,區域間對比度為0.592,進一步表明本文采用NCut分割是可行的。
需要指出的是,精確的對象(目標區域)圖像分割始終是一個具有挑戰性的課題,然而本文算法并不完全依賴準確的分割表現。這是因為我們旨在通過新的多示例學習方法,將傳統手工特征與深度特征融合,從而達到良好的分類性能。

圖2 秦騎兵俑NCut分割效果圖Fig.2 The terracotta warrior image before and after NCut segmentation
對于無論是單概念點還是多概念點的多示例學習,特征提取在MIL圖像理解中都起著核心作用,因此,選擇合適的特征來表現圖像非常重要。針對陶俑圖像特點,本文選擇尺度不變特征變換以及區域形態特征和CNN特征進行圖像描述。
尺度不變特征變換(SIFT)[22]是由Lowe提出的圖像局部特征描述子,具有旋轉、尺度縮放、亮度變化的不變性,并對視角變化、仿射變換、噪聲也有強魯棒性。SIFT算法本質是基于圖像特征尺度選擇思想,其主要步驟為:
1)在尺度空間尋找極值點;
2)對極值點進行過濾;
3)找出穩定的特征點;
4)在每個穩定的特征點周圍提取圖像的局部特征描述,包括位置、尺度、旋轉不變量。
除了提取分割區域的SIFT特征,通過分析陶俑圖像特點與比較測試[23],采用傅里葉描述子與橢圓離心率表示陶俑區域形態特征。利用復平面中的有限點集,傅里葉描述子可以表達整個圖像的區域輪廓。鑒于輪廓曲線的起始點位置和曲線方向會影響傅里葉描述子,為了保證圖像的旋轉、平移和尺度不變性,采用式(2)對傅里葉描述子進行歸一化。
FD(k)=
(2)
其中,第1位傅里葉描述子作為歸一化參數。實驗表明,增加傅里葉描述子維數可以使得輪廓特征描述更加精確,但同時帶來更多的計算消耗。因此,對于陶俑圖像分割區域,將其統一縮放為256×256大小,并使用一個7維的傅里葉描述子,即F(0)(第1位)為歸一化參數,F(1)到F(6)(第2到7位)進行歸一化處理。在傅里葉描述子描述輪廓特征的基礎上,增加橢圓離心率e描述形狀特征,以反應分割區域的長寬比,并與傅里葉描述子組合形成一個8維的形態特征向量。
基于深度學習CNN的強大性能,在獲取以上傳統手工特征的基礎上,利用CNN提取陶俑圖像區域的全局特征,以進一步提升特征表現能力。如圖3所示,陶俑圖像區域被輸入CNN網絡,輸出一個二維矩陣,從而得到該區域一個定長的多維特征向量。

圖3 秦騎兵俑頭飾區域CNN特征提取Fig.3 CNN feature extraction from headdress region of terracotta warrior
1)深度學習架構:文中采用經過預訓練的VGG-16。VGG-16共包含16個權重層,其中,13層為卷積層,其余3層為全連接層,第二個全連接層有4 096個單元,將其輸出結果作為特征。這樣可以為每個區域提取4 096維特征向量。為了使VGG-16適合我們的任務,在網絡訓練中,將最后的1 000路全連接層替換為2路全連接層(即是否為陶俑圖像區域),并使用SoftMax函數作為最終預測函數。
2)網絡訓練:首先,在ILSVRC2012數據集上進行預訓練,然后,在分割的陶俑圖像區域上進行微調??紤]到進行訓練的區域圖像總共為6 300個,不足以訓練高性能的深度學習網絡。因此,將區域圖像的大小調整為256×256,并采用64×64固定大小子圖進行隨機剪切和水平翻轉,以增強訓練數據。使用隨機梯度下降來微調該網絡,單次訓練樣本數為128。實驗中,卷積核大小為{3*3, 5*5, 7*7},池化層分別選用最大池化和平均池化,學習速率大小為{0.001, 0.005, 0.000 1},動量為{0.7, 0.8, 0.9},權重衰減為{0.001, 0.000 5, 0.005},將這些參數進行組合實驗,選擇最優的結果。最終選擇的參數為:學習速率為0.000 1,動量為0.9,權重衰減為0.000 5,卷積核大小為3*3,池化層為最大池化。當精度不再提高后,在36個訓練周期停止訓練。
在MIL圖像預測任務中,每個包(圖像)含有數量不等的示例(特征向量),導致傳統監督學習算法(如SVM等)無法直接用于求解MIL問題。因此,需要將多示例包轉化成單個樣本,即每個多示例包都嵌入“概念點”生成的空間中,從而將多示例學習問題轉化成標準的監督學習問題。
在獲得陶俑圖像區域的人工特征(SIFT和形態特征)和深度學習CNN特征后,把這3個特征分為兩部分:第一部分為形態和CNN特征,第二部分為SIFT特征。由于SIFT特征具有集合特性且元素個數不同、位置互異,不能直接參與包相似性計算,因此,將第一部分的形態特征與CNN特征作為多示例學習包,并采用聯合字典學習[24]獲取多概念點。具體方法如下:

鑒于多示例學習的核心要是處理歧義性問題,那么,這些概念點(基向量aij)間的距離應該大于某個閾值δ,因此,在聯合字典學習模型的基礎上附加優化約束,這樣,多示例學習的多概念點獲取模型就為
s.t. ‖aij-alm‖2≥δ,
i≠l,j=1,2,…,ni,m=1,2,…,nl。
(3)

圖像相似性計算的核函數構建一直是計算機視覺領域的研究熱點。對于包含ni個分割區域的陶俑圖像Bi,xij是區域形態特征和CNN特征連接形成的示例特征,將Bi的所有示例xij排列在一起,投影到D中以每個列向量為基的向量空間,投影函數定義為
φ(Bi)=[s(Bi,d1),s(Bi,d2),…,s(Bi,dN)]。
(4)

針對SIFT相似性問題,文獻[25]提出的基于多尺度思想的金字塔匹配核(pyramid matching kernel, PMK)已取得了巨大的成功。PMK采取多解析直方圖方法,將局部特征描述子投影到不同尺度直方圖,形成直方圖金字塔,計算不同局部特征子的重疊區域,最后通過權重組合方式構造核函數?;赑MK方法計算速度快,且具有較高的特征識別率,本文使用金字塔核進行陶俑SIFT特征相似性計算。
接下來,將采用多核學習模型構建一個融合SIFT特征與MIL包特征的新核函數,從而平衡SIFT特征與形態和CNN特征對陶俑圖像相似性的影響。多核學習[26]的基本思路是:通過將多個核函數進行正線性融合來構造新的核函數K。
(5)

K(Bi,Bj)=αKRBF(φ(Bi),φ(Bj))+
(1-α)KPMK(ψ(Si),ψ(Sj))。
(6)
即實現了SIFT相似性與MIL包相似性的融合。
考慮到直推式支持向量機(TSVM)能利用大量未標記圖像來提高分類器的性能,本文采用TSVM訓練分類器,實現陶俑圖像分類。TSVM分類的具體方法是:


(7)

(8)
使用該分類器進行陶俑圖像分類。
分別在陶俑圖像集PFImage和標準MIL數據集(Musk, Elephant, Tiger Fox)上實驗,并與多個深度和非深度MIL方法比較,以驗證本文方法的有效性。實驗采用的TSVM分類器基于Libsvm工具包實現,TSVM中需要指定λ,λ*和r這3個參數,實驗中,將r固定為0.5,λ=1,λ*參數在訓練時從參數集λ*∈{0.01,0.1,1,10}中尋找其最優值。
實驗測試的陶俑圖像集PFImage來源于西北大學數字博物館中的文物圖像,圖4給出了PFImage的示例圖像。從秦俑、漢俑、魏晉南北朝俑、隋唐俑及其他俑共5類圖像中各選100幅構建圖像集PFImage。實驗中,每張陶俑圖像被NCut預分割成多個區域(不考慮無意義區域,平均為10個區域),采用十交叉驗證的方法驗證分類的準確度,即圖像中每類數據集分為10等份,依次使用其中的9份訓練,剩余的1份測試。選用“一對一”的方式處理多類問題。

圖4 測試圖像集PFImage中的陶俑圖像示例Fig.4 Sample images of pottery figurine from testing image set PFImage
將本文方法同DD[7],DD-SVM[12],MILES[13]及深度學習MIL算法Attention[17]和MI-Net with DS[16]比較,結果如圖5所示。對于Attention和 MI-Net with DS算法,只使用CNN來提取深度特征并訓練深度學習網絡,對于DD,DD-SVM和MILES算法,采用與本文相同的方法提取SIFT特征。最終,通過多核學習融合SIFT特征、形態特征和CNN特征,并輸入相應MIL算法進行分類準確度比較。從圖5可以看出,本文算法在陶俑圖像分類中獲得了最好的效果,不僅優于DD,DD-SVM和MILES這些傳統MIL算法,與深度MIL算法Attention和 MI-Net with DS相比,準確度也提升接近4%。本文的方法優于傳統MIL算法的原因在于,該方法能夠更好地捕獲MIL多概念點,并融合SIFT特征,從而更有效地表達圖像。同時,相較Attention和 MI-Net with DS算法,本文的方法中,圖像的正負示例由手工特征和深度特征結合產生,因而更好地利用了這兩類特征。實驗結果表明了融合深度特征的多示例學習陶俑圖像分類方法的有效性。

圖5 本文方法同其他MIL方法在陶俑圖像集PFImage上的分類結果比較Fig.5 The comparison results between our method and other MIL methods on PFImage
為了進一步驗證本文方法的有效性和通用性,這里選用標準MIL數據集Musk,Elephant,Tiger和Fox測試其性能。Musk數據集是由Dietterich等在研究分子活性預測時提出的,它由Musk1和Musk2兩部分組成。Musk1包含47個正包和45個負包,Musk2包含39個正包和63個負包,其中Musk1中包括的示例數從2到40不等,Musk2包括的示例數則從1到1 044不等,特征向量維度為166。另外, 選擇Elephant,Tiger和Fox為3類圖像測試集,為了與其他MIL算法進行比較,采用文獻[12]的方法將圖像分割成不同的區域,并提取其顏色、紋理和形狀組成手工特征。表1中列出了Musk1,Musk2,Elephant,Tiger和Fox數據集的信息。
表2給出了本文方法與MILES[13],DD-SVM[12],Attention[17]和MI-Net with DS[16]算法在標準MIL數據集的實驗結果。從表2中可以看到,本文的方法優于深度學習算法Attention和 MI-Net with DS,與MILES和DD-SVM相比,在Musk1,Elephant,Tiger和Fox數據集上也都取得了最佳的分類表現。

表1 標準MIL數據集及其正負包、特征和示例信息Tab.1 Standard MIL datasets with information of positive and negative bags, features and instances

表2 本文方法與其他MIL算法在標準MIL數據集MUSK和圖像集上的實驗結果
針對陶俑文物圖像的自動分類,本文提出了一個新的融合深度特征的多示例學習方法。在充分了解陶俑圖像特點的情況下,本文首先利用NCut獲取陶俑局部區域,并提取圖像SIFT、形態和深度學習CNN特征;之后,使用聯合字典學習方法獲取多示例學習的“多概念”點;最后,采用多核學習模型在多示例包相似計算中融入SIFT相似性,用TSVM進行陶俑圖像分類。在陶俑圖像集和標準MIL數據集上的實驗表明,本文算法相較文獻中提到的一些深度和非深度MIL算法是有優勢的。今后的工作將對如何更準確、有效地獲取圖像特征及基于多特征的聯合字典學習方法等作進一步研究。