羅菊香
(江西服裝學院 物聯網工程教研室,江西 南昌 330000)
隨著圖像數據的海量增長,圖像分類和標注也伴隨著相應的挑戰[1]。近年來,科研人員提出了各種各樣的方法[2-3],圖像分類與標注的研究也越來越受到學術界關注。
Corr-LDA模型是圖像標注的經典模型,大量的研究工作都是基于此模型進行改進[4],有學者提出了標注性能更好的Corr-LDA-ITD模型,本文在Corr-LDA-ITD模型的基礎上提出了一個同時做圖像分類和標注的概率主題模型(Corr-LDA-ITD-P模型)。同時基于變分EM算法推導了模型參數以及給出了該模型分類和標注圖像的方法,并在真實數據集上對模型的分類和標注性能進行了驗證。
Corr-LDA-ITD-P模型的概率如圖1所示。
利用變分EM算法求解參數[5],在E步驟中算得后驗Dirichlet參數γ,參數φ,參數ρ分別為:
(1)
(2)
(3)
經過E步驟之后然后在M步驟中計算模型參數π,β,α,μ分別為:
(4)
(5)
本文沒有對α進行優化,多次實驗發現,將α設置成全為1的向量,模型性能較好。
(6)
由于這個解不是封閉的,本文用共輒梯度法來優化μ[6]。重復執行E,M步驟,直到收斂。
(7)
提出模型經過訓練集數據學習之后,確定模型的參數,使用該模型對新圖像預測標注詞。選取概率較大的前幾個標注詞作為圖像的標注,具體標注公式如下:
(8)
為評估Corr-LDA-ITD-P模型的分類和標注性能,本文在LabelMe真實數據集上進行相關實驗。
LabelMe數據集含8類圖像,包括“海岸”“森林”“高速公路”“城市”“高山”“鄉村”“街道”“高樓”。每類包含200幅圖像,共1 600幅圖像。圖像特征提取過程采用網格抽樣技術,從每一個網格中心抽取一個大小為16×16的區塊,然后用128維的sift描述子進行描述,利用k-means算法對所有的sift描述子進行聚類,構成240個圖像碼書。同時移除出現次數少于3次的標注詞,構成294文本碼書。
為評價Corr-LDA-ITD-P模型分類性能,本文將Corr-LDA-ITD-P模型與Mc-sLDA[6],Mca-sLDA模型進行比較。實驗過程中選擇主題數為20~120,6組主題進行比較。隨機抽取每類圖像的一半作為訓練集,剩下的作為測試集,隨機抽取5次,進行5次實驗,計算5次實驗分類和標注的正確率平均值。實驗根據公式(7)對圖像進行分類,選取概率最大的標簽作為類標簽。實驗結果如圖2所示。

圖2 LabelMe數據集上分類性能比較
圖2是數據集上分類性能比較。從LabelMe數據集上實驗結果可知,提出模型在K=80的時候表現了76.9%的最好性能,在K=40,60,80,100,120的時候,表現了分類性能要優于相比較模型。
為了評價P-Mca-sLDA模型的標注性能,本文將P-Mca-sLDA模型與Corr-LDA 模型、Mca-sLDA模型進行比較。實驗過程中選擇主題數為10~110,11組主題進行比較。隨機抽取每類圖像的一半作為訓練集,剩下的作為測試數據,隨機抽取5次,模型進行5次實驗,計算了5次實驗F-measure的平均值。實驗根據公式(8)對圖像進行標注,選取概率大的前5個詞作為標注詞。實驗結果如圖3所示。

圖3 LabelMe數據集上標注性能比較
圖3是數據集上值的比較。從LabelMe數據集上實驗結果可知,模型在K=50的時候表現出了40.5%的最好標注性能。在K=10,20,30,40,60,70,80,90時,表現出了模型的標注性能要優于相比較模型。