胡楠 曲睿婷 王浩 李東洋 于元旗

摘 要:圖像語義標注技術對于多媒體數據管理來說有著重要的意義,主要可以減少管理的混亂性,提升管理效率。本文將主要演示的是一個在多馬爾科夫隨機場的基礎上一個圖像語義自動標注方法(multiple Markov random field,MMRF)的圖像予以標注系統,利用交互式標注模型的訓練和演示,展示MMRF技術最主要的標注功能,使得觀眾能夠簡明了解到圖像語義自動標注的系統實現。
關鍵詞:圖像語義標注;馬爾科夫隨機場;系統實現;語義上下文
引言
目前,互聯網上數字圖像的數量呈現出直線式上升的狀態,比如目前十分流行Instagram照片分享網站每分鐘上傳的照片高達5000張左右,雖然某些社交網站的圖像會附帶有用戶標簽,但就實際情況而言垃圾標簽的現象十分普遍,或者標簽語義過于模糊等等[1]。因此行業內掀起了一陣對圖像語義自動標注(automatic image annotation,AIA)的研究熱潮?,F階段AIA研究面臨的瓶頸就是“語義鴻溝”(semantic gap),也就是高層次抽象語義概念表達出的含義與低層次數字圖像內容之間的沖突?,F將對本文研究結果進行討論:
一、系統框架設計
本系統的主要流程框架見下圖所示:
1.系統主流程
該系統的主要流程主要由兩個部分組成,分別是離線預處理和在線圖像標注,其中離線預處理有三個步驟:
(1)訓練圖像庫構建
系統主要提供了2個圖像庫,其一是圖像標注研究領域中經常使用到的Corel數據集,其中包括了5000幅圖像,4500張會直接成為訓練圖像,剩下500幅是測試圖像。在每幅圖像上標注至少1個至多5個語義標簽,將這4500幅圖像作為訓練圖像集,再通過網絡下載得到另一個圖像庫,主要從各大圖像分享網站或者google等搜索引擎等收集,對這些圖像中的錯誤標簽全部去除[2]。
(2)圖像特征提取
提取每幅圖像中的15個特征,然后利用Tagprop的方法對每個訓練庫學習權重向量w。
(3)模型參數學習
本系統主要通過圖像標注算法得出第i個語義標簽,并且觀察出圖像的特征d,將二者結合之后得出聯合概率P(d,w),再將MMRF中的學習模型參數代入其中,如下文算法1所示。在對模型進行訓練的時候主要有三個步驟,首先對每個語義標簽構建語義概念圖,然后系統會篩選訓練圖像并且得出一個正負樣例平衡的訓練集,最后利用MMRF模型算出參數θ。
算法1:MMRF模型參數學習方法
輸入:待標注的圖像I,詞表S和訓練圖集X;
輸出:MMRF模型參數θ
①for每個詞∈S do
②構建語義概念關系圖
③構建訓練圖像集
④求解MMRF模型參數θ
⑤end for
標注系統在對線上圖像進行標注的時候主要包含以下三個步驟:
(1)圖像上傳及標注
客戶端在上傳一張或者多張圖像之后,系統會對圖像進行分別的標注,并且得出標注結果,每一幅圖像得到的標注結果都是P(f)最大化之后的標簽組合,也就是f=arg maxP(f)。
2.用戶評判
客戶端的用戶會對標注結果進行評判,并且標記正確的標注結果,達到交互式標注。
3.標注結果保存
用戶評判的結果會直接進入到數據庫之中,也會進行下載下來的訓練圖像圖,由于這些新入庫的訓練圖像的標注準確度較高,因此系統能夠對模型的參數進行有效的修正,所以能夠幫助提高系統的標注能力[3]。
4.系統圖像標注效果
Corel數據集的標注結果見下表所示,將其與傳統的MBRM與Tagprop相比,該系統在Corel數據集上的precision和f1明顯高于其他兩種方法,recall的水平也較高。
二、系統演示
該系統在C++語言的基礎上建立,因此在用戶界面上擁有比較良好的性能,用戶可以在該界面上輕松完成上傳圖像并標注的任務[4],并且該界面還具有一定的人機交互功能,用戶在對標注結果進行判斷之后,系統可以將判斷的結果重新儲存,并且將新的標注圖像添加至訓練庫之中。
1.界面介紹
在系統界面之中,用戶可以自行選擇訓練圖像庫,上傳待標注的圖像,完成之后在界面上顯示“待標注”,點擊“標注”按鈕之后可以對該圖像進行標注,標注之后會給出標注結果和相應標簽,用戶可以對標注結構進行判斷,在“用戶評判”一欄的正確選項上打鉤,如果錯誤也可以選擇“錯誤”選項,系統會將這一信息反饋給cpu,進行重新標注。確認完全正確之后點擊“保存”按鈕,系統會自動將標注完成的圖像存儲到數據庫之中,并且還會隨之添加到訓練圖像集之中。
2.圖像標注演示步驟
該系統利用交互式圖像語義標注模型的標注,使得MMRF技術的標注性能得到了有效的展示,用戶能夠更加充分地了解到圖像語義標注的系統實現全過程。系統在演示的時候主要有以下幾步:
(1)選擇訓練圖像庫
(2)選擇需要標記的圖像,將其上傳到標注系統之中。
(3)點擊“標注”按鈕,系統開始對圖像進行標注,并且給出標注結果。
(4)用戶判斷標注結果
(5)保存標注結果
三、結束語
綜上所述,本文在語義上下文建模的基礎上演示了一個對圖像進行自動語義標注的系統,利用交互式的系統演示,可以將系統中的圖像標注功能充分展現出來,觀眾可以從中更好地了解到目前語義自動標注系統的發展現狀,以及該標注系統的實際工作流程,使得該系統更具有操作性和實用性,促進各大網站能夠對上傳的圖像進行精準的標注,幫助其他用戶可以快速尋找到自想要找到的圖像,達到精準分類的目的。
參考文獻:
[1]田東平, 李乃乾. 基于上下文相關模型的圖像語義標注[J]. 小型微型計算機系統, 2016, 37(4):000855-000860.
[2]郭喬進. 基于上下文的圖像區域標注關鍵技術研究[D]. 南京大學, 2013.
[3]王小蕾. 基于上下文的社交圖像語義信息的精化與豐富[D]. 華北電力大學(北京), 華北電力大學, 2012.