王碩
【摘要】本文基于MPEG-7描述標準,研究了視頻低層特征顏色、紋理和形狀等特征的提取方法。構建了語義標注原型系統的設計框架,采用LS-SVM的Tri-Training算法在效率上和樣本需求上提供了應用的可行性。
【關鍵詞】視頻語義標注半監督學習Tri-SVM MPEG-7
一、相關概念
(1)視頻語義標注的方法。視頻語義標注分為對象層標注、關鍵幀圖像層標注、場景層標注、視頻節目層的標注。(2)MPEG-7媒體描述標準。MPEG-7是由國際標準化組織和國際電工委員會聯合開發的標準,它提供了使用XML對多媒體元數據的一個標準化表達,通過對描述文件的分析,將傳統文本處理技術引入視頻處理中,且可處理高級語義信息。
二、視頻的結構化和特征
(1)鏡頭分割:重在檢測鏡頭變化的邊界。其檢測方法分為模板匹配法、直方圖方法、基于邊緣的方法和基于模型的方法。本文采用簡單高效的改進的顏色直方圖方法,但單一幀間差閾值選擇對漸變切換很難進行,使用自適應雙閾值鏡頭分割算法能有效改善此問題。(2)關鍵幀提取:視頻的關鍵幀提取代表鏡頭的靜態特征。常用關鍵幀選取有:鏡頭邊界法、幀平均法、基于內容的分析方法和基于光流的運動分析方法。(3)場景邊界分割:把場景檢測看做一個鏡頭分組過程,關鍵在于定義鏡頭的視覺相似性。本文采用基于多特征的相似鏡頭聚類實現對場景邊界的劃分。(4)視頻低層特征。顏色特征:RGB顏色模型用三維空間中的一個點來表示一種顏色,每個點有三個分量,分別代表該點顏色的紅、綠、藍取值;HSV顏色模型由Munsell空間坐標表示,由H色調、S飽和度、V亮度三個分量組成。紋理特征:MPEG-7有同構型紋理描述子、紋理瀏覽描述子、邊緣直方圖描述子三種描述紋理圖像特征的方法。形狀特征:MPEG-7中定義了基于區域的形狀描述子,輪廓形狀描述子,三維形狀描述子。
三、基于半監督學習協同訓練的語義標注
(1)LS-SVM算法。Suykens提出的最小二乘支持向量機,利用等式約束條件替代了SVM中的不等式約束,使用二范數對準備優化的目標函數進行處理,使得最小二乘支持向量機方法的優化問題變為通過Kuhn-Tucker條件轉化為求一組線性方程組解,大大降低計算量。(2)半監督學習方法。從實際情況看大量有標記的樣本較難獲得,未標記的樣本易獲取。采用半監督學習方法,即使用少量的已標注數據和大量的未標記數據作為訓練集,有效地解決視頻標注訓練樣本不足的問題。(3)基于Co-SVM和Tri-SVM的視頻語義標注實驗數據的比較。提取前面兩類不同特征作為互補樣本,采用不同核函數以增強分類器的互補性,首先提出Co-SVM算法通過分析進一步提出改進的Tri-SVM算法。方法是選取15個視頻片段,先對其做分割處理,得到約8000個鏡頭,每個鏡頭均勻選擇10個關鍵幀,對顏色特征,將圖片劃分為9個區域,分別進行特征提取包括8*9=72D主顏色特征,得到特征集V1,80D邊緣直方圖特征,得到特征集V2。使用設計的手工標注工具,對其中1000個鏡頭進行標注,形成標注集,其余7000個鏡頭作為未標注集。
四、語義標注原型系統設計
基于Tri-SVM分類器的自動語義標注系統是采用Visual C++ OpenCV平臺,用OpenCV完成低層特征的提取;使用開源庫中的MPEG-7 C++ Library完成MPEG-7 XML框架的解析;使用LS-SVMLab開源庫輔助完成分類器的設計。(1)主顏色描述子的提取:用少量的代表色取代整個圖像的特征,具有維數低、檢索速度快等優點。邊緣直方圖描述子的提取:采用MPEG-7邊緣直方圖描述子作為關鍵幀紋理特征描述。區域形狀描述子的提取:采用MPEG-7推薦的角放射變換ART系數對圖像進行形狀特征提取。(2)場景構造模塊。系統對鏡頭中關鍵幀提取顏色特征、紋理特征而后對關鍵幀進行語義分類。然后計算鏡頭語義信息的相似性。方法是提取鏡頭中關鍵幀的概念詞,并對其進行詞頻排序,組織成關鍵幀向量。(3)手工標注模塊。本文開發手工標注程序,以實現對訓練視頻樣本的標注。手工標注工具可加載視頻自動分割模塊產生的XML描述文件,將鏡頭序列顯示在窗口中。(4)Tri-SVM自動標注框架。標注框架中增加對標注結果的后處理,主要是利用語義特征在視頻中分布的時間相關性和局部等特性。
五、總結與展望
本文基于MPEG-7的視頻低層特征抽取和度量方法,進行了視頻標注原型系統的設計。不足之處是對訓練樣本的選擇有很大的優化空間,降維過程中對特征的選擇有待進一步完善,使用低層特征時未考慮動態特征。
參考文獻
[1]鞠峰.《自動審看MOV標清素材全方位實踐》———第二十五屆華東電視技術年會.上海,2012