蘇晨涵
摘要:視頻本身具有一定的層次結構,不同層次會產生不同粒度的語義,而且不同粒度的語義之間會形成一定的層次結構。因此,視頻語義提取和標注強調語義的結構化。為此,首先,以鏡頭為單位提取其語義,并組成鏡頭語義序列。隨后,帶有簡單時序關系的鏡頭語義序列經過結構化支持向量機的分析將產生結構化的視頻語義;最好,將連續且內容相關的鏡頭作為一個場景,以視頻場景為基本單位利用決策樹算法C4.5根據鏡頭的語義信息及鏡頭之間的結構信息完成場景語義的推理。
關鍵詞:視頻語義; 語義提?。?語義標注; 結構化關系; 結構化支持向量機
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)26-6178-03
Abstract:Video has a hierarchical structure which means that different semantic with different granularity emerge among different hierarchies. Hence, it is important to extract and annotate video semantic structurally. The method adopted in this paper is divided into three phrases. First, it extracts semantic from each shot and combines into a semantic sequence. Second, with simple time series information, Struct-SVM is employed to generate structural video semantics. Finally, after combining sequential and contented-associated shots into a scene, it employs C4.5 to reduce scene semantic with structural video semantics.
Key words:video semantic; semantic extraction; semantic annotation; structural context; Struct-SVM
視頻數據所蘊含的語義信息量遠遠高于包括文本數據、音頻數據、圖像數據在內的其它媒體數據,而且視頻語義彼此依賴形成復雜的結構關系[1-3]。隨著視頻檢索技術的發展,低粒度的、無層次的視頻語義標注模型與技術已經滿足不了用戶與檢索技術的需求。例如用戶在檢索足球視頻時輸入的關鍵詞往往不是“裁判”、“足球”等單個鏡頭中低粒度的對象語義,而是“進球”、“犯規”、“任意球”等由視頻場景表達的高粒度的事件語義。為了更好地存儲視頻的語義內容并利用其進行視頻檢索,研究人員構建了許多結構化的視頻語義模型。結構化的視頻語義模型不僅含有從不同層次中提取的語義,語義間的關系信息也是模型中的重要內容[3]?!?br>