王瑞玉
(作者單位:國家新聞出版廣電總局成都監(jiān)測(cè)臺(tái))
視頻文字提取技術(shù)在數(shù)字媒體監(jiān)管中的應(yīng)用
王瑞玉
(作者單位:國家新聞出版廣電總局成都監(jiān)測(cè)臺(tái))
摘 要:本文的思路重點(diǎn)落實(shí)在視頻文字的提取上,針對(duì)數(shù)字化媒體的內(nèi)容監(jiān)管平臺(tái),本文提出自己的設(shè)計(jì)思路,通過簡(jiǎn)述其工作流程,反映出視頻文字提取技術(shù)在該平臺(tái)上的實(shí)際應(yīng)用。
關(guān)鍵詞:視頻文字;提取;數(shù)字媒體;內(nèi)容;分析
伴隨著計(jì)算機(jī)技術(shù),尤其是網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,針對(duì)圖像和視頻的處理,成為非常重要和有現(xiàn)實(shí)意義的事情。要知道隨著通信技術(shù)的大力發(fā)展,移動(dòng)帶寬的增加,大量的圖片和視頻可以以多媒體的形式展示出來,給人們最直觀和詳盡的表達(dá)。但是針對(duì)互聯(lián)網(wǎng)企業(yè)而言,要將這次信息完美地表達(dá)出來,就需要針對(duì)圖片和視頻進(jìn)行處理,通過技術(shù)手段將它們連接起來,將龐大的數(shù)據(jù)信息表達(dá)出來。那么,隨著流媒體的大量應(yīng)用,如何在海量的數(shù)據(jù)里面去找到我們需要的數(shù)據(jù)和資源,就成為我們必須去重點(diǎn)思考和解決的問題。擴(kuò)大通信覆蓋面和廣播電視的監(jiān)管是兩個(gè)重要的手段。我們?cè)趯?shí)際的工作中,通過對(duì)流媒體的監(jiān)管和對(duì)海量信息的挖掘、整理,高效地提取出我們需要的部分。
視頻是一個(gè)綜合性很強(qiáng)的,將聲音、文字以及圖片進(jìn)行有效結(jié)合的多媒體信息承載體,視頻顯然具有自身的特點(diǎn),比如信息量大、結(jié)構(gòu)復(fù)雜以及數(shù)據(jù)豐富等,目前視頻是各種網(wǎng)絡(luò)表現(xiàn)形式中最復(fù)雜的。
但是我們也應(yīng)該看到,雖然這樣視頻的表現(xiàn)力是最強(qiáng)的,但是并不意為著與用戶的互動(dòng)就也是最好的,視頻數(shù)據(jù)具有信息量大,存儲(chǔ)形式特別(以像素的形式存儲(chǔ))等特性,同時(shí)視頻中像素的顏色和光亮等信息也很難用具有內(nèi)容的高層語義進(jìn)行描述。因此如何針對(duì)視頻數(shù)據(jù)進(jìn)行有效組織,是目前視頻數(shù)據(jù)管理和分析的重點(diǎn)也是難點(diǎn)。可以想象,當(dāng)人們需要在大段的視頻數(shù)據(jù)中去尋找一些自己需要的片段時(shí),如何利用多媒體的數(shù)據(jù)特性來滿足這樣的需求,這些都是視頻文字提取技術(shù)需要考慮的問題。
視頻文字可以分為場(chǎng)景文字和人工文字,這是按照它們出現(xiàn)的場(chǎng)景不同而劃分的,顯然,不同的場(chǎng)景很自然地代表了不一樣的語義,這些語義不同于單純的底層信息,它們被文本所承載,具有更加高層的意義。
場(chǎng)景文字來自于拍攝現(xiàn)場(chǎng)的實(shí)際場(chǎng)景,商店的招牌以及道路路標(biāo)都可以作為場(chǎng)景文字而存在,它們是通過攝像機(jī)直接拍攝成像的。不過場(chǎng)景文字也有這樣一些缺點(diǎn),比如容易傾斜、變形以及字跡模糊。由于這些方面具有很大的偶然性,以及考慮到場(chǎng)景文字與視頻內(nèi)容在高層語義方面的不直接相關(guān)性,因此對(duì)場(chǎng)景文字的提取是具有相當(dāng)困難的。
與場(chǎng)景文字不同,人工文字是后期加入的,人工文字是基于后期制作中,作者對(duì)于視頻內(nèi)容的理解進(jìn)行添加的,顯然這樣的文字是具有與高層語義的高度相關(guān)性的,可以對(duì)當(dāng)前的視頻內(nèi)容起到補(bǔ)充說明的作用。
可見視頻中的人工文字是一種高層的語義信息,是否可以有效地利用這些信息,對(duì)于后續(xù)的文獻(xiàn)檢索顯然具有重要的意義。這些信息存在與文本之中,是高速增長的視頻數(shù)據(jù)的一部分,將它們提取出來可以對(duì)基于內(nèi)容的視頻檢索和管理、視頻對(duì)象編碼具有重要意義。
視頻文字提取系統(tǒng)可以分為兩個(gè)部分,一個(gè)是文本圖像提取模塊,另外一個(gè)是圖像字符識(shí)別模塊。其中圖像文本提取模塊又可以分為文字定位、文字跟蹤以及文字增強(qiáng)3小子模塊。同時(shí)圖片文本的字符識(shí)別模塊又是有4個(gè)部分組成,分別是字符切分、文本分割、字符識(shí)別以及后處理4塊。在文本圖片的處理過程中,步驟是這樣的,先是每隔n個(gè)幀進(jìn)行一次文字定位,注意這個(gè)定位需要基于視頻幀所在的位置進(jìn)行,從而得到文字出現(xiàn)的位置信息。在得到位置信息后,對(duì)視頻幀文字對(duì)象進(jìn)行跟蹤,通過提取文字對(duì)象的出現(xiàn)和消失時(shí)間信息,融合文字信息的多幀圖片增強(qiáng),得到文字的增強(qiáng)圖像。另外針對(duì)文字圖片的識(shí)別技術(shù),首先是文本的分割,以獲取文本的二值圖形,然后進(jìn)行字符切分,對(duì)切分后的灰度圖進(jìn)行單元字符識(shí)別,最后處理識(shí)別出來的候選結(jié)果,最終選出最優(yōu)方案,得出最優(yōu)結(jié)果。
隨著互聯(lián)網(wǎng)的高速發(fā)展,針對(duì)多媒體數(shù)據(jù)的需求也在不斷更新,傳統(tǒng)的手工方式面臨諸多的困難,比如利用手工方式進(jìn)行編目管理和內(nèi)容標(biāo)注,都是不現(xiàn)實(shí)不合理的。在這些地方,就必須要有計(jì)算機(jī)強(qiáng)大能力的介入。通過計(jì)算機(jī)系統(tǒng)建立一套可以進(jìn)行海量數(shù)據(jù)自動(dòng)處理和管理的自動(dòng)化平臺(tái)。基于此,我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了數(shù)字媒體內(nèi)容管理平臺(tái),通過它來有效地管理海量數(shù)據(jù)。本文將簡(jiǎn)要介紹該管理平臺(tái)的特點(diǎn),以及視頻文字提取技術(shù)在該管理平臺(tái)上的應(yīng)用。
4.1 系統(tǒng)描述
數(shù)字媒體內(nèi)容管理平臺(tái)具有多種分析和檢測(cè)功能。比如它可以利用音頻進(jìn)行場(chǎng)景分析,可以利用視頻來進(jìn)行場(chǎng)景
協(xié)助分析。該管理系統(tǒng)在處理視頻的文字提取、語音識(shí)別以及信息聚合上具有顯著的特點(diǎn)。顯然這樣的特點(diǎn)便于跟蹤用戶的興趣和瀏覽習(xí)慣。通過這些數(shù)據(jù)分析出的語義信息可以很好地加以利用。
4.2 系統(tǒng)工作流程
數(shù)字媒體內(nèi)容管理平臺(tái)的工作流程如圖1。在該工作流程圖中,可以看到用戶通過客戶端或?yàn)g覽器對(duì)自己的信息進(jìn)行更新,并對(duì)感興趣的內(nèi)容進(jìn)行指定。系統(tǒng)人員則向系統(tǒng)上傳數(shù)據(jù)媒體信息,以及指定采集媒體信息的網(wǎng)站資源。系統(tǒng)的分析模塊需要對(duì)采集的信息進(jìn)行識(shí)別和處理,審核其語義。在對(duì)大數(shù)據(jù)的處理中,如果發(fā)現(xiàn)數(shù)據(jù)是用戶感興趣的內(nèi)容,則對(duì)用戶進(jìn)行推送。推送流程完成之后,進(jìn)行用戶跟蹤和維護(hù)。
數(shù)字媒體內(nèi)容管理平臺(tái)的核心功能是媒體內(nèi)容的提取能力。數(shù)字媒體內(nèi)容提取的設(shè)計(jì)流程如圖2所示。在這個(gè)示意圖中,用戶需要首先制定任務(wù),通過任務(wù)來對(duì)數(shù)字媒體內(nèi)容的分析進(jìn)行自動(dòng)化的處理,系統(tǒng)通過分析指定的任務(wù)進(jìn)行內(nèi)容數(shù)據(jù)的識(shí)別。必要時(shí)為了獲取數(shù)字媒體的元數(shù)據(jù)信息,可以輔以人工審核和校正,達(dá)到最佳效果。

圖1 數(shù)字媒體內(nèi)容管理平臺(tái)的系統(tǒng)流程

圖2 數(shù)字媒體內(nèi)容提取流程
在對(duì)文字信息的提煉過程中,視頻和圖片是分開進(jìn)行的,并且是分析的重點(diǎn),它們被按照一定的規(guī)則進(jìn)行內(nèi)容分類,圖片被剪切,長視頻被分割成短視頻。從分類上看,主要有新聞、體育、影視等。在分類完成之后,就是邊界檢測(cè),逐個(gè)鏡頭地抽取文字信息,提取鏡頭特征,獲得鏡頭級(jí)的視頻信息。基于鏡頭級(jí)信息進(jìn)行場(chǎng)景分割,得到視頻的場(chǎng)景級(jí)信息。綜合利用視頻分類信息、鏡頭級(jí)和場(chǎng)景級(jí)信息以及對(duì)片段的定義信息,得到視頻的片段級(jí)信息。最終,根據(jù)視頻節(jié)目分類的結(jié)果,綜合利用鏡頭級(jí)、場(chǎng)景級(jí)以及片段級(jí)目信息,得到視頻的節(jié)目級(jí)信息。
針對(duì)不同類型的視頻節(jié)目,提取不同的文字信息:(1)從新聞?lì)惞?jié)目視頻中,抽取對(duì)當(dāng)前事件主題的文字性概述信息;(2)從廣告視頻中,抽取廠家、產(chǎn)品名稱以及功效等重要信息;(3)從電影和電視劇中,在片頭或片尾提取片名、導(dǎo)演、演職員、贊助商列表等信息,以及人物對(duì)白信息;(4)根據(jù)需求提取其他特定的文字信息。
將從視頻中抽取的文字信息與利用其他技術(shù)提取的信息相結(jié)合,形成視頻的內(nèi)容分析結(jié)果。
利用文字信息提取技術(shù)對(duì)圖像進(jìn)行處理,得到圖像中的文字信息。圖像的內(nèi)容分析還包括顏色直方圖特征提取、特定目標(biāo)識(shí)別等其他處理。
當(dāng)然,視頻和圖片的文字抽取不一定能夠百分百準(zhǔn)確,那么這個(gè)時(shí)候就需要我們?cè)诒匾獣r(shí)以人工方式對(duì)文字內(nèi)容進(jìn)行校正,并進(jìn)行相關(guān)的標(biāo)注。
本文針對(duì)當(dāng)前數(shù)據(jù)媒體監(jiān)管中的缺陷,進(jìn)行了信息化的改造和設(shè)計(jì)。在傳統(tǒng)的數(shù)據(jù)媒體內(nèi)容管理中存在的任務(wù)量大、人工效率不高的問題,在視頻文字系統(tǒng)中得到了較好的解決。本文也詳細(xì)描述了數(shù)據(jù)媒體內(nèi)容監(jiān)管平臺(tái)的設(shè)計(jì)思路以及視頻文字的提取模式,數(shù)據(jù)特點(diǎn)以及分類,重點(diǎn)介紹了文字信息提取在媒體數(shù)據(jù)管理平臺(tái)中的實(shí)際應(yīng)用。最后,隨著視頻文字提取技術(shù)的日漸成熟,相信可以大大提升媒體數(shù)字內(nèi)容的監(jiān)管工作效率。
參考文獻(xiàn):
[1]彭媛.視頻圖像中的文字提取技術(shù)研究[D].上海交通大學(xué).2009.
[2]朱成軍,李超,熊璋.視頻文本監(jiān)測(cè)和識(shí)別技術(shù)研究[J].計(jì)算機(jī)工程.2007,(10).