呂東澤
大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司,黑龍江大慶 163000
?
基于視頻流的圖像識別技術(shù)發(fā)展與應(yīng)用
呂東澤
大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司,黑龍江大慶 163000
摘 要首先針對流媒體環(huán)境下的圖像識別技術(shù)價(jià)值展開分析,對于當(dāng)前流媒體圖像識別技術(shù)的主要應(yīng)用領(lǐng)域以及需求狀態(tài)加以說明,而后從技術(shù)的角度針對當(dāng)前該領(lǐng)域中的幾種主要技術(shù)展開討論,希望對于切實(shí)推動加深認(rèn)識有積極價(jià)值。
關(guān)鍵詞視頻;流媒體;圖像識別;技術(shù)
流數(shù)據(jù)格式在當(dāng)前網(wǎng)絡(luò)環(huán)境中愈加常見,其應(yīng)用范圍已經(jīng)突破了常規(guī)的傳媒以及安全領(lǐng)域,而進(jìn)入到了更多的應(yīng)用環(huán)境中,對應(yīng)的制作工作人員也不再限于相關(guān)專業(yè),更多專業(yè)和不專業(yè)的人參與到了流媒體的工作環(huán)境中來。這種情況,從客觀上要求在視頻流環(huán)境中引入更為自動化的工作方式,從而實(shí)現(xiàn)對于相關(guān)工作的支持,其中圖像識別技術(shù)就是首要的需求之一。
圖像識別技術(shù)在流媒體領(lǐng)域中有著較高的應(yīng)用需求,主要的需求來源于對大量數(shù)據(jù)的有效存儲和閱讀,以及工業(yè)環(huán)境的實(shí)時(shí)監(jiān)控兩個(gè)方面。對于前者而言,由于流媒體本身的特征,決定了它在存儲和查找的時(shí)候都無法做到像傳統(tǒng)數(shù)據(jù)格式那樣的快捷有效,甚至于一直以來對于流媒體的存儲、歸類以及檢索,都要依賴于工作人員添加的標(biāo)簽才能完成,而這對于流媒體的相關(guān)操作效率的提升無疑有著不利影響。
當(dāng)前圖像識別領(lǐng)域的應(yīng)用已經(jīng)日趨成熟,流媒體本身由眾多的數(shù)據(jù)幀組成,因此在圖像識別技術(shù)成熟的基礎(chǔ)之上應(yīng)用到流媒體領(lǐng)域,無論從技術(shù)還是價(jià)值方面都有一定的積極價(jià)值。而從應(yīng)用的角度看,眾多領(lǐng)域都存在顯著需求,突出表現(xiàn)的幾個(gè)方面,包括流格式數(shù)據(jù)的存儲與檢索,安全領(lǐng)域的自動識別應(yīng)用以及工業(yè)環(huán)境中對于數(shù)字儀表的自動讀取,以及新聞視頻中的字幕信息自動提取等。相對而言,當(dāng)前在安全和工業(yè)領(lǐng)域中的需求較為突出,并且也取得了矚目成果,但是從長遠(yuǎn)的角度看,流格式數(shù)據(jù)的深入識別,必然能夠推動其存儲與檢索的優(yōu)化,這對于帶動流媒體在多個(gè)領(lǐng)域中的深入應(yīng)用都會存在積極意義。
當(dāng)前在流媒體領(lǐng)域中,圖像識別技術(shù)的發(fā)展已經(jīng)取得一定成果,依據(jù)不同領(lǐng)域中的需求狀況以及圖像特征,可以有多種技術(shù)供選用。在實(shí)際工作中,應(yīng)當(dāng)依據(jù)具體情況進(jìn)行選擇,才能獲取良好效果。
對于流媒體數(shù)據(jù)格式中的文字識別而言,常規(guī)的方法有基于邊緣、基于紋理、基于區(qū)域的三種主要工作方式。其中基于邊緣的識別方式,主要是在圖像中尋找垂直邊緣來對文字實(shí)現(xiàn)檢測。其主要的工作方式是先確定出圖像的邊緣,而后通過平滑濾波或形態(tài)學(xué)膨脹的方法來將邊緣連接成為文字塊,最終加以識別。此種工作方式表現(xiàn)出良好的工作效率,但是如果圖像背景復(fù)雜文字區(qū)域反差小,也會造成誤碼率偏高問題的發(fā)生。而且基于紋理的識別方法,是利用圖像中的紋理特征去對比,從而確定一個(gè)像素點(diǎn)是否屬于文字區(qū)域。此種識別方式通用性較強(qiáng),不僅僅能夠?qū)崿F(xiàn)文字的識別,對于其他類型的圖像識別,諸如對運(yùn)動物體等的識別也能發(fā)揮良好作用。但是此種工作方式在有效提取紋理信息的過程中可能會面臨較大運(yùn)算量,從而造成系統(tǒng)整個(gè)運(yùn)行緩慢,工作效率低下的問題,并且無法抵御高噪影響。最后,基于區(qū)域的方法則是基于文字像素均存在相似顏色的架設(shè)而展開,此種工作方式可以對于新聞視頻中的文字進(jìn)行識別,但是無法對工業(yè)儀表等示值有效識別,整體效果和應(yīng)用領(lǐng)域都相對有限。
除去對于文字的識別,對人臉的識別同樣也是
當(dāng)前視頻流數(shù)據(jù)中圖像識別的重要的技術(shù)表現(xiàn)。相對于文字識別而言,人臉識別更為復(fù)雜,并且經(jīng)過了更漫長的探索過程,至今都仍然處于不斷地完善之中。當(dāng)前在人臉識別領(lǐng)域中,比較常見的方式是為人臉建立起對應(yīng)的面部模型用于圖像中的識別和對比,實(shí)現(xiàn)匹配之后進(jìn)一步對其面部數(shù)據(jù)進(jìn)行分析和提取,最終實(shí)現(xiàn)識別。
無論是人臉識別,還是對于流媒體數(shù)據(jù)內(nèi)相關(guān)信息進(jìn)行識別,都需要必要的硬件以及軟件運(yùn)算能力加以支持。除此以外,系統(tǒng)本身的學(xué)習(xí)能力,作為圖像識別技術(shù)前進(jìn)的重要技術(shù)因素不容忽視。學(xué)習(xí)本身是系統(tǒng)的一種自適應(yīng)體現(xiàn),例如對視頻流字幕進(jìn)行定位的過程中,即便是同一場景也有可能會出現(xiàn)字幕的不一致問題,包括位置以及大小、色彩等,都會發(fā)生變化,同樣的變化也會出現(xiàn)在工業(yè)環(huán)境中的儀表示值監(jiān)測領(lǐng)域,因此系統(tǒng)必須能夠?qū)崿F(xiàn)主動學(xué)習(xí),才能切實(shí)展開圖像識別。除此以外,人工智能等方面技術(shù)的深入應(yīng)用,對于流媒體系統(tǒng)中的圖像識別工作質(zhì)量提升同樣意義重大。而實(shí)際在展開圖像識別的過程中,圖像數(shù)據(jù)的多幀平滑,以及多層前向反饋神經(jīng)網(wǎng)絡(luò)等技術(shù)的應(yīng)用,同樣也是推動該領(lǐng)域工作效果提升的重要武器。
對于視頻流媒體的圖像識別,關(guān)系到社會工作的多個(gè)方面,其有效存儲和管理關(guān)系到數(shù)據(jù)挖掘和分析的技術(shù)實(shí)現(xiàn)效果,并且從效率方面有著不容忽視的影響,而圖像識別更是相關(guān)領(lǐng)域自動化的堅(jiān)實(shí)基礎(chǔ)和有力保證。實(shí)際工作中需要依據(jù)具體情況來對眾多技術(shù)進(jìn)行選擇,確保能夠滿足準(zhǔn)確和效率兩個(gè)方面的均衡需求。
參考文獻(xiàn)
[1]黃萬軍,尹寶才,陳通波,等.基于三維可變形模板的眼睛特征提取[J].計(jì)算機(jī)研究與發(fā)展,2002,39(4):495-501.
[2]李默,李弼程,鄧子健.新聞視頻主持人鏡頭的半屏幕檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2005(15):183-185.
[3]王旭智,向長波,宋建中,等.實(shí)時(shí)字符識別在視頻讀表系統(tǒng)中的應(yīng)用[J].電子器件,2006,29(4):1334-1337.
作者簡介:呂東澤,工作單位為大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司。當(dāng)前計(jì)算機(jī)相關(guān)技術(shù)與通信網(wǎng)絡(luò)的發(fā)展達(dá)到前所未有的高度,信息的消費(fèi)對于社會環(huán)境中的生產(chǎn)生活而言,已經(jīng)不僅僅是單純的提高效率,而是上升到了成為社會各類活動必要支持的高度。而在網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)格式,也隨著相關(guān)技術(shù)的進(jìn)步有所變化,其中流媒體成為首當(dāng)其沖的重點(diǎn)所在。
中圖分類號TP3
文獻(xiàn)標(biāo)識碼A
文章編號2096-0360(2016)04-0026-01