基于視頻流的圖像識別技術(shù)發(fā)展與應(yīng)用

2016-08-15 00:55:44呂東澤

新媒體研究 2016年4期

關(guān)鍵詞：視頻技術(shù)

呂東澤

大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司，黑龍江大慶 163000

基于視頻流的圖像識別技術(shù)發(fā)展與應(yīng)用

呂東澤

大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司，黑龍江大慶 163000

摘要首先針對流媒體環(huán)境下的圖像識別技術(shù)價(jià)值展開分析，對于當(dāng)前流媒體圖像識別技術(shù)的主要應(yīng)用領(lǐng)域以及需求狀態(tài)加以說明，而后從技術(shù)的角度針對當(dāng)前該領(lǐng)域中的幾種主要技術(shù)展開討論，希望對于切實(shí)推動加深認(rèn)識有積極價(jià)值。

關(guān)鍵詞視頻；流媒體；圖像識別；技術(shù)

1 流媒體環(huán)境下的圖像識別技術(shù)價(jià)值與應(yīng)用

流數(shù)據(jù)格式在當(dāng)前網(wǎng)絡(luò)環(huán)境中愈加常見，其應(yīng)用范圍已經(jīng)突破了常規(guī)的傳媒以及安全領(lǐng)域，而進(jìn)入到了更多的應(yīng)用環(huán)境中，對應(yīng)的制作工作人員也不再限于相關(guān)專業(yè)，更多專業(yè)和不專業(yè)的人參與到了流媒體的工作環(huán)境中來。這種情況，從客觀上要求在視頻流環(huán)境中引入更為自動化的工作方式，從而實(shí)現(xiàn)對于相關(guān)工作的支持，其中圖像識別技術(shù)就是首要的需求之一。

圖像識別技術(shù)在流媒體領(lǐng)域中有著較高的應(yīng)用需求，主要的需求來源于對大量數(shù)據(jù)的有效存儲和閱讀，以及工業(yè)環(huán)境的實(shí)時(shí)監(jiān)控兩個(gè)方面。對于前者而言，由于流媒體本身的特征，決定了它在存儲和查找的時(shí)候都無法做到像傳統(tǒng)數(shù)據(jù)格式那樣的快捷有效，甚至于一直以來對于流媒體的存儲、歸類以及檢索，都要依賴于工作人員添加的標(biāo)簽才能完成，而這對于流媒體的相關(guān)操作效率的提升無疑有著不利影響。

當(dāng)前圖像識別領(lǐng)域的應(yīng)用已經(jīng)日趨成熟，流媒體本身由眾多的數(shù)據(jù)幀組成，因此在圖像識別技術(shù)成熟的基礎(chǔ)之上應(yīng)用到流媒體領(lǐng)域，無論從技術(shù)還是價(jià)值方面都有一定的積極價(jià)值。而從應(yīng)用的角度看，眾多領(lǐng)域都存在顯著需求，突出表現(xiàn)的幾個(gè)方面，包括流格式數(shù)據(jù)的存儲與檢索，安全領(lǐng)域的自動識別應(yīng)用以及工業(yè)環(huán)境中對于數(shù)字儀表的自動讀取，以及新聞視頻中的字幕信息自動提取等。相對而言，當(dāng)前在安全和工業(yè)領(lǐng)域中的需求較為突出，并且也取得了矚目成果，但是從長遠(yuǎn)的角度看，流格式數(shù)據(jù)的深入識別，必然能夠推動其存儲與檢索的優(yōu)化，這對于帶動流媒體在多個(gè)領(lǐng)域中的深入應(yīng)用都會存在積極意義。

2 視頻流環(huán)境下圖像識別的主要技術(shù)與發(fā)展

當(dāng)前在流媒體領(lǐng)域中，圖像識別技術(shù)的發(fā)展已經(jīng)取得一定成果，依據(jù)不同領(lǐng)域中的需求狀況以及圖像特征，可以有多種技術(shù)供選用。在實(shí)際工作中，應(yīng)當(dāng)依據(jù)具體情況進(jìn)行選擇，才能獲取良好效果。

對于流媒體數(shù)據(jù)格式中的文字識別而言，常規(guī)的方法有基于邊緣、基于紋理、基于區(qū)域的三種主要工作方式。其中基于邊緣的識別方式，主要是在圖像中尋找垂直邊緣來對文字實(shí)現(xiàn)檢測。其主要的工作方式是先確定出圖像的邊緣，而后通過平滑濾波或形態(tài)學(xué)膨脹的方法來將邊緣連接成為文字塊，最終加以識別。此種工作方式表現(xiàn)出良好的工作效率，但是如果圖像背景復(fù)雜文字區(qū)域反差小，也會造成誤碼率偏高問題的發(fā)生。而且基于紋理的識別方法，是利用圖像中的紋理特征去對比，從而確定一個(gè)像素點(diǎn)是否屬于文字區(qū)域。此種識別方式通用性較強(qiáng)，不僅僅能夠?qū)崿F(xiàn)文字的識別，對于其他類型的圖像識別，諸如對運(yùn)動物體等的識別也能發(fā)揮良好作用。但是此種工作方式在有效提取紋理信息的過程中可能會面臨較大運(yùn)算量，從而造成系統(tǒng)整個(gè)運(yùn)行緩慢，工作效率低下的問題，并且無法抵御高噪影響。最后，基于區(qū)域的方法則是基于文字像素均存在相似顏色的架設(shè)而展開，此種工作方式可以對于新聞視頻中的文字進(jìn)行識別，但是無法對工業(yè)儀表等示值有效識別，整體效果和應(yīng)用領(lǐng)域都相對有限。

除去對于文字的識別，對人臉的識別同樣也是

當(dāng)前視頻流數(shù)據(jù)中圖像識別的重要的技術(shù)表現(xiàn)。相對于文字識別而言，人臉識別更為復(fù)雜，并且經(jīng)過了更漫長的探索過程，至今都仍然處于不斷地完善之中。當(dāng)前在人臉識別領(lǐng)域中，比較常見的方式是為人臉建立起對應(yīng)的面部模型用于圖像中的識別和對比，實(shí)現(xiàn)匹配之后進(jìn)一步對其面部數(shù)據(jù)進(jìn)行分析和提取，最終實(shí)現(xiàn)識別。

無論是人臉識別，還是對于流媒體數(shù)據(jù)內(nèi)相關(guān)信息進(jìn)行識別，都需要必要的硬件以及軟件運(yùn)算能力加以支持。除此以外，系統(tǒng)本身的學(xué)習(xí)能力，作為圖像識別技術(shù)前進(jìn)的重要技術(shù)因素不容忽視。學(xué)習(xí)本身是系統(tǒng)的一種自適應(yīng)體現(xiàn)，例如對視頻流字幕進(jìn)行定位的過程中，即便是同一場景也有可能會出現(xiàn)字幕的不一致問題，包括位置以及大小、色彩等，都會發(fā)生變化，同樣的變化也會出現(xiàn)在工業(yè)環(huán)境中的儀表示值監(jiān)測領(lǐng)域，因此系統(tǒng)必須能夠?qū)崿F(xiàn)主動學(xué)習(xí)，才能切實(shí)展開圖像識別。除此以外，人工智能等方面技術(shù)的深入應(yīng)用，對于流媒體系統(tǒng)中的圖像識別工作質(zhì)量提升同樣意義重大。而實(shí)際在展開圖像識別的過程中，圖像數(shù)據(jù)的多幀平滑，以及多層前向反饋神經(jīng)網(wǎng)絡(luò)等技術(shù)的應(yīng)用，同樣也是推動該領(lǐng)域工作效果提升的重要武器。

3 結(jié)論

對于視頻流媒體的圖像識別，關(guān)系到社會工作的多個(gè)方面，其有效存儲和管理關(guān)系到數(shù)據(jù)挖掘和分析的技術(shù)實(shí)現(xiàn)效果，并且從效率方面有著不容忽視的影響，而圖像識別更是相關(guān)領(lǐng)域自動化的堅(jiān)實(shí)基礎(chǔ)和有力保證。實(shí)際工作中需要依據(jù)具體情況來對眾多技術(shù)進(jìn)行選擇，確保能夠滿足準(zhǔn)確和效率兩個(gè)方面的均衡需求。

參考文獻(xiàn)

[1]黃萬軍，尹寶才，陳通波，等.基于三維可變形模板的眼睛特征提取[J].計(jì)算機(jī)研究與發(fā)展，2002，39（4）：495-501.

[2]李默，李弼程，鄧子健.新聞視頻主持人鏡頭的半屏幕檢測算法[J].計(jì)算機(jī)工程與應(yīng)用，2005（15）：183-185.

[3]王旭智，向長波，宋建中，等.實(shí)時(shí)字符識別在視頻讀表系統(tǒng)中的應(yīng)用[J].電子器件，2006，29（4）：1334-1337.

作者簡介：呂東澤，工作單位為大慶油田房地產(chǎn)開發(fā)有限責(zé)任公司。當(dāng)前計(jì)算機(jī)相關(guān)技術(shù)與通信網(wǎng)絡(luò)的發(fā)展達(dá)到前所未有的高度，信息的消費(fèi)對于社會環(huán)境中的生產(chǎn)生活而言，已經(jīng)不僅僅是單純的提高效率，而是上升到了成為社會各類活動必要支持的高度。而在網(wǎng)絡(luò)環(huán)境中的數(shù)據(jù)格式，也隨著相關(guān)技術(shù)的進(jìn)步有所變化，其中流媒體成為首當(dāng)其沖的重點(diǎn)所在。

中圖分類號TP3

文獻(xiàn)標(biāo)識碼A

文章編號2096-0360（2016）04-0026-01