農(nóng)忠海,劉向榮
(廣西警察學(xué)院,廣西 南寧 530023)
近幾年,公安機(jī)關(guān)開(kāi)展天網(wǎng)工程建設(shè),全國(guó)攝像頭數(shù)量已超過(guò)2 000萬(wàn)個(gè)[1],視頻監(jiān)控在公安偵查破案、治安防控、警務(wù)指揮、社會(huì)管理等公共安全領(lǐng)域發(fā)揮了重大作用。天網(wǎng)視頻監(jiān)控系統(tǒng)對(duì)公共安全及時(shí)預(yù)防、現(xiàn)場(chǎng)處理和現(xiàn)場(chǎng)管控,應(yīng)對(duì)突發(fā)事件起到非常重要的作用。
天網(wǎng)是大型社會(huì)視頻監(jiān)控系統(tǒng),監(jiān)控點(diǎn)規(guī)模龐大、所處環(huán)境復(fù)雜,在視頻監(jiān)控圖像的獲取、壓縮、傳輸?shù)冗^(guò)程中難免會(huì)存在一些異常干擾因素,這些都會(huì)造成圖像質(zhì)量的下降(降質(zhì)、失真),從而導(dǎo)致其中包含的信息丟失,視頻監(jiān)控圖像經(jīng)常出現(xiàn)抖動(dòng)、模糊、偏色、畫(huà)面凍結(jié)、黑屏與播放延時(shí)、亮度異常、視頻源丟失等異常現(xiàn)象。
往往因?yàn)橐恍┨炀W(wǎng)攝像頭關(guān)鍵點(diǎn)圖像質(zhì)量不好,直接影響了公共安全相關(guān)業(yè)務(wù)工作。面對(duì)海量前端攝像機(jī),如何及時(shí)、準(zhǔn)確地管理與掌握前端攝像機(jī)的視頻圖像質(zhì)量,保障監(jiān)控系統(tǒng)良好運(yùn)行,及時(shí)處理故障,提高維護(hù)效率,進(jìn)一步提高圖像聯(lián)網(wǎng)監(jiān)控系統(tǒng)的建設(shè)與應(yīng)用,促進(jìn)治安防控體系的完善,已成為天網(wǎng)視頻監(jiān)控系統(tǒng)真正發(fā)揮作用急需解決的問(wèn)題,也是確保系統(tǒng)發(fā)揮良好社會(huì)效益的重要任務(wù)。
對(duì)天網(wǎng)視頻圖像質(zhì)量監(jiān)測(cè),最初階段是采用人工檢查的主觀評(píng)價(jià)方法,隨著監(jiān)控?cái)z像機(jī)數(shù)量在逐年增加,該方法已經(jīng)無(wú)法完成工作任務(wù)。現(xiàn)在普遍采用視頻質(zhì)量輪巡系統(tǒng)的客觀評(píng)價(jià)方法,對(duì)大規(guī)模視頻圖像質(zhì)量的檢測(cè),在效率上有了很大的提高。視頻質(zhì)量輪巡系統(tǒng)所采用的核心算法是基于傳統(tǒng)的無(wú)參考圖像質(zhì)量評(píng)價(jià)方法,主要采用基于人工特征提取的方法,該方法解決了天網(wǎng)視頻圖像質(zhì)量監(jiān)測(cè)存在誤報(bào)率高、漏報(bào)率高、準(zhǔn)確度不高等問(wèn)題。本文主要研究應(yīng)用深度學(xué)習(xí)算法提高天網(wǎng)視頻監(jiān)控異常圖像發(fā)現(xiàn)的準(zhǔn)確性。
圖像質(zhì)量評(píng)價(jià)有主觀、客觀兩種方法[2]。主觀圖像質(zhì)量評(píng)價(jià)方法就是采用人工肉眼觀看的方式,由人對(duì)正常圖像和異常圖像進(jìn)行評(píng)價(jià)的方法。在圖像數(shù)量少的情況下,可以采用主觀圖像質(zhì)量評(píng)價(jià)方法,但是像天網(wǎng)這樣具有海量監(jiān)控圖像的系統(tǒng),該方法就難以完成任務(wù)。客觀圖像質(zhì)量評(píng)價(jià)方法就是通過(guò)計(jì)算機(jī)程序根據(jù)一定的參數(shù)對(duì)圖像質(zhì)量進(jìn)行判定的方法,而使用全參考圖像進(jìn)行判定的叫全參考客觀圖像質(zhì)量評(píng)價(jià)方法,使用部分參考圖像進(jìn)行判定的叫半?yún)⒖伎陀^圖像質(zhì)量評(píng)價(jià)方法,不使用參考圖像進(jìn)行判定的叫無(wú)參考客觀圖像質(zhì)量評(píng)價(jià)方法[3]。
全參考圖像質(zhì)量評(píng)價(jià)需要將失真前圖像的所有信息和失真圖像進(jìn)行對(duì)比,如均方根誤差(MSE)和峰值信噪比(PSNR)[4]。半?yún)⒖紙D像使用失真前圖像的部分信息作為參考,對(duì)失真后圖像質(zhì)量進(jìn)行評(píng)價(jià)。全參考和半?yún)⒖嫉膱D像質(zhì)量評(píng)價(jià)方法多用于圖像傳輸和壓縮。
在實(shí)際應(yīng)用中,如果要對(duì)圖像的清晰度衰減程度進(jìn)行評(píng)價(jià),圖像清晰度的衰減可能來(lái)自于傳輸和壓縮,此時(shí)可以通過(guò)和壓縮傳輸前的圖像進(jìn)行比對(duì)來(lái)衡量其衰減程度。但更多的圖像質(zhì)量問(wèn)題是來(lái)自于聚焦錯(cuò)誤或其他意外故障,這是我們主要關(guān)注的異常情況,此時(shí)圖像的來(lái)源即攝像機(jī)端的圖像已經(jīng)失真,沒(méi)有無(wú)失真圖像可參考,所以要用無(wú)參考圖像質(zhì)量評(píng)價(jià)方法。無(wú)參考圖像質(zhì)量評(píng)價(jià)是一種無(wú)須原始圖像任何信息,直接對(duì)目標(biāo)圖像進(jìn)行質(zhì)量評(píng)價(jià)的方法,是實(shí)際應(yīng)用中最廣泛的評(píng)價(jià)方法。
目前的天網(wǎng)視頻質(zhì)量輪巡系統(tǒng)基于傳統(tǒng)的無(wú)參考圖像質(zhì)量評(píng)價(jià)方法,采用基于人工特征提取的方法,對(duì)圖像的模糊、曝光、偏色以及遮擋等指標(biāo)進(jìn)行判斷,在對(duì)于單一攝像機(jī)或者網(wǎng)上公開(kāi)的圖像質(zhì)量數(shù)據(jù)集如LIVE、TID2008/TID2013等進(jìn)行判斷方面取得了較好的效果,但在實(shí)際應(yīng)用中效果并不理想。基于傳統(tǒng)方法的圖像質(zhì)量評(píng)價(jià)方法主要存在模型容量小,無(wú)法考慮攝像機(jī)的多樣性,以及在實(shí)際使用中場(chǎng)景的復(fù)雜性,對(duì)實(shí)際場(chǎng)景泛化能力差等缺點(diǎn)。
深度學(xué)習(xí)是一種模擬人腦神經(jīng)網(wǎng)絡(luò)的一種算法,在很多專門(mén)領(lǐng)域應(yīng)用達(dá)到了像人腦一樣學(xué)習(xí)、歸納的效果,目前在圖像質(zhì)量評(píng)價(jià)方面也有一些應(yīng)用研究。比如,在計(jì)算視覺(jué)與模式識(shí)別領(lǐng)域頂級(jí)國(guó)際會(huì)議CVPR 2014上,Kang等人的論文“Convolutional Neural Networks for No-Reference Image Quality Assessment”[5]設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)(CNN),對(duì)圖像的一部分和整幅圖像都進(jìn)行質(zhì)量評(píng)價(jià)。
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取層參數(shù)是通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的,避免了人工特征提取,通過(guò)同一特征圖的權(quán)值共享,大幅減少了網(wǎng)絡(luò)參數(shù),同時(shí)也降低了圖像質(zhì)量評(píng)價(jià)實(shí)現(xiàn)的復(fù)雜度。CNN具有良好的容錯(cuò)能力、并行處理能力和自學(xué)習(xí)能力,在處理二維圖像問(wèn)題上具有良好的魯棒性和運(yùn)算效率。因此,應(yīng)用深度學(xué)習(xí),在天網(wǎng)視頻監(jiān)控圖像質(zhì)量評(píng)價(jià)方面將有比傳統(tǒng)方法更好的效果。
本文研究使用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型算法對(duì)視頻監(jiān)控圖像進(jìn)行質(zhì)量檢測(cè)。首先人工對(duì)天網(wǎng)中存在的異常視頻監(jiān)控圖像進(jìn)行抓取;然后人工標(biāo)定異常圖像為清晰、輕微模糊或嚴(yán)重模糊,并對(duì)應(yīng)的異常圖像提取歷史記錄的清晰圖片;接著對(duì)輸入圖像進(jìn)行裁剪和縮放預(yù)處理,處理后的數(shù)據(jù)在tensorflow serving進(jìn)行數(shù)據(jù)訓(xùn)練,以獲得有效的圖像質(zhì)量評(píng)價(jià)模型。本文的圖像質(zhì)量評(píng)價(jià)算法基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(CNN),進(jìn)行天網(wǎng)視頻監(jiān)控圖像質(zhì)量評(píng)價(jià)方法有三種,分別是清晰度評(píng)價(jià)、曝光評(píng)價(jià)和偏色評(píng)價(jià)。
陳欣的“基于深度學(xué)習(xí)的無(wú)參考模糊圖像質(zhì)量評(píng)價(jià)方法研究”[6],采用傳統(tǒng)CNN方法在圖像上取不同的塊分別計(jì)算清晰度值然后求平均,由于圖像空白區(qū)域和被虛化的部分都是模糊的,因此會(huì)將這兩種圖像評(píng)價(jià)為偏向模糊,實(shí)際上這兩種圖像都是正常的清晰圖像。針對(duì)天網(wǎng)視頻監(jiān)控圖像的特點(diǎn),本文提出取所有圖像塊的均值作為整張圖的評(píng)價(jià)值,將整張圖像采樣同時(shí)輸入網(wǎng)絡(luò),考慮圖像不同區(qū)域清晰度的差異,尤其是對(duì)存在大面積空白和背景虛化的圖像。
通過(guò)tensorflow serving構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),以從監(jiān)控平臺(tái)抓取的圖片作為訓(xùn)練數(shù)據(jù),訓(xùn)練出可以評(píng)價(jià)圖像清晰度、曝光和偏色模型并測(cè)試效果,采用“理論模型→原型系統(tǒng)→實(shí)驗(yàn)驗(yàn)證→理論模型”的做法。
2.2.1 數(shù)據(jù)獲取
訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)所用的數(shù)據(jù)主要來(lái)自天網(wǎng)抓取的圖像數(shù)據(jù),包括多種前端設(shè)備,從分辨率為1080 p圖像到CIF圖像,工作模式包括可見(jiàn)光和紅外,場(chǎng)景包括室內(nèi)、室外、交通、卡口等多種場(chǎng)景共32 516張圖像,取出60%作為訓(xùn)練集,分別取20%作為驗(yàn)證集和測(cè)試集。
2.2.2 數(shù)據(jù)標(biāo)定
由于抓取圖像的前端設(shè)備的種類(lèi)非常多,且場(chǎng)景多,不同類(lèi)型的前端成像效果不同,為了減少人工標(biāo)定時(shí)的復(fù)雜度,我們將圖像清晰度分為清晰、輕微模糊、嚴(yán)重模糊三個(gè)等級(jí)。
一級(jí):清晰圖片,指圖像內(nèi)容邊緣清晰、細(xì)節(jié)紋理豐富,清晰度無(wú)明顯衰減。
二級(jí):輕微模糊,指圖像的內(nèi)容大致都能看清,邊緣不夠銳利,畫(huà)面中的紋理不明顯,清晰度有一定程度的衰減。產(chǎn)生該問(wèn)題的主要原因是輕微的失焦。
三級(jí):嚴(yán)重模糊,指圖像有明顯的模糊,導(dǎo)致部分內(nèi)容已經(jīng)無(wú)法分辨,紋理和邊緣基完全看不到。產(chǎn)生這種問(wèn)題的主要原因是嚴(yán)重的失焦。
對(duì)于不同分辨率的圖像清晰度的比較,我們僅考慮實(shí)際分辨率下圖像內(nèi)容是否清晰,即以達(dá)到圖像分辨率極限作為最清晰,所有圖像在標(biāo)定時(shí)以原始分辨率查看。
2.2.3 數(shù)據(jù)預(yù)處理
由于采集的圖像大多是1080 p和720 p的高清圖像,1080 p單幀的輸入節(jié)點(diǎn)數(shù)為1920×1080×3,如果直接輸入原圖,則需要對(duì)整張圖像進(jìn)行卷積,計(jì)算量非常大,會(huì)嚴(yán)重影響圖像質(zhì)量評(píng)價(jià)系統(tǒng)的運(yùn)行效率,所以要對(duì)輸入圖像進(jìn)行裁剪和縮放。
對(duì)于清晰度評(píng)價(jià)算法則不能對(duì)圖像進(jìn)行縮放,因?yàn)榭s小圖像會(huì)導(dǎo)致圖像的高頻信息丟失,無(wú)法分辨圖像的清晰度,所以采用裁剪下的圖像塊作為輸入。在原圖像上等間距裁剪20個(gè)1×64的圖像塊,將20個(gè)1×64的圖像在垂直方向?qū)盈B,生成一個(gè)高20寬63的三通道圖像。

圖1 圖像塊裁取方式
這里假設(shè)圖像在垂直方向的分辨率和水平方向分辨率是相同的。在實(shí)際應(yīng)用環(huán)境中,由于sensor和鏡頭像差,垂直方向和水平方向的分辨率是不同的,但相對(duì)于圖像清晰度出現(xiàn)異常情況和正常情況清晰度的差別,垂直和水平方向分辨率的差異可以忽略,為了減小計(jì)算量和內(nèi)存占用,提高運(yùn)行速度,從圖像中隨機(jī)裁剪1×64的圖像塊作為輸入。
實(shí)際圖像各部分的分辨率是不一致的,如果對(duì)所有選區(qū)的樣本進(jìn)行標(biāo)定,則工作量太大,難以實(shí)現(xiàn),所以近似圖像每個(gè)部分分辨率一致。由于清晰度值是連續(xù)的,采用一個(gè)數(shù)值來(lái)表示每個(gè)圖像清晰度,將不同三個(gè)清晰度值分別映射到0、0.5和1。
對(duì)于曝光和偏色算法,將圖像統(tǒng)一縮放到96×96,然后隨機(jī)裁剪出64×64的圖像塊作為輸入,這樣既保留了圖像顏色和亮度信息,又能反映出圖像整體的亮度和顏色分布。分別用偏藍(lán)值和偏紅值來(lái)表示圖像偏色程度,用一個(gè)曝光數(shù)值來(lái)表示圖像曝光情況。
2.2.4 模型訓(xùn)練
清晰度評(píng)價(jià)模型的輸入大小為1×64,基于CNN的分類(lèi)網(wǎng)絡(luò),將網(wǎng)絡(luò)結(jié)構(gòu)在水平方向上做卷積和池化,在20個(gè)圖像塊分別經(jīng)過(guò)相同參數(shù)的卷積和池化以及一個(gè)全連接層后,得到一個(gè)大小為[batch_size,20,36]的tensor,batch_size為一個(gè)batch的樣本圖像數(shù)目,20表示輸入中包含的20個(gè)圖像塊樣本,36為每個(gè)樣本最后的輸出節(jié)點(diǎn)數(shù),最后將20個(gè)樣本中每個(gè)樣本的36個(gè)節(jié)點(diǎn)合并成一個(gè)720節(jié)點(diǎn)的向量,經(jīng)過(guò)一個(gè)全連接層,輸出1個(gè)清晰度值。取所有圖像塊的均值作為整張圖的評(píng)價(jià)值,對(duì)整張圖像采樣同時(shí)輸入網(wǎng)絡(luò)考慮了圖像不同區(qū)域清晰度的差異,尤其是對(duì)存在大面積空白和背景虛化的圖像。傳統(tǒng)CNN方法在圖像上取不同的塊分別計(jì)算清晰度值然后求平均,由于圖像空白區(qū)域和被虛化的部分都是模糊的,因此會(huì)將這兩種圖像評(píng)價(jià)為偏向模糊,實(shí)際上這兩種圖像都是正常的清晰圖像。

圖2 清晰度評(píng)價(jià)網(wǎng)絡(luò)

圖3 偏色評(píng)價(jià)網(wǎng)絡(luò)

圖4 曝光評(píng)價(jià)網(wǎng)絡(luò)
曝光評(píng)價(jià)模型輸入為64×64×3,即先將圖像縮放到64×64大小,基于CNN回歸網(wǎng)絡(luò),輸出一個(gè)值評(píng)價(jià)曝光程度。
偏色評(píng)價(jià)模型輸入為64×64×3,即先將圖像縮放到64×64大小,基于CNN回歸網(wǎng)絡(luò),輸出兩個(gè)值評(píng)價(jià)偏色程度。
經(jīng)過(guò)200個(gè)epoch的訓(xùn)練,清晰度評(píng)價(jià)模型交叉熵收斂到0.4,曝光和偏色模型分別收斂到0.09和0.11。
部署基于tensorflow serving,分為client端和server端,server端運(yùn)行在有GPU的服務(wù)器上,可以實(shí)現(xiàn)同時(shí)對(duì)多路圖像進(jìn)行分析。
在推斷時(shí),在輸入圖像上取等間距的20個(gè)1×64的圖像塊作為輸入x[20],分別得到20個(gè)塊的分類(lèi)結(jié)果y[20],統(tǒng)計(jì)y[20]中三個(gè)分類(lèi)的個(gè)數(shù),取個(gè)數(shù)最多的分類(lèi)作為整張圖片的分類(lèi)結(jié)果。

圖5 清晰圖像與切塊后的輸入

圖6 輕微模糊圖像與切塊后的輸入

圖7 嚴(yán)重模糊圖像與切塊后的輸入
采用皮爾遜線性相關(guān)系數(shù)PLCC(Pearson Linear Correlation Coefficient)對(duì)圖像評(píng)價(jià)方法進(jìn)行評(píng)價(jià),PLCC的數(shù)學(xué)表達(dá)式為

式中,n為圖像數(shù)量;為主觀圖像質(zhì)量評(píng)價(jià)分值;為客觀圖像質(zhì)量評(píng)價(jià)分值;分別表示兩組數(shù)據(jù)的均值。
應(yīng)用上述方法在測(cè)試集數(shù)據(jù)上測(cè)試了清晰度分辨模型,PLCC達(dá)到了0.80。這個(gè)結(jié)果比已有的研究在LIVE或TID2008等公開(kāi)數(shù)據(jù)集上得到的超過(guò)0.9的PLCC準(zhǔn)確率要低得多。應(yīng)該是天網(wǎng)實(shí)際場(chǎng)景圖像比公開(kāi)數(shù)據(jù)集的情況復(fù)雜,因此準(zhǔn)確率相對(duì)較低。
應(yīng)用本圖像質(zhì)量評(píng)價(jià)模型,通過(guò)對(duì)天網(wǎng)圖像質(zhì)量輪巡系統(tǒng)上的1000臺(tái)設(shè)備進(jìn)行了輪巡,檢測(cè)出存在圖像模糊問(wèn)題的設(shè)備26臺(tái),準(zhǔn)確率0.81,召回率0.82,存在偏色問(wèn)題的設(shè)備5臺(tái),存在曝光問(wèn)題的設(shè)備8臺(tái)。
基于深度學(xué)習(xí)的天網(wǎng)圖像質(zhì)量輪巡系統(tǒng),可以利用大數(shù)據(jù)的優(yōu)勢(shì),對(duì)實(shí)際應(yīng)用中攝像機(jī)種類(lèi)多且場(chǎng)景復(fù)雜的情況有較好的泛化能力,相對(duì)于傳統(tǒng)方法更適用于實(shí)際應(yīng)用,提高了發(fā)現(xiàn)問(wèn)題設(shè)備的準(zhǔn)確率。在應(yīng)用過(guò)程中還可以通過(guò)對(duì)異常圖像的采集,經(jīng)過(guò)人工標(biāo)定,加入訓(xùn)練數(shù)據(jù),后續(xù)只要更新模型模塊即可不斷提高圖像質(zhì)量評(píng)價(jià)的準(zhǔn)確率。得益于當(dāng)前深度學(xué)習(xí)硬件加速技術(shù)的發(fā)展,基于深度學(xué)習(xí)的天網(wǎng)圖像質(zhì)量輪巡系統(tǒng)可以有很高的運(yùn)行速度,在短時(shí)間內(nèi)對(duì)大量設(shè)備進(jìn)行輪巡,可用于公安部門(mén)天網(wǎng)攝像頭輪巡,也可拓展延伸到交通部門(mén)、電力行業(yè)、大型建筑群、運(yùn)營(yíng)商監(jiān)控等建設(shè)有大型視頻監(jiān)控系統(tǒng)的領(lǐng)域。■