封 順
吉林警察學院 教務處,吉林 長春 130117
隨著社會的發展和以大數據、云計算、圖像處理、視頻技術、數據挖掘、知識管理等新一代信息技術為支撐的智慧警務不斷建設[1],視聽資料以其客觀穩定、信息豐富、信息拓展性強等特點在警務工作中應用極為廣泛。由于高分辨率圖像包含較多的幾何結構和細節紋理信息,公安工作對圖像分辨率和圖像質量要求也不斷提高。但在很多復雜的現實場景下,現有設備或技術所獲得的影像或圖像往往受到環境、成像機理、視頻場景[2]等因素影響發生降質,造成分辨率低、畫面視覺質量低下,缺少必要的細節紋理信息,致使觀察者辨識能力降低,直接影響圖像的視覺感官效果。例如,在多數刑事偵查和治安案件中獲取圖像資料多為案后采集,往往因攝錄設備的安裝角度不合理、維護與管理不完善、設備性能和存儲壓縮限制、特殊或惡劣環境等因素導致畫面模糊不清、變形等問題,影響對犯罪嫌疑人體貌特征和作案工具的判斷,獲取的圖像資料難以進行比對、識別和認定,給公安機關的巡邏、偵查、檢驗鑒定等工作帶來極大困難。
近年來,利用單幅圖像超分辨率重建(Single Image Super-resolution Reconstruction,簡稱SISR)技術對低分辨率、低質量圖像進行增強以獲取對應高分辨率圖像的方法,引起了學術界和工業界的廣泛關注,由于其性能優越且具有較高的實用價值,逐步被引入警務工作中。SISR 技術克服了硬件設備、軟件系統、拍攝環境的局限性,可對公安實戰中獲取的低分辨率圖像資料進行增強處理,增加高頻細節紋理,提高人臉識別、數據檢索的準確率和識別率,提升醫學影像的視覺質量,為公安工作提供高效、實用的技術處理手段,也為法庭科學中司法鑒定提供可靠的參考,在刑事偵查、人臉識別比對、公安圖像數據檢索、法醫學影像、司法鑒定等警務工作[3]中具有廣泛的應用和研究前景。邵雷等[4]將人臉識別比對技術應用于視頻偵查中,圖像增強技術使視頻中人像質量得到改善,提高人臉識別率,在人像識別比對中發揮著至關重要的作用。侯欣雨等[5]將SISR 技術應用于人像比對中,雖然在個例人像中取得了很好的提升效果,但整體不具有普適性,且對低質量人像重建效果不佳。徐敏敏等[6]通過脈沖耦合神經網絡公安圖像增強方法解決低照度圖像亮度低、對比度小和像素質量差的問題,實現保持圖像細節信息和增強圖像明暗對比度的雙重效果。高飛等[7]使用Enlighten-GAN 網絡對指紋進行超分辨率重建,利用包括啟發塊的各種方法來指導生成特征圖,自監督分層感知損失來優化生成模型,在NIST 指紋圖像數據集上取得了很好效果。田煜等[8]使用改進FSRCNN 卷積神經網絡對模糊車牌圖像進行超分辨率重建,不僅縮減了訓練時間,圖像質量在主觀和客觀方面都有所改善。
總結和思考前人的研究和應用可發現兩個問題:一是SISR 技術在公安實戰和法庭科學中是否具有實際應用價值;二是在日常工作中采集圖像情況極其復雜多樣,不同條件下生成圖像對重建效果的影響。針對這兩個問題,本文從公安實戰和法庭科學司法鑒定的角度出發,以案件中積累的圖像數據為基礎,應用多種基于深度學習的SISR 技術進行圖像增強,探討其在公安實戰和法庭科學中應用可行性,并分析不同條件對重建效果的影響,研究SISR技術在警務工作中的實際應用價值和局限性,為公安實戰應用提供參考,為法庭科學領域的研究提供借鑒。
圖像超分辨率重建旨在從低分辨率圖像(Low Resolution,簡稱LR)重建出細節清晰、自然的高分辨率圖像(High Resolution,簡稱HR)[9],增強后的高分辨率圖像具有高像素密度和低分辨率圖像中缺失的細節信息。重構模型定義見公式(1):
式中:Il是低分辨率圖像,I?h是重構后的高分辨率圖像,F(·)是圖像超分辨率重建模型,θ是重建模型的各項參數。
為使重構后圖像更接近真實圖像Ig,通常將I?h和Ig之間的損失函數進行迭代優化,使二者差距盡量小,優化目標函數見公式(2):
式中:Lθ(·)是損失函數項,可以是L1損失(平均絕對誤差)、L2損失(均方誤差)、內容損失、感知損失或多種損失函數組合等;φ(θ)是正則化約束項。
為提高圖像分辨率和質量,早期研究者提出了各種SISR 算法,其中:傳統差值算法和圖像濾波算法過于簡單,預測圖像紋理細節處存在局限性,產生過于平滑圖像;基于稀疏編碼算法過度依賴訓練數據,注重學習和優化詞典重構有效映射函數,很難直接擴展到高維數據;基于正則化約束算法需要很多先驗知識并且模型復雜度高,運行效率低[10]。近年來,隨著深度學習技術的不斷發展,基于深度學習實現快速有效SISR 的研究熱潮迅速興起。SRCNN 是一種淺層卷積神經網絡結構[11],首次將深度學習技術應用到SISR 中,實現低分辨率到高分辨率圖像之間端到端的映射,相比傳統方法,取得了顯著的效果。自此之后,基于深度學習的SISR 不斷探索和發展,在原有基礎網絡(卷積神經網絡CNN、生成對抗網絡GANs)中融入新的網絡結構。圖1 為基于深度學習的SISR 技術網絡結構基本流程圖,表1 為基于深度學習的超分辨率重建算法深層次網絡結構的類型、相關作用和對應網絡結構的代表性算法。

圖1 基于深度學習的超分辨率重建技術網絡結構基本流程圖
由于本文研究重點是SISR 技術在警務工作中的應用進展,因此,接下來對本文使用的SISR 技術和生成圖像后的質量評價方法進行簡要概述。
主要采用基于深度學習的圖像超分辨率重建算法,實驗中使用ESRGAN 和BSRGAN 處理真實低分辨率圖像。
SRGAN 算法[12]首次將生成器網絡與判別器網絡對抗訓練應用到超分辨率圖像重建當中,并提出一種新的圖像質量評價指標來反映測試對象和真實HR 圖像的相似程度。ESRGAN 從三方面對SRGAN進行改進[13],可獲得更真實、自然的紋理和更好的視覺質量。首先,使用沒有批量歸一化的殘差密集塊(Residual-in-Residual Dense Block,簡稱RRDB)來代替SRGAN 中的殘差塊(Residual Block,簡稱Resblock),增加殘差縮放(residual scaling),增強深度網絡訓練穩定性和網絡容量;其次,改進SRGAN的對抗損失,讓生成圖像和真實圖像之間距離保持盡可能大,以此來指導判別器預測相對真實度而不是絕對值,有助于生成器重構更真實的紋理細節;最后,使用VGG 網絡激活前的特征圖計算感知損失,從而重構更精確的亮度和更清晰的邊緣紋理。
BSRGAN 提出基于實際應用圖像退化的廣義盲圖像超分模型[14],對模糊、下采樣以及噪聲退化方式采取隨機洗牌策略生成LR 圖像,解決圖像超分的預假設退化模型與真實圖像的退化方式存在偏差,模型重建后難以取得良好效果的問題。該算法提出一種針對SISR 的廣義退化模型,考慮更為復雜的退化空間,盡量模擬真實世界圖像退化過程,將退化模型合成LR 圖像與真實HR 圖像進行配對,以端到端監督方式訓練一個基于新退化模型的深度ESRGAN 盲超分模型。模型在不同類型真實退化數據上取得了非常好的效果,可顯著提升深度SISR 模型的實用性和泛化能力,為超分辨率重建實際應用提供了一種有效解決方案。
上述方法使用目前國際上一些專用于SISR 的公共標準數據集進行模型訓練和測試,基于深度學習SISR常用的數據集見表2。

表2 基于深度學習的SISR常用數據集
圖像質量評價(Image Quality Assessment,簡稱IQA)的方式主要分為人眼視覺系統感知方面的主觀評價和實驗數值計算方面的客觀評價[15]。客觀方法通過一定指標衡量原始圖像與重建圖像之間的相似度,采用量化值代替人類視覺系統認知圖像質量優劣,常見的評價方式有峰值信噪比、結構相似性、平均絕對誤差和均方根誤差等。主觀評價是觀察者通過人眼運用掌握的知識觀察重建的高分辨率圖像,在色彩、清晰度、高頻紋理、質感和邊緣細節等方面對HR 圖像進行綜合評價。常見的評價方式有平均意見評分(MOS)[12],觀察者對原始圖像和待評估圖像進行綜合評估,然后對所有主觀得分求和取平均值。由于客觀評價標準主要是追求像素級平均問題而產生過于平滑的結果,主觀評價主要面向視覺感知方面,可以準確測量圖像感知質量,更符合人類視覺需求和公安實戰應用,是測量感知質量最可靠的評價方法,因此,本文主要采用主觀平均意見評分評價法。
為探索SISR 技術在公安實戰和法庭科學中應用可行性和應用進展,并分析不同條件對重建效果的影響,本文采用被廣泛應用于工業界的ESRGAN網絡和BSRGAN 網絡,分別從不同自然環境下的指紋、人像、車牌、自然景物等角度進行分析。
本實驗中采用的測試樣本數據是從相關案件中獲取的具有代表性的圖像,共120 組,每組圖像包含原始低質量圖像、使用ESRGAN 和BSRGAN 對原始圖像進行超分辨率重建得到的高分辨率圖像。實驗數據按照原始圖像類別分為4類,包括車牌類30組、指紋類30 組、人像類30 組、自然場景類30 組。全部圖像都為彩色RGB 色彩模式,每類圖像根據光照強度、攝錄角度、采集客體、場景復雜度、攝像距離等因素再進行分類,高度復現警務實戰應用中多復雜場景獲取真實線索類和證據類情形。
全部實驗圖像數據從自然場景下獲取,受自然環境、拍攝角度和距離、硬件設施、運動模糊、離焦模糊、場景復雜度等因素影響,導致圖像視覺質量相對較差。其中:車牌數據30 組均為從原始視頻錄像或圖像中截取的130×32 像素車牌圖像,受視距、拍攝角度、光照、硬件設備等條件影響,分辨率低、質量相對較差;指紋數據30 組為在客體表面粗糙或紡織物背景下獲取的275×400 像素圖像,因客體不同、提取技術、指紋模糊不全等因素影響,指紋比對工作和法庭科學司法鑒定受到一定影響;人像數據30 組為視頻監控中截取的640×640 像素圖像,因攝像距離、傾斜角度、光照強度等因素影響,視覺效果很差,難以進行人像辨別和比對;自然場景數據30 組為視頻監控中截取的低質量圖像,根據場景復雜性分為室內場景、室外場景和視頻車輛,因硬件設施、光照強度、攝像距離等因素致使自然場景中細節難以辨識。
首先,對ESRGAN 和BSRGAN 模型進行復現、訓練和測試,得到最佳模型參數,其中ESRGAN 使用數據集DIV2K 進行訓練,使用Set5、Set14 和BSDS100進行測試,BSRGAN是在DIV2K、Flickr2K、WED以及源自FFHQ 的2 000 張人臉圖像基礎上,根據自設退化模型和隨機洗牌策略進行訓練和測試。然后,使用訓練好的模型對采集的指紋、人像、車牌、自然景物的每張低質量圖像進行超分辨率重建,重建比例因子為×4,得到ESRGAN 和BSRGAN 重建結果,圖2為重建結果示例圖。

圖2 使用ESRGAN和BSRGAN對原始低質量圖像(LQ)的處理結果
為得到相對客觀和準確的評價結果,采用平均意見評分評價方法,邀請專業人員和未接受過訓練的普通人對全部120 組處理結果進行評價。要求評分者通過色彩、清晰度、噪音、紋理細節、質感等視覺感知質量標準對比低質量圖像和重建后圖像,進行綜合評價并分配感知質量分數(感知質量分數及其含義見表3),最后對每組所有評分求算數平均值。

表3 感知質量分數及其含義
對于車牌的超分辨率重建,主要使用視頻中截圖所得的30 組130×32 像素圖像,將圖像與ESRGAN和BSRGAN 重建后圖像進行比較。為驗證多場景應用的可行性,在實驗中分別選取低質量圖像10 張、光線條件較差環境下10 張、較大傾斜角度5 張和質量較好5 張車牌圖像,圖3 為其中一些代表性結果。邀請146 名專業人員和100 名未接受過訓練的普通受訪者從視覺感知質量角度對不同組中車牌處理結果進行客觀評價,結果如圖4所示。

圖4 車牌平均意見評分評價結果
從圖3 可以看出,這兩種方法都提升了低質量圖像的清晰度和細節,其中BSRGAN 整體效果優于ESRGAN,可以產生清晰、自然的紋理和銳利邊緣。較好質量的圖像重建結果表現穩定,較大傾斜角度對重建結果影響較小,圖像質量低和光線條件對重建后結果影響較大,往往會生成偽影和難以消除的噪聲,尤其對復雜文字增強效果不理想,可能放大一些假象,不能生成足夠的細節。從圖4 可以看出,專業人員中評分4 分以上占49%,評分5 分為32%,遠大于評分1分和2分的15%和17%,普通受訪者評價3分以上占62%,評價主要集中在5分、3分和2分,綜合所有評價者的評分,評分為5 分占30%,評分4 分以上占46%。可見重建后的圖像對圖像紋理和細節有很好的增強,受訪者認為SISR 技術可以很好地提升圖像質量。
指紋在警務工作和法庭科學中發揮著重要作用。為驗證SISR 技術在模糊指紋重建中應用的可行性,在滲透性客體、半滲透性客體和非滲透性客體中選取30 組模糊不清指紋圖像,分別使用ESRGAN和BSRGAN 重建圖像,并與原始圖像進行對比,圖5為一些代表性的比對結果。圖6 為127 名專業人員和87 名普通受訪者從視覺感知質量角度對不同客體指紋處理結果的客觀評價。

圖5 指紋低質量圖像重建比對

圖6 指紋平均意見評分評價結果
如圖5 所示,SISR 的兩種方法都增強了模糊指紋圖像的高頻紋理,并在三種客體上都取得較好視覺質量。與ESRGAN 相比較,BSRGAN 在指紋自然度和清晰度方面效果更為突出,能夠恢復現實世界中指紋真實的紋理,在保持高頻紋理的同時能有效消除偽影,但當客體顏色與指紋顏色相近時處理得較為平滑。由圖6 可知,專業人員評分主要集中在3分和4 分,共占51%;普通受訪者評價主要分布在2~4 分;整體評價主要集中在2 分和3 分,其中4 分以上為37%,3 分以上為65%,評分整體占高分較多。這說明超分辨率重建技術在指紋紋理增強中發揮著重要的作用,可進一步提高視覺清晰度,為后期公安實戰中指紋比對和法庭科學中司法鑒定提供一定的技術支撐。
為驗證SISR 技術人像重建在公安實戰中的應用效果,本文人像實驗數據與以往方法不同,全部取自視頻監控中的截圖,此類截圖在警務工作中使用度較高且具有代表性,但其視覺質量較差,一般很難進行人像數據庫比對。分別選取正面、具有一定傾斜角度和復雜場景面部30 張低質量人像進行實驗,圖7 為使用ESRGAN 和BSRGAN 重建后人像與原始圖像的代表性比對結果。圖8 為115 名專業人員和97名普通受訪者從視覺感知質量角度對人像處理結果的客觀評價。

圖7 人像低質量圖像重建比對

圖8 人像平均意見評分評價結果
從圖7 可以觀察到,在正面、具有傾斜角度和復雜場景中重建后人像在視覺質量和保真度上都有很大提升。與低質量圖像比較,ESRGAN 能夠輕微改善圖像質量,BSRGAN 能產生更清晰的邊緣、更豐富的紋理、更自然的人像,角度差異對重建后人像效果影響較低,具有很好的適用性和魯棒性,但也會產生偽影,尤其在高光處重構效果更為平滑。由圖8 可知:專業人員評分主要集中在5 分(50%)和4 分(30%),普通受訪者評價主要分布在5 分(42%)和4分(31%),全部受訪者的評價5 分占46%、4 分占31%。可見,SISR 技術對人像重建效果較好,在提升視覺質量的同時又很好地重構人像細節紋理,在人像比對中能夠起到關鍵性作用,但重建效果受光照影響較大,僅能夠為法庭科學司法鑒定中的人像檢驗提供參考。
在日常警務工作中往往會遇到復雜場景圖像,多種因素交織在一起導致圖像細節難以辨認,實驗選取室內場景、室外場景和視頻車輛共30 組自然場景圖像,均為視頻設備錄制影像截取獲得,此類圖像更切合公安實戰場景。圖9 展示了原始低質量圖像、ESRGAN 和BSRGAN 重建結果,從圖中可以看出BSRGAN 重建效果要優于ESRGAN,在三種復雜場景都能重建出高質量圖像,泛化能力強,能夠有效去掉原始低質量圖像未知的復雜噪聲,可以生成清晰的邊緣和精細的細節,但是對高光和過暗處細節效果處理不好,可能出現無中生有現象。圖10 為133名專業人員和87 名普通受訪者從視覺感知質量角度出發對自然場景處理結果進行客觀評價,專業人員評價結果為4 分占27%,5 分占18%,普通受訪者4分占26%,5 分占19%,整體評分結果4 分以上為46%。由此可知,SISR 技術對自然景物重建效果良好,視覺質量有很大提升,能夠恢復復雜自然場景的細節紋理,可為研判分析案件提供一定的支持和幫助,具有一定的實戰應用價值。

圖9 自然場景低質量圖像重建比對

圖10 自然場景平均意見評分評價結果
從上述120組實驗圖像可以看出,ESRGAN對實驗圖像在清晰度和細節方面有一定提升,高頻紋理相對平滑,BSRGAN 可以產生更清晰、更自然、紋理細節更加豐富的高視覺質量圖像,但光照和復雜退化因素會影響圖像重構質量,不能生成足夠細節和自然的紋理,有時產生噪聲和偽影。將眾多評價者的平均意見評分進行綜合分析,參與實驗的四類數據評分主要集中在3~5分,其中5分占27.6%,4分以上為51.43%,2分以下為23.58%。這表明現有SISR技術在車牌識別、指紋比對、人像識別和比對、自然景物場景線索查找等領域有實際的應用價值,具有穩定性和一定的普適性,可為公安實戰應用提供必要線索,為法庭科學領域的研究提供參考。
本文主要對SISR 技術在警務工作中的應用進行研究和探討。通過使用ESRGAN 和BSRGAN 兩種基于深度學習SISR 方法對不同自然環境下的車牌、指紋、人像、自然景物等進行分析。從重建結果可得出結論:SISR 技術在上述應用場景中都取得了較好的增強效果,整體評價得分穩定,主要集中在3~5分,這意味著其對多場景應用的圖像視覺質量有顯著提升,能夠很好地重構出清晰的邊緣、豐富的紋理、更自然的圖像,但重建質量也會受到光照、視距等復雜環境因素的干擾和影響。該技術能夠為實戰應用提供必要的線索,在案件的研判分析中發揮重要作用,在公安工作中具有很強的應用意義,同時也可為法庭科學領域的研究提供參考。
雖然SISR 技術是學術界和工業界研究熱點,但目前仍沒有適用于公安實戰的警用專業數據集,沒有更精準地創建適用于警務工作特定場景的模型,在公安領域還沒有大規模覆蓋,這對SISR 技術在警務工作中應用具有很大的阻礙作用,制約著基于深度學習的解決方案[16]在公安工作中的發展和落地。未來可整合和收集多個警用數據庫中的特定數據,創建具有針對性和代表性的警用數據庫,在此基礎上針對特定場景下不同自然條件的超分辨率模型進行更深入的研究和創新,使模型具有更高的穩定性、魯棒性、普適性,并實現警務系統中SISR 模塊的開發、部署和應用,使SISR 技術在公安實戰中得到廣泛應用,更好地服務于公安實戰。