唐周
摘要:人工智能開始走進生活方方面面,并已經開始應用于各行各業。隨著深度卷積神經網絡的快速發展,深度卷積網絡結構的優化、完善,深度卷積神經網絡在圖像識別、檢測領域發揮著重要的作用。目前,給定相機圖像來識別手機品牌的相機模式識別在圖像溯源領域引起了很大的關注。本文首先應用當前流行的深度卷積神經網絡(GoogLeNet、ResNet、DenseNet)在多種手機相機模式上進行識別,同時針對三種深度卷積網絡在網絡結構上、識別效果上進行分析比較,我們的實驗結果證明了深度卷積神經網絡在相機模式識別上的高效性。
關鍵詞:深度學習? 卷積神經網絡? 相機模式識別? 圖像識別
一、相關工作
第一,隨著社會的快速發展,科技的快速進步,各種各樣的智能手機品牌相繼出現,當然附帶而來的是大量的“山寨”手機,這些仿制品在外觀上完全仿照真牌機,往往難以辨別真假,給社會帶來了很大困擾。那么能不能通過手機相機拍攝的圖片來推斷手機型號呢,這就演變成了一種圖片溯源問題。目前,給定相機圖像來識別手機品牌的相機模式識別在圖像溯源領域引起了很大的關注,即圖像溯源,通過對圖像特征進行分析來驗證圖像的真實性和原始性。在之前的研究中,對相機圖像進行低層次的分析,如鏡頭的特性、傳感器的特性和CFA模式[1,2].傳統的相機模型識別需要計算模型(光響應非均勻性(PRNU)[3])的方法,以識別相機并評估模型和測試圖像之間的統計相似性。Lukas等人[4]提出了使用傳感器圖像噪聲作為特征,用以識別相機設備。Choi等人[5]使用鏡頭徑向變形來識別相機來源,因為每一種型號相機都有一個獨特的徑向變形模式,因此可以用來識別相機品牌。Dirik等人[6]使用數字單鏡頭反光相機中的傳感器灰塵圖案作為設備識別的手段。
第二,相機溯源即根據相機圖片的特征來判斷相片所屬的來源,那么我們可以通過提取到圖片的有效信息特征來進行圖片識別,這可以看成是圖像識別問題。近來,隨著計算機性能的提升,存儲設備的快速發展,深度學習已經成為目前很熱門的研究領域,其中之一的計算機視覺在多種領域得到應用,比如:圖像識別、圖像目標檢測、圖像描述等。從最開始的Alex網絡、VGG網絡、GoogLeNet,直至殘差網絡、DenseNet網絡的出現,網絡的深度越來越深,網絡的特征提取能力越來強,從而在圖像識別上的效果也快速提升。在計算機視覺領域,隨著深度學習技術的快速發展,卷積神經網絡(CNN)已經成為了最主流的方法,比如最近的GoogLenet,VGG-19,Incepetion等模型。CNN史上的一個里程碑事件是殘差網絡的出現,殘差網絡可以訓練得到更深的CNN模型,從而獲得更高的精確度。我們知道深度卷積神經網絡具有很強的特征提取能力,我們完全可以利用深度卷積神經網絡來提取有用的特征來識別相機設備。與傳統的方法相比,深度神經網絡無需手工提取特征,深度卷積網絡具有很強的特征提取能力,能夠提取到最優的特征來識別相機。Barofio和Tuama[首次提到使用卷積神經網絡(CNN)來識別相機源,后面隨著深度卷積神經網絡(ResNet)的出現,提出了使用ResNet來識別相機源?;谥暗难芯?,本文應用當前流行的深度卷積神經網絡(GoogLeNet、ResNet、DenseNet)在多種手機相機模式上進行識別,同時針對兩種網絡在識別準確率、速度上進行分析比較。
二、卷積神經網絡應用于相機模式識別
第一,卷積神經網絡經過了快速的發展,目前,在圖像識別領域已經達很高的準確率。文中主要應用GoogLeNet、ReseNet以及DenseNet來對相機相片進行特征提取,從而獲得有效的信息特征來判斷圖片來源,即根據圖識別相機。GoogLeNet是2014年Christian Szegedy等人[7]提出的一種全新的深度卷積網絡,在ILSVRC14比賽中獲得冠軍的一個模型。GoogLeNet是一個22層的深度卷積網絡。之前的AlexNet、VGG網絡等結構都是通過增大網絡的層數來得到更好的訓練效果,但是層數的增加會帶來很多的負作用,比如過擬合、梯度消失、梯度爆炸等問題。而GoogLeNet主要使用1x1大小的卷積進行升降維,從而大大的降低了網絡的復雜度;再是多個尺寸上進行卷積再融合。GoogLeNet從特征多樣性的角度研究了卷積神經網絡,GoogLeNet的特征多樣性是基于一種并行的使用多個不同尺的卷積核的單元來完成的。這樣的結構能夠高效的利用計算資源,在相同的計算量下能夠提取到更多的特征,從而提升效果。
第二,殘差網絡(ReseNet)是微軟亞洲研究院的何愷明、孫劍等人[8]在2015年提出來的一種深層次的卷積神經網絡,能夠有效的解決了網絡的退化問題,殘差網絡是由一些列的殘差塊組成的。一個殘差塊包括直接映射部分和殘差部分。殘差網絡的出現給計算視覺領域帶來了巨大的影響力,我們解決了之前的難題,網絡的退化問題(隨著網絡的加深而效果衰退),利用這樣的結構我們能夠訓練上千層的網絡。我們知道網絡越深我們獲得語義信息越豐富,對于相機溯源來說,我們就可以有效的利用殘差網絡提取到的高效特征來進行識別。以便我們能夠找到相片的來源。常用的殘差網絡的層數常為34、50以及101層,層數越多對Gpu的要求越高。ResNet是一種革命性的網絡結構,不在局限于InceptionV2、InceptionV3的簡單改進,而是從一種全新的殘差的角度來提升訓練效果。后續的DenseNets和Dual path網絡都是在此基礎上進行衍生,可以說殘差網絡開啟了圖像識別的一個全新的發展方向。文章中由于我們受計算機配置以及存儲設備的限制,我們實驗中采取的是34層的網絡。這足以提取到有效的信息幫助進行識別。從我們能夠有效的利用圖片識別圖片源。
第三,DenseNet是黃高等人[9]提出來的一種高效卷積神經網絡。它的思路類似于殘差網絡,但是它建立的是前面所有層與后面層的密集連接。DenseNet的后面層融合了前面的所有層的信息,它的一大特色就是通過在通道上的連接來實現特征重用。相比殘差網絡,DenseNet提出了一個更激進的密集連接機制,其網絡結構主要由DenseBlock和Transition組成,在DenseBlock中,各個特征層特征圖大小一致,可以在通道維度上進行連接,對于Transition層它是連接兩個相鄰的DenseBlock,并且降低特征圖的大小。其每個層都會接受其前面所有層作為其額外的輸入,對于一個L層的網絡DenseNet共包含個連接,與殘差網絡相比這是一種密集連接。ResNet直接通過Sunmmation操作將特征加起來,一定程度上阻礙了網絡中信息流;而DenseNet通過Concatenate操作來結合特征層,這可以使得特征重用,并且每一層都與其它層有關系,都有信息的融合,這種方式使得信息最大化。綜合來說,DenseNet中的Dense connectivity就是一種升級版的Shortcut connection,提升網絡的魯棒性并且可以加快學習速度。這些特點使得DenseNet在更少的參數和計算成本的情況下實現比ReseNet更優的性能。因此我們可以利用DenseNet來提取有效的特征,這是在效果上優于殘差網絡的深度卷積神經網絡。
三、實驗分析
第一,在實驗中我們搜集了五種品牌手機的圖片,這些圖片來源于不同手機拍攝的自然圖片,圖片有多種光照下、多種清晰度圖片。五種手機分別隨機拍攝了1000張圖片,總共5000張圖片來進行試驗。其中訓練數據75%,25%用來進行測試。我們利用深度卷積網絡來對對相機圖片進行溯源,可以認為是一種分類問題,其中每一張照片都帶有特屬標簽。首先在殘差網絡上進行訓練,我們使用的34層的殘差網絡進行訓練,首先將圖片Resize成適合殘差網絡的輸入尺寸(256X256)。最后同樣的數據在DenseNet進行實驗。我們使用的服務器為NIVDIA Geforce 1080 GPU,采用深度學習框架Tensorflow來搭建網絡。我們分別使用75%的數據在GoogLeNet、ReseNet、DenseNet上進行訓練,并利用訓練好的模型在測試集上進行測試,比較試驗結果。在訓練前我們対訓練數據進行數據預處理、比如添加噪聲,來擴大訓練數據集,一方面保證足夠的訓練數據,另外一方面可以使得樣本多樣性,增強網絡的魯棒性。
第二,通過實驗結果分析我們發現我們在DenseNet網絡上取得最好的效果。與殘差網絡相比,DenseNet在同等參數大小時優于殘差網絡,在訓練過程中發現DenseNet由于密集連接方式,DenseNet提升了梯度的方向傳播,從而使得網絡更易訓練。DenseNet參數更小且計算更高效。主要是因為DenseNet是通過Concat特征來實現短路連接,實現了特征重用,且采用較小的Growth rate,每個層所獨有的特征是比較小的。測試過程中我們找出了識別錯誤的數據,我們發現了大多清晰度較差、光照強度大的數據識別效果較差。從最終測試準率上看我們發現在殘差網絡以及DenseNet上都達到了99%以上的準確率。從而我們能夠利用深度卷積神經網絡來對相機圖片進行溯源。文章僅在手機相機圖片上進行溯源實驗。相信也可以應用到其他的數碼設備。
參考文獻:
[1]S. Bayran H. Sencar,N.Memon,and I.Avcibas,“Source camera identification based on cfa interpolation,i”n IEEE International Conference on Image Processing,2005.
[2]S. Milani,P.Bestagini,M.Tagliasacchi,and S.Tubaro,“Demosaicing strategy identification via eigenalgorithms,in” ICASSP,2014.
[3]J.Lukas,J. Fridrich,and M.Goljan,“Determining digital image origin using sensor imperfections,”in Proc.SPIE,Image and Video Communications and Processing,2005.
[4]J.Lukas,J. Fridrich,and M. Goljan,“Digital camera identification from sensor pattern noise,” IEEE Transations on Information Forensics and Security,vol. I,no.2,pp.205-214,2006.
[5]Kai San Choi,Edmund Y Lam,and Kenneth KY Wong,“Source camera identification using footprints from lensaberration,”in Electronic Imaging 2006.International Society for Optics and Photonics,2006,pp.60690J—60690J.
[6]A.E.Dirik,H.T.Sencar,and N.Memon,“Source camera identification based on sensor dust characteristics,”in IEEE Workshop on Signal Processing Applications for Public Security and Forensics,2007.
[7]Christian Szegedy,wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,and Andrew Rabinovich,“Going deeper with convolutions,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015,pp.1-9
[8]K.He,X.Zhang.S.Ren,and J.Sun,“Deep residual learning for image recognition,in IEEE Conference on Computer Vision and Pattern Recognition 2016.
[9]Huang G,Liu Z,weinberger KQ,ET AL.“Densely connected convolutional networks”in CVPR,2017.
(作者單位:華南理工大學數學學院)