孟憲哲 牛少彰* 吳小媚 李葉舟
①(北京郵電大學計算機學院 北京 100876)
②(北京郵電大學理學院 北京 100876)
隨著數碼相機的普及以及數字圖像處理軟件的傻瓜化,針對數字圖像的篡改行為日漸增多,這使得數字圖像面臨著嚴重的信任危機。數字圖像的篡改易于實現,同時難以分辨,又可能引起嚴重的負面影響,因此針對數字圖像篡改的取證技術應運而生。目前,數字圖像篡改取證技術的研究主要集中在對圖像真實性的取證方面,目前比較完善的取證技術有針對圖像復制-粘貼篡改[1],模糊[2]等具體篡改操作的檢測技術體系,以及針對圖像的光源[3]特征,重采樣[4]特征,彩色圖像插值[5]特征,JPEG圖像壓縮[6]特征等統計特性的檢測技術體系。目前,國際上處于領先的研究團隊正在推動基于數字圖像“彈道”的圖像來源認證[7]、圖像拍攝時間推斷[8],基于圖像文件格式的篡改鑒定[9]等方向的研究。然而數字圖像作為信息的載體,真實性只是衡量信息可靠程度的屬性之一,數字圖像的完整性也應該受到足夠的重視。信息的真實性是以完整性為前提的,對圖像的斷章取義,不會影響截取部分圖像的真實性,但是這種以點代面,以偏概全的手段同樣是對信息的破壞,甚至在特定的情況下,能使圖像傳達相反的信息。
對圖像裁剪篡改是對圖像完整性的最直接破壞手段,通過我們收集的文獻來看,目前的取證方法中也有算法能夠間接地指證圖像中的裁剪篡改,例如現有針對多重 JPEG壓縮的檢測技術[6],當檢測到圖像經過了多次JPEG壓縮并且多次JPEG壓縮的 DCT變換分塊不重疊時,也可以說明圖像經歷了多次JPEG壓縮,由于存在JPEG壓縮分塊不對齊的情況,可以間接證明圖像經歷過裁剪篡改,但是該方法僅對多次JPEG壓縮的DCT分塊不重疊時有效,并且受制于圖像保存的質量因子,當末次壓縮的質量因子高于首次壓縮時,檢測算法也會失效;又例如基于相機噪聲模式的相機來源認證技術[7],當檢測圖像和與之對應的相機噪聲模式不匹配,并且部分相機特征點(如像素壞點)缺失的情況下,也可以說明圖像經歷了裁剪篡改,但是該方法僅適用于已知與圖像對應的相機模型的情況,并且要求有一定量的圖像用于訓練。這些算法雖然在特定的條件下能夠從側面指證圖像經歷了裁剪操作,但是使用范圍比較有限,也無法還原裁剪行為,所以,這些算法不能稱之為有效地裁剪篡改檢測算法。
本文提出的算法是基于計算機視覺的檢測技術,數字成像設備采集到的圖像,要滿足計算機視覺特征,我們認為截取的圖像中的內容沒有經過篡改,因此保留了相機的成像規律,由截取的圖像估計得到的相機參數將與理論值存在一定的差異,這一差異就可以用做圖像經歷裁剪的依據,我們通過借助不同平面上的規則圖形來估計圖像的主點坐標,當主點坐標偏離圖像中心時,圖像就可能經歷了裁剪篡改。
在第2節,我們將簡單介紹相機成像模型;在第3節,將介紹應用相機標定方法對圖像進行裁剪檢測的思想;在第4節,通過實驗確定方法的參數和閾值;第5節為結束語。
一般的數碼相機是以CCD傳感器為感光元件的,因此都屬于有限攝像機模型的范疇[10]。有限攝像機模型的一個基礎模型就是針孔模型,針孔模型可以看作一個從3維歐式空間到2維歐式空間的映射:物體首先從一個任意的3維的世界坐標系通過一次外部剛體變換轉換到以相機為原點的3維相機坐標系,再經過一次投影變換。物體從3維相機坐標系變換到2維圖像坐標系并形成圖像,變換過程如式(1)所示。

其中x代表2維圖像坐標系中的點;λ代表變換的刻度;K代表3×3階的投影矩陣,K也叫做相機內部參數,(u,v)是相機主點坐標(對于正常圖像,主點坐標就是圖像中心的坐標),α和β分別是相機在圖像坐標軸u和v方向上的刻度參數,γ是描述相機CCD與對應圖像坐標的歪斜程度的參數;XC代表3維相機坐標系中的點;R代表3×4階的剛體變換矩陣,R也叫做相機外部參數;XW代表3維世界坐標系中的點。
為了方便計算,在進行對應點選取時,往往選取3維世界坐標系中位于同一平面的點,這樣模型可以進一步簡化,相機的外部參數矩陣R可以降為3×3階,并且有

其中H為3 × 3階的單應矩陣,是后續計算中一個重要過渡矩陣。
由于目前主流的數字圖像采集攻擊都屬于有限攝像機模型的范疇,所以數字圖像中的物體滿足計算機視覺特征。主點是相機內部參數的重要組成,也是計算機視覺特征中的一個重要元素,主點的物理意義就是相機主視線與透視面的交點,在一幅正常的圖像中,主點的位置應該與圖像的中心重合。
本文提出的算法就是借鑒主點坐標與圖像中心的關系,實現對圖像進行裁剪檢測的。如圖1所示,圖像裁剪前后主點坐標與標定物之間的相對關系保持不變,一幅完整圖像的主點坐標在圖像的中心區域附近,而裁剪過的圖像主點則可能偏離圖像的中心區域。

圖1 圖像裁剪與主點關系
目前估計主點坐標一般是借助相機標定的方法,文獻[11]提出了基于象棋棋盤的相機標定技術之后,相機標定的方法趨于固定,通過測量圖像中的標定物的坐標及其實際尺寸(或者模型尺寸),根據式(2)來估計單應矩陣H,再借助內部參數矩陣K的形式約束條件以及外部參數矩陣R的正交性約束條件,就能估計主點坐標。
文獻[12]將相機標定的方法引入了圖像取證,并結合圖像取證的特點,對相機標定進行了改進,提出了通過估計主點坐標來實現圖像中的拼接篡改的檢測,其相機標定的基本思路與文獻[11]中的方法類似,其改進在于:
對圖像中的標定物體(如人眼、文字等)的建模,通過借助圖像中已建模的標定物,擺脫了相機標定必須對標定物進行實際尺寸測量的限制,另外文獻[12]采用了期望最大(EM)迭代的方法,降低了因為圖像中的點選取不準造成的誤差;
對相機的建模和簡化,通過簡化相機內部參數矩陣,實現通過單幅圖像對主點坐標的估計,雖然假設條件過于理想,但是這一嘗試更加適合圖像取證。
文獻[11]中提到的相機標定方法雖然能夠精確地估計相機內部參數,但是需要圖像中包含標定板(象棋棋盤等),同時還需要多幅不同角度拍攝的圖像,這對于圖像取證顯然是無法實現的,因此需要采用類似文獻[12]中的方法,對主點估計方法進行簡化。
觀察式(1)可以發現,內部參數矩陣中一共有5個待定參數,對于目前的主流相機而言,其中α和β的取值相等,并且γ取值可以視為0,那么原先K中的5個參數就減少到3個,因此K可以表示為

令H=[h1,h2,h3],R=[r1,r2,t],那么式(2)可以表示為

根據文獻[11]可知,由于外部旋轉矩陣為剛體變

當標定物確定之后,可以借助文獻[11]中的方法,得到單應矩陣H的估計,所以式(4),式(5)就轉化為a,u,v為未知數的三元二次方程,由此看出每一組單應矩陣都對應兩個約束條件,對于三元二次方程組,僅有兩個約束條件是無法對方程組求解的。
文獻[12]提出的方法假定K中僅主點坐標未知,使待定參數降為2個,這樣做雖然能夠得到主點位置,但是方法假設相機的焦距/傳感器尺寸信息已知,這就決定了方法僅針對特定的相機,限制了方法的適用范圍。經典相機標定方法在解決該問題時是通過拍攝多組照片來完成的,但是在圖像取證時,由于很難獲得同相機拍攝的其他照片,所以要求通過一幅圖像完成主點坐標的估計,為解決約束條件過少的問題,實現通過單幅圖像估計主點坐標[13,14],本文借鑒單幅圖像的標定方法[13],從一幅圖像中選取多組不共面的標定物,通過同幅圖像中的多組標定物實現對主點坐標的估計。
通過前面敘述可知,選定一組標定物后,可以得到一個對應的單應矩陣,并能根據式(4),式(5)產生兩個關于a,u,v的約束條件。當在同一幅圖像中選取另外一組標定物時,也可以得到兩個約束條件,若兩組約束條件線性無關,就能實現對主點坐標的估計。事實上容易證明,當選取的第2組標定物與第1組標定物不共面時,兩組約束條件線性無關。
根據成像規律可知,成像過程的第1步就是將物體從世界坐標系變換到相機坐標系,這一過程是一個剛體變換,這一變換反應在成像過程中就是式(1)中的相機外部矩陣R,當兩組標定物不共面時,記兩組標定物對應的變換矩陣分別為R(1),R(2),則一定有R(1),R(2)不相關[11],令R(1)=Rx R(2),Rx為一剛體旋轉矩陣。
記H(1),H(2)為由圖像中兩組標定物得到的單應矩陣,再根據式(2)H=λKR,可知:H(1)=λ(1)·KR(1),H(2)=λ(2)KR(2),則H(1)=κRxH(2),其中κ為縮放因子,由于R(1),R(2)不相關,則H(1),H(2)不相關。

由于H(1),H(2)不相關,所以這4個約束條件是不相關的,通過這4個約束條件就能得到主點坐標的估計。
文獻[12]中提出了對人眼進行建模的方法,實現了不測量標定物的前提下對圖像進行標定,這一改進對數字圖像取證是非常必要的。雖然文獻[12]的方法不再需要對標定物進行實際測量,但是其方法僅針對人像,實驗證明該方法僅對正面人像,并且瞳孔暴露較大情況才能適用,這些限制使得基于相機標定的取證方法使用范圍受到了限制。
在估計主點坐標的過程中,測量標定物的實際尺寸是為了與標定物在圖像中的坐標進行匹配,從而估計單應矩陣H,得到單應矩陣之后,再按照相機外部參數矩陣中的正交關系和相等關系建立一組方程組,通過觀察這兩個關系以及式(4)和式(5),我們發現,單應矩陣中蘊含的標定物到圖像的變換尺度被抵消了,由于本文僅出于圖像完整性鑒定要求,目的僅在于主點坐標的估計,不涉及圖像的3維重建等工作,所以在進行主點估計時,標定物的變換尺度可以不用估計,這就意味著在選定標定物之后,不需要對標定物的實際尺寸進行測量,只需要使用相對坐標即可。
由于在標定過程中只需要使用相對坐標,因此在標定物選取時,我們可以選擇規則圖形。在本文中,規則圖形是指形狀已知,且各邊比例已知的簡單幾何圖形(如矩形、圓[15]),形狀固定的商品標示,企業標志以及文字[16]等。圖2(a)所示圖像中包含有一個中國郵政的標志,我們可以互聯網搜索得到圖2(b)中所示中國郵政標志的電子版本,并以此為參照物,類比對實際物體進行測量,我們只需要對參照物進行測量,將歸一化的坐標作為實際物體坐標,這樣得到的單應矩陣與實際的單應矩陣只相差一個常數量級,在選取圖像中對應的點,建立坐標對后就能夠用常見的相機標定方法計算托量綱的單應矩陣,該托量綱的單應矩陣與實際的單應矩陣僅存在一個倍數的差別。

圖2 圖像中的規則圖形
通過對相機標定算法進行改進,我們能夠通過單幅圖像實現對主點坐標的估計,該方法對圖像的要求也降低為圖像中包含兩個或兩個以上規則標定物,改進后的標定物選取方法更加適合圖像鑒定工作。
我們用一臺尼康D5100相機拍攝了一組(200張)包含規則圖形的訓練圖像,拍攝的圖像包含了室內、室外等多種場景,每幅圖像中均包含兩個以上形狀規則的圖形。分別對訓練圖像使用本文的算法,就能得到本文算法對訓練圖像的主點坐標估計結果,我們將坐標進行歸一化處理后,可以得到圖3中的結果。
圖 3(a)中所示情況為文獻[12]中提出的算法在無附加條件下,通過人眼得到的主點坐標分布情況;圖 3(b)中所示的為本文算法通過兩個規則標定物得到的主點估計分布。兩幅圖像都以 0.2為半徑,圈定了主點分布的集中區域,通過對比可以看出,由本文提出的算法估計得到的主點坐標更加有效。
為了驗證本文算法在不同裁剪比例下的檢測精度,我們選取了實驗樣本中的50幅進行測試,測試中對圖像進行臨邊裁剪,以保持圖像的長寬比例,裁剪比例控制在5%到50%(裁剪比例即裁剪掉的像素的比例),另外為了驗證檢測的有效性,我們引入一組與裁剪后圖像大小相近的正常圖像作對比,使用本文算法對樣本進行檢測,得到了表1所示結果。
通過表1可以看出,當閾值為圖像寬度的0.05倍時,當裁剪比例超過15%時,本文算法對裁剪的靈敏度非常高,但伴隨的誤檢率也處在一個相對高的水平,當裁剪比例達到50%時,仍有10%的誤檢率,算法在0.05閾值時,檢測率較高但誤檢率也較高,檢測效果不理想;當閾值為圖像寬度的0.10倍時,本文算法對裁剪比例超過20%的裁剪具有較好的檢測率,同時本文算法的誤檢率也降低到4%,所以算法在0.10閾值時具有比較理想的檢測效果;當閾值為圖像寬度的0.15和0.20時,本文算法對裁剪的靈敏度變得較差,當檢測比例分別超過25%和30%時,算法才能有效的對裁剪進行檢測,雖然在這兩種閾值下誤檢率都為0,但是檢測靈敏度無法滿足實際需求,所以不適合實際檢測要求。綜上,我們選取0.10作為本算法的檢測閾值。
圖4(a), 4(b)所示為測試圖像中的兩幅,圖4(c)是對圖4(a)的裁剪,除正常裁剪之外,圖4(c)

圖3 主點分布圖

表1 不同閾值下的檢測結果

圖4 完整性檢測示例圖像
還對圖像進行了輕度的旋轉;圖4(d)則是將圖4(b)中圖像一側拍攝者關心的內容刪除,并改變了圖像的比例。圖4(c), 4(d)中圓點所示位置即使用本文提出的算法計算所得圖像主點坐標的位置,可以看出兩者都已偏離中心位置,圖4(d)的主點更是偏離到圖像之外,依據本文算法,兩者都被判定為經歷了裁剪篡改。
本文提出了一種基于計算機視覺的非對稱裁剪檢測方法,方法借助相機標定思想,計算圖像主點坐標。以往基于相機標定的取證方法需要對真實物體進行建模,同時還對相機有一定的要求,我們通過改進標定模型,在不對相機進行多余假設的條件下,實現了通過單幅圖像進行鑒定,另外標定物的選擇也不在局限于可建模和測量的物體,標定條件擴展至規則圖形,使本文的算法使用范圍更加廣泛。實驗表明,算法對于超過20%的非對稱裁剪、圖像的截取、以及附帶輕微旋轉的裁剪具有非常理想的檢測效率。在實驗過程中我們發現,當圖像的裁剪為對稱裁剪,即保留部分為原圖像中央部分時,本文提出的算法則不能有效地進行檢測,另外,當圖像經歷JPEG壓縮并嚴重影響圖像質量時,本文的算法將不再適用,這些都是我們后續的研究方向。
[1]Amerini I, Ballan L, Caldelli R,et al.. A SIFT-based forensic method for copy-move attack detection and transformation recovery[J].IEEE Transactions on Information Forensics and Security, 2011, 6(3): 1099-1110.
[2]Chen Y and Wang Y. Exposing digital forgeries by detecting traces of smoothing [C]. The 9th International Conference for Young Computer Scientists, Hunan, China, 2008: 1440-1445.
[3]Kee E and Farid H. Exposing digital forgeries from 3-D lighting environments[C]. Workshop on Information Forensics and Security, Seattle, WA, 2010: 1-6.
[4]Popescu A C and Farid H. Exposing digital forgeries by detecting traces of re-sampling[J].IEEE Transactions on Signal Processing, 2005, 53(2): 758-767.
[5]Popescu A C and Farid H. Exposing digital forgeries in color filter array interpolated images [J].IEEE Transactions on Signal Process, 2005, 53(10): 3948-3959.
[6]Huang F, Huang J, and Yun Q. Detecting double JPEG compression with the same quantization matrix[J].IEEE Transactions on Information Forensics and Security, 2010,5(4): 848-856.
[7]Fridrich J and Goljan M. Identifying images corrected for lens distortion using sensor fingerprints [C]. Proceedings of SPIE,Electronic Imaging, Media Watermarking, Security, and Forensics XIV, San Francisco, CA, January 2012: 22-26.
[8]Fridrich J and Goljan M. Determining approximate age of digital images using sensor defects[C]. Proceedings of SPIE,Electronic Imaging, Media Watermarking, Security, and Forensics XIII, San Francisco, CA, January 2011: 23-26.
[9]Kee E, Johnson M K, and Farid H. Digital image authentication from JPEG headers[J].IEEE Transactions on Information Forensics and Security, 2011, 6(3): 1066-1075.
[10]Hartley R, Zisserman A, Torr P H S,et al.. Multiple View Geometry in Computer Vision[M]. Robotica, Cambridge Univ Press, 2005: 153-176.
[11]Zhang Z. A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1330-1334.
[12]Johnson M and Farid H. Detecting photographic composites of people[C]. 6th International Workshop on Digital Watermarking, Guangzhou, China, 2007(5041): 19-33.
[13]Huo J, Yang W, and Yang M. A self-calibration technique based on the geometry property of the vanish point[J].Acta Optica Sinca, 2010, 30(2): 465-472.
[14]Liu G, Wang W, Yuan J,et al.. A novel camera calibration method of variable focal length based on single-view[C].International Symposium on Electronic Commerce and Security, Xi’an, China, 2009(2): 125-128.
[15]Hu J, Li Y, Niu S,et al.. Exposing digital image forgeries by detecting inconsistencies in principal point [C]. IEEE the International Conference on Computer Science and Service System, Nanjing, China June 27-29, 2011.
[16]吳小媚, 李葉舟, 牛少彰, 等. 基于相機標定的文字變造篡改鑒定[J]. 北京郵電大學學報, 2012, (已錄用,待發表).