, , ,
(湖北工程學院 物理與電子信息工程學院,湖北 孝感 432000)
GLCM和DWT特征在打印文件機源認證中的應用
方天紅,周鑫,賈涵,趙俊
(湖北工程學院物理與電子信息工程學院,湖北孝感432000)
為了有效解決打印文件機源認證問題,提出了一種基于統計紋理特征選擇的打印文件機源認證方法;綜合考慮打印字符圖像的空間域和時頻域特性,將GLCM和DWT統計紋理特征進行組合,運用ReliefF算法實現組合特征的初選,二次特征選擇使用SVM-RFE算法;文中實驗結果表明,在英文相同字有重復樣本集和中文不同字無重復樣本集上的分類準確率分別為95.20%和75.00%;特征組合與特征選擇有利于提高打印文件機源認證的分類鑒別性能。
打印文件機源認證;灰度共生矩陣;離散小波變換;特征選擇
隨著激光打印機的普遍應用,打印文件在人們日常生活和工作中占據了越來越重要的地位,隨之與打印文件相關的民事糾紛、刑事案件等變得越來越多,打印文件機源認證在這些場合發揮的作用越來越重要。傳統的打印文件檢驗主要依靠人工的方法,效率不高且容易出錯。目前主要以物理、化學、計算機模式識別的方法進行打印文件機源認證,相比于物理與化學的檢驗方法,計算機模式識別的方法在實際中更易實現和有效。
2002年Oliver等[1]利用計算機統計打印字符的面積特征,通過計算相同字符是否存在不同面積來判斷文件中是否有非法偽造的內容。Mikkilineni等通過提取打印文件中字符“e”的灰度共生矩陣紋理特征,并利用5近鄰分類器與SVM分類器來識別源打印機[2]。文獻[3]利用打印圖像中出現的頁面幾何失真現象,實現對源打印機的鑒別。Choi等[4-5]利用離散小波變換統計特征、噪聲特征和支持向量機分類實現對彩色打印機的鑒別。文獻[6]設計了一種新的雙極性Hausdorff對字符圖像進行有效的匹配,文獻[7]利用打印字符邊緣粗糙度來鑒別源打印機,陳慶虎和羅霄提出了基于紋理合成的方法解決基于不同字的打印文件機源認證問題[8-9]。在文獻[10]的研究中,提取打印字符掃描圖像的22維GLCM統計特征和多層離散小波分解(discrete wavelet transformation, DWT)后的12維統計紋理特征,并用特征選擇算法對34維統計紋理特征進行選擇,挑選有利于進行鑒別的24維統計特征。
圖像同時具有空間域和時頻域特性,字符圖像的GLCM特征描述的是圖像空間域的特性,而基于DWT變換的特征描述的是圖像時頻域的特性,空間域特征和時頻域特征互補。為了解決激光打印文件的分類鑒別問題,在文中首先分別提取基于GLCM和DWT的統計紋理特征,并對直接組合后的特征進行兩次特征篩選,去除無關或者冗余的特征,提高分類性能。
基于GLCM和DWT特征的打印文件機源認證流程如圖1所示,在獲取打印文件中字符的顯微圖像后,分別提取其GLCM特征和DWT特征,并對特征進行組合和特征選擇,最后利用LibSVM[11]進行分類鑒別。
灰度共生矩陣描述了圖像空間中相隔一定距離的兩個像素之間存在的灰度關系,其對圖像上保持某距離的兩像素分別具有某灰度值的情況進行統計,描述了成對像素的灰度值組合的分布,是一種有效的紋理分析方法,在實際應用中得到了廣泛應用。

圖1 分類鑒別流程圖
紋理圖像IMG(m,n)及對應步長為1,水平方向的灰度共生矩陣P(i,j|1,0)如圖2所示。在求取灰度共生矩陣特征的過程中,需要確定的參數包括:矩陣大小,共生方向,步長大小和統計紋理特征。在這里,矩陣大小為256*256;只選擇紙張運動方向(90°)和掃描方向(0°)兩個方向;步進長度為1;常見的灰度共生矩陣統計量共有22種,根據文獻[2]中對灰度共生矩陣統計紋理特征的定義公式,來計算22種特征統計量。

圖2 紋理圖像IMG(m,n)與灰度共生矩陣P(i,j|d,θ)
根據以上的分析,灰度共生矩陣取水平和垂直兩個方向,步長為1,特征為22維,那么字符顯微圖像的特征維度為22*2=44維。
在觀察打印字符紋理圖像時,由于不同型號打印機內部機械和電氣特性的不同,導致形成的字符圖像的粉墨堆積紋理特征有顯著的差異。紋理圖像由于紋理基元大小或者圖像對比度強弱存在差異,那么以多分辨率進行特征表達效果將更明晰[12]。利用小波變換系數的統計參數作為紋理特征,能夠有效地描述圖像的紋理特性,在打印文件機源認證的研究中,以分類準確率的高低為基準,選取使分類準確率高的小波基;綜合考慮計算復雜度和分類準確率來最終確定分解層次。圖3給出了打印字符“a”的紋理圖像在小波基為haar,1層離散小波分解的示意圖。
近似圖像是最低頻段濾波后的低尺度逼近,保留了原圖的主要信息;水平細節圖像包含了水平方向高通、垂直方向低通濾波后所保留的細節信息,反映在圖中為水平方向的細節;垂直細節圖像保留的是水平方向低通、垂直方向高通濾波后所得的細節信息反映在圖中為垂直方向的細節;對角細節圖像包含的是水平和垂直方向都經過高通濾波后的細節信息,紋理信息非常豐富。

圖3 字符“a”的一層二維DWT分解示意圖
字符圖像多層離散小波分解如圖4所示,本文根據實驗確定離散小波分解基為rbior3.1,分解層次為4層。在確定小波基和分解層次后,提取每個分解子圖的統計紋理特征。根據參考文獻[13-14]中的應用,提取子圖的均值和方差特征,計算公式分別如下式所示。
分解子圖的均值:
(1)
分解子圖的方差:

(2)

圖4 多層離散小波分解示意圖
故最終選擇每個子圖的均值和方差作為統計紋理特征,特征維度為(3n+1)*2,其中n表示圖像小波分解層數。若對原始圖像進行4層小波分解,則分別提取分解第4層近似、水平、垂直、對角方向子圖的均值和方差;分解第3層水平、垂直、對角方向子圖的均值和方差;分解第2層水平、垂直、對角方向子圖的均值和方差;分解第1層水平、垂直、對角方向子圖的均值和方差,并構成一個行向量,最終的特征維度為26維。
為了更好的提取字符圖像的紋理特征,將提取的GLCM和DWT統計紋理特征進行組合,并用特征選擇算法對特征進行選擇。根據特征的選擇過程是否與學習算法有關,特征選擇算法可以分為Filter(篩選器)和Wrapper(封裝器)兩大類[15]。
Filter特征選擇方法與分類器無關,通常用于特征初選,其直接利用所有訓練樣本數據的統計性能來評估樣本數據。其優點是可以較快的去除大量的無關特征,縮小特征的搜索范圍,缺點是評估和后續學習算法的性能有較大差異。
Wrapper特征選擇方法直接與分類器有關,其根據分類器的訓練分類準確率來評價特征子集,故Wrapper方法的運算復雜度遠高于Filter篩選器方法,但是Wrapper方法挑選的特征子集維數相對較小且評估和后續學習算法的性能差異不大,有利于選擇使分類準確率提高的特征,通常用于特征選擇的第二個階段。文中第一個階段是Filter方法特征預選階段,第二個階段是Wrapper方法二次選擇階段。Filter方法選用ReliefF算法[16],Wrapper方法選擇SVM-RFE算法[17]。
ReliefF算法流程如下所示。
輸入:訓練樣本的特征向量及對應的類別標簽,其中N為最近鄰樣本數目,n為特征維數,m為迭代次數
(1)初始化權值向量W=0;
(2)fori:=1 tom;
(3)從樣本集S中隨機的選擇一個樣本Ri;
(4)找出與樣本Ri同類相鄰的N個樣本N_n;
(5)for eachclassC≠class(Ri);
(6)從與樣本Ri不同類的樣本中,找出N個相鄰樣本N_b;
(7)forA:=1 ton;
(8)根據權重計算公式更新特征權重W。
輸出:對應于特征向量的權值向量。
經過ReliefF算法運算后,會得到一個與特征對應的權值向量W,將向量W的分量中小于等于0權值對應的特征去除,認為其為無關特征。70維統計紋理特征經過ReliefF算法特征選擇后,有效特征為56維。
SVM-RFE特征選擇算法如下。
輸入:
訓練樣本矩陣:X0=[x1,x2,...,xk,...,xn]T
類別標簽:y=[y1,y2,...,yk,...,yn]T
初始化:
當前特征子集向量s=[1,2,...,n]
特征排序向量r=[]
特征排序:
重復以下過程直至s=[]
根據剩余特征獲取新的訓練樣本矩陣X=X0(:,s)
訓練分類器:α=SVM-train(X,y)
計算排序標準ci=(wi)2
尋找排序得分最小的特征:f=argmin(c)
更新特征排序向量:r=[s(f),r]
消去具有最小得分的特征s=s(1:f-1,f+1:length(s))
輸出:
特征排序列表r。
在每一次迭代循環中,具有最小得分ci的特征首先被刪去,接著SVM對剩下的特征重新進行訓練以獲得特征的排序,SVM-RFE算法通過不斷的迭代過程,直至剩下最后一個特征,在此過程結束后會得到一個得分降序排列的特征排序列表。根據這個排序列表可以選擇若個最優子集,并利用SVM預測的分類準確率的高低來選擇最優特征子集。在文中的打印文件機源認證實驗中,通過在具體樣本集上來確定最優子集。
為了驗證上述算法的可行性,將該算法應用于打印文件鑒別,利用激光打印文件鑒別儀器[18]建立實驗樣本集。實驗平臺為64位Win7操作系統的PC機,CPU主頻3.2 GHz,內存為8 G,在Matlab2012b軟件平臺下使用M語言進行軟件編程。驗證實驗建立了10臺黑白激光打印機,基本涵蓋了常用的激光打印機廠商,每臺打印機打印兩張文件,一張用于訓練,一張用于測試,文中實驗共用到兩種樣本集,分別是英文字符e重復100次樣本集ENe1001100和中文不同字樣本集CHN10100100。樣本集ENe1001100表示的意思是英文字符庫,10臺打印機,1個相同字符“e”,每臺打印機的訓練和測試的樣本數目是100個,測試樣本集和訓練樣本集中用到的字符是一樣的,字符“e”字體為Times New Roman,字號為小四。在中文字符不相同樣本集CHN10100100中,訓練和測試樣本的字符完全不相同,且訓練和測試樣本集內部沒有字符重復,字體為宋體,字號為小四。
正如前述所示,特征選擇分兩個階段,特征初選與二次選擇。在這里首先以樣本集ENe1001100為例進行特征選擇實驗。在樣本集ENe1001100上運行ReliefF算法,將會得到一個特征權向量 ,特征以及對應的權值如圖5所示。

圖5 70維特征對應的權重W
從圖5中可以看出,組合的70維特征對應的權值有大于0和小于0的,將權向量 中權值小于0對應的特征依次去除,認為其是不利于分類的特征,那么原來的70維特征變為56維特征。ReliefF特征選擇后,相比于直接組合的GLCM和DWT特征維數有所減少,同時分類識別率有所上升。同時,從圖5中可以看出預選后的56維特征中含有GLCM特征41維,DWT特征有15維。
在組合特征進行過特征預選后,利用SVM-RFE算法對預選后的56維特征進行二次選擇,算法運行后會輸出一個特征排序得分向量r。在樣本集ENe1001100上運行SVM-RFE算法,得到的特征排序列表如圖6所示。

圖6 SVM-RFE算法對應的特征排序列表
從圖6中可以看出,對預選后的56維特征進行排序后,會得到一個56維的特征等級排序表向量r。圖6中所標注的“X=1,Y=41”表示的意思是:ReliefF算法預選后56維特征中的第41維特征(即是GH22)的排序等級為第1級(最高級),即是特征GH22最有利于分類。
根據特征排序列表r,選擇若干個特征子集,然后用SVM進行分類,根據分類準確率來選擇最優子集,圖7給出了兩種樣本集上進行同樣的二次特征選擇實驗,取圖6中特征排序等級向量r中的前n個等級特征時(從第1級到第n級),分類準確率的變化曲線。

圖7 二次特征選擇后的分類結果
從圖7中可以看出,隨著特征子集中特征數目的增加,分類準確率逐步上升,并達到最佳分類準確率,隨后分類準確率有一個緩慢逐漸下降的變化過程。在兩種樣本集中,相同字樣本集ENe1001100上的分類準確率變化最為平緩,不同字樣本集CHN10100100的分類準確率變化最為顯著。出現這樣結果的原因是,在英文字符樣本集ENe1001100中只有一個相同的字符“e”,沒有字符結構的影響;而在樣本集CHN10100100中訓練和測試樣本中沒有一個相同的字符。
從圖7中還可以看出,當取特征排序列表的前40維特征進行分類鑒別實驗時,在兩種樣本集上都可以取得最佳分類準確率。因此在兩種樣本集上均取特征排序列表的前40維特征進行分類實驗,故SVM-RFE算法二次特征選擇后的特征維數為40維。通過SVM-RFE二次特征選擇后,可以從56維特征中選擇更優的40維特征子集,即是可以用更少維數的特征,取得同樣有效的分類性能。表1列出了在不同樣本集上,不同算法的分類準確率。

表1 不同算法的分類準確率
從表1中可以看出,SVM-RFE+SVM算法在樣本集ENe1001100和CHN10100100上的分類準確率分別是95.20%和75.00%。而且,根據圖6中的水平虛線(對應于GLCM特征的GH22)和垂直向左的箭頭指示,可以非常直觀的看出最終選擇的40維特征中GLCM特征有30維,DWT特征有10維(虛線以上、箭頭向左對應的特征);絕大部分GLCM特征排在DWT之前,即是在SVMRFE特征選擇算法中,相比于DWT特征,GLCM算法更有利于分類;組合GLCM特征和DWT特征更有利于提高整個算法的分類識別率。
文中提取打印字符顯微圖像的GLCM和DWT統計紋理特征,利用特征選擇算法對組合后的特征進行二次特征選擇。實驗結果表明:文中的算法在一定場合下有效的解決了打印文件的機源認證問題;經過特征選擇后,在較少的特征維數下,可以取得同樣的分類性能,即是文中算法能有效剔除冗余的特征;文中算法在相同字樣本集上可以取得較好的分類性能,但當完全沒有相同字時,分類準確率仍然沒有明顯改善,提高基于不同字的打印文件認證準確率是下一步研究的重點。
[1]Oliver J, Chen J. Use of signature analysis to discriminate digital printing technologies[A].NIP amp; Digital Fabrication Conference[C]. Society for Imaging Science and Technology, 2002: 218-222.
[2]Mikkilineni A K. Information hiding in printed documents[D]. United States,Indiana: Purdue University, 2012.
[3]Bulan O, Mao J, Sharma G. Geometric distortion signatures for printer identification[A].IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP2009)[C]. 2009: 1401-1404.
[4]Choi J H, Im D H, Lee H Y, et al. Color laser printer identification by analyzing statistical features on discrete wavelet transform[A].16th IEEE International Conference on Image Processing (ICIP2009)[C]. 2009: 1505-1508.
[5]Choi J H, Lee H Y, Lee H K. Color laser printer forensic based on noisy feature and support vector machine classifier[J].Multimedia tools and applications, 2013, 67(2): 363-382.
[6]涂巖愷,陳慶虎,鄧 偉.計算機激光打印文檔鑒別與檢索[J].電子與信息學報, 2011,33(2):499-503.
[7]Gebhardt J, Goldstein M, Shafait F, et al. Document Authentication Using Printing Technique Features and Unsupervised Anomaly Detection[A]. 12th International Conference on Document Analysis and Recognition[C]. Washington, DC,IEEE Press, 2013:479-483.
[8]陳慶虎, 熊海亞, 周前進,等. 基于紋理合成的打印文件鑒別[J]. 科學技術與工程, 2015,15(32):181-185.
[9]羅 霄, 陳慶虎, 周前進,等. 基于非參數搜索的打印墨粉紋理合成及評價[J]. 科學技術與工程, 2014, 14(17):248-252.
[10]Tsai M J, Liu J. Digital forensics for printed source identification[A]. 2013 IEEE I nternational Symposium on Circuits and Systems (ISCAS2013)[C]. 2013: 2347-2350.
[11]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2011, 2(3): 27.
[12]方天紅. 與文本無關的打印文件機源認證研究[D]. 武漢:武漢大學, 2016.
[13]Arivazhagan S, Ganesan L. Texture classification using wavelet transform[J]. Pattern recognition letters, 2003, 24(9): 1513-1521.
[14]陸 璐, 李玉龍. 基于離散小波變換多種紋理特征提取的草細胞圖像分割比較[J]. 蘭州交通大學學報, 2012, 31(1): 98-101.
[15]Molina L C, Belanche L, Nebot à. Feature selection algorithms: A survey and experimental evaluation[A].IEEE International Conference on Data Mining[C]. 2002: 306-313.
[16]Kononenko I. Estimating attributes: analysis and extensions of RELIEF[A].Machine Learning: ECML-94[C]. Springer Berlin Heidelberg, 1994: 171-182.
[17]Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines[J]. Machine learning, 2002, 46(1): 389-422.
[18]陳慶虎,鄧 偉,涂巖愷. 圖像整體高倍放大掃描系統[P].專利號:ZL200920084691.2.
ApplicationofGLCMandDWTFeaturesinSourcePrinterAuthenticationforPrintedDocuments
Fang Tianhong, Zhou Xin, Jia Han, Zhao Jun
(School of Physics and Electronic-information Engineering, Hubei Engineering University, Xiaogan 432000,China)
In order to effectively solve the problem of source authentication of printed documents, a method of source printer authentication for print documents based on statistical texture feature selection is proposed. Considering the spatial domain and frequency domain properties of character images, the GLCM and DWT statistical texture features are combined, and the combined statistical texture features are selected twice. First ReliefF algorithm is used to select the combined statistical texture features, and the SVM-RFE feature selection algorithm based on data learning is hosen for the second feature selection. The experimental results show that the classification accuracy rate of the English word sets with duplicate sample and the Chinese word sets without duplicate sample are 95.20% and 75.00% respectively, and feature combination and feature selection are helpful to improve the classification and authentication performance of source printer authentication.
source printer authentication; GLCM; DWT; feature selection
2017-02-09;
2017-03-24。
湖北省教育廳項目(B2015033);湖北省大學生創新訓練項目(201610528004);湖北工程學院科研項目(201511)。
方天紅(1979-),男,湖北赤壁人,副教授,博士,主要從事圖像處理與模式識別方向的研究。
周 鑫(1996-),男,甘肅武威人,主要從事圖像處理方向的研究。
1671-4598(2017)09-0229-05
10.16526/j.cnki.11-4762/tp.2017.09.059
TP391.4
A