阿依夏木·力提甫 鄢煜塵 肖進勝 江 昊 姚渭箐
1.武漢大學電子信息學院 武漢 430072 2.新疆師范大學物理與電子工程學院 烏魯木齊 830054 3.國網湖北省電力有限公司信息通信公司 武漢 430077
筆跡鑒別指的是通過手寫的文字信息鑒定書寫人身份的一種文件鑒定技術.它作為機器視覺與模式識別領域中近幾年的研究熱點之一,在歷史文件分析、司法嫌疑人身份識別和古代手稿分類等方面發揮著重要作用.在過去的幾十年里,筆跡專家們大都利用機器視覺技術來研究世界上主要語言的筆跡鑒別問題,然而小型語言的存在為筆跡鑒別領域提供了新的研究空間[1].由于每種語言腳本的獨特性,各語種的筆跡鑒別技術略有不同.因每一種語言都對筆跡鑒別方法提出新的挑戰,很難有適用于所有語言的通用技術.本文重點研究維吾爾文筆跡鑒別問題,并利用現有的IAM[2]與Firemaker[3]標準數據集驗證本文算法的可行性.手寫文本模式有兩種:含書寫文本的筆軌跡時間序列的在線模式和僅含書寫文本圖像的離線模式,分為在線和離線的筆跡鑒別方法[4].寫作速度、角度、筆順或壓力用于在線筆跡鑒別,而與單詞、字符、行或段落相關聯的特征用于離線筆跡鑒別.本文研究的對象即為離線筆跡鑒別方法.
當前的離線筆跡鑒別方法根據提取特征方式的不同可分為全局特征提取方法[5-6]與局部特征提取方法[7-11].全局特征提取方法把手寫筆跡看成特殊的紋理圖像,提取能夠反映手寫文本統計特性的全局特征作為鑒別的依據.局部特征提取方法是對筆跡圖像的局部結構、梯度、輪廓、幾何特征等進行特征描述,并通過編碼方式將局部特征映射到公共空間形成全局特征.以往文獻中提出的微結構特征[7]局部二值模式(Local binary pattern,LBP)以及局部相位量化(Local phase quantization,LPQ)[8],尺度不變特征變換(Scale-invariant feature transform,SIFT)[9-11]和高斯混合模型(Gaussian mixed model,GMM)超向量[12]都屬于局部特征提取方法.隨著深度學習算法的廣泛推廣,基于無監督特征學習[10]、半監督特征學習[11]和卷積神經網絡(Convolutional neural network,CNN)的筆跡鑒別[4]方法也得到了發展.對于小樣本筆跡圖片,相比于全局紋理特征,筆跡的局部結構特征更直觀、顯著、穩定.因此,近年來大量的研究集中在基于局部結構特征的筆跡鑒別方法上,基于碼本[13-15]的筆跡特征提取是其中較重要的關注點.本文提出的方法是基于局部結構特征生成碼本的方法,其主要思路是從兩份筆跡文本中提取書寫不變模式組成碼本,然后通過提取每一個碼本成員的局部特征形成全局特征.
計算機筆跡鑒別根據測試對象和特征提取的方法分為兩大類:文本獨立方法與文本依存方法.文本依存方法要求參考樣本與測試樣本的書寫內容相同,并且主要依靠內容相同的子圖像進行比較.雖然此種方法的鑒別準確率很高,但是在實踐中基于固定文本的筆跡鑒別有一定的局限性.在文本獨立的筆跡鑒別方法中樣本的書寫內容不受限制,比文本依存方法更具有廣泛的應用前景.但是文本獨立方法的鑒別準確性不高,并需要大量的訓練樣本.本文有效結合文本依存和文本獨立兩種方法的優點,提出了一種基于混合碼本與因子分析的文本獨立筆跡鑒別算法.文中首先從二值化的原始筆跡圖像提取子圖像并用描述符標注,引入了混合碼本的概念;然后采用方向指數直方圖法(Directional index histogram,DIH)和距離變換法(Distance transformation,DT)提取所有子圖像的特征,計算參考樣本與測試樣本中具有相同描述符的子圖像之間的距離.前期處理過程是典型的文本依存方法,然而本文關注的重點不在于子圖像的內容,描述符只是為了快速檢索相同內容的碼本成員.最后通過統計學中的雙因子方差分析法
(Two way analysis of variance,TW-ANOVA),把影響鑒別精度的因素分為書寫因子與字符因子,利用因子分離方法實現了文本獨立的筆跡鑒別分類器.在分類決策層,利用特征融合與多分類器組合的方式提高筆跡鑒別準確率.在維吾爾文2016 數據集、標準的IAM 與Firemaker 數據集上的實驗結果表明,本文的方法只需要極少的筆跡信息就能得到較好的鑒別結果,算法運行時間短,并且相關技術可以應用于其他語種的筆跡鑒別,具有良好的應用前景和推廣價值.
本文其余部分的安排如下:第1 節為相關領域的研究現狀.第2 節詳細描述了基于混合碼本與因子分析的文本獨立筆跡鑒別算法的流程.第3 節給出了在維吾爾文2016數據集以及兩個基準數據集上的實驗結果與分析.第4 節給出了結論與展望.
如前所述,筆跡鑒別需要提取特定于書寫人的筆跡特征;文本獨立的筆跡特征大致可分為兩類:基于紋理的全局特征和基于圖形的局部特征.考慮到本文提取的筆跡特征屬于局部特征提取方法,結合維吾爾文及類似文字的特點,我們將重點放在相關語言筆跡鑒別研究中表現良好的研究方法.在過去的十年中,深度學習技術成功地應用于包括筆跡鑒別在內的許多識別任務中.自從深度學習算法成功地應用于從筆跡數據中自動學習特征,以往的基于手工特征的算法被稱為傳統的筆跡鑒別方法.
早期文獻[7]提出了從筆跡輪廓鏈碼中提取的微結構特征用于筆跡識別,但微結構特征要從由足夠篇幅的整篇文本的筆跡樣本上提取,需要的樣本字數相對較多,不適合實際應用.隨后,紋理描述方面的算法以其快速提取紋理特征以及計算速度快等方面的優勢開始普遍應用.其中,LBP 是一種灰度和旋轉不變的紋理描述符,LPQ 在處理模糊紋理方面表現出很強的魯棒性,并且在紋理分類方面優于LBP[8].文獻[8]提出了基于LBP 與LPQ 的紋理描述符提取組合紋理特征的方法,并使用相異特征向量來訓練支持向量機(Support vector machine,SVM)分類器.該方法不僅解決了基于相異度的筆跡鑒別方法中存在的問題,還證明了相異度方法優于經典的分類方法.鑒于局部紋理描述符在紋理分類問題中的有效性和小書寫片段在描述書寫風格時的高鑒別能力,文獻[16]提出了基于三種紋理描述符,即LBP、LPQ 以及局部三元模式(Local ternary pattern,LTP)的筆跡鑒別方法.雖然文獻[8]和文獻[16]獲得了比較理想的筆跡鑒別效果,但是需要提取大量的書寫片段,由于各種筆跡具有豐富的特征,導致書寫片段之間存在局部特征相似性,從而造成的記憶限制.為解決此類問題,文獻[6]提出了一種使用袋裝離散余弦變換描述符的筆跡鑒別系統,離散余弦變換系數通常對書寫或掃描過程中可能發生的失真具有魯棒性.
SIFT 或類似SIFT 的描述符是局部特征提取方法中最常見的一種,典型的SIFT 詞袋模型[17]已經在文獻[9,18-19]中有所應用.SIFT 描述符在圖像檢索以及圖像取證相關領域[12]有著強大的功能,但需要組合能力強的編碼方式.SIFT類研究工作中,文獻[9]通過計算不同筆跡的SIFT 特征,使用K 均值進行聚類搭建了詞袋模型.在此基礎上,文獻[18]先用各向同性對數濾波器把手寫圖像分割成單詞區域,然后提取SIFT 特征以及相應的尺度和方向特征.文獻[19]進一步提出了從圖像中提取的一組SIFT 描述符進行聚類來構建局部紋理模式的碼本,然后使用輪廓方向特征和SIFT 描述符細化候選列表的文本獨立分類器.文獻[12]使用在腳本輪廓處密集計算的RootSIFT 描述符,并將GMM 超向量用作筆跡特征的編碼方法.該文使用樣本SVM 來訓練特定于文檔的相似性度量,擴展了文獻[19]的工作.文獻[20]將SIFT 和RootSIFT 描述符結合在一起組成了GMM,通過加權直方圖的評估,獲得了很高的筆跡鑒別準確率.
最近幾年來,在提取局部結構特征方面也利用基于碼本的筆跡鑒別算法.文獻[13]提取的碼本更注重子圖像的方向和曲率特征,并證明在預處理的過程中筆跡圖像有任何形狀變化會對鑒別準確率引起比較大的影響.文獻[14]使用兩種有效的輪廓碼提取方法,但對于子圖像的切分要求比較嚴格.文獻[15]提出的集成碼本具有多個不同大小的碼本,類似于文獻[14]的字符碎片碼本,計算復雜度比較高.本文深入研究各語種文字的結構特征,提出了基于筆跡書寫結構切分子圖像的碼本特征.在預處理階段,高頻模式的切分工作不受窗口大小和形狀變換的影響,并且需要提取的代碼數量遠比以上文獻少.在測試階段使用簡單易行的兩種傳統特征提取方法,計算量相對較少,更重要的是書寫人數的增多對實驗結果的影響較不明顯.當書寫人數量增加時,本文算法有較強的魯棒性.
總之,雖然上述文獻提及的SIFT 類描述符、離散余弦變換描述符以及其他類型的描述符都可以進行筆跡鑒別,但是比較適合用于測試樣本上的字數較多的筆跡鑒別任務中.在實際應用中,經常會面臨內容不受限制以及樣本字數相對較少的情況.本文算法在預處理、子圖像切分、特征提取等各個方面有一定的優勢,具有一定的參考價值和可比性.
如前所述,手工特征很難做出定義,并且特征提取過程比較復雜.傳統的監督學習需要大量的標號樣本,而無監督的學習方法僅僅使用無標號樣本.在文獻[10]中提出的是以無監督的方式學習深度卷積神經網絡(Deep convolutional neural network,DCNN)的激活特征方法.半監督學習即從有標號樣本和無標號樣本中學習.近年來,基于神經網絡的技術也已應用于筆跡鑒別方面[21-22].這些技術利用CNN 的優點來解決自動特征提取的問題.對筆跡鑒別任務,文獻[22]采用了CNN 作為局部特征提取器.該方法需要對圖像進行二值化和歸一化預處理,因此其性能取決于數據庫和預處理方法.文獻[21]提出了另一種策略:在從CNN 提取局部特征后,它們被用于基于GMM 超矢量編碼形成全局特征.這種組合方法比文獻[22]提出的方法表現得更好.然而,文獻[21]和文獻[22]有兩個獨立的訓練步驟:特征提取和編碼,其中CNN 預先訓練用于提取局部特征.也就是說,在訓練和編碼的第2 步中,預先訓練的CNN 系統是固定的,沒有更新,降低了整個系統的性能.因此,文獻[4]使用端到端的神經網絡進行筆跡鑒別,其中基于CNN 的特征提取器和基于神經網絡的分類器連接并一起訓練.雖然深度學習(Deep learning,DL)算法實現了自動學習筆跡特征的優勢,但其網絡結構龐大,訓練權值多,因此需要海量的訓練數據進行訓練,通常需要大量帶注釋的訓練數據.現實應用中受存儲空間、獲取樣本時間等限制,往往存在訓練樣本不足的問題,這將直接影響識別的準確率.
本文基于DIH 和DT 等經典算法,分別提取紋理特征和結構特征,實現過程簡單易行,不需要大量的訓練樣本,對設備的要求不高,不易受到樣本數量的影響.本文為了提高筆跡鑒別效率,采取了紋理特征和結構特征的組合分類措施[23],尤其是在樣本字數較少,內容不受限制的場合更能體現本文系統的優越性,與深度學習方法以及以往的研究方法相比,筆跡鑒別性能有著可比性.
現有的大多數手寫筆跡鑒別系統使用統計或基于模型的方法確認書寫人身份.本文提出一種將混合碼本模型和TW-ANOVA[24]相結合的方法進一步提高鑒別性能,其流程如圖1所示.

圖1 混合碼本生成與因子分析的總流程圖Fig.1 The overall flow chart of proposed method
此流程圖主要包括三個部分:混合碼本生成、特征提取和因子分析.我們的筆跡鑒別系統分別由預處理軟件和測試軟件組成,其中生成碼本部分利用預處理軟件實現,特征提取、因子分離以及分類決策過程通過測試軟件實現.
我們首先把所有掃描好的筆跡樣本分成兩大組:參考樣本和測試樣本.在混合碼本生成部分,先對所有筆跡樣本進行黑白化、去除各種噪聲、行線以及格線變成二值圖像:然后根據特定語言的書寫特點提取高頻子圖像,并歸一化后用描述符標注變成代碼,建立書寫人的碼本.子圖像的切分是整個筆跡鑒別系統的基礎,標注是為了便于檢索,選擇子圖像與標注方法將在第2.1 節描述.在特征提取層,先把所有的碼本用于建立一個參考庫,然后利用數據挖掘技術檢索具有相同描述符的代碼:對于描述符匹配的子圖像分別采用加權的方向指數直方圖法和距離變換法提取特征并計算特征距離,相關內容將在第2.2 節介紹.在因子分析部分,先把影響識別精度的因素分為書寫因子和字符因子,對碼本中的每個書寫模式進行雙因子方差分析(TW-ANOVA),然后濾除字符因素,得到只保留書寫因素的文本獨立筆跡分類器,經過特征融合得到書寫人排序,相關內容將在第2.3 節介紹.
現代維吾爾語是從右向左水平書寫的規范性書面語言,維吾爾文書寫系統最顯著的特點是每個字母有2~6 種書寫形式,這些字母根據單詞中的位置有不同的寫法,如圖2所示.我們通過兩個維吾爾文單詞描述子圖像的選擇過程,虛線框所示的為相同子圖像.

圖2 子圖像的提取方法Fig.2 Sub-image extraction method
每個子圖像可以作為一個代碼,手寫文本上的高頻模式無論它是單詞、字母、前綴、后綴還是中綴,只要易于切分都可以被選取,所以稱之為混合碼本.從手寫圖像上切分的每一個子圖像都非常重要,我們除了注重選擇具有代表意義的高頻模式,還要盡量提取冗余子圖像增加相同子圖像的匹配概率.與以前類似的方法不同的是我們提取的子圖像經過標注環節包含一定的語義信息,這樣才能夠快速檢索相同子圖像.顯然,建立碼本的過程類似于文本依存的筆跡鑒別方法,它不僅適合于維吾爾文的書寫特點,還可以推廣到其他語種.考慮到IAM 和Firemaker 等英文數據集上手寫字符數量少以及內容不受限制等因素,我們采用的提取代碼方法類似于維吾爾文2016 數據集.所有的子圖像將組成書寫人的碼本,它是手寫圖像的關鍵因素,因為它能夠有效地代表原始數據.
在我們的系統中可以用三種方式進行子圖像的切分和提取,分別包括矩形框、曲線框和全自動分割框.每個子圖像的大小不一樣,利用細化算法將它們歸一化為固定64×64大小的矩陣,以確保書寫工具的獨立性.經過歸一化處理的子圖像才會變成碼本上的一個代碼,如圖3所示.圖3 顯示了本文提出混合碼本的生成過程,包括從原始筆跡 圖像提取子圖像、標注以及代碼本的生成過程.

圖3 碼本的生成過程Fig.3 The generation process of codebook
文本依存的筆跡鑒別方法是依靠從參考樣本與測試樣本選取的幾組相同子圖像獲得良好的識別結果.本文從識別精度、驗證錯誤率、穩定性和計算速度等方面比較了典型的幾種方法,選擇了加權方向指數直方圖法(Weighted direction index histogram,WDIH)和DT[25].實驗表明,DIH 法的計算速度與字符的筆畫點數成正比的,是一種鑒別正確率高、計算速度快的鑒別方法.DT 匹配法雖然對相近模式的辨別能力不是很強,但同時也不容易把相近模式排除掉,因此實驗結果表現為驗證錯誤率較低.這兩種方法的組合能夠提高筆跡鑒別系統的識別率,同時能夠保證系統的魯棒性.
2.2.1 加權方向指數直方圖法(WDIH)
這是一種考慮輸入圖像的形狀提取子圖像網格特征的模板匹配方法[26].這種方法首先把輸入圖像均勻劃分成8×8個網格,然后把每一個網格又分成 8×8 塊子區域計算四個方向上的輪廓點數,得到輸入圖像的 8×8 個四維直方圖nijk,其中,i,j=1,2,···,8 表示網格位置,k=0,1,2,3表示方向,獲得的直方圖反映了子區域中的輪廓形狀.文中確定局部筆劃方向的方法為:當輪廓點有一個四鄰域點為零時,以該鄰域點相對當前輪廓點方向的垂直方向作為筆劃方向.當輪廓點有兩個四鄰域點為零時,若這兩個鄰域是連通的,以它們的聯機方向作為筆劃方向,否則以它們聯機的垂直方向作為筆劃方向.若輪廓點有三個四鄰域點為零,則以不為零的那個鄰域點相對當前輪廓點方向的垂直方向作為筆劃方向,四個鄰域點都等于零的情況則不予考慮.然后,使用均方差σ2=40 的高斯函數對nijk在 8×8 的網格平面上進行空間平滑,同時采樣4×4個點的值作為特征,鏈碼生成 4×4×4=64 位特征向量,計算式為

式中,(xu,yv)表示采樣點在字符圖像中的坐標,(xi,yj)是 8×8 網格中心點的坐標,且u,v=0,1,2,3. 得到64位特征矢量f后,計算子圖像之間的距離度量d(f1,f2)并進行書寫人識別.

下面舉例說明WDIH 特征的提取過程,如圖4所示.圖4 中輸入的子圖像是單詞“the”,首先將原始圖像均勻劃分成 8×8 個網格,取出一個網格又分成 8×8 塊子區域,并計算4 個方向上的輪廓點數生成方向指數直方圖,每個子圖像總共有 8×8×4 位方向指數直方圖,采樣4×4點后只剩下 4×4 個矩陣對應的點,并且只需要計算采樣點的值.圖4(a)中被圓圈包圍的子區域根據WDIH的特征提取規則畫出了圖4(b)中的輪廓跟蹤圖,其四個方向上的方向指數直方圖模型如圖4(c)所示.

圖4 單詞“the” 的加權方向指數直方圖Fig.4 Weighted direction index histogram of“the”
2.2.2 距離變換法(DT)
距離變換是用領域點的距離變換值來更新當前點的距離值[25],領域是一個移動的k×k窗口,若領域點的值加上一個權值小于窗口中心點的值,則用這個值更新中心點的距離值.對于街區距離,當權值分別為a= 3,b= 4 時,3×3窗口接近歐氏距離,變換后的距離值大約是實際值的三倍.例如,圖5所示的是數字6 及其DT 圖,其中3×3窗口網格中的值是相應位置的權值.

圖5 數字“6” 的距離變換Fig.5 Distance transformation of number“6”
設兩幅圖像分別表示為f(x,y),g(x,y),并且g(x,y)的距離變換表示為gd(x,y),則兩個圖像之間的距離為

式中,Nf是圖像f中的黑點數量,匹配距離與方向無關,用同樣的方法可以計算Dgf.
筆跡鑒別過程中單一分類器可能存在片面性,通過組合幾種分類器可以提高分類的穩定性和準確性.文中通過方向指數直方圖法和街區距離變換法的串聯組合模式進行分類,因為方向指數直方圖法的特征才64 位,可以在盡量不遺漏疑似筆跡的情況下,先剔除大部分相似度較大的筆跡樣本,之后利用街區距離變換法對剩余的筆跡進行分類鑒別.這樣才能盡可能地提高鑒別速度.分類器的組合算法比較多,本文采用最高序號法作為多分類器組合鑒別的決策策略,把計算出來的距離值按照與檢驗筆跡的相似程度從高到底的序列排序.
本節分析因子分離的理論基礎[24],通過實驗數據和分析驗證因子分離的必要性和優越性,因子分離過程是文本依存與文本獨立分類器的結合點和切換過程.
2.3.1 特征距離的影響因子分析


2.3.2 特征距離的雙因子顯著性假設實驗
選取由11(N= 11)人書寫的21 個不同的單詞,共計210(M= 210)個字符,去除諸如斑點和網格線的噪聲之后,獲得歸一化的字符圖像,如圖6所示.圖6 左列為一列機打單詞,書寫人根據行頭的單詞抄寫 10 次即可;圖6上方一行數字表示單詞的編號.

圖6 方差分析筆跡圖像Fig.6 Handwriting image of variance analysis
這里可以通過提取所有子圖像的方向指數特征和距離變換特征并計算特征距離來獲得方差分析結果,表1 顯示了雙因子方差分析實驗需要的變量和公式,表2 顯示了兩種方法的實驗結果.

表1 雙因子方差分析(TW-ANOVA)指示表Table 1 Two way analysis of variance instruction table

表2 加權方向指數直方圖法/距離變換法的TW-ANOVA 結果Table 2 Results of WDIH/DT method of TW-ANOVA
對于自由度分別為(10,2 090)和(209,2 090)的F 分布可以觀察不同α水平上的值,α與Fα(10,2 090)以及α與Fα(209,2 090)之間的關系如圖7所示.

圖7 α 與 Fα(10,2 090)和 Fα(209,2 090)之間的關系Fig.7 The relationship between α and Fα(10,2 090)and Fα(209,2 090)

為了驗證本文算法,并與之前的研究工作進行比較,文中使用了維吾爾文2016 數據集、英文 Firemaker 和IAM手寫文本數據集.
1)維吾爾文 2016 數據集.此數據集是由本文作者收集的維吾爾文數據集.為了收集符合研究要求的維吾爾文筆跡樣本,作者組織180 名年齡在15~70 歲之間的維吾爾民族人,并按照指定的20 個題目,在 A4 紙上隨意書寫字數不少于50 個單詞的兩頁文字,每一份樣本分別以300 dpi的分辨率掃描,分配唯一的文件名,并以 256 灰度級及BMP格式存儲文件建立數據集,后來此數據集命名為維吾爾文2016數據集.該數據集的書寫人性別、年齡比例相等,包括各種教育背景的人,書寫內容相對全面、接近于真實場景,基本滿足論文需求.測試過程中,把同一作者提供的兩頁文字分成兩組,分別用于訓練和測試.
2)IAM 數據集.IAM 數據集是在手寫識別和書寫者識別等問題上最著名和廣泛使用的英文數據集之一.它包括一些300 dpi、8 位/像素灰度、內容各異的手寫英文文本,此數據集共包括657 名作者的手稿,其中356 名作者只有一頁,301 名作者至少有兩頁,125 名作者至少有四頁.對于包括兩頁及以上文字的樣本只保留前兩頁,第1 頁用于訓練/驗證,第2 頁用于測試.對于只提供一頁字的作者來說,所提供的頁面大致分為兩半:前半部分用于訓練/驗證,后半部分用于測試.因此,356 名作者有半頁紙,其他301名作者有一頁紙用于訓練/驗證.
3)Firemaker 數據集.對于250 名書寫人提供的Firemaker 數據集,包括根據不同的需求收集的四個子集.本文只使用其中的第1 個子集,該子集包含使用普通手寫的文本復制頁面,每位書寫人只提供了一份樣本.同樣在我們的實驗 中該頁面被分為兩部分,分別用作參考樣本和測試樣本.
這部分通過設計兩種實驗,分別測試代碼數量與書寫人數的變化對筆跡鑒別準確率的影響.測試目的是確認本文算法對于代碼數量的最低要求以及書寫人數的增多對鑒別精度的影響.
3.1.1 代碼數量對鑒別精度的影響實驗
我們對來自 IAM 數據集中貢獻了至少兩頁的 180 名作者進行了代碼數量對筆跡鑒別準確率的影響實驗.從每一份樣本提取的代碼數量從 3 增加到 70 時,參考樣本與測試樣本之間的相同子圖像數量從 0 增加到 33 ,實驗結果如圖8所示.

圖8 子圖像數量與鑒別準確率之間的關系Fig.8 Relationship between number of codes and identification accuracy
圖8 中以 WDIH 代表加權方向指數直方圖法,DT 代表距離變換法,這里TOP-1,TOP-5 分別代表1 候選和5候選書寫人.從圖8 可見,憑借從參考樣本提出來的3~5個子圖像仍然可以確定書寫人的身份,但是當子圖像的數量大約達到 25 幅時,基于子圖像的書寫人識別率相對穩定.此外,與兩種特征提取算法相比,WDIH 方法的性能對子圖像的數量更加敏感:比起單一的算法兩種方法的結合可以有效提高筆跡鑒別準確率.
3.1.2 書寫人數對鑒別精度的影響實驗
假設從每份樣本大約提取 50 幅子圖像,并且把IAM數據集上的書寫人數量從 10 逐漸增加到 650 人時,可以獲得如圖9所示的實驗結果.

圖9 書寫人數量與鑒別準確率之間的關系Fig.9 Identification accuracy with different number of writers
筆跡識別率隨著書寫人數量的增加持續下降,當人數從10 人增加到650 人時,三種方法的TOP-1 識別率從100%分別降到82%,83%和93%.在650 名書寫人的條件下,TOP-5 的表現比TOP-1 穩定很多,分別下降到88%,89%和95%,相比于TOP-1 的鑒別率分別高于6%,6%和2%.對于兩個分類器的組合模式,雖然同樣隨著書寫人數量的增加而出現了下降的趨勢,但是與單分類器相比,其鑒別性能顯著高于單個分類器,并且保持相對穩定的值.
以上實驗結果表明,筆跡鑒別精度很大程度上由子圖像數量與書寫人數等兩個因素決定.圖8 顯示書寫人數固定為 180 人時通過逐漸增多代碼數量的方法提高了鑒別準確率.當從每一份樣本提取的子圖像數量大概為 30~70 個時,能夠保證系統的魯棒性,有效降低人數對于鑒別精度的影響.同樣,當書寫人數為 650 人時,若子圖像數量從50幅增加到 70~100 幅,系統的鑒別準確率則有很大的提升空間.
根據第 3.1 節的參數,本節將展示維吾爾文 2016 數據集上的實驗結果.將維吾爾文數據集中的 180 份樣本人為地分成兩份筆跡,一份作為參考樣本,另一份是用于測試樣本.如上所述,為了確保測試樣本與參考樣本之間一定數量的相同子圖像,本文通過碼本中的冗余模式提高代碼之間的匹配率.因此,我們先從每個樣本中隨機提取 30~40 個子圖像生成碼本進行測試,然后根據每份樣本的性能逐漸增加提取的子圖像數量.可見,每一份樣本的碼本包括很多冗余信息,只有參考碼本中的一部分代碼跟測試碼本上的某些代碼匹配參與測試.維吾爾文 2016 數據集上的實驗結果如圖10所示,由圖可見代碼數量與筆跡識別率之間的關系,當從參考樣本提取的混合子圖像數量達到70 幅時,系統內部代碼的實際匹配對會達到 20~25 個,筆跡鑒別準確率達到理想值并且保持相對穩定.當子圖像數量達到 100 個時,系統的TOP-1 鑒別準確率會達到100%,特征提取和測試過程大概需要 10~15 s.

圖10 維吾爾文2016 數據集的性能示意圖Fig.10 Performance on Uyghur2016 dataset
本小節對現有的一些筆跡鑒別技術進行比較.本文使用應用最為廣泛的兩種公開數據集IAM 和Firemaker 作為測試數據集.為了評估模型的魯棒性與泛化能力,將廣泛應用于筆跡檢索任務中的評估標準有平均準確率均值(Mean average precision,mAP),Soft TOP-k(TOP-k),HardTOP-k等幾種方法[11].此外,測試方法也有比較典型的幾種對比策略:一對一對比、成對對比[14]以及相異特征對比[8,16]等,其中一對一的對比法比較廣泛應用.為了與其他文獻保持一致,本文測試過程采用一對一的對比策略,使用TOP-k標準用于鑒別任務中.測試過程仍然先從每個樣本中隨機抽取約 20 幅子圖像進行測試,然后對于鑒別失敗的樣本增加子圖像,并重新測試求平均值.在評估過程中,雖然本文方法對書寫頁面的大小和書寫字符數量的多少沒有過高的要求,但是從單個樣本中提取的子圖像數量要從 20 幅逐漸增加到 45 幅反復測試.具體測試結果見表3 和表4.表3 的結果表明,本文算法在 Firemaker 數據集上的TOP-1 效果最好,TOP-10 效果與文獻[18]相同,均排第一.

表3 各種方法在 Firemaker 數據集上的性能對比(%)Table 3 Performance comparison on Firemaker(%)
表4 顯示本文方法在IAM 數據集中的TOP-10 性能最好,TOP-1 性能僅次于文獻[6]和文獻[18]的結果,整體上來說效果較好.其中文獻[13-16]采取的建立碼本方法以及紋理描述符類似于本文的混合碼本及其描述符,對于IAM 數據集,本文結果比同類研究成果高于1.9%~6.15%.文獻[18]把英文 MImUnipen 數據集用作訓練數據集,使用 IAM 和 Firemaker 作為測試數據集,而本文和其他文獻的訓練和測試數據集是同一個數據集.文獻[6]側重研究的是系統的魯棒性問題,筆跡掃描質量最佳的情況下可以獲得97.2%的TOP-1 鑒別準確率,但筆跡有噪聲或者歪曲的條件下,精度會下降到92.3%,同時樣本數量增多時需要重新建立基于譜回歸的核判別分析預測模型.

表4 各種方法在 IAM 數據集上的性能對比(%)Table 4 Performance comparison on IAM dataset(%)
文獻[27]采取一種動態片段加權組合規則減少不一致測試片段的影響,TOP-1 筆跡鑒別率比本文結果低1.18%.
文獻[28]采用局部紋理特征 LBP、LTP 和 LPQ 的最佳組合模式,得到88.3% 的 TOP-1 筆跡鑒別率,比本文結果低 9.72%.
本文提出的方法在預處理階段不受窗口大小的影響,需要切分的子圖像數量相對其他方法較少,并且書寫人數的增多對實驗結果的影響相對較不明顯,從書寫人數量增加的魯棒性來說,本文算法有一定優勢.本文還可以通過增多子圖像數量進一步提高鑒別精度.
為了對實驗方法和實驗結果進行更進一步對比,有必要討論本文算法在不同數據集上的性能.由表3、表4 及圖10的實驗結果可得本文在維吾爾文2016,IAM 以及Firemaker三個數據集上的測試結果如表5所示.

表5 在三個數據集上的性能對比(%)Table 5 Performance comparisons on three datasets(%)
從表5 可見基于維吾爾文的書寫人識別結果高于IAM和 Firemaker 數據集.出現此結果的主要原因可以歸結為以下兩點:首先,本文作者收集的維吾爾文數據集內容豐富,字數充足.維吾爾文 2016 數據集上的每一位書寫者提供了兩頁維吾爾文字,預處理階段不僅能夠快速提取高頻子圖像,而且能夠提取足夠多的高頻成分.測試階段,測試樣本與參考樣本之間標注相同的代碼數量遠比IAM 和Firemaker 數據集的高.因為以上英文數據集總共包括907個人的書寫樣本,有些樣本上的字數只有4~5 行,沒有足夠多的字符.雖然預處理過程中勉強提取 30~50 個子圖像,但是實際匹配率很低.另外,Firemaker 數據集上的手寫稿包含的是固定內容,有一定的片面性.預處理階段,為了盡量選取足夠多的子圖像,大部分樣本按字母或者字母碎片提取代碼.雖然這種選擇方法能夠提高實際匹配率,但是每一個子圖像攜帶的筆跡特征極少,一定程度上影響鑒別準確率.其次,本文提出的方法更適合于維吾爾文字的書寫特點和語法結構.維吾爾文中字母、單詞和音節的重復頻率比較高.對于本文算法,少數子圖像足以確定書寫人的身份.
本文提出了一種用于筆跡鑒別的混合碼本模型,為了提高相同代碼之間的匹配率,此碼本包括很多冗余的子圖像.對于已生成的碼本先利用因子分析法,濾除與子圖像內容相關的字符因素,保留了書寫因子.然后利用加權指數直方圖法和距離變換法提取特征,在分類決策層采用了兩種方法的組合模型提高了筆跡鑒別準確率.此外,本文利用荷蘭文和英文數據集對該方法進行了評估,并深入研究了碼本大小和書寫人數對實驗結果的影響.各類實驗結果表明,我們提出的算法對于內容不受限制且字數較少的樣本是非常有效的,并且通過增加碼本中的子圖像數量,可以進一步提高筆跡鑒別效率.與 IAM 和 Firemaker 數據集相比,在維吾爾文 2016 數據集上的實驗結果非常理想,這一結果的主要原因是維吾爾文2016 數據集上的樣本內容豐富,并且本文算法充分利用維吾爾語的優勢,生成的碼本上有足夠多的子圖像.子圖像數量和長度是決定本文算法鑒別準確率的關鍵因素.