盛思遠 趙洋洋
摘? 要:基于筆跡的性別識別在取證分析中具有重要意義。但是目前的筆跡性別識別的智能算法大多是在筆跡空間進行直接分類,筆跡中包含大量無意義信息,分類準確率不高。本文通過將筆跡空間轉化為筆跡相似度空間,通過Mnist數據集訓練卷積神經網絡得到數字識別模型,然后用自制帶性別標簽的數據集進行測試并計算得到表現字跡風格的兩種數據集。進一步基于KNN算法,對字跡進行性別識別,綜合兩種數據集得到的預測結果,測試準確度能達到74%。
關鍵詞:卷積神經網絡? KNN算法? 性別識別? 筆跡
中圖分類號:TP391.41? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2020)09(a)-0112-04
Abstract:Gender recognition based on handwriting is of great significance in forensic analysis. However, the current intelligent algorithm of handwriting gender recognition mostly classifies directly in the handwriting space, which contains a lot of meaningless information, and the classification accuracy is not high. In this paper, we convert the handwriting space into the handwriting similar space, by training the convolutional neural network in the Mnist data set to obtain the digital recognition model, and then test the self-made data set with gender label and calculate the two data sets that show the handwriting style. Furthermore, based on KNN algorithm, gender recognition of handwriting was carried out, and the test accuracy reached 74% based on the prediction results obtained from the two data sets.
Key Words: Convolutional neural network; KNN algorithm; Gender recognition; Handwriting
對筆跡的性別識別在調查取證分析中有重要的意義[1],筆跡中包含的因素主要可以分為兩類,一是對已有字體進行模仿,二是在模仿過程中形成個人的風格。理論上來說每個人的筆跡都有個人不同的風格,因此從筆跡中獲得各種信息是理論可行的,一些專家學者提出了筆跡的動態特征研究方法[2]。目前,大部分對于筆跡的分析都是基于圖像識別的原理,通過卷積神經網絡對圖像的特征值進行識別和操作,例如基于梯度的識別算法GLBP[3],準確率可以達到70%,基于多層卷積網絡的模式識別算法,準確率可以達到71.9%。直接對筆跡圖片進行識別操作的方法,造成算法的應用空間范圍在整個圖片上均勻分布,計算過程中輸入數據的復雜度較大,計算結果的準確度不高。另一方面,由于缺乏統一規格的中文離線簽名數據庫,在訓練過程中,很難充分訓練[4]。
本文提出了一種在識別之前進行空間轉換的思路,將筆跡圖片先行識別,利用訓練好的卷積神經網絡得到筆跡圖片對于真值的相似度向量集,再利用KNN算法預測筆跡的性別,在準確度上有較大的提升。
1? 相似度向量的提取
為了提取筆跡的相似度,我們利用Mnist數據集訓練一個4層卷積神經網絡,然后利用此網絡計算自制數據集訓練組對照真值的相似度。
1.1 用于識別數字的卷積神經網絡
Mnist數據集由6萬個訓練樣本和1萬個測試樣本組成,每個樣本為單張手寫數字圖片和對應的數字標簽,規格為28*28的灰度。卷積網絡由兩個卷積層兩個池化層和兩個全連接層組成。本文使用基于Tensorflow2.0的keras框架,搭建計算模型,激活函數和損失函數選取如表1。
模型的最終輸出為10位One-hot形式,對訓練得出的網絡利用測試樣本進行檢測,數字識別準確率達到97.8%,將此模型當作標準網絡計算相似度向量。
1.2 差異度與相似度向量的計算
由于Mnist數據集中,沒有性別標簽,因此我們需要自建數據集獲得字跡和性別之間的關系,每個樣本必須是同一個人的字跡,包括0~9十張圖片和對應的數字標簽。利用已經訓練好的網絡辨識圖片得出Ont-hot類型的結果Aij,Rij∈10*10。我們把訓練的結果寫成一個10*10的矩陣形式,其中Rij表示第i張圖片訓練的One-hot形式的結果上第j個位的輸出。然后將A減去單位矩陣I得到結果矩陣R,由于R的每一個元素都代表著樣本測試距離Mnist字跡風格的偏移,因此R代表了樣本字跡的風格。
R中每一列表示書寫數字的字跡對某一個數字的傾向,因此將R縱向都加得出差異度向量M,Mj=Σi|Rij|。
R中每一行表示書寫某個數字時與Mnist字跡相比的偏差,因此將R橫向相加得出相似度向量N,Ni=Σj|Rij|。
研究中,把每一人的字跡與對應的性別標簽當作一個樣本,為了保證樣本對于性別的敏感性,我們選取了500組樣本,300組作為訓練集,200組作為測試集,兩種性別各半。為了防止年齡文化程度等因素的干擾,我們直接從同一年級的學生作業中掃描得出樣本。
2? 基于KNN的字跡性別識別
KNN網絡是一種K近鄰算法,當訓練樣本較多時,有很好的準確度,我們分別從字跡的錯誤傾向和字跡相似度兩個方面,利用KNN網絡對字跡進行性別識別。其中,度量空間我們選用歐氏距離,并在K近鄰中取平均權重。
2.1 實驗結果
在計算中,由于我們選取了歐式距離和平均權重,K近鄰算法只有一個超參數K,我們簡單的進行窮舉式的超參數優化,計算不同的K值情況下,性別的預測結果。利用差異度向量樣本集進行訓練和測試,得到的最高準確率在K=12時出現,為68%;利用相似度向量樣本集進行訓練和測試,得到的最高準確率在K=11時出現,為70%。將兩種測試集的預測結果加權平均到一起,得到的最高準確率在K=11時出現,為70%,準確度隨K的變化如圖1。
2.2 優化分析
將兩種測試集的測試結果平均到一起,預測的結果并沒有顯著改變,說明差異度向量和相似度向量中的每一個都可以完全代表樣本的字跡風格,因此單獨使用一個測試集,經過優化就可以達到相同的準確效果。
在這里,我們猜測,某些人的字跡有明顯的性別傾向,如果使用這些人的字跡作為訓練集,應該能更好表示字跡的性別特征。基于此,我們利用循環的將每個樣本放入測試集進行計算,將預測成功比率高的300個樣本當作新的訓練集,同時引入額外制作的測試集(樣本數量300,性別比1:1),同樣利用KNN,發現準確率在K=10時達到了74%,比基于局部特征的算法[5]高出4個百分點,比基于 GMM 的算法高出6.43個百分點。準確度隨K的變化如圖2。
由此可見,有些字跡的風格有明顯的性別傾向,而有些字跡的風格與性別關系不大,因此選用隨性別變化明顯的字跡作為訓練集更能體現字跡的性別傾向,識別的效果更好,驗證了我們的猜測。
2.3 算法進化
在實際應用中,這樣選取樣本的代價過高,因此我們使用一種算法進化的方式。首先我們隨機選取300個樣本作為訓練集,每加入一個測試集,若預測成功,則以一定概率p代替據此測試樣本距離最遠的訓練樣本,被代替的樣本加入測試集的末尾,循環迭代。本文最終可以達到2.2中得到的準確度,當p=0.15時,迭代次數最小,為12000左右,本質上是一種隨機梯度下降的算法。
3? 結語
目前對于筆跡的性別識別的研究,準確度依然無法達到一個令人滿意的程度。可能由于一部分人的筆跡所包含的特征與性別的關系不大,而與其他一些諸如體質、性格等因素相關。因此基于卷積神經網絡的特征提取和KNN的模式識別,在筆跡的性別識別中有很大的優越性。但是由于KNN算法的限制,訓練樣本數量不能過大,因此在訓練集中筆跡的風格可能不完備,無法識別測試樣本的某些特征,造成特征的缺失和疏漏,一定程度影響了準確率。因此,需要繼續優化算法對特征的識別,提高準確率。
參考文獻
[1] 劉維達,卜巍,鄔向前.基于深度學習的筆跡性別識別[J].智能計算機與應用,2017,7(3):135-137.
[2] 陳曉紅.司法筆跡鑒定[M].北京:科學出版社,2018.
[3] Nesrine Bouadjenek, Hassiba Nemmour, Youcef Chibani. Age, gender and handedness prediction from handwriting using gradient features[C]// International Conference on Document Analysis & Recognition. IEEE, 2015.
[4] 賈昊麗,程永強,李志磊.區間模糊相似性度量的離線簽名驗證[J].計算機工程與應用,2019,55(18):122-126.
[5] N Bouadjenek, H Nemmour, Y Chibani. Local descriptors to improve off-line handwriting-based gender prediction[C]// Soft Computing & Pattern Recognition. IEEE, 2015.
[6] 殷亞博,楊文忠,楊慧婷,等.基于卷積神經網絡和KNN的短文本分類算法研究[J].計算機工程,2018,44(7):193-198.