999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

卷積神經網絡在古籍漢字識別中的應用實踐

2019-10-21 03:34:50郭利敏劉悅如
圖書館論壇 2019年10期

郭利敏,葛 亮,劉悅如

0 前言

雖然OCR(Optical Character Recognition)技術在計算機視覺領域已有10多年,傳統OCR技術對現代印刷體的識別很成熟,但在古籍漢字的識別上還存在挑戰。由于古籍漢字屬于書法字體,筆畫并不像打印字體那樣橫平豎直,沒有固定模板匹配;不同作品書寫筆畫粗細不同、筆畫黏連;長期保存過程中還存在部分筆畫模糊與缺失現象;書法字形又承載著作者獨特書寫風格,形態各異,給書法字識別帶來了困難。

近年,隨著深度學習技術在OCR 領域的應用研究,將其用于現代手寫體漢字的識別已有非常多的成果。比如,IDSIA團隊首次將卷積神經網絡運用到手寫體漢字的識別,在ICDAR-2011脫機手寫體漢字識別競賽中,其識別準確率達到92.18%[1];在ICDAR-2013聯機和脫機手寫體漢字識別競賽中,采用卷積神經網絡模型方法對脫機手寫體漢字識別率達到了94.77%[2];最近的研究表明漢字的細微結構特征對漢字的準確識別有很大的作用[3]。

長久以來,古籍文獻資源的數字化成果主要有古籍索引數據庫、古籍書目數據庫、古籍全文數據庫等三種類型,各種數據庫往往只是從古籍外部特征與主題內容的角度對古籍文獻進行描述與組織,為全文文本數據庫提供檢索服務[4]。隨著數字人文的興起,數字人文為古籍數字化的深度開發提供了新的理論和實踐方法,在使得古籍語義分析、字頻統計、信息挖掘、智能標點以及古文獻數字化地圖建設等成為可能的同時,也對數字化古籍的加工提出了新的要求。在數字人文古籍元數據從數字化到數據化的轉化加工過程中,對于古籍文本漢字的識別是最為基礎也是最重要的工作之一,但由于字庫的不完善、不規范和不統一等使得傳統的OCR技術識別古籍困難[5],使得這項工作一直以人工為主,而工作人員又必須具備一定的專業知識素養,非常耗時費力。所以運用深度學習技術對特定樣本進行學習訓練,并運用遷移學習的方式對古籍漢字進行識別,可以為數字人文古籍漢字的元數據加工提供一種可行的解決方案,旨在提高古籍資源在數字人文應用研究中的效率。

1 試驗方法和思路

一個卷積神經網絡(CNN)通常是由一系列的卷積層和子采樣層以及1 個或多個全連接層組成。其中,卷積層用以從輸入圖片中提取圖片的特征信息,全連接層則用以將提取的特征信息進行分類。

本文通過構建卷積神經網絡對特定的繁體字數據集進行特征學習,并將訓練結果用于預測古籍中的漢字。整個方法可分為三個步驟(見圖1)。

圖1 基于卷積神經網絡的古籍漢字識別流程

步驟一:構建訓練集。運用漢字生成技術,針對古籍漢字字形尋找相似的字體,同時運用數字圖像處理技術模擬真實情況下的古籍漢字圖片的噪聲,如筆畫模糊、筆畫缺失等現象構建訓練集。

步驟二:網絡模型的構建與訓練。設計卷積神經網絡模型結構,并在步驟一中構建的訓練集的基礎上進行學習訓練。

步驟三:識別和結果分析。通過步驟二得到已訓練好的深度學習網絡,將從古籍圖片中切割出來的古籍漢字圖片(測試集)使用該網絡進行識別,結果分為“可識別”和“不可識別”兩類。標注為“不可識別”的,表示機器無法對其進行識別或識別準確率非常低;標注為“可識別”的,則表示機器可識別,同時會給出網絡的識別結果,再對此部分結果進行正確率的分析。

基于卷積神經網絡的古籍漢字識別,其本質就是通過深度學習的方式構建一個漢字圖片與漢字字符的分類器,將輸入的漢字圖片通過卷積神經網絡逐層提取圖片特征,得到各個分類漢字的概率,隨后選擇概率最高的一個分類作為目標輸出,即識別結果。為了提高精確度,通常會使用閾值作為結果篩選的依據,如公式1所示。

其中,P為目標輸出的概率,T為閾值,當概率大于等于閾值時才采用這個結果。然而閾值T通常是通過先驗知識和實驗對比選擇較好閾值,依賴主觀判斷,這種方式準確性較低、通用性較差。

因此,在設計網絡模型的時候特別增加一個“不可識別”的分類項,網絡可以將不確定的識別結果作為輸出項,達到動態閾值的結果,從而提高精確度。

1.1 構建訓練集

充分的訓練數據集是訓練卷積神經網絡的關鍵,然而真實數據樣本的采集和整理需要大量的人力去把握其規模和準確性。目前針對漢字手寫體的數據庫有北京郵電大學發布的HCL2000 脫機手寫數據庫[6]、國家863中文手寫評測數據[7]等,都是比較規范書寫的數據。相比而言,目前能表現真實書寫情況的手寫單字樣本數據庫有中國科學院發布的CASIA-OLHWDB1.0-1.2手寫單字樣本數據庫和CASIAHWDB1.0-1.2 文本行數據集[8],以及華南理工大學發布的涵蓋單字、詞組、文本行、數字、字母、符號等綜合手寫數據集SCUTCOUCH[9],但上述的數據集都集中在簡體漢字的標準體或現代手寫體上,對于書法風格的古籍漢字而言,無論是字形還是字體風格都相距甚遠。

為避免在訓練過程中出現“過擬合”(Over Fitting),提升CNN 模型的性能,也因為沒有找到合適的數據集進行模型訓練,所以采用數據生成技術來構建訓練集。從不同字體中抽取字體并生成字體圖片,并結合圖像的平移、尺度縮放、旋轉、水平或垂直拉升、椒鹽噪聲、高斯噪聲等方法對圖形進行隨機變化和添加隨機噪聲,如圖2所示。

圖2 測試集中選取的有代表性的圖片

圖3 “度”字的部分訓練樣本

通過圖2 對測試集的觀察,發現如下特點:(1)測試集的圖片格式大小不一,字形多樣。(2)從“煙”字可看到,部分圖片具有簡體和繁體兩種寫法。(3)從“送”和“七”字可以看出圖片的有缺失或者其他干擾噪聲。依據上述特點,選取10種不同的字體文件(其中包含細明體、黑體、宋體、隸屬、楷書等),每一個漢字分為簡體、繁體兩種,去重后共計有773 個目標漢字(部分漢字簡、繁體相同),每一個漢字對于每一種字體施加隨機形變和隨機噪聲,生成的訓練樣本如圖3所示。

1.2 卷積神經網絡的結構設計

經過嘗試多種網絡結構,并在準確度、收斂速度等多方面綜合評估后,最終確定圖4的網絡結構。網絡結構由7個卷積層和3個全連接層組成,其中表示卷積層的卷積核大小為卷積步長為y;表示池化層(max-pooling)的大小為步長為y;表示填充層(padding),在圖像邊界填充x 個像素點,“#Class”表示目標分類的個數,本文共計773個漢字(包含簡繁體)以及“不可識別”分類,所以“#Class”為774個。

圖4 卷積神經網絡模型結構

1.3 測試樣本

測試樣本均來自上海圖書館主頁(www.library.sh.cn)的“我的圖書館系統”登錄驗證碼所用圖片(圖片均源自“盛宣懷檔案”)。如圖5所示,我們對每張圖片進行人工標注,并做了二次審核以保證標注的正確性,其中共有660 個字1213張圖片。由圖2可知,由于測試集的圖片形狀格式不一,所以我們需要對測試集進行預處理,使其成為統一大小的灰度圖片。處理結果如圖6所示。通過預處理不僅把原始圖片調整為統一大小,還能在一定程度上抑制原始圖像的背景噪聲。

圖5 “我的圖書館”登錄驗證碼界面

圖6 測試集預處理前后對比

2 實驗結果分析

由于計算資源有限(僅一塊NVIDIA GeForce 1080 Ti顯卡來做GPU 運算)。為了減少運算量,選取48*48大小的圖片作為CNN 網絡模型的輸入,在小規模數據集上嘗試構建多種網絡結構,從收斂速度以及準確率兩方面進行評估后,最后選定圖5的結構作為本次實驗的最優結構,進行大規模的訓練和實際樣本的測試。

目標漢字共計773個,用于生成訓練樣本的字體文件共計10個(包含TTF和TTC格式),共計20種字體,每個字每一種字體生成160帶有隨機噪聲的樣本。所以整體的訓練樣本數量約為160*10*2*773=2473600 個樣本,由于部分字體并沒有包含繁寫體,所以最終生成的訓練樣本比上述值少些。

為評估實驗結果,引入兩個評價指標:準確率(Accuracy)和精確率(Precision)。

準確率(Racc)是:對于給定的測試數據集,正確識別的樣本數(Sright)與總樣本數(Stotal)之比。準確率可反應卷積神經網絡對預測樣本整體的識別能力。

精確率(Rprecision)是:對給定的測試數據集,正確識別的樣本數(Rright)與識別出的樣本數量(Rright+Rerror)之比。精確率可反應卷積神經網絡的預測結果的可靠程度,在準確率較難提升的情況下,通過提升精確率使得網絡的實際運用更好,系統更可靠。

對上述訓練樣本在圖5 的模型結構于TensorFlow平臺上進行20訓練輪迭代后做了相應測試,結果見表1。

表1 識別結果

其中,Runknow為無法識別樣本。通過公式(2)與公式(3)計算所得:

2.1 訓練樣本的多樣性

由于訓練集對模型識別的結果影響較大,特地在原有樣本基礎上,新增王羲之書法字體和顏體書法字體,通過字體生成技術生成單字160個不同的樣本,見圖7。同樣進行20 輪迭代訓練后,得出的測試結果如表2所示??梢?,增加字體樣本后未識別樣本降低,整體的準確率有所提升。所以,訓練樣本字體的多樣性有助于提升CNN網絡的識別率??梢酝ㄟ^將古籍中的漢字切割、標注、預處理后構建訓練樣本,以此提高樣本的多樣性,進而提升識別性能。

圖7 新增王羲之、顏真卿字體

表2 增加樣本前后測試準確度對比

2.2 錯誤結果分析

圖8 預處理前后樣本對比

如前文圖1所示,模型對圖片的結果識別分為“可識別樣本”和“不可識別樣本”兩類,其中可識別樣本包括識別正確樣本和識別錯誤樣本。在對錯誤樣本和不可識別樣本進行分析后,得到幾個導致識別錯誤的原因。

(1)圖片預處理導致的失真問題。雖然把原始圖片轉換成灰度圖,一定程度上降低了背景噪聲,但程序批量處理使部分樣本在轉換后失真嚴重,如圖8所示。這種情況是由于缺少相應的訓練樣本使得機器將其識別為“不可識別樣本”。雖然降低模型的正確率,但對精確率有一定的提升。

(2)相近字體導致的識別錯誤。在識別錯誤結果中,部分是相近字形導致的識別錯誤。如圖9所示,將文件名第一個字符表示此圖片標注的漢字,第二個為卷積神經網絡識別的漢字,可見由于手寫體字形的多樣性和不確性使得網絡將其識別成為其他相似字。如“化”字,由于連筆產生的多余信息被識別為“他”字。因此,對卷積神經網絡來說,如何提升筆畫細節的識別能力非常重要,也是提高準確度的關鍵。

圖9 相近字體識別錯誤樣例

(3)簡繁體識別錯誤。在校驗識別結果后,發現有部分繁體字被識別成為簡體字,共計27個樣本,占比約10%。由于在訓練集中,簡、繁體字被定義成為兩個不同的樣本,對于這樣的結果目前無法解釋,需要增加測試樣本作進一步探究,但通過建立簡繁體映射表則可解決此問題。錯誤樣例見圖10。

(4)其他錯誤。對其余一些識別錯誤的樣本,很難找到具體的原因,但通過提升網絡對筆畫細節的識別能力,以及提升網絡對不可識別漢字的判斷能力,可降低這部分錯誤的出現率,進而提升網絡識別的精確率。

3 結語

圖10 簡繁字體識別錯誤樣例

古籍的元數據文本加工是數字人文研究中最重要也是工作量最大的基礎工作之一,它有著工作量大、專業性強的特點,一直以來都是以人工識別為主,耗時費力。本文構建了卷積神經網絡模型,通過數據生成技術生成古籍漢字圖片作為訓練集,并在TensorFlow 平臺上訓練后,用于數字化古籍漢字的識別,該方法可用于輔助古籍漢字的元數據加工工作。下一步將繼續擴大訓練集,并結合標注漢字圖片進行模型結構和訓練集合的調整,進一步提高其識別率。

對圖書館而言,由于圖書館學自身專業的定位,使得圖書館行業內計算機、數學相關的專業背景的人才相對較少,類似于傳統的OCR 這種需要大量計算機和數學背景知識專業應用,對于圖書館而言,大多都依賴其他行業的應用成果。但對于卷積神經網絡這類深度學習的應用,使得之前需要花費大量時間盡力進行的特征編碼、算法設計等相對復雜的設計變得非常簡單,在網絡模型既定的情況下,通過調整訓練集就可以得到一個更適合于圖書館應用場景的結果。圖書館恰好有著大量的行業數據積累,圖書館館員也具有對這部分數據整理歸納的能力,所以深度學習相對于傳統計算機算法處理而言,是一個更適合于圖書館的應用方案。

主站蜘蛛池模板: 成人国产小视频| 国产成人精品无码一区二| 国产男女免费视频| 久久综合九色综合97婷婷| 国产69精品久久| 久久精品人人做人人综合试看| 丁香五月婷婷激情基地| 中文字幕2区| 久久综合结合久久狠狠狠97色 | 日本一区高清| 成人精品视频一区二区在线 | 99热这里只有精品久久免费| 狠狠色综合网| 免费看a毛片| 九色综合伊人久久富二代| 欧美三级不卡在线观看视频| 国产精品va| 国产美女无遮挡免费视频网站| 欧美国产日韩一区二区三区精品影视| 中文字幕va| 亚洲日韩国产精品无码专区| 国产精品99r8在线观看| 免费观看国产小粉嫩喷水| 亚洲欧洲日韩国产综合在线二区| 91福利国产成人精品导航| 国产主播喷水| 免费99精品国产自在现线| 日韩欧美色综合| 亚洲永久色| 五月婷婷精品| 国产超薄肉色丝袜网站| 人妻丝袜无码视频| 日本国产精品一区久久久| 免费网站成人亚洲| 亚洲欧美精品日韩欧美| 国产成人亚洲无码淙合青草| 久久综合九九亚洲一区 | 国产精品专区第一页在线观看| 97精品久久久大香线焦| 天天躁夜夜躁狠狠躁图片| 最新亚洲av女人的天堂| 亚洲无码91视频| 九九热这里只有国产精品| 国产亚洲高清在线精品99| 亚洲IV视频免费在线光看| 91青青草视频| 美女扒开下面流白浆在线试听 | 免费看的一级毛片| 亚洲国产清纯| 99激情网| 欧美a级完整在线观看| 久久综合色88| 久久香蕉国产线看观看亚洲片| 国产人免费人成免费视频| 国产久草视频| 国产男女免费视频| 亚洲不卡影院| 国产微拍精品| 精品久久人人爽人人玩人人妻| 伊人久久大香线蕉影院| 色哟哟精品无码网站在线播放视频| 亚洲人精品亚洲人成在线| 亚洲人成电影在线播放| 国产午夜无码片在线观看网站 | 老司国产精品视频91| 亚洲一级色| 欧美国产在线看| 思思热在线视频精品| 性色在线视频精品| 欧美在线中文字幕| 国产美女一级毛片| 国产精品色婷婷在线观看| 秋霞午夜国产精品成人片| 小说区 亚洲 自拍 另类| 性欧美精品xxxx| 亚洲精品国产自在现线最新| 亚洲欧美自拍中文| a级毛片一区二区免费视频| 日韩欧美国产中文| 九九精品在线观看| 国产精品综合色区在线观看| 香蕉国产精品视频|