李新功
摘要:為適應社會的數(shù)字化轉型,公安機構在全國范圍內開展了戶籍檔案數(shù)字化工作。面對戶籍檔案數(shù)字化工作在組卷復雜、紙張狀況較差且著錄工作量大等方面的挑戰(zhàn),實現(xiàn)數(shù)字化工作的智能化與自動化成為探索焦點,所以采用自動著錄技術勢在必行。該文對采用自動著錄技術的必要性、技術框架及系統(tǒng)實現(xiàn)邏輯等展開介紹與分析。
關鍵詞:戶籍檔案 數(shù)字化 PaddleOCR 人工智能
隨著我國國民經(jīng)濟和社會發(fā)展的第十四個五年規(guī)劃綱要的發(fā)布,“加快數(shù)字化發(fā)展,建設數(shù)字中國”迅速成為工作中的焦點。這也為檔案行業(yè)的發(fā)展帶來了新機遇。近幾年,檔案行業(yè)的全流程管理研究紛紛著眼于自動分類、自動著錄及智能鑒定等領域。公安機構也投入了大量資源開展戶籍檔案數(shù)據(jù)建設、戶籍檔案數(shù)字化建設工作。本文根據(jù)實踐中遇到的戶籍檔案需要大規(guī)模著錄問題,研究利用百度飛槳平臺(PaddlePaddle)加以解決。作為世界頂級的深度學習平臺,飛槳平臺以百度公司多年深度學習技術的研究和業(yè)務應用為基礎,集深度學習核心訓練和推理框架、基礎模型庫、端到端開發(fā)套件、豐富的工具組件于一體,是中國首個自主研發(fā)、功能完備、開源開放的產業(yè)級深度學習平臺。[1]飛槳平臺匯聚開發(fā)者數(shù)量達370萬,服務14萬家企事業(yè)單位,產生了42.5萬個模型。[2]它是百度公司的開源平臺,體量輕是其最大的特點之一。PaddleOCR是飛槳平臺上的細分應用平臺,非常適合檔案行業(yè)解決大規(guī)模自動著錄問題。本文提及的自動著錄技術研究及實踐就是基于這個細分平臺而完成的。
(一)采用自動著錄技術是戶籍檔案全面數(shù)字化的社會要求
本文所稱戶籍檔案,是指常住戶口登記、暫住登記及居住證管理、居民身份證管理、人口信息管理等相關戶籍資料。目前在戶籍管理中,仍然以紙質檔案居多。紙質戶籍檔案管理有著諸多弊端,難以查詢,難以追溯,難以獲得完整的信息,難以關聯(lián),所以引發(fā)了一系列社會問題。在不少地方,“老、破、舊”的戶籍檔案不在少數(shù),其紙張發(fā)黃發(fā)脆,字跡暈染、模糊,手寫體居多。
在這次戶籍檔案數(shù)字化進程中,無論從管理、技術還是實施角度,戶籍檔案信息系統(tǒng)的建設并不是重點和難點,反而是億級紙質檔案數(shù)字化的工作才是重點和難點,而難上加難的就是應對海量數(shù)據(jù)的著錄。舉個例子,某省有近50億頁戶籍檔案需要數(shù)字化,目前僅完成1.2億頁的工作量。其中某個下屬市28個分局共有905.7萬卷、3761萬頁戶籍檔案,僅完成了405萬頁的數(shù)字化副本在戶籍檔案系統(tǒng)中的掛接,占比大約為10.8%,也就是說歷史戶籍檔案數(shù)字化程度較低。所以采用自動著錄技術勢在必行,這是戶籍檔案全面數(shù)字化的社會要求,可以確保戶籍檔案信息可用、可查、可追溯。
(二)采用自動著錄技術是戶籍檔案深度數(shù)字化的新要求
近兩年,公安機構在全國全面展開了戶籍檔案信息化的工作:在建設戶籍檔案管理系統(tǒng)的同時將紙質檔案數(shù)字化,并將數(shù)字化副本按照要求掛接到系統(tǒng)中,以便查詢。但是此次公安部部署的戶籍檔案信息化工作不同于以往,呈現(xiàn)出以下特點:第一,此次工作部署更加落地,在全國范圍全面推進,有的省份公安系統(tǒng)甚至提出了信息化量化管理指標,同時優(yōu)先配套財政費用,有效保障該項工作所需資源。第二,此次戶籍檔案數(shù)字化并非僅僅著眼于檔案管理視角,而是從數(shù)據(jù)觀視角出發(fā),提出了深化戶籍檔案數(shù)字化的實施要求,要求著錄戶籍檔案80%或以上的內容。有別于以往的標準檔案內容著錄要求,戶籍檔案深度數(shù)字化反映在以下兩個方面:一是橫向擴展,對于每個級別的著錄內容要求都有所增加,例如案卷級著錄信息標準字段是檔號、案卷題名、保管期限等,而此次著錄要求除了標準字段外增加了不少其他字段,比如卷宗編碼,它是業(yè)務流水編碼,以及卷宗編碼的條形碼、檔號的條形碼以及原類別號等十幾個字段。二是縱向擴展,著錄層級從標準的案卷層級、卷內文件層級擴展到具體的每一頁頁面層級,并且擴展到頁面中的字段級別,數(shù)據(jù)顆粒度細化到詞/詞組級別。這也符合未來檔案數(shù)據(jù)化的要求:向檔案內容要數(shù)據(jù),從內容中提取數(shù)據(jù),將數(shù)據(jù)顆粒度細化,為將來精準檢索、數(shù)據(jù)關聯(lián)利用、數(shù)據(jù)挖掘和分析及深度展示檢索結果做準備。
深度學習為OCR賦能,也為自動著錄帶來了新機遇。本研究就是抓住了此機遇,開發(fā)了基于PaddleOCR技術平臺的自動著錄應用系統(tǒng)。
(一)深度學習為OCR技術賦能,為自動著錄夯實基礎
OCR是英文Optical Character Recognition(光學字符識別)的縮寫。簡單來說,OCR識別包括以下基本步驟:第一步是圖像預處理;第二步是文字檢測;第三步是文字截取;第四步是字符識別。其中第一到第三步屬于文本檢測階段,而第四步才是文字識別階段。傳統(tǒng)的OCR技術在檔案行業(yè)的應用一直處于尷尬狀態(tài),因為檔案門類繁多、紙張情況復雜,錯誤率比較高。而且手寫體、表格、字體上的不規(guī)范都會造成識別錯誤,如果在錯誤識別的結果上再改錯,效率比較低,甚至不如直接人工著錄。所以在相當長的一段時間,OCR未被大規(guī)模使用和推廣。但是在人工智能研究快速推進的技術環(huán)境下,OCR也開始了與深度學習的融合,產生出多種算法、模型和應用,這也是本研究能夠有所推進的根本原因。
目前融合在OCR深度學習文本檢測階段的算法大致分為以下幾類:第一類是基于目標檢測的方法,一般是預測得到文本框后,通過NMS(Non Maximum Sup? pression)篩選得到最終文本框,多是四點文本框。該檢測法對較大彎曲文本場景效果還不是太理想。典型算法為EAST(An Efficient and Accu? rate Scene Text Detector)、Text Box等方法。第二類是基于分割的方法,即將文本行當成分割目標,然后通過分割結果構建外接文本框,可以處理彎曲文本,但是對于文本交叉場景問題效果不理想。典型算法為DB(Differentiable Binarization)等方法,目前最常用的有效方法是二者的混合。OCR識別階段,其輸入數(shù)據(jù)一般是文本行,背景信息不多,文字占據(jù)主要部分,識別算法目前可以分為兩類:一類是基于CTC(Connectionist Tem? poral Classification)的算法,常用的算法組合為CNN(Convolu? tional Neural Network)+RNN(Recurrent Neural Net? works)+CTC。目前也有一些算法嘗試在網(wǎng)絡中加入transformer模塊等。另一類是基于Attention的方法,即識別算法的文字預測模塊是基于Attention的,常用算法組合是CNN+RNN+Attention。本文研究的Pad? dleOCR平臺充分融合了以上主要算法,是深度學習對OCR的賦能,大大提高了OCR結果的容錯力:一是提高了正確率;二是提高了對字體的容納度。這使得OCR技術在檔案行業(yè)的應用舊貌換新顏,使得戶籍檔案數(shù)字化的大量著錄工作有可能采用自動著錄技術來高效完成。這是自動著錄技術應用的基礎。
(二)基于PaddleOCR細分平臺的自動著錄系統(tǒng)架構介紹

研究發(fā)現(xiàn)自動著錄成為可能后,我們利用Pad? dleOCR細分平臺自主開發(fā)了應用于戶籍檔案數(shù)字化的自動著錄系統(tǒng),圖1就是其系統(tǒng)框架圖。在圖中,核心框架和模型算法被封裝在百度的飛槳平臺中,這是基礎層。本文研發(fā)時直接調用此內容。在模型訓練系統(tǒng)中,先采集和選取多種樣本例如中文印刷體、英文印刷體、繁體中文、中文手寫體等樣本,并對大量樣本進行標注,通過Paddle框架訓練成對應的訓練模型。這里,訓練模型的準確性與樣本的數(shù)量與完整度有很大關系。在服務部署過程中,經(jīng)過樣本訓練出來的模型通常體積較大,為了提高加載速度與運行速度,需要用到Paddle-Slim功能對模型進行壓縮。Paddle-Hub提供多種預訓練模型,可以方便快速地完成預訓練模型的預測。Paddle-Serv? ing用于服務部署,可將模型作為單獨的Web服務進行部署,這是中間層。自主開發(fā)部分集中在應用接口、版面識別模板庫和業(yè)務應用這幾大部分。利用應用接口,在Paddle-Serving的基礎上自主進行開發(fā),然后封裝成為完整的Web RESTful API接口,自動著錄系統(tǒng)可以整合這層應用,形成Web應用、桌面應用、移動應用等。研發(fā)最核心的部分在于兩部分:一是版面識別模板庫,這也是應用特點的體現(xiàn)。在戶籍檔案數(shù)字化應用中,紙質檔案是按照各種標準整理組卷完成的案卷,并非雜亂無序的數(shù)據(jù)樣本,所以可以根據(jù)在數(shù)字化工作中采集的數(shù)據(jù)樣本進行訓練和分析,從而形成戶籍檔案行業(yè)的模板庫。例如,我們可以針對同一類別的檔案的版面進行版面標注,標注需要提取的結構化數(shù)據(jù)具體在版面中的位置,形成模板庫,相同版面提供多個不同的標注樣本數(shù)據(jù),可以提高版面模版的識別精度。二是業(yè)務應用部分。利用版面識別模板庫和文本識別的Web應用接口,可以構建對應的版面識別應用,有效識別各種戶籍檔案數(shù)字化業(yè)務場景中較為固定的版面文本數(shù)據(jù),從非結構化數(shù)據(jù)中快速提取結構化數(shù)據(jù)。
(三)自動著錄系統(tǒng)的實現(xiàn)邏輯
自動著錄系統(tǒng)的主要實現(xiàn)邏輯是:進入自動著錄界面后分兩種情況,第一種情況是該類戶籍檔案沒有做過自動著錄,故而沒有相應的著錄模板,所以需要制作模板。系統(tǒng)利用“OCR模板制作功能”,首先在數(shù)值化副本圖的左邊圖片區(qū)域對圖片整體進行框選(見圖2),然后右邊將出現(xiàn)相對應的電子版表格;其次根據(jù)需要對所有需要著錄的字段一一對應到各自的目標位置后,再進行保存,此時制作模板完成;最后點擊“智能OCR”,那么按照模板將完成該頁面的一鍵自動著錄。
第二種情況是“不使用模板-定向識別OCR功能”。這是指在系統(tǒng)中已經(jīng)建立了模板,或曾經(jīng)著錄過類似的內容,在這種情況下,不需要建立模板,只需要按照第一種情況的簡化步驟直接完成操作即可。
本研究不僅推進了戶籍檔案著錄數(shù)字化過程中自動化、智能化的研究與應用,也為檔案數(shù)據(jù)化管理提出了新的解決思路和技術工具,使得檔案數(shù)據(jù)化管理更加落地。
其成果主要體現(xiàn)在以下幾個方面:第一,它充分體現(xiàn)了研發(fā)與實踐的閉環(huán)過程:研發(fā)、驗證、修正、推廣、大規(guī)模使用,并沒有僅僅停留在研究和思考的層面,也沒有僅僅停留在實驗室驗證的層面,而是進行了大規(guī)模的使用和驗證,至今已經(jīng)助力完成了超過兩千萬頁戶籍檔案著錄數(shù)字化的工作。第二,已經(jīng)產生并持續(xù)產生了商業(yè)化價值,為大大小小的戶籍檔案數(shù)字化外包商提供了產品化服務,服務金額已經(jīng)近千萬元,并持續(xù)提供商業(yè)服務中。第三,自動著錄系統(tǒng)大大提高了戶籍檔案數(shù)據(jù)內容提取和轉換的效率及準確率,將錯誤率從18%降低到3%以下,效率至少提高了300%,縮短了項目實施周期,大幅降低了數(shù)字化的成本。

當然,本文的研究和實踐也還有不盡人意之處,該技術對手寫體的辨識準確率并沒有達到90%;同時對著錄內容的一致性有一定要求,因為建模板需要花比較長的時間,也會影響效率。隨著需要數(shù)字化的戶籍檔案數(shù)量增多、數(shù)據(jù)模型的積累,數(shù)據(jù)訓練的效果會越來越好,自動化、智能化水平也會相應提高,其實施效率和應用層面的效果也會越來越好。
注釋及參考文獻:
[1]馮建周,余揚,劉磊.基于飛槳框架的三階遞進式機器學習教學模式探索與實踐[J].計算機教育,2021(10):28-32.
[2]百度百科.飛槳(百度深度學習平臺PaddlePaddle中文名)[EB/OL].[2022-04-12].https://baike.baidu.com/ item/%E9%A3%9E%E6%A1%A8/23472642?fr=aladdin.
作者單位:中國人民大學信息資源管理學院