李振江
摘 要:文檔識別技術能自動識別文檔中的文本、圖片、表框等信息,為紙質文檔的全文數字化提供了便利。文章分析了文檔識別過程中預處理、版面分析、行字切分、特征提取以及分類的流程,對文檔識別技術的發展做了一個簡單的綜述,并結合藏文古籍識別的具體應用,對該技術在藏文古籍識別方面的應用難點進行了探討。
關鍵詞:文檔識別;版面分析;藏文古籍
中圖分類號:G273.3
文獻標識碼:A
一、引言
從20世紀90年代開始,文檔分析與識別吸引了越來越多的研究者,目前有多個專門的國際會議對該項工作進行研究。
例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相關領域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文檔分析識別相關的論文出現,整個領域的研究工作處在一個快速發展的階段。
二、文檔識別流程
從文檔識別工作的流程步驟上來說,可以分為圖像預處理與版面分析、行字切分、特征提取與分類等模塊[1]。
1. 預處理與版面分析
預處理階段主要工作是去噪以及圖像的增強和修復,之后進行版面分析,將圖像分為文字區域以及非文字區域,獲取結構以便于重編和出版。文字區域需要進一步確定該區域的文字是屬于題目、正文、標注或者其他信息等;對于非文字區域,則要判別其是插圖、背景或者是噪音,并按照判別結果分別加以處理。在版面分析過程中,需要考慮的是不同類型區域特征選擇的問題和不同的分析方法及其效果評價。
2. 文本行字切分
對于完成了預處理以及版面分析后抽取的文字區域,需要進一步的檢測,將文本行以及單字進行分割。在古籍文檔中,文本大多為約束文本和非約束文本混合出現,其文本行往往是不一致的傾斜和彎曲,如何動態調整切分距離,自適應處理傾斜和彎曲文本是這一步需要考慮的問題。對于切分好的文本行,需要選擇合理的文字切分算法對單個字符進行分割。
3.特征提取與分類
基于統計的方法是模式識別的一種經典方法,目前在文檔分析識別上使用較為廣泛的方法有SVM方法、貝葉斯方法、隱馬爾可夫模型等,其關鍵在于統計同一種字符所特有的共有性質或者相對穩定的分類特征作為識別向量。這種向量應當具有穩定的二維平面特征、水平或者垂直直方圖特征等。在統計方法中,這個邊界是基于每個類的模式的概率分布的,這點必須預先知道或通過學習獲得。
三、文檔識別的發展
從文檔識別研究的文字類型上來說,由于文檔識別技術最初源于西方國家,因此拉丁文字符文檔識別發展最早,目前成果也最多。隨著其他國家地區科研水平的提高,越來越多的非拉丁字符識別技術有了長足發展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。
從文檔識別研究的對象上來說,其源于OCR技術,最初的目標是識別特定字體的印刷字符,后來發展到多字體的混編的印刷文檔,隨后,手寫體文檔的識別成為一個研究的新內容。與此同時,研究對象的時間也不僅僅局限于現代文檔的識別研究,大量的古籍、歷史文檔、古代手稿、藝術作品成為新的研究對象。
四、藏文古籍識別
1.藏文古籍識別的意義
藏族擁有悠久輝煌的文化歷史,在我國,藏文古籍文檔規模宏大,其數量僅次于漢語古籍文檔。為了更好地保護和利用這些文檔資料,對其進行全文數字化是一個亟待完成的工作。目前國內外已有一些藏文數據庫建成使用,例如“尼泊爾-德國手稿文獻保存計劃”、藏文文獻輸入計劃、藏傳佛教資料信息中心等。然而現有的數據庫,大都是將藏文古籍文獻掃描成圖加以保存,不便于對其進行檢索以及深度開發利用,更好的手段是利用文檔識別方法,對其內容進行識別并轉換為內碼形式進行保存。
2. 藏文古籍字體
藏文自吞彌桑布札創制后經過千余年的實踐創新,字體發展到幾十種。從大的方面講,可歸納為烏金體與烏梅體兩大類。烏金體即有冠體,整體書寫效果整齊劃一。吐蕃時期王室發布的文告、執照以及碑文、鐘銘,特別是佛經寫卷幾乎都是用烏金體書寫的。依據后弘期刊印的藏文書籍“軟字精校精刻”的要求,其大都采用烏金體[2]。
3. 藏文識別現狀
目前,就國內外公開發表的文獻來看,鮮見藏文古籍文檔分析識別的相關研究工作。而脫機藏文字符識別工作已從最初的印刷體藏文識別開始向手寫藏文識別研究發展。其基本思路都是先通過對藏文字符的基本特征的研究,然后根據這些特征選擇設計相應的算法對字符進行切分,再做傾斜矯正、版面分析及歸一化處理。經過上述的處理后,得到一個較為理想的二值圖像,然后對這個處理后的二值圖像利用適合的算法進行識別。最后是對識別的結果用識別算法或上下文的關系來糾正誤識字和拒識字,提高識別率和適應性,降低系統的誤識率。研究思路都是從藏文字符的自身特征出發,運用各種已有的識別技術來進行特征提取、分類,進而識別。
五、藏文古籍識別應用
總的來說,藏文古籍識別的研究尚處于起步階段,其中大部分工作集中在現代藏文字符識別方面,而在藏文古籍文檔識別中,字符識別只是其中的一個模塊,且藏文古籍中梵音藏文字符占很大一部分;除了字符識別外,藏文古籍識別還在版面分析、文字切分等方面有大量工作等待完成。藏文古籍文檔識別研究中,還存在多方面的困難。
第一,藏文古籍文檔版面質量差,導致獲取的圖像中存在大量噪音,同時圖像的前景中還存在字符內容缺失、線條斷裂等其他質量退化問題。如何合理的去噪,且在去噪的同時修補損失區域是做好藏文古籍識別的前提條件。
第二,藏文古籍文檔版面復雜,文字、背景有多種顏色,常常在文中嵌圖,通常文字周圍都有邊框且橫豎排文字混編。必須做好版面分析工作,正確高效的將文檔中不同類型的元素一一區分。
第三,藏文古籍中使用的字符集異常龐大,包括基本藏文字符集中獨立成字的169個字符、擴充集A中1536個垂直預組合字符、擴充集B中5669個垂直預組合字符,排除這三種字符集中重復的字符,字符總數共計7240類。如何獲取這7240個類別的樣本數據,合理的設計分類器對這種稀疏樣本、高類別問題進行分類是必須要解決的問題。
參考文獻:
[1]Kai Chen,Mathias Seuret,Hao Wei,etal.Ground truth model, tool, and dataset for layout analysis of historical documents[J].Document Recognition and Retrieval XXII,2015(9402).
[2]先 巴.藏文古籍版本研究——以藏文古籍印本為中心[J].西藏研究,2016(3):99-110.