沈敏胤 楊亮 趙哲萱
摘要:以三維掃描為基礎的圖像識別和三維重建在文物領域作用顯著,應用日廣。本文使用kinect深度相機配合文字識別算法探究了這一技術在古文字識別方面的作用。通過Kinect相機掃描文字,接著對文字的點云數據進行分析,最后使用相應的Matlab程序進行識別,獲得古文字對應的簡體中文漢字。
關鍵詞:Kinect; 點云配準;Matlab;圖像識別;古代文字
1 kinect傳感器
Kinect 是微軟公司開發的一款獲取 3D 體感信息的設備, 它由多陣列麥克風、RGB 彩色攝像頭、紅外線CMOS攝影機和紅外發射器組成。位于中間位置的是RGB彩色攝影頭,可以采集640×480的彩色圖像,1s內可以采集30幀圖像。紅外線發射器和紅外線CMOS攝影機分別位于傳感器的兩側,構成3D結構光深度感應器,可以測量被測物體與攝像機之間的距離(即深度數據采集)。內部的陣列式麥克風,用來實現語音辨識和定位聲源位置等功能。
2 識別原理
Kinect 設備與普通攝像頭的區別在 于紅外線發射和紅外線接收功能,通過這個功能,Kinect 可以獲取場景的深度信息。
Kinect 1.0 獲取深度圖像是基于 Light Coding[12] 技術, 該技術是將紅外線光均勻分布投射在被測物體和空間中, 之后光譜將發生扭曲,反射出隨機的斑點,即散斑。再通過紅外攝像頭讀取空間和物體上的每個散斑。這些散斑有著高度隨機性,而且隨著距離的變化而變化。在得到原始數據后, 使用設備中的 PS1080 芯片計算出具有深度信息的圖像. Kinect 2.0 則是基于 Time Of Flight (TOF) 技術獲取深度圖像, TOF 技術是通過向目標發射連續的特定波長的紅外光線脈沖, 經過傳感器接收待測物體傳回的光信號, 計算光線往返的飛行時間或相位差得到待測物體的 3D 深度信息. 相比于 Kinect 1.0, 采用了 TOF技術的 Kinect 2.0 獲取深度圖像的精度更高, 被外界光影響的概率更低, 針對環境光具有更強的抗干擾性, 因此本文選用 Kinect 2.0。
3古文字的提取識別
本文中所提到的古文字是指,雖然時代久遠,有從甲骨文到篆書隸書的演化,但都可以識別并將其轉化為現代的簡體中文,就比如我國先秦的篆書,漢代的隸書,這些文字構造結構與六書基本一致,傳統上我們可以從他的文字本身觸發,對文字進行分析和判斷,通過一些古文字的工具書字典,從最簡單的字和數字開始,進行逐一辨認,通過已經成熟的matlab程序進行識別。
但是由于古文字的繁多,以及文字復雜,沒有過硬的專業知識,以及豐富的經驗,實踐很難在短時間內正確的翻譯出來,因此是一件耗時耗力的工作。
于是我們在這基礎上提出用現代的方法,對古代文字進行識別,我們先用相機,對這些出土印有文字的的文物進行拍照,對我們項目要求,所以我們使用的是kinet深度相機,可以從6D位姿的角度識別處理圖像,獲得全面、細節完善的文字筆畫信息,然后通過matlab程序,把其中的文字字符給提取出來,使用色階增加黑場,提高對比度,銳化方法使文字變得盡量清晰,完成文字的識別,然后將識別出來的圖案輸入程序,再通過比對大量已經建立的古文字數據庫,找出最匹配的古文字,輸出終端,再進行下一個古文字的識別。這樣就能在短時間里對考古的文物中的古文字進行識別。
4實驗結果與分析
我們對20幾張照片進行了拍照,之后使用Matlab,中間的連字符程序,把一些有間斷的模糊的的斷點連接成單詞,字母和漢字進行識別,大約有超過70%的字可以完全的識別出來,其余的20%多的字可以通過其他的程序,過濾掉低通濾噪聲和高通噪聲的干擾,以及銳化等處理后進行有效的識別出來,還有5%左右的程序需要經過更加復雜的程序進行圖像處理,方能清晰地進行閱讀,還有2%不到的字母單詞或者數字,尚末識別清楚,從這個來看,使用相機進行拍照和Matlab程序進行數字圖像識別,跟人肉眼識別的結果幾乎差別不大不足的地方,可以從精度和分辨率入手也可以寫識別對外部環境有要求(即光線太暗,字體筆畫太細,沒有龐大的數據庫,不能很好識別等)之后我們將會與其他學院的同學們一起合作,把數據庫和識別的深度學習機器統一起來,使我們這個識別的精度更高,更精準。
當然,我們這個識別還是存在很多問題的,首先是在器材上面,我們是使用的kincet相機的深度相機的分辨率為512X424,并且相機的固有敏感度存在一定的問題。這個相機的分辨率是比較低的,不能進行精確掃描,下一步的話,我們將會使用,分辨率更高的相機進行再一次的識別實驗,同時,這個相機對光線的要求還是比較大的,在只使用連字符未能掃描識別出來的,20%的單詞和字母中,很多都是由于光線問題而導致的,此外,文字和背景的顏色對比度,灰度銳度等一些問題也會導致文字的識別不出來,還有由于相機的距離和識別文字的數量的關系導致的,部分某些數字,它的筆畫寬度比較小,小于能識別的范圍,這個問題將會在之后的討論中進行解決
同時,在識別方面,由于經費問題我們的識別,是由五位,沒有拿到需要識別圖片準確譯文的同學進行肉眼觀察,把他們觀察的結果寫在紙上,之后使用對照比對等手段進行,檢查出來的,所以具有一定的實驗誤差。
5 結束語
基于 Kinect 的古文字識別是一個新穎而又充滿意義的課題。本文使用 Kinect與 matlab 完成了一套用戶功能完備,識別準確的古文字識別方案。該系統主要通過 Kinect 來獲取文字數據,通過對數據的分析與綜合識別出文字對應的現代文字,然后得出正確的文字結果。在相信這可以在文物領域中發揮很好的作用。
參考文獻:
[1]李文怡,張蜓,楊潔.三維掃描及快速成型技術在文物修復中的應 用[J].文博,2012(6):78-81.
[2]? Reddy G D, Saggau P. Fast three-dimensional laser scanning scheme?using acousto-optic deflflectors.[J].Proc Spie, 2005, 10(6):4379-4386.
[3]? Xie HY, Zhong YQ. Structure-consistent customized virtual?mannequin? reconstruction? from? 3D? scans? based? on?optimization.? Textile? Research? Journal,? 2020,? 90(7 –8):?937–950. [doi: 10.1177/0040517519883957]
[4] 吳劍鋒, 蔣濛婷, 馬夢鑫, 等. 基于點云融合算法的 Kinect?三維重建技術及其應用研究. 計算機應用與軟件, 2018,?35(8): 260–264. [doi: 10.3969/j.issn.1000-386x.2018.08.047]
[5] Zhao L, Shen XK, Long X. Robust wrinkle-aware non-rigid?registration? for? triangle? meshes? of? hand? with? rich? and?dynamic? details.? Computers? &? Graphics,? 2012,? 36(5):?577–583. [doi: 10.1016/j.cag.2012.03.035
作者介紹:
沈敏胤,男,出生于2000年六月,漢族,上海人,揚州大學本科在讀,自動化專業
基金項目:本文系2020年江蘇省揚州大學大學生創新創業項,項目編號X20200389