沈敏胤 楊亮 趙哲萱
摘要:以三維掃描為基礎(chǔ)的圖像識(shí)別和三維重建在文物領(lǐng)域作用顯著,應(yīng)用日廣。本文使用kinect深度相機(jī)配合文字識(shí)別算法探究了這一技術(shù)在古文字識(shí)別方面的作用。通過(guò)Kinect相機(jī)掃描文字,接著對(duì)文字的點(diǎn)云數(shù)據(jù)進(jìn)行分析,最后使用相應(yīng)的Matlab程序進(jìn)行識(shí)別,獲得古文字對(duì)應(yīng)的簡(jiǎn)體中文漢字。
關(guān)鍵詞:Kinect; 點(diǎn)云配準(zhǔn);Matlab;圖像識(shí)別;古代文字
1 kinect傳感器
Kinect 是微軟公司開(kāi)發(fā)的一款獲取 3D 體感信息的設(shè)備, 它由多陣列麥克風(fēng)、RGB 彩色攝像頭、紅外線(xiàn)CMOS攝影機(jī)和紅外發(fā)射器組成。位于中間位置的是RGB彩色攝影頭,可以采集640×480的彩色圖像,1s內(nèi)可以采集30幀圖像。紅外線(xiàn)發(fā)射器和紅外線(xiàn)CMOS攝影機(jī)分別位于傳感器的兩側(cè),構(gòu)成3D結(jié)構(gòu)光深度感應(yīng)器,可以測(cè)量被測(cè)物體與攝像機(jī)之間的距離(即深度數(shù)據(jù)采集)。內(nèi)部的陣列式麥克風(fēng),用來(lái)實(shí)現(xiàn)語(yǔ)音辨識(shí)和定位聲源位置等功能。
2 識(shí)別原理
Kinect 設(shè)備與普通攝像頭的區(qū)別在 于紅外線(xiàn)發(fā)射和紅外線(xiàn)接收功能,通過(guò)這個(gè)功能,Kinect 可以獲取場(chǎng)景的深度信息。
Kinect 1.0 獲取深度圖像是基于 Light Coding[12] 技術(shù), 該技術(shù)是將紅外線(xiàn)光均勻分布投射在被測(cè)物體和空間中, 之后光譜將發(fā)生扭曲,反射出隨機(jī)的斑點(diǎn),即散斑。再通過(guò)紅外攝像頭讀取空間和物體上的每個(gè)散斑。這些散斑有著高度隨機(jī)性,而且隨著距離的變化而變化。在得到原始數(shù)據(jù)后, 使用設(shè)備中的 PS1080 芯片計(jì)算出具有深度信息的圖像. Kinect 2.0 則是基于 Time Of Flight (TOF) 技術(shù)獲取深度圖像, TOF 技術(shù)是通過(guò)向目標(biāo)發(fā)射連續(xù)的特定波長(zhǎng)的紅外光線(xiàn)脈沖, 經(jīng)過(guò)傳感器接收待測(cè)物體傳回的光信號(hào), 計(jì)算光線(xiàn)往返的飛行時(shí)間或相位差得到待測(cè)物體的 3D 深度信息. 相比于 Kinect 1.0, 采用了 TOF技術(shù)的 Kinect 2.0 獲取深度圖像的精度更高, 被外界光影響的概率更低, 針對(duì)環(huán)境光具有更強(qiáng)的抗干擾性, 因此本文選用 Kinect 2.0。
3古文字的提取識(shí)別
本文中所提到的古文字是指,雖然時(shí)代久遠(yuǎn),有從甲骨文到篆書(shū)隸書(shū)的演化,但都可以識(shí)別并將其轉(zhuǎn)化為現(xiàn)代的簡(jiǎn)體中文,就比如我國(guó)先秦的篆書(shū),漢代的隸書(shū),這些文字構(gòu)造結(jié)構(gòu)與六書(shū)基本一致,傳統(tǒng)上我們可以從他的文字本身觸發(fā),對(duì)文字進(jìn)行分析和判斷,通過(guò)一些古文字的工具書(shū)字典,從最簡(jiǎn)單的字和數(shù)字開(kāi)始,進(jìn)行逐一辨認(rèn),通過(guò)已經(jīng)成熟的matlab程序進(jìn)行識(shí)別。
但是由于古文字的繁多,以及文字復(fù)雜,沒(méi)有過(guò)硬的專(zhuān)業(yè)知識(shí),以及豐富的經(jīng)驗(yàn),實(shí)踐很難在短時(shí)間內(nèi)正確的翻譯出來(lái),因此是一件耗時(shí)耗力的工作。
于是我們?cè)谶@基礎(chǔ)上提出用現(xiàn)代的方法,對(duì)古代文字進(jìn)行識(shí)別,我們先用相機(jī),對(duì)這些出土印有文字的的文物進(jìn)行拍照,對(duì)我們項(xiàng)目要求,所以我們使用的是kinet深度相機(jī),可以從6D位姿的角度識(shí)別處理圖像,獲得全面、細(xì)節(jié)完善的文字筆畫(huà)信息,然后通過(guò)matlab程序,把其中的文字字符給提取出來(lái),使用色階增加黑場(chǎng),提高對(duì)比度,銳化方法使文字變得盡量清晰,完成文字的識(shí)別,然后將識(shí)別出來(lái)的圖案輸入程序,再通過(guò)比對(duì)大量已經(jīng)建立的古文字?jǐn)?shù)據(jù)庫(kù),找出最匹配的古文字,輸出終端,再進(jìn)行下一個(gè)古文字的識(shí)別。這樣就能在短時(shí)間里對(duì)考古的文物中的古文字進(jìn)行識(shí)別。
4實(shí)驗(yàn)結(jié)果與分析
我們對(duì)20幾張照片進(jìn)行了拍照,之后使用Matlab,中間的連字符程序,把一些有間斷的模糊的的斷點(diǎn)連接成單詞,字母和漢字進(jìn)行識(shí)別,大約有超過(guò)70%的字可以完全的識(shí)別出來(lái),其余的20%多的字可以通過(guò)其他的程序,過(guò)濾掉低通濾噪聲和高通噪聲的干擾,以及銳化等處理后進(jìn)行有效的識(shí)別出來(lái),還有5%左右的程序需要經(jīng)過(guò)更加復(fù)雜的程序進(jìn)行圖像處理,方能清晰地進(jìn)行閱讀,還有2%不到的字母單詞或者數(shù)字,尚末識(shí)別清楚,從這個(gè)來(lái)看,使用相機(jī)進(jìn)行拍照和Matlab程序進(jìn)行數(shù)字圖像識(shí)別,跟人肉眼識(shí)別的結(jié)果幾乎差別不大不足的地方,可以從精度和分辨率入手也可以寫(xiě)識(shí)別對(duì)外部環(huán)境有要求(即光線(xiàn)太暗,字體筆畫(huà)太細(xì),沒(méi)有龐大的數(shù)據(jù)庫(kù),不能很好識(shí)別等)之后我們將會(huì)與其他學(xué)院的同學(xué)們一起合作,把數(shù)據(jù)庫(kù)和識(shí)別的深度學(xué)習(xí)機(jī)器統(tǒng)一起來(lái),使我們這個(gè)識(shí)別的精度更高,更精準(zhǔn)。
當(dāng)然,我們這個(gè)識(shí)別還是存在很多問(wèn)題的,首先是在器材上面,我們是使用的kincet相機(jī)的深度相機(jī)的分辨率為512X424,并且相機(jī)的固有敏感度存在一定的問(wèn)題。這個(gè)相機(jī)的分辨率是比較低的,不能進(jìn)行精確掃描,下一步的話(huà),我們將會(huì)使用,分辨率更高的相機(jī)進(jìn)行再一次的識(shí)別實(shí)驗(yàn),同時(shí),這個(gè)相機(jī)對(duì)光線(xiàn)的要求還是比較大的,在只使用連字符未能掃描識(shí)別出來(lái)的,20%的單詞和字母中,很多都是由于光線(xiàn)問(wèn)題而導(dǎo)致的,此外,文字和背景的顏色對(duì)比度,灰度銳度等一些問(wèn)題也會(huì)導(dǎo)致文字的識(shí)別不出來(lái),還有由于相機(jī)的距離和識(shí)別文字的數(shù)量的關(guān)系導(dǎo)致的,部分某些數(shù)字,它的筆畫(huà)寬度比較小,小于能識(shí)別的范圍,這個(gè)問(wèn)題將會(huì)在之后的討論中進(jìn)行解決
同時(shí),在識(shí)別方面,由于經(jīng)費(fèi)問(wèn)題我們的識(shí)別,是由五位,沒(méi)有拿到需要識(shí)別圖片準(zhǔn)確譯文的同學(xué)進(jìn)行肉眼觀(guān)察,把他們觀(guān)察的結(jié)果寫(xiě)在紙上,之后使用對(duì)照比對(duì)等手段進(jìn)行,檢查出來(lái)的,所以具有一定的實(shí)驗(yàn)誤差。
5 結(jié)束語(yǔ)
基于 Kinect 的古文字識(shí)別是一個(gè)新穎而又充滿(mǎn)意義的課題。本文使用 Kinect與 matlab 完成了一套用戶(hù)功能完備,識(shí)別準(zhǔn)確的古文字識(shí)別方案。該系統(tǒng)主要通過(guò) Kinect 來(lái)獲取文字?jǐn)?shù)據(jù),通過(guò)對(duì)數(shù)據(jù)的分析與綜合識(shí)別出文字對(duì)應(yīng)的現(xiàn)代文字,然后得出正確的文字結(jié)果。在相信這可以在文物領(lǐng)域中發(fā)揮很好的作用。
參考文獻(xiàn):
[1]李文怡,張蜓,楊潔.三維掃描及快速成型技術(shù)在文物修復(fù)中的應(yīng) 用[J].文博,2012(6):78-81.
[2]? Reddy G D, Saggau P. Fast three-dimensional laser scanning scheme?using acousto-optic deflflectors.[J].Proc Spie, 2005, 10(6):4379-4386.
[3]? Xie HY, Zhong YQ. Structure-consistent customized virtual?mannequin? reconstruction? from? 3D? scans? based? on?optimization.? Textile? Research? Journal,? 2020,? 90(7 –8):?937–950. [doi: 10.1177/0040517519883957]
[4] 吳劍鋒, 蔣濛婷, 馬夢(mèng)鑫, 等. 基于點(diǎn)云融合算法的 Kinect?三維重建技術(shù)及其應(yīng)用研究. 計(jì)算機(jī)應(yīng)用與軟件, 2018,?35(8): 260–264. [doi: 10.3969/j.issn.1000-386x.2018.08.047]
[5] Zhao L, Shen XK, Long X. Robust wrinkle-aware non-rigid?registration? for? triangle? meshes? of? hand? with? rich? and?dynamic? details.? Computers? &? Graphics,? 2012,? 36(5):?577–583. [doi: 10.1016/j.cag.2012.03.035
作者介紹:
沈敏胤,男,出生于2000年六月,漢族,上海人,揚(yáng)州大學(xué)本科在讀,自動(dòng)化專(zhuān)業(yè)
基金項(xiàng)目:本文系2020年江蘇省揚(yáng)州大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng),項(xiàng)目編號(hào)X20200389