999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

小篆文字的自動識別

2016-02-23 04:50:39周明全
計算機技術與發展 2016年3期
關鍵詞:自動識別標準

戴 瓊,周明全,付 倩

(北京師范大學 信息科學與技術學院,北京 100875)

小篆文字的自動識別

戴 瓊,周明全,付 倩

(北京師范大學 信息科學與技術學院,北京 100875)

小篆是秦統一后使用的文字,是漢字發展的一個重大里程碑。在書法、碑文、石刻等有大量存在。但是由于與現代漢字差異較大,大多數人無法辨識這些小篆文字。文中提出了一種利用計算機對小篆文字自動辨識的方法。首先構建標準以及小篆字體數據庫,然后將用戶需要識別的小篆文字圖片縮放至標準大小,隨后采用迭代最近點算法(ICP算法)與庫中的小篆文字進行匹配,最后計算其相似度,而得到的相似度最高文字,也就是識別的輸出結果,從而實現小篆字體的自動識別。該方法經過大量實驗證明是有效的。

小篆字體;ICP算法;相似度;自動識別

1 概 述

弘一法師曾這樣說過,學字“先由篆字學起”。為什么呢?“若不學篆書,不講究‘說文’,對于字學及文字起源,就不能明白”,“寫篆字也可以為寫隸書、楷書、行書的基礎”,“篆書是各種字的根本”[1]。

篆書起源于西周末年,東周時在秦國一帶流行,至秦始皇時達到鼎盛,漢代開始衰退,逐漸向分書過渡。這三個時期的篆書風格有較大差異。為了加以區別,人們把東周時的篆書稱為大篆(或稱籀書),秦始皇時的稱為小篆,漢代的稱為漢篆[2]。

小篆是秦統一六國“書同文”后規范化的文字,是先秦篆書的最終規范,是漢字發展的一個重大里程碑。東周時代,諸侯力政,不統于王,各國文字一方面因為實用需要不斷簡化,另一方面,為了美觀,常添加各種裝飾性的筆畫,結果文字異形,訛體歧出。秦統一六國,秦始皇實行“書同文”政策,由丞相李斯厘定正體字,在原來秦使用的大篆基礎上吸收六國文字優點并加以簡化規范[3-4]。其規范的根本點是對從甲骨文到金文以及戰國時期各種裝飾性誡文字所運用的曲線和結構對稱性的提煉和凈化,也是對整個先秦時代人們審美趨向的總結升華。

小篆在我國歷史上使用了千余年,自從漢朝通用隸書之后,小篆的應用就日益減少。在漢末至六朝又出現了楷書,經隋唐宋元明清一直沿用至現代。自從楷書通用以后,經歷了一千多年的歷史,小篆就日漸從人們日常生活中淡化了,其應用越來越少[2]。

盡管如此,小篆的象征性和裝飾性在中國傳統藝術中發揮著巨大的作用并影響深遠。比如名山大川、風景名勝、遺址古建、寺院道觀、文保單位、公私堂所等處的石碑、摩崖、對聯、匾額、中堂條幅以及鑄件等處,都會刻有篆字。它們醒目、大氣、莊重、權威,無數的碑額借助于小篆的象征性樹立起權威的象征性。又如篆刻,它是小篆被廣泛運用到印信中,并由此發展成的一門相對獨立的藝術,由此也產生出一大批書法大家,如鄧石如、趙之謙等。再如秦磚漢瓦,是中國傳世文物中的一大項目,也是古代美術的一大類,上面也都刻有篆字,文字形式上較規范,內容上實用性較強[5-6]。

由此可以看出,即使在甲骨文三四千年后的現代,篆字(特別是小篆)的辨識依然具有其重要的意義,這關乎文史、美術與中華文明傳承。

古代的書法、碑文、石刻等有大量的小篆,但由于與現代漢字差異較大,大多數人無法認識這些小篆文字。因此有必要借助計算機技術幫助自動辨識。而對于自動識別,其結果就是找到在已建立的標準小篆字庫中與之相似度最大的字,則在計算相似度之前如何匹配當前這兩個待比較的圖片是一個關鍵問題。如果將每一個圖片中的字的部分的像素點看作是退化的二維平面上的點云,則可以借助很多的方法來實現匹配。這些匹配方法一般是基于迭代的算法,通過定義一個誤差函數來反映點云重疊區域間的吻合程度。目前應用最廣泛的方法是由Besl等[7]以及Chen等[8]提出的迭代最近點(Iterative Closest Point,ICP)算法,此類算法通過迭代的計算,使兩片點云上對應點對的均方誤差最小。

當前,大多數工作是輸入現代漢字,可以輸出小篆文字。而對小篆文字自動辨識工作較少,西北大學針對瓦當上小篆文字的識別展開研究,提出了一種基于神經網絡的方法[9]和基于文字幾何結構的方法[10]。文中提出了一種通過照片對小篆文字自動辨識的通用方法,通過建立小篆字庫計算字庫內的字與輸入的字的相似度,實現小篆文字的自動辨識。

2 小篆字庫的構建

在該系統中,對所建立的3 755個一級國標漢字按照其在標準中出現的順序按阿拉伯數字建立索引,并將其對應的書法漢字圖像一并入庫進行存儲以建立小篆字庫。每個小篆字圖片為600×600像素的二值圖片。圖1是一些字庫中的小篆字體的例子。

圖1 標準小篆字體“北京師范大學”

3 相似度的計算

文中對于小篆字體的自動識別,基于相似度的計算,其中輸入的待識別圖片與標準小篆字庫中的小篆字圖片相似度最大的字即為輸出結果。第二節已經介紹了建立的小篆標準字庫,其中的圖片大小為600×600,所以輸入的圖片經過處理后應該是與標準字部分基本重疊且大小同為600×600的圖片。相似度的計算介紹如下:

若Pi,j是標準小篆字庫中當前比較圖片(i,j)像素位置的顏色值,Qi,j是用戶輸入待識別圖片(i,j)像素位置的顏色值。其中i,j是圖片像素位置中的橫縱坐標,1≤i≤600,1≤j≤600。而Pi,j定義如下:

Qi,j可以相似地定義。若K=600,則相似度可以由以式(1)計算得到。

(1)

在以上方程中分子部分為同為黑色(即同屬于字體)的像素個數,分母為同為黑色或者顏色不同(一個屬于字體一個屬于背景)的像素個數。可以看出,如果這兩個字完全匹配,則相似度為1;如果這兩個完全不匹配,則相似度為0。

4 字體匹配

小篆字體的自動識別,輸出的是相似度最大的字作為結果。上節已經介紹了相似度的計算。可以看出,為了保證結果的正確性,待識別的圖片與字庫中的圖片的匹配是十分重要的。由于用戶輸入的圖片大小及其中字的方向大小位置都不是確定的,所以在計算其相似度大小之前,需要對輸入圖片進行處理,以致其圖片大小與標準圖片大小相同,且其中字的方向位置大小都與標準字盡可能一致。初始的圖片大小以及字的大小處理比較簡單,而更復雜的字的方向位置處理采用ICP算法來完成。

4.1 初始匹配

由于用戶輸入圖片的隨意性,它的圖片大小及其中字的大小方向位置都需要盡可能匹配標準字以達到一致。

對于輸入字的大小調整,是根據它與標準字的最小包圍圓來調整的。雖然中國漢字是方塊字,但是由于輸入字的方向不定不能保證它的方向一定是豎直向上的,所以這里用包圍圓來調整更為妥當。其中最小包圍圓的圓心是根據字體像素的平均位置來決定的,半徑則是字體像素部分與圓心的最大距離。最小包圍圓調整字體大小的結果見圖2和圖3。

圖2 與標準字“京”初始匹配結果

4.2 ICP算法匹配

經過初始處理以后,輸入圖片被處理為字體最小包圍圓與當前標準字的相同,且圖片大小為標準的600×600,如此已經保證了計算相似度的可行性,但是仍不能保證其精確性。因此采用了ICP算法[11]來進一步精確地匹配字體。ICP算法通過尋找初始處理后的輸入圖片字體像素點集以及標準字體像素點集的對應匹配點之間的關系,計算兩個點集的變換參數,以滿足給定的收斂精度,最終求得兩個點集之間的平移和旋轉參數,來完成匹配過程。

ICP算法用來解決多視點云間的對齊問題,前面已經提到ICP算法的理論,現在介紹一下ICP算法的實現過程。ICP算法本質上是基于最小二乘法的最優匹配方法。該算法重復進行選擇對應關系點對,計算最優剛體變換這一過程,直到滿足正確匹配的收斂精度要求。

ICP算法的目的是要找到待匹配點云數據與參考點云數據之間的旋轉參數R和平移參數T,使得兩點集數據之間滿足某種度量準則下的最優匹配。

假設給定兩個點集X1和X2,ICP方法的匹配步驟如下所示:

(1)搜索X2中的每一個點在X1點集中的對應最近點;

(2)求得使上述對應點對平均距離最小的剛體變換,求得平移參數和旋轉參數;

(3)對X2使用上一步求得的平移和旋轉參數,得到新的變換點集;

(4)如果新的變換點集與參考點集滿足f(R,T)式的目標函數要求,即兩點集的平均距離小于某一給定閾值,則停止迭代計算,否則新的變換點集作為新的X2繼續迭代,直到達到目標函數的要求。

而在(1)中,ICP搜索最近點的主要方法有:點對點最近點搜索算法[7]、點對面最近點搜索算法[13]、點投影最近點搜索算法[14]。這里把初始處理后的輸入圖片的像素點集以及標準字圖片的像素點集作為待匹配的兩個點云集,所以采用的是點對點最近點搜索算法。

圖4是經過初始處理的輸入圖片通過ICP算法精確匹配后的結果。

圖4 ICP算法精確匹配

5 自動識別

文中對于輸入的一個小篆字體圖片的自動識別是通過輸入與小篆字庫中標準字逐個比較計算其相似度,最后得到其中相似度最大的字作為自動識別的結果,流程圖見圖5。

圖5 自動識別算法流程圖

具體來說,經過以上匹配以后,得到了針對當前標準字的匹配后的輸入處理結果。現在將匹配后的輸入結果與當前標準字,根據第三節中介紹的相似度計算方法可以計算出針對當前標準字的相似度。對于字庫中的所有標準字,總共能得到3 755個相似度結果,其中最大的相似度即為輸出結果。比如圖4的例子中,最終計算的相似度“京”要比“學”要小,實際上其最終的識別結果也是“學”,如圖6所示。

圖6 自動識別結果

6 結束語

針對小篆文字辨識困難問題,文中提出了一種利用計算機對小篆文字的自動辨識方法。建立了一個標準小篆字庫。針對輸入的一個待識別小篆字體圖片,首先根據當前標準字經過初始處理得到標準圖片大小且字的大小大致相同的初始結果,然后對初始處理后的字與當前標準字通過ICP精確匹配后調整它的位置與方向,最后計算其相似度。當計算出輸入字與庫中所有字的相似度后,其中相似度最大的字即為其自動識別的結果。

該方法基于一個小篆的一級漢字庫(包括3 755個字),因此目前可以辨識一級漢字庫范圍內的小篆文字,但是以后可以很方便地擴展字庫,而且這種自動識別的方法對于其他字體的識別同樣有效。未來系統可以移植到移動設備如手機上,通過手機拍照,可以自動辨識小篆文字,也可以用于印的篆刻等。

[1] 羅喜澤.小篆技法教程[M].成都:四川師范大學電子出版社,2010.

[2] 沃興華.中國書法史[M].上海:上海古籍出版社,2001.

[3] 沃興華.中國書法篆刻簡史[M].上海:上海古籍出版社,2010.

[4] 高玉軍,劉慧杰,呂肖慶,等.小篆文本的在線編輯技術[J].計算機科學,2007,34(12):241-243.

[5] 趙昌智.中國篆刻史[M].上海:上海人民出版社,2006.

[6] 林乾良,于良子.篆字辨識[M].杭州:西泠印社出版社,2009.

[7]BeslPJ,MckayND.Amethodforregistrationof3-dshapes[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1992,14(2):239-256.

[8]ChenY,MedioniG.Objectmodelingbyregistrationofmultiplerangeimages[J].ImageandVisionComputing,1992,10(3):145-155.

[9] 劉 磊.基于內容的秦漢瓦當小篆文字識別方法研究[D].西安:西北大學,2015.

[10] 周子駿.基于神經網絡的瓦當中小篆的識別方法[D].西安:西北大學,2014.

[11] 周春艷,李 勇,鄒崢嶸.三維點云ICP算法改進研究[J].計算機技術與發展,2011,21(8):75-77.

[12] 金 濤,童水光,顏永年.逆向工程技術[M].北京:機械工業出版社,2003.

[13]BergevinR,SoucyM,GagnonH,etal.Towardsageneralmulti-viewregistrationtechnique[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1996,18(5):540-547.

[14]RusinkiewiczS,LevoyM.EfficientvariantsoftheICPalgorithm[C]//Procofthirdinternationalconferenceon3-Ddigitalimagingandmodeling.[s.l.]:IEEE,2001:145-152.

Automatic Recognition of Xiaozhuan Fonts

DAI Qiong,ZHOU Ming-quan,FU Qian

(College of Information Science and Technology,Beijing Normal University,Beijing 100875,China)

Xiaozhuan is the language used Qin unified China,and is a major milestone in the development of Chinese characters.In calligraphy,inscriptions,stone carvings,it is abound.However,due to large differences with the modern Chinese characters,most people cannot recognize these Xiaozhuan text.An automatic identification method of Xiaozhuan text by using computer technology is presented.First,the standard and database for Xiaozhuan font is built.Secondly,the Xiaozhuan text image which users want to identify is scaled to the standard size,and then the image is matched with these characters in the standard database of Xiaozhuan font by iterative closest point algorithm (ICP algorithm).Finally,the similarity is computed and the highest similarity ward is selected,that is the output result of recognition.Therefore automatic recognition of Xiaozhuan font is achieved.A lot of experiments have shown this method is effective.

Xiaozhuan fonts;ICP;similarity;automatic recognition

2015-06-20

2015-09-23

時間:2016-02-18

國家自然科學基金資助項目(61170203)

戴 瓊(1970-),女,碩士生,研究方向為計算機應用;周明全,教授,研究方向為計算機應用。

http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1638.090.html

TP301

A

1673-629X(2016)03-0001-04

10.3969/j.issn.1673-629X.2016.03.001

猜你喜歡
自動識別標準
中國自動識別技術協會
2022 年3 月實施的工程建設標準
船舶自動識別系統對船舶救助的影響
水上消防(2019年3期)2019-08-20 05:46:08
忠誠的標準
當代陜西(2019年8期)2019-05-09 02:22:48
美還是丑?
自動識別系統
特別健康(2018年3期)2018-07-04 00:40:18
你可能還在被不靠譜的對比度標準忽悠
金屬垃圾自動識別回收箱
基于IEC61850的配網終端自動識別技術
電測與儀表(2016年6期)2016-04-11 12:06:38
一家之言:新標準將解決快遞業“成長中的煩惱”
專用汽車(2016年4期)2016-03-01 04:13:43
主站蜘蛛池模板: 国产精品成人AⅤ在线一二三四| 1级黄色毛片| 欧美久久网| 久久成人18免费| 久久亚洲天堂| 老熟妇喷水一区二区三区| 在线观看国产精品日本不卡网| 午夜精品久久久久久久无码软件| 亚洲视频免| 国产精品永久免费嫩草研究院| 天堂网亚洲系列亚洲系列| 日本高清免费一本在线观看| 国产成人av一区二区三区| 国产午夜福利在线小视频| 亚洲精品中文字幕午夜| 天堂网亚洲系列亚洲系列| 91人妻日韩人妻无码专区精品| 国产高清无码第一十页在线观看| 日本欧美视频在线观看| 毛片一级在线| 国产精品美人久久久久久AV| 亚洲中文字幕97久久精品少妇| 国产va免费精品观看| 国产精品男人的天堂| 色婷婷狠狠干| 国产精品永久在线| 欧美日韩资源| 国产成人喷潮在线观看| 啪啪免费视频一区二区| 国产成人1024精品下载| 狠狠色狠狠综合久久| 国产美女在线观看| 国产高清在线丝袜精品一区| 久久网欧美| 永久在线精品免费视频观看| 亚洲自偷自拍另类小说| 亚洲国产成熟视频在线多多| 日韩av资源在线| 在线亚洲天堂| 福利国产微拍广场一区视频在线| 国产交换配偶在线视频| 国产精品免费p区| 欧美成人综合在线| 精品视频第一页| 久久精品这里只有国产中文精品 | 成人福利在线视频免费观看| 在线观看欧美精品二区| 精品国产网| 人人爽人人爽人人片| 国产午夜福利在线小视频| 高清无码不卡视频| 免费人成视网站在线不卡| 在线中文字幕日韩| 99成人在线观看| 欧美日韩国产精品va| 国产一区免费在线观看| 欧美性久久久久| 亚洲一级无毛片无码在线免费视频| 亚洲欧美自拍中文| 国产第八页| 精品午夜国产福利观看| 72种姿势欧美久久久久大黄蕉| 青青国产成人免费精品视频| 精品视频一区二区三区在线播| 国产精品自在在线午夜区app| 欧美性猛交xxxx乱大交极品| 欧美a级在线| 日韩在线2020专区| 婷婷色中文| 五月婷婷精品| 99久久国产综合精品2023| 一级毛片高清| 国产乱人乱偷精品视频a人人澡| 久久久久人妻精品一区三寸蜜桃| 麻豆精品在线播放| 在线观看精品自拍视频| 欧美一区二区啪啪| 欧美成人日韩| 为你提供最新久久精品久久综合| 欧美日韩精品一区二区视频| 99这里精品| 国产毛片基地|