顧紹通
(江蘇師范大學語言科學與藝術(shù)學院 徐州 221009)
?
基于拓撲配準的甲骨文字形識別方法*
顧紹通
(江蘇師范大學語言科學與藝術(shù)學院徐州221009)
甲骨文字形具備較為穩(wěn)定的拓撲結(jié)構(gòu)特征,雖然異體字較多,但是同一字形的不同寫法具有一定的拓撲穩(wěn)定性,這使得從字形上區(qū)分不同的甲骨文字形成為可能。文章通過分析甲骨文字形的拓撲特征,研究甲骨文字形的拓撲頂點及拓撲頂點之間的拓撲關(guān)系,建立了拓撲頂點間拓撲關(guān)系的拓撲描述,將圖畫性質(zhì)的甲骨文字形轉(zhuǎn)化為拓撲圖形,并對拓撲圖形進行編碼,實現(xiàn)了甲骨文字形拓撲結(jié)構(gòu)的形式化描述。
拓撲配準; 拓撲結(jié)構(gòu); 拓撲頂點; 拓撲關(guān)系; 拓撲編碼; 甲骨文; 字形識別
Class NumberTP391
甲骨文是書寫在龜甲和獸骨上的文字,是我國迄今發(fā)現(xiàn)的最早的一種成熟文字系統(tǒng)。出土甲骨拓片上的甲骨文字形中,大部分字形無法正確辨識其讀音和意義,已有的甲骨文編碼輸入方法存在規(guī)則繁瑣、重碼多、效率低的局限[1~3],要讓一般用戶掌握其復雜的規(guī)則并不現(xiàn)實,只有少數(shù)從事甲骨文研究方面的專家學者才能掌握復雜的編碼規(guī)則,因而實用性并不強。對于現(xiàn)代漢字已出現(xiàn)多種識別方法,大致可分為基于結(jié)構(gòu)模式的方法和基于統(tǒng)計模式的方法。基于結(jié)構(gòu)模式的識別方法,如隱馬爾科夫模型[4]等,基于統(tǒng)計模式的識別方法,如貝葉斯決策的分類方法[5]等。這些方法都是針對現(xiàn)代漢字特點提出的識別方法,對于和現(xiàn)代漢字具有巨大差別的甲骨文字形識別適應性存在局限性。甲骨文是刻寫在龜甲和獸骨上的文字,其構(gòu)成方式主要有象形、指事、形聲、會意等四種,其中象形字占大多數(shù),這就決定了大多數(shù)甲骨文字形具有圖畫性,即使是一些會意字、形聲字也是以象形字為基礎(chǔ),大都具有圖畫性,這也決定了甲骨文筆畫繁多、構(gòu)造復雜的特點;同時甲骨文的字形剛勁有力,筆端尖細,難以區(qū)分筆畫,只能作為一個整體進行處理。針對甲骨文字形本身的特點,目前,已有學者已提出甲骨文字形的識別方法,如周新倫(1996)[6]提出利用圖論和筆劃特點來識別甲骨文字形的方法,李鋒(1996)[7]提出利用圖特征的原理來識別甲骨文字形的方法;利用圖特征來識別甲骨文取得了不錯的效果。栗青生(2011)等[8]提出利用圖同構(gòu)的方法來識別甲骨文字形,這種方法對于那些甲骨文中不同構(gòu)但是仍為同一字形的異寫字的識別沒有進行處理,而且雖然同構(gòu)但是卻不是同一個字形的情況大量存在,這種算法的魯棒性很低,因而實用性受到限制。
甲骨文的特色不僅在于是我國最早的成熟的文字系統(tǒng)以及它獨特的書寫材料,還在于它形成了中國文字體系結(jié)構(gòu)的雛形。由于書寫材料的質(zhì)地堅硬、甲骨文創(chuàng)制人員的復雜,使得甲骨文字形的形態(tài)變化多樣,具體表現(xiàn)在一個甲骨文字形不同的人有多種不同的刻寫方法,不同的契刻方法造就了不同的甲骨文形體,有些形體之間差別還很大。但是如果仔細觀察這些不同形體的甲骨文字形就會發(fā)現(xiàn),不同形體之間雖然筆畫順序以及組合關(guān)系不同,但是它們之間的大體結(jié)構(gòu)卻是相似的,現(xiàn)代的學者能將不同形體的甲骨文字形歸為一類,很大的原因在于字形之間結(jié)構(gòu)的相似性,也就是同一甲骨文字形的不同形體之間在拓撲結(jié)構(gòu)上具有同一性。本文將考察甲骨文字形拓撲結(jié)構(gòu)的特點,并將甲骨文字形的拓撲特征形式化,從拓撲特征上尋求識別甲骨文字形的方法。
本文將首先分析甲骨文字形的拓撲頂點及拓撲頂點之間的拓撲關(guān)系,建立甲骨文字形的拓撲描述,構(gòu)造甲骨文字形的拓撲圖形(從字形抽象出來的的拓撲頂點之間連結(jié)構(gòu)成的圖形),將圖畫性質(zhì)的甲骨文字形轉(zhuǎn)化為拓撲圖形;然后對甲骨文字形的拓撲圖形進行編碼,通過對甲骨文字形的拓撲編碼與通用甲骨文字庫中字形的拓撲特征庫進行配準,實現(xiàn)甲骨文字形的識別。
2.1拓撲學的一般知識
拓撲學最初是幾何學的一個分支,是從圖論演變過來的。拓撲學將實體抽象成與其大小、形狀無關(guān)的點,將連接實體的線路抽象成線,進而研究點、線、面之間的關(guān)系。簡單地說,拓撲學主要研究幾何圖形在連續(xù)變形下保持不變的性質(zhì),現(xiàn)在已成為研究連續(xù)性現(xiàn)象的重要的數(shù)學分支。直線上的點和線的結(jié)合關(guān)系、順序關(guān)系,在拓撲變換下不變,這是拓撲性質(zhì)。
設(shè)X和Y是拓撲空間,如果f:x→y是一一映射,并且f及其逆g:y→x都是連續(xù)的,則稱f是一個拓撲變換,或稱同胚映射。 當存在x到y(tǒng)的拓撲變換時,稱x與y拓撲等價,或稱同胚,記作X?Y。例如圖1中的各圖形雖然形狀各異,但是它們?nèi)匀皇峭負涞葍r的。

圖1 拓撲等價示意圖
拓撲不變量是拓撲空間一個比較重要的拓撲性質(zhì),它描述了彈性變化,如拉伸、旋轉(zhuǎn)和縮放等條件下不變的性質(zhì)。
拓撲學中比較簡單的拓撲不變量有:
1)連通性及連通支的個數(shù)。從直觀上來說,連在一起的圖形是連通的,如果圖形是由幾個不相連接的部分組成的,則圖形是不連通的,組成圖形的互不連接的部分的數(shù)目稱為連通支的個數(shù)。連通支的個數(shù)是1時,圖形是連通的。連通支的個數(shù)是一個拓撲不變量。
2)割點的個數(shù)。在一個圖形上有這樣的點,去掉該點后,余下的是一個不連通的圖形,具有這種性質(zhì)的點,稱為圖形的割點。“割點”的概念是一個拓撲性質(zhì),割點在同胚映射下的象點仍然是割點。因而,割點的個數(shù)是一個拓撲不變量。
3)點的指數(shù)。設(shè)一個圖形是由有限條弧組成的,x是這個圖形的點,從x點引出的該圖形的弧的個數(shù),叫做點x在該圖形中的指數(shù)。
對于給定的兩個拓撲空間X與Y,如果要證明它們是拓撲等價的,只需要構(gòu)造出從X到Y(jié)的同胚映射即可。若要證明給定的兩個拓撲空間是不同胚的,可以通過尋找拓撲不變量,如果這兩個拓撲空間的拓撲不變量是不相同的,那么就可以認為這兩個拓撲空間是不同胚的,即拓撲不等價。
由此可見,證明兩個圖形同胚,需要找出同胚映射,或者借助于橡皮變形能將一個變成另一個。如果兩個圖形是同胚的,那么這兩個圖形就是拓撲等價的,即拓撲結(jié)構(gòu)是相同的。
2.2甲骨文字形的拓撲頂點
字形是指構(gòu)成每一個方塊漢字的二維平面圖形。構(gòu)成漢字拓撲空間的要素是筆畫及其位置關(guān)系。筆畫是構(gòu)成漢字字形的最小連筆單位,落筆處為筆畫的起點,提筆處為筆畫的終點。直線上的點和線的結(jié)合關(guān)系、順序關(guān)系,在拓撲變換下不變,這是拓撲性質(zhì)。甲骨文作為漢字的一種早期形態(tài),從本質(zhì)上來說,是一種平面圖形,層次性不強,存在構(gòu)形復雜,異寫字、異構(gòu)字繁多等特點,比如“犬”在甲骨文中的形態(tài)有一百多種。但是,我們?nèi)匀荒軌蛘J知這一百多個不同形態(tài)的“犬”字,正是因為甲骨文具備了拓撲結(jié)構(gòu)不變性的特征。判斷兩個甲骨文字形是否在拓撲上等價,可以轉(zhuǎn)化為判斷兩個甲骨文字形在拓撲上能否配準。
圖2是甲骨文字形“貞”的圖像,圖3是經(jīng)過細化處理后的圖像。甲骨文筆劃線條相交的地方形成交點,甲骨文筆劃的交點和字形筆劃的端點統(tǒng)稱為頂點。如圖4所示。從圖4可以看出,甲骨文字形的拓撲頂點是指筆劃線條的交點以及甲骨文字形筆劃的端點。甲骨文字形經(jīng)過細化處理后,成為由細線條連接而成的圖形。根據(jù)周新倫等(1996)[6]的研究,在目前已考證出的甲骨文字形中,指數(shù)高于6的頂點尚未發(fā)現(xiàn)。因而,甲骨文字形的拓撲頂點可以分為以下7類:孤立點、端點、二叉點、三叉點、四叉點、五叉點和六叉點。孤立點是甲骨文字形拓撲圖形中指數(shù)為0的頂點,即沒有邊與之連接,端點是甲骨文字形拓撲圖形中指數(shù)為1的頂點,二叉點是甲骨文字形拓撲圖形中指數(shù)為2的頂點,三叉點、四叉點、五叉點、六叉點依此類推。從指數(shù)上看,甲骨文字形的頂點有7類,由排列組合關(guān)系知,甲骨文字形中兩個頂點之間的連接關(guān)系可達7+6+5+4+3+2+1=28種。圖4中標號1、5、7、10、12、13的點是端點,標號2、3、9、11的點是三叉點,標號8、14的點是四叉點。圖4中甲骨文字形的頂點連接關(guān)系可以分為以下幾類: 1) 端點與三叉點連接,如圖4中頂點1與頂點2、頂點5與頂點4、頂點7與頂點6、頂點10與頂點9、頂點12與頂點11、頂點13與頂點14的關(guān)系即屬于此類; 2) 端點與四叉點連接,圖4中頂點13與頂點14的關(guān)系屬于此類; 3) 三叉點與三叉點連接,如圖4中頂點2與頂點3、頂點3與頂點4、頂點4與頂點6、頂點9與頂點11; 4) 三叉點與四叉點連接,圖4中頂點2與頂點14、頂點3與頂點8、頂點6與頂點8、頂點9與頂點8、頂點11與頂點14的關(guān)系屬于這一類; 5) 四叉點與四叉點連接,圖4中頂點8與頂點14即屬此類。對甲骨文字形的頂點進行進一步抽象,便得到甲骨文字形的拓撲圖形,甲骨文字形“貞”的拓撲圖形如圖5所示。

圖2 甲骨文字形“貞”

圖3 細化后的字形

圖4 細化字形“貞”的拓撲頂點

圖5 “貞”的拓撲圖形
提取字形圖像的拓撲頂點的過程如下:先對字形圖像進行細化處理,按照從上到下順序掃描細化后字形圖像的每一行的像素,對每一個像素應用八連通模板進行判斷,如果像素在所有方向均無連通區(qū)域,則這一點為孤立點;如果像素只在一個方向存在連通區(qū)域,則這一點為端點;如果像素在三個方向存在連通區(qū)域,則為三叉點。四叉點、五叉點、六叉點依此類推。二叉點是指數(shù)為2的頂點,這類頂點在甲骨文字形中比較特殊。由于甲骨文書寫材料的獨特性以及甲骨文創(chuàng)制人員的復雜,使得甲骨文形態(tài)變化多樣,一個甲骨文字形不同的人有多種不同的刻寫方法,不同的契刻方法造就了不同的甲骨文形體。如果仔細觀察這些不同形體的甲骨文字形就會發(fā)現(xiàn),不同形體之間雖然筆畫順序以及組合關(guān)系不同,但是它們之間的大體結(jié)構(gòu)卻是相似的。從拓撲結(jié)構(gòu)上來說,二叉點和弧線段、直線段不存在拓撲上的區(qū)別,但是有些二叉點卻不宜與弧線段、直線段等同。因此,在具體處理中,需要對這兩類二叉點區(qū)別對待。對于夾角大于90度的二叉點,可以將此二叉點關(guān)聯(lián)的邊視為弧線段或直線段。只需對夾角小于或等于90度的二叉點加以處理。由此可見,某些二叉點雖然可以顯示字形刻寫時形體上的差異,但并不一定能構(gòu)成不同的甲骨文。對于字形的拓撲結(jié)構(gòu)來說,也不會產(chǎn)生變化。
從以上對甲骨文字形頂點的分析可以看出,甲骨文字形拓撲頂點之間的拓撲關(guān)系可以表述為各頂點之間的連接關(guān)系。這種拓撲關(guān)系由甲骨文字形的各拓撲頂點以及拓撲頂點相互之間的連接關(guān)系唯一確定。因而甲骨文字形拓撲關(guān)系包括拓撲頂點的數(shù)目及拓撲頂點之間的連接關(guān)系。具有相同數(shù)目的拓撲頂點以及相同連接關(guān)系的拓撲空間之間可以建立一個同胚映射關(guān)系,因而是拓撲等價的。由此可見,拓撲頂點數(shù)量相同,拓撲頂點之間的連接關(guān)系不一定相同;拓撲頂點數(shù)量不同,拓撲頂點之間的連接關(guān)系必不相同;拓撲頂點之間的連接關(guān)系相同,拓撲頂點數(shù)量必相同;拓撲頂點之間的連接關(guān)系不同,拓撲頂點的數(shù)量未必不同。所以,如果兩個字形的拓撲頂點數(shù)量相同,并且拓撲頂點之間的連接關(guān)系也相同的話,那么這兩個字形一定是同一個字形。但是,甲骨文字形是一種字形結(jié)構(gòu)不穩(wěn)定的字形,同一個字有很多不同的寫法,造成甲骨文中存在很多的異寫字,拓撲頂點的數(shù)量、拓撲頂點之間的連接關(guān)系不同的字形卻可能是同一個字,例如:與雖然拓撲結(jié)構(gòu)不相同,但在甲骨文中卻是同一個字“師”。
甲骨文字形的細化處理是提取甲骨文字形拓撲頂點的基礎(chǔ)和先決條件,對于拓撲頂點的分析至關(guān)重要,沒有甲骨文字形的細化處理便無法準確分析字形的拓撲頂點。目前,圖像細化的處理算法有很多,大體上可以分為串行細化算法和并行細化算法。串行細化算法如Hilditch細化算法[9]、Pavlidis算法[10],并行細化算法如Rosenfeld細化算法[11],Zhang并行快速細化算法[12]等,Zhang并行快速細化算法細化之后的輪廓走勢與原圖保持得相對較好。因此,對于甲骨文字形的細化處理,本文采用Zhang并行快速細化算法。
2.3拓撲編碼
甲骨文字形的拓撲編碼就是給甲骨文字形的每一種拓撲結(jié)構(gòu)進行形式化的表達,通過這種形式化的表達,可以比較兩個拓撲結(jié)構(gòu)的異同。這種編碼應該能夠描述甲骨文字形的結(jié)構(gòu)關(guān)系。在甲骨文字形拓撲頂點的各種連接關(guān)系中,端點與三叉點以及端點與四叉點的連接關(guān)系比較特殊。甲骨文中異體字繁多,存在正反無別的現(xiàn)象,由于甲骨文是由不同的書寫者在不同的時期所作,因而對于同一字形書寫方式各異,比如圖6中a、b是同一個甲骨文字形“安”不同寫法的細化圖像。在圖6a中端點與三叉點、四叉點的連接現(xiàn)象在圖6b中消失了,但這并不妨礙我們把他們視為同一個甲骨文字形。因而甲骨文字形拓撲結(jié)構(gòu)的編碼應該具有這樣的容錯性和魯棒性。由此可見,端點在甲骨文字形拓撲結(jié)構(gòu)中并不是一個非常重要的因素。由定義可知,不同的叉點關(guān)聯(lián)的邊的數(shù)目不同,體現(xiàn)在拓撲結(jié)構(gòu)上也必不相同,因此他們的權(quán)值也不相同。可以預見,W1 圖6 甲骨文字形“安”的細化圖像 令Nv、Ne、N0、N1、N2、N3、N4、N5、N6分別表示拓撲圖形的頂點、邊、孤立點(0叉點)、端點(1叉點)、二叉點、三叉點、四叉點、五叉點、六叉點的數(shù)目,N表示各叉點的權(quán)值之和,T表示甲骨文字形C的拓撲編碼,R表示拓撲頂點之間的連接關(guān)系。那么一個甲骨文字形的拓撲結(jié)構(gòu)的編碼可以用一個4元組表示為 T(C)=(f1,f2,N,R) 其中,f1、f2分別為連通支、割點的數(shù)目,N=0×N0+0.1×N1+0.2×N2+0.3×N3+0.4×N4+0.5×N5+0.6×N6。R表示拓撲頂點之間的連接關(guān)系,可以用無向圖描述如下:設(shè)G=(Nv,Ne)是具有Nv個頂點、Ne條邊的圖。G的鄰接矩陣是具有如下性質(zhì)的n階方陣: 2.4甲骨文字形拓撲頂點關(guān)系的數(shù)據(jù)結(jié)構(gòu)描述及 拓撲配準算法 從以上對甲骨文字形拓撲頂點關(guān)系的描述可以看出,決定甲骨文字形拓撲結(jié)構(gòu)關(guān)系的要素有:連通支、頂點以及頂點之間的連接關(guān)系。頂點包括孤立點、端點、二叉點、三叉點、四叉點、五叉點和六叉點。根據(jù)甲骨文字形的拓撲結(jié)構(gòu)關(guān)系,甲骨文字形拓撲圖形的形式化描述可以通過建立拓撲頂點、連接矩陣等要素之間的數(shù)學關(guān)系來實現(xiàn)。 拓撲配準是將不同圖形的拓撲結(jié)構(gòu)進行匹配的過程,其一般步聚是:首先對兩幅圖像進行特征提取得到拓撲頂點;根據(jù)拓撲頂點之間的連續(xù)關(guān)系構(gòu)造拓撲關(guān)系圖;對拓撲關(guān)系圖進行量化編碼;通過進行相似性度量找到匹配的拓撲關(guān)系圖。 拓撲配準可以定義如下:給定兩幅待配準的圖形的拓撲結(jié)構(gòu)如下T1(x,y)和T2(x,y),稱其中之一T1(x,y)為基準拓撲,另一個T2(x,y)為待配準拓撲,則稱拓撲配準為兩拓撲關(guān)系的映射變換。 T2(x,y)=g(T1(x,y)) 這里,g為一個二維坐標變換。 特征提取和拓撲量化編碼是拓撲配準的重要環(huán)節(jié)。特征提取是配準技術(shù)中的關(guān)鍵,準確的特征提取為特征匹配的成功進行提供了保障。因此,尋求具有良好不變性和準確性的特征提取方法,對于匹配精度至關(guān)重要。如果能夠精確描述兩幅不同字形圖像的拓撲特征,就可以實現(xiàn)字形在拓撲關(guān)系上的配準。 綜上所述,甲骨文字形拓撲圖形的配準算法如下: Step1:提取字形圖形的拓撲頂點; Step2:構(gòu)造拓撲頂點之間的拓撲關(guān)系; Step3:對字形的拓撲關(guān)系進行量化編碼; Step4:計算基準拓撲與待配準拓撲之間的距離; Step5:小于給定閾值的兩個拓撲間距離的字形圖形被識別為拓撲等價,否則拓撲不等價。 甲骨文字形配準識別系統(tǒng)識別字形的流程如圖7所示。 圖7 甲骨文字形配準識別 在判定兩個拓撲間是否等價的過程中,基準拓撲與待配準拓撲之間的距離的閾值的選取對于識別結(jié)果有著直接的影響。那么,閾值如何確定呢?一般來說,如果兩個甲骨文字形的拓撲圖形等價,即屬于同一甲骨文,那么這兩個拓撲圖形之間的距離要小于不同甲骨文字的拓撲圖形的距離。甲骨文中,同一甲骨文字的異寫字形有很多,這些異寫字形之間的拓撲距離要小于其與另一甲骨文字拓撲圖形的距離。因此,確定閾值的一個合理的解決辦法是,對每一個甲骨文字,計算此甲骨文字異寫字形之間拓撲距離的值,在所有的甲骨文字中,找中兩個異寫字形的最大的拓撲距離,此距離作為閾值。 用數(shù)學語言描述如下:令T表示閾值,則 T=max{maxC1,maxC2,…,maxCn} 其中maxCn表示甲骨文字Cn的異寫字形之間拓撲距離的最大值。 我們在Windows環(huán)境下主頻2.60GHz的計算機上,利用Visual C++ 6.0和OpenCV 1.0實現(xiàn)了上文提出的算法,設(shè)計了甲骨文字形自動識別系統(tǒng)。該系統(tǒng)的字庫平臺是自主開發(fā)的通用甲骨文 字庫,該TTF格式字庫建立在Windows環(huán)境下,字形采用基于二 次Bezier曲線的輪廓描述技術(shù),字庫含有甲骨文字形3673個。系統(tǒng)識別流程如下:對輸入的圖形進行細化處理后,由識別系統(tǒng) 提取細化后圖形的頂點,構(gòu)造甲骨文字形圖形的拓撲圖形,然后對拓撲圖形進行數(shù)學描述。通過計算待配準拓撲與拓撲特征庫中拓撲編碼的距離,實現(xiàn)甲骨文字形的配準識別。識別的結(jié)果在計算機屏幕上用曲線輪廓甲骨文字形及對應的漢字顯示出來,對于無法與現(xiàn)代漢字對應的字形直接顯示曲線輪廓甲骨文字形。該識別系統(tǒng)對于甲骨文中的異寫字具有一定的容錯性和魯棒性。實驗結(jié)果表明,本文提出的算法,既可以識別目前已識讀的甲骨文字形,也能夠識別目前尚無法識讀的甲骨文字形。 表1 實驗數(shù)據(jù)表 甲骨文作為我國最古老的成熟的系統(tǒng)文字體系,已經(jīng)具備了較為穩(wěn)定的拓撲結(jié)構(gòu)特征,奠定了漢字形體拓撲結(jié)構(gòu)的雛形。甲骨文字形異體字較多,但是同一字形的不同寫法的拓撲特征具有穩(wěn)定性,這也使得今天的人們能夠從字形上區(qū)分不同的甲骨文字形。甲骨文字形的結(jié)構(gòu)可以由構(gòu)成甲骨文字形的拓撲頂點唯一確定。拓撲頂點之間不同的組合關(guān)系形成了不同的甲骨文字形。本文分析了甲骨文字形的拓撲結(jié)構(gòu),確定甲骨文字形的拓撲頂點,具體分析了甲骨文字形拓撲頂點之間的拓撲關(guān)系,通過對拓撲頂點、拓撲關(guān)系、拓撲編碼相應的數(shù)據(jù)結(jié)構(gòu)來刻畫甲骨文字形頂點之間的關(guān)系,將圖畫性質(zhì)的甲骨文字形轉(zhuǎn)化為拓撲圖形,并對每種拓撲圖形進行編碼,實現(xiàn)了對甲骨文字形的拓撲描述。在此基礎(chǔ)上,利用拓撲配準的方法,通過計算基準拓撲與待配準拓撲之間的歐氏距離,實現(xiàn)基于拓撲結(jié)構(gòu)的甲骨文字形的配準,從而識別甲骨文字形。 [1] 顧紹通,馬小虎,楊亦鳴.基于字形拓撲結(jié)構(gòu)的甲骨文輸入編碼研究[J].中文信息學報,2008,22(4):123-128. GU Shaotong, MA Xiaohu, YANG Yiming.Topological Frame Based Input Method Coding of Jiaguwen[J].Journal of Chinese Information Processing,2008,22(4):123-128. [2] 李繼明.計算機文字信息處理技術(shù)新探——甲骨文象形碼設(shè)計方案[J].中文信息學報,1996,10(3):18-29. LI Jiming. A newly discovery on words processing technology——The design of pictographic code to inscriptions on bones or tortoise shells[J].Journal of Chinese Information Processing,1996,10(3):18-29. [3] 肖明,趙慧,甘仲惟.甲骨文象形碼編碼方法研究[J].中文信息學報,2003,17(5):60-65. XIAO Ming, ZHao Hui, GAN Zhongwei. Study for the method of Jiaguwen symbol coding[J]. Journal of Chinese Information Processing,2003,17(5):60- 65. [4] 劉家鋒,唐健華,黃降龍.基于HMM的聯(lián)機漢字識別系統(tǒng)及其改進的訓練方法[J].中文信息學報,2001,15(4):47-52. LIU Jiafeng,TANG Jianhua,HUANG Xianglong. A HMM based on-line Chinese character recognition system and improved training algorithm[J].Journal of Chinese Information Processing,2001,15(4):47-52. [5] 藺志青,郭軍.貝葉斯分類器在手寫漢字識別中的應用[J].電子學報,2000,30(12):1804-1807. LIN Zhiqing,GUO Jun. An application of Bayesian classifier in the recognition of handwritten Chinese character[J].Acta Electronica Sinica, 2000,30(12):1804-1807. [6] 周新倫,李鋒,華星城,等.甲骨文計算機識別方法研究[J].復旦學報(自然科學版),1996,35(5):481-486. ZHOU Xinlun, LI Feng, HUA Xingcheng, et al. A method of Jia Gu Wen recognition based on a two-level classification[J].Journal of Fudan University(Normal Science),1996,35(5):481-486. [7] 李鋒,周新倫.甲骨文自動識別的圖論方法[J].電子科學學刊,1996,18(增刊):41-47. LI Feng,ZHOU Xinlun. Recognition of Jia Wu Wen based on graph theory[J].Journal of Electronics,1996,18(supplied):41-47. [8] 栗青生,楊玉星,王愛民.甲骨文識別的圖同構(gòu)方法[J].計算機工程與應用,2011,47(8):112-114. LI Qingsheng,YANG Yuxing,WANG Aimin.Recognition of inscriptions on bones or tortoise shells based on graph isomorphism[J].Computer Engineering and Application, 2011,47(8):112-114. [9] Hilditch C J. Linear Skeletons from Square Cupboards[A].In:Meltzer,B. and Michie,D. eds,Machine Intelligence,New York:Elsevier,1969:403-420. [10] Pavlidis T. A thinning algorithm for discrete binary images[J]. Computer Graphics and Image Processing,1980,13(2):142-157. [11] Rosenfeld A. A characterization of parallel thinning algorithms[J]. Information Control,1975,29(3):286-291. [12] Zhang T Y,Suen C Y. A fast parallel algorithm for thinning digital patterns[J]. Communications of the ACM,1984,27(3):236-239. Identification of Oracle-bone Script Fonts Based on Topological Registration GU Shaotong (School of Linguistic Science and Art,Jiangsu Normal University, Xuzhou221009) Oracle-bone script,as the character system with stable topological structure,although has many variant forms,same characters share the semblable topological structure for different forms. This characteristic makes it possible to identify different fonts based on the forms. By analyzing the topological characteristic,topological vertexes,and the topological relation among topological vertexes,the research describes the topological relation among topological vertexes and converts oracle-bone script fonts to topological graphs. Meanwhile,by coding the topological graphs,the authors realize the formal description of topological frame. topological registration, topological frame, topological vertex, topological relation, topological coding, oracle-bone script, font identification 2016年4月10日, 2016年5月16日 國家社會科學基金(編號:13CYY039);教育部社會科學基金(編號:10YJC740032);江蘇高校優(yōu)勢學科建設(shè)工程資助項目(編號:PAPD);江蘇省高校哲學社會科學重點研究基地基金資助。 顧紹通,男,碩士,講師,研究方向:中文信息處理。 TP391 10.3969/j.issn.1672-9722.2016.10.029

3 實驗結(jié)果

4 結(jié)語