999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于拓?fù)涮卣鞯募{西東巴文象形文字輸入方法研究

2016-05-03 13:02:00王海燕王紅軍徐小力
中文信息學(xué)報(bào) 2016年4期
關(guān)鍵詞:特征

王海燕,王紅軍,,徐小力

(1. 北京信息科技大學(xué) 機(jī)電學(xué)院,北京 100192;2. 北京信息科技大學(xué) 現(xiàn)代測控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100192)

基于拓?fù)涮卣鞯募{西東巴文象形文字輸入方法研究

王海燕1,王紅軍1,2,徐小力2

(1. 北京信息科技大學(xué) 機(jī)電學(xué)院,北京 100192;2. 北京信息科技大學(xué) 現(xiàn)代測控技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100192)

納西東巴文字是一種比甲骨文還要原始的圖畫象形文字,該文針對(duì)大量納西經(jīng)典古籍資料需要錄入、整理、分析的需要,設(shè)計(jì)一種普通用戶即可使用的基于拓?fù)涮卣鞯妮斎敕椒āJ紫柔槍?duì)納西東巴象形文字的1 561個(gè)基本字形的五個(gè)拓?fù)涮卣?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、三叉點(diǎn)數(shù)和四叉點(diǎn)數(shù)進(jìn)行了統(tǒng)計(jì)和分析,然后基于Java程序結(jié)合TTF字庫文件進(jìn)行了測試,證明了該方法可行。統(tǒng)計(jì)結(jié)果表明,50%以上的納西東巴象形文字通過這五個(gè)特征可以唯一識(shí)別,80%以上的東巴文字通過該方法識(shí)別時(shí)重復(fù)數(shù)不高于4,人工輸入、識(shí)別的效率較高,為納西東巴象形文字的輸入方法提供一種新的思路。

納西;東巴;象形文字;輸入方法

1 引言

東巴文是一種兼?zhèn)浔硪夂捅硪舫煞值膱D畫象形文字,其文字形態(tài)十分原始,甚至比甲骨文的形態(tài)還要原始,屬于文字起源的早期形態(tài),是世界上極少數(shù)依舊活著的象形文字,被譽(yù)為文字的“活化石”[1],被國際學(xué)界認(rèn)為是當(dāng)今世界上唯一還在使用的象形文字[2]。之所以被稱為東巴文,是因?yàn)檫@是納西族特有的宗教-東巴教的東巴(智者的意思)們所使用的文字,至今仍被在世的東巴祭司使用,用來主持各種儀式、寫信、記賬等。東巴們使用這種文字記錄的經(jīng)書稱為東巴經(jīng)(圖1),2003年納西族東巴經(jīng)典古籍被聯(lián)合國教科文組織列為“世界記憶遺產(chǎn)”(Memory of the World)。

東巴經(jīng)典古籍內(nèi)容涉及哲學(xué)、歷史、宗教、醫(yī)學(xué)、天文、地理、民俗、動(dòng)植物、軍事、文學(xué)和藝術(shù)等領(lǐng)域,堪稱納西族古代社會(huì)的百科全書[3-4]。但是東巴文一般不容易釋讀,一直被視為“天書”[5],目前只有該領(lǐng)域的專家學(xué)者和幾個(gè)已年逾古稀的老東巴祭司能釋讀。同時(shí),由于歷史原因,大多數(shù)東巴經(jīng)典原始手稿在一個(gè)世紀(jì)前甚至更早,就被世界上許多著名圖書館和博物館所收藏,其內(nèi)容又不被收藏者所了解。因此,針對(duì)東巴經(jīng)典古籍急需搶救的瀕危狀況,建立了國家社會(huì)科學(xué)基金重大項(xiàng)目-“世界記憶遺產(chǎn)”東巴經(jīng)典傳承體系數(shù)字化國際共享平臺(tái)建設(shè)研究(項(xiàng)目號(hào): 12&ZD234),實(shí)現(xiàn)東巴文化資源的信息化傳播,并推動(dòng)?xùn)|巴傳統(tǒng)文化的保護(hù)與發(fā)展。

2 東巴經(jīng)典古籍的數(shù)字化

古籍?dāng)?shù)字化就是采用計(jì)算機(jī)技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行加工、處理,制成古籍文獻(xiàn)書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻(xiàn)中所蘊(yùn)涵的極其豐富的信息資源,從而達(dá)到使用和保護(hù)古籍的目的[6]。從國內(nèi)外古籍?dāng)?shù)字化的實(shí)踐來看,民族古籍?dāng)?shù)字化涉及的技術(shù)領(lǐng)域非常廣泛, 包括三維建模、人工智能、聲頻、視頻技術(shù)、語言處理技術(shù)、光學(xué)字符識(shí)別等幾十種相關(guān)技術(shù)。劉洋等利用數(shù)字化技術(shù)中的虛擬技術(shù)較好地解決由于敦煌地域偏遠(yuǎn)所帶來的參觀不便,使人們可以免去長途跋涉而欣賞到敦煌的精彩壁畫[7]。

本項(xiàng)目組第一子課題主要進(jìn)行東巴經(jīng)典的數(shù)字化信息采集與釋讀過程數(shù)字記錄,工作包括對(duì)國內(nèi)外收藏信息進(jìn)行匯集,召開國際研討會(huì),與收藏機(jī)構(gòu)簽訂協(xié)議,實(shí)現(xiàn)無爭議共享,對(duì)國內(nèi)外藏品實(shí)施數(shù)據(jù)采集;按國際慣例對(duì)東巴祭司釋讀過程進(jìn)行現(xiàn)場記錄;本項(xiàng)目的第二子課題主要進(jìn)行東巴經(jīng)典象形文的釋讀、翻譯與編目整理的研究,通過開展田野調(diào)查,進(jìn)行書目整理和編目;共同分析各國藏本的存量、來源、時(shí)間等;以學(xué)術(shù)成果為基礎(chǔ)進(jìn)行調(diào)研、分類與整理,對(duì)現(xiàn)存編目進(jìn)行審核、整理、修正與充實(shí)。

圖1 麗江市玉龍納西族自治縣魯?shù)猷l(xiāng)收集的用象形文字書寫的古代東巴經(jīng)書

通過資料的整理與匯總,并借助計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)進(jìn)行存儲(chǔ),形成包括納西語、漢語、英語的多語語料庫,為信息檢索和知識(shí)庫提供素材,為納西東巴文字庫的建立奠定了基礎(chǔ)。但是由于納西東巴象形文字只有極少數(shù)的人能夠辨識(shí), 很多原始資料的利

用效率太低,文字的辨識(shí)、整理工作非常困難,同時(shí)能兼具納西東巴文知識(shí)、現(xiàn)在漢語知識(shí)并熟練應(yīng)用計(jì)算機(jī)的人非常少,所以建立一種方便快捷的納西東巴象形文字的輸入法非常必要。

3 納西東巴象形文字拓?fù)涮卣鹘y(tǒng)計(jì)

通過在麗江研究院調(diào)研,目前應(yīng)用的納西東巴象形文輸入法主要有云龍公司的國際音標(biāo)輸入法和楊曉輝的電子?xùn)|巴輸入法。前者通過輸入國際音標(biāo),輸出對(duì)應(yīng)的納西文字,后者有兩種輸入形式: (1)通過輸入納西音標(biāo),輸出對(duì)應(yīng)的納西象形文字;(2)通過輸入漢字,輸出對(duì)應(yīng)的納西象形文字。 這三種方法需要用戶本身對(duì)納西文字比較熟悉,僅僅適用于納西東巴文專家,而對(duì)于國際共享平臺(tái)來說,不能滿足其他文字研究專家、社會(huì)研究專家、歷史研究專家以及一般用戶的需求,因此,需要開發(fā)一種更加簡易、容易理解及易于結(jié)合圖像處理的輸入方法。

3.1 拓?fù)涮卣鞯奶崛?/p>

納西象形文字是一種圖畫文字,不具備現(xiàn)代漢字那樣規(guī)范的筆畫和順序,跟甲骨文類似,表現(xiàn)出線條圖的特征,因此可以引用圖論中圖的概念,把納西象形文字抽象為圖論中的平面無向圖來處理,提取其拓?fù)涮卣髯鳛樽R(shí)別的依據(jù),初步提取的拓?fù)涮卣饔校?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、叉點(diǎn)數(shù)四種,說明如下:

(1) 塊數(shù): 即圖論中的連通分支,即塊的個(gè)數(shù);

(2) 孔數(shù): 即圖論匯總的內(nèi)網(wǎng)孔數(shù);

(3) 端點(diǎn)數(shù): 即圖論中度數(shù)等于1的頂點(diǎn),對(duì)應(yīng)于字符中線條的末端;

(4) 叉點(diǎn)數(shù): 即圖論中度數(shù)大于2的頂點(diǎn),對(duì)應(yīng)于線條的交點(diǎn),包括三叉點(diǎn)、四叉點(diǎn)、五叉點(diǎn)等。因?yàn)槭窃囼?yàn)性的研究,故目前僅測試了三叉點(diǎn)和四叉點(diǎn)。

納西古籍中象形文字的變體較多,即同一個(gè)字有多種不同的書寫形式,目前統(tǒng)計(jì)了1 561個(gè)基本字形的拓?fù)涮卣鳎瑫r(shí)為了簡化輸入工作量,將以上四種特征數(shù)大于9的統(tǒng)一標(biāo)記為9,得到的統(tǒng)計(jì)特征如表1所示。

表1 納西象形文字基本字體拓?fù)涮卣鹘y(tǒng)計(jì)

3.2 識(shí)別統(tǒng)計(jì)

對(duì)納西象形文字的基本字體進(jìn)行拓?fù)涮卣鹘y(tǒng)計(jì)后,測試其識(shí)別效率,步驟如下。

(1) 單獨(dú)記錄所有的納西骨架字體中的特征數(shù),如: 塊數(shù),孔數(shù),端點(diǎn)個(gè)數(shù),三叉點(diǎn)數(shù),四叉點(diǎn)數(shù);

(2) 將特征數(shù)合成一個(gè)字符串,如E900的塊數(shù)目為1,空數(shù)為0,端點(diǎn)個(gè)數(shù)為2,三叉點(diǎn)和四叉點(diǎn)個(gè)數(shù)都為0,則合并字符串為: “10200”;

(3) 統(tǒng)計(jì)不同特征組合字符串的重復(fù)數(shù)量。比如統(tǒng)計(jì)特征字符串“10200”的個(gè)數(shù)為15,表明具有同樣特征的納西文字共有15個(gè);而符合特征字符串“59145”的納西文字僅有1個(gè)。

得到的識(shí)別統(tǒng)計(jì)表如表2所示, 得到的統(tǒng)計(jì)直方圖如圖2所示。可以看出,有一半以上的東巴字通過五個(gè)拓?fù)涮卣骺梢晕ㄒ欢ㄎ唬?0%以上的東巴字通過這五個(gè)特征進(jìn)行定位時(shí)重復(fù)數(shù)僅有四個(gè),94.3%的東巴字用這五個(gè)特征數(shù)進(jìn)行定位時(shí)重復(fù)數(shù)不高于10。

表2 納西象形文字識(shí)別統(tǒng)計(jì)表

4 納西象形文字的顯示

得到納西象形文字的拓?fù)涮卣骱螅梢詫懭虢y(tǒng)計(jì)數(shù)據(jù)庫,然后再結(jié)合字庫文件進(jìn)行顯示。曲線輪廓納西象形文字庫一般采用TrueType字庫結(jié)構(gòu),這種字庫文件由文件首、文件描述表、目錄表和描述表四大部分組成。文字讀取采用多級(jí)映射字庫訪問機(jī)制,即當(dāng)用戶使用TTF (TrueType Font)納西文字時(shí),只需給出該納西文字的機(jī)內(nèi)碼,TTF解釋器便查找cmap表得到該納西文字在loca表中的文字字模序號(hào),再從loca表中獲得對(duì)應(yīng)納西文輪廓數(shù)據(jù)的存放地址,再從glyf中讀出輪廓數(shù)據(jù)。

因此,基于拓?fù)涮卣鞯募{西象形文字輸入方法可以總結(jié)為:

(1) 基礎(chǔ): 建立基于納西象形文字拓?fù)涮卣鞯慕y(tǒng)計(jì)數(shù)據(jù)庫;

(3) 輸出: 通過客戶端讀取用戶的輸入,在數(shù)據(jù)庫查找匹配拓?fù)涮卣鞯募{西象形文字,然后輸出到客戶端;

(4) 選擇: 用戶根據(jù)需求確定需要輸出的納西象形文字。

圖3 從符合特征124**的11個(gè)選擇中確定“”

圖4 符合特征1240*的唯一納西象形文字“”

5 結(jié)論

納西東巴象形文字對(duì)于民族文化和人類文化的傳承有非常重要的作用,其輸入方法是國際共享平臺(tái)中非常關(guān)鍵的一步。因?yàn)闁|巴文字不為一般用戶所認(rèn)識(shí),目前只有該領(lǐng)域的為數(shù)不多的專家學(xué)者和幾個(gè)已年逾古稀的老東巴祭司能夠釋讀。針對(duì)大量

的東巴古籍需要進(jìn)行錄入、整理、統(tǒng)計(jì)分析的現(xiàn)狀,在音標(biāo)輸入法、對(duì)應(yīng)漢字輸入法之外設(shè)計(jì)一種新的輸入方法,即根據(jù)納西象形文字的拓?fù)涮卣鬟M(jìn)行識(shí)別,針對(duì)1 561個(gè)東巴象形文字的五個(gè)拓?fù)涮卣?塊數(shù)、孔數(shù)、端點(diǎn)數(shù)、三叉點(diǎn)數(shù)、四叉點(diǎn)數(shù))進(jìn)行統(tǒng)計(jì),然后結(jié)合TTF字庫文件利用Java程序進(jìn)行文字的錄入和顯示,為東巴象形文字的輸入提供一種新的思路。

東巴象形文字的變體較多,文章僅統(tǒng)計(jì)了基本字形,隨著研究的深入,需要增加更多擴(kuò)展字形的統(tǒng)計(jì)信息;同時(shí),對(duì)于拓?fù)涮卣鞯膬?yōu)化選擇及配置,需要進(jìn)一步的試驗(yàn),以提高輸入效率和識(shí)別效率。

致謝 感謝國家重大社科基金對(duì)于本研究的支持,感謝麗江東巴文化研究院對(duì)本研究工作的支持。

[1] 林向蕭. 關(guān)于“東巴文是什么文字”的再探討 [J]. 云南民族學(xué)院學(xué)報(bào), 2002, 19(5): 83-89.

[2] X L Xu, G X, H J Wang, et al. Construction of an International IT-Driven Sharing Platform for Inheriting and Communication of Dongba Manuscripts [J]. Applied Mechanics & Materials, 2014, 610: 760-763.

[3] 白庚勝. 白庚勝納西學(xué)論集 [M]. 北京: 民族出版社, 2008.

[4] Zheng Liping. The Living Hieroglyphs, The Picture and Characters of Naxi Dongba [J]. Art and Design, 2009, 12: 311-313.

[5] Nishida Tatsuo. The Living Hieroglyph-Naxi Nationality’s Culture [M]. Japan Public Books.1996.

[6] 牛惠萍, 張琳. 對(duì)我國古籍?dāng)?shù)字化相關(guān)問題的研究 [J]. 當(dāng)代圖書館, 2006, 85(1): 39-42.

[7] Liu Yang, Lu Dongming, Diao Changyu, et al. Dunhuang 284 Cave Multimedia Integrated Virtual Exhibit [J]. Journal of Computer-aided Design & Computer Graphics, 2004, 16(11): 1528-1534.

Research on Input Method of Naxi Dongba Hieroglyphs Based on Topological Characteristics

WANG Haiyan1, WANG Hongjun1,2, XU Xiaoli2

(1. School of Electromechanical Engineering, Beijing Information Science and Technology University, Beijing 100192, China;2. Key Lab of Modern Measurement & Control Technology (BISTU), Ministry of Education,Beijing Information Science and Technology Univerity, Beijing 100192, China)

Naxi Dongba characters are a kind of pictographs that is even more primitive than Oracle pictographs. As there is a large number of ancient Naxi classical books are needed to be protected and input into the computer system, an input method based on the topological characteristics of Dongba characters is designed for ordinary users. Firstly, the five basic topological features including number of blocks, number of holes, end points counts, three-connection-points counts and four-connection-points counts of 1,561 Naxi Dongba characters are after statistics and recorded. After that, this method is tested by a Java-based program combined with TTF font file and it proves that the method is feasible. Statistics show that more than 50% of Dongba pictographs can be identified uniquely through these five characteristics and more than 80% of them can be identified by this method with no more than 4 repetitions. It provides a new way to input Naxi Dongba hieroglyphs with the manual input and with high efficiency of identification.

Naxi; Dongba; hieroglyphs; input method

王海燕(1979-),碩士,講師,主要研究領(lǐng)域?yàn)橄到y(tǒng)優(yōu)化、信息化。E-mail:asmylady@163.com王紅軍(1966-),博士,教授,主要研究領(lǐng)域?yàn)樾畔⒒⒐收显\斷等。E-mail:wanghj86@163.com徐小力(1951-),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)楣鈾C(jī)電信息及數(shù)字化網(wǎng)絡(luò)化技術(shù)。E-mail:xuxiaoli@bistu.edu.cn

1003-0077(2016)04-0106-04

2014-02-17 定稿日期: 2015-06-09

國家社科基金(12&ZD234)

TP391

A

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個(gè)特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 高清码无在线看| 亚洲日本中文字幕乱码中文| 国产一级α片| 亚洲综合二区| 高清无码手机在线观看| 中文字幕日韩久久综合影院| 国产香蕉一区二区在线网站| 国产午夜在线观看视频| 91精品专区| 色噜噜在线观看| 亚洲乱伦视频| 国产成人久视频免费| 亚洲日韩每日更新| 国产9191精品免费观看| 国产靠逼视频| 久久综合五月| 国产精品毛片一区视频播| 91av国产在线| 国产黄在线观看| 毛片免费观看视频| 欧美一区二区自偷自拍视频| 亚洲日本韩在线观看| 成人在线观看不卡| 久久香蕉国产线| 97在线免费| 性做久久久久久久免费看| 凹凸国产分类在线观看| 午夜高清国产拍精品| 久久伊人久久亚洲综合| 亚洲精品中文字幕午夜 | 国产永久在线视频| 精品一区二区三区四区五区| 免费aa毛片| 成年片色大黄全免费网站久久| 久久精品嫩草研究院| 青青网在线国产| 中字无码av在线电影| 992tv国产人成在线观看| 思思热精品在线8| 亚洲第一中文字幕| 99伊人精品| 日韩欧美91| 91精品情国产情侣高潮对白蜜| 国产成人一区免费观看| 亚洲一区毛片| 国产免费一级精品视频| 国产一区自拍视频| 99久久人妻精品免费二区| 亚洲欧美日韩另类在线一| 原味小视频在线www国产| 国产99在线| 久久久国产精品免费视频| 国产第一页屁屁影院| 亚洲天堂2014| 全免费a级毛片免费看不卡| 国产精品性| jizz国产在线| 国产视频你懂得| 国产免费羞羞视频| 国产丝袜第一页| 国产特一级毛片| 国产一区二区丝袜高跟鞋| 91丝袜美腿高跟国产极品老师| 在线观看亚洲成人| 中文字幕在线播放不卡| 免费一级毛片在线观看| 中文字幕第1页在线播| 视频一本大道香蕉久在线播放| 亚洲va视频| 久久综合亚洲色一区二区三区| 美女被操91视频| 国产午夜一级淫片| 久久久亚洲色| 色屁屁一区二区三区视频国产| 欧美视频免费一区二区三区| 久久国产精品77777| 天天摸夜夜操| 国产一级在线播放| 四虎影视8848永久精品| 91区国产福利在线观看午夜| 69av在线| 女人18毛片一级毛片在线|