新疆 斯馬依江·艾買(mǎi)爾
察合臺(tái)維吾爾語(yǔ)電子詞典研究
新疆 斯馬依江·艾買(mǎi)爾
目前在學(xué)術(shù)世界各位研究員利用各種各樣的詞典軟件、萬(wàn)方數(shù)據(jù)庫(kù)等學(xué)術(shù)交流軟件及時(shí)的獲取相關(guān)研究資料,可是察合臺(tái)語(yǔ)的信息到目前為止未能電子化。
察合臺(tái)維吾爾文 電子詞典 信息技術(shù)計(jì)算語(yǔ)言學(xué) 古典文獻(xiàn)
(一) 察合臺(tái)文(語(yǔ))的相關(guān)理論
察合臺(tái)維吾爾文是指從13世紀(jì)到19世紀(jì)末20世紀(jì)初在新疆和中亞地區(qū)廣泛使用的、以阿拉伯文基礎(chǔ)上形成的一種文字形式。已被發(fā)現(xiàn)的文獻(xiàn)或民間中收藏的這些文獻(xiàn)都用察合臺(tái)文編寫(xiě)或抄寫(xiě)的。這些寶貴財(cái)富設(shè)計(jì)到文學(xué)、藝術(shù)、哲學(xué)、宗教、民俗、醫(yī)學(xué)、經(jīng)濟(jì)、社會(huì)學(xué)等等多方面、具有一定的研究?jī)r(jià)值。尤其是研究我國(guó)與周邊中西亞國(guó)家之間的政治、經(jīng)濟(jì)、社會(huì)、文化關(guān)系研究方面提供不可替代的資源依據(jù)。雖然,我國(guó)盡新疆地區(qū)出土和民間收藏的察合臺(tái)文文獻(xiàn)資料不僅數(shù)量特別多而且涉及到的范圍也特別大,但是對(duì)察合臺(tái)文文獻(xiàn)研究還處于比較弱的狀態(tài)。因此,這些文獻(xiàn)資料的處理或研究工作納入到電子信息化的語(yǔ)言工程范圍內(nèi)的步找特別慢或該項(xiàng)工作還沒(méi)有形成規(guī)模。本文探討主要問(wèn)題察合臺(tái)文文獻(xiàn)轉(zhuǎn)換國(guó)際音標(biāo)系統(tǒng)研究,而不是察合臺(tái)文文獻(xiàn)研究。[2]
(二)察合臺(tái)文(語(yǔ))的語(yǔ)音和詞匯特征
語(yǔ)音特征:
察合臺(tái)文采用阿拉伯字母,共有28~32個(gè)字母。有的字母專(zhuān)用于拼寫(xiě)阿拉伯語(yǔ)-波斯語(yǔ)源的詞。詞中的元音往往省略不寫(xiě)出。有些輔音用發(fā)音近似重復(fù)的2~4個(gè)阿拉伯字母拼寫(xiě),有個(gè)別的雙字母及清濁音混用字母,有幾個(gè)元音用同一個(gè)字母(單字母或雙字母)表示,或一個(gè)字母在不同音節(jié)中既表示元音又表示輔音的觀象。有些輔音字母在阿拉伯文中發(fā)音近似,字形不同,但在察合臺(tái)文中發(fā)音相同。除字母外,還有輔助符號(hào)。字母分詞首、詞中、詞末、單獨(dú)等形式。從右至左橫書(shū)。阿拉伯 -波斯語(yǔ)源的詞,依阿拉伯 -波斯文正字法拼寫(xiě);一部分現(xiàn)代維吾爾語(yǔ)固有詞受阿拉伯 -波斯文正字法及回鶻文書(shū)寫(xiě)傳統(tǒng)影響,其音節(jié)僅由輔音字母構(gòu)成。正字法遵循形態(tài)學(xué)原則。[1]
詞匯特征:察合臺(tái)語(yǔ)在詞匯、語(yǔ)法、語(yǔ)音等方面盡管不同程度地受到阿拉伯語(yǔ)和波斯語(yǔ)的影響, 但還是保持古代現(xiàn)代維吾爾語(yǔ)的特點(diǎn),并成為現(xiàn)代現(xiàn)代維吾爾語(yǔ)形成和發(fā)展的基礎(chǔ)。察合臺(tái)語(yǔ)詞語(yǔ)接受到阿拉伯語(yǔ)借詞、波斯語(yǔ)借詞、阿拉伯語(yǔ)-波斯語(yǔ)合璧借詞。該詞匯在寫(xiě)過(guò)程中元音脫落,不過(guò)讀音時(shí)加
(一)基本功能
由于是紙質(zhì)版的書(shū)籍給其帶來(lái)的諸多不便,查閱詞匯時(shí)會(huì)消耗大量的人力和時(shí)間。我們?cè)诓榭促Y料時(shí)不由得想到用較少的時(shí)間來(lái)獲取較多的信息,所以我們就詞典軟件檢索察合臺(tái)詞匯。
軟件型電子版詞典在查找詞匯方面對(duì)古代語(yǔ)言文學(xué)研究者來(lái)說(shuō)比用紙質(zhì)版詞典便利,好用。此察合臺(tái)語(yǔ)軟件型電子版詞典可以把查詢(xún)結(jié)果面板打印。此外,隨時(shí)可以把遇到的察合臺(tái)語(yǔ)生詞添加到軟件詞匯庫(kù)內(nèi)。此察合臺(tái)語(yǔ)軟件型電子版詞典對(duì)大部分察合臺(tái)語(yǔ)言文學(xué)學(xué)者提供一個(gè)靈巧,便利,可用的通用工具。
(二)建立語(yǔ)料庫(kù)
詞典就要依靠詞匯對(duì)應(yīng)預(yù)料庫(kù),在本文中提到此詞匯庫(kù)應(yīng)用于阿布力米提。艾海提,斯馬依。卡地爾,艾尼扎提、新疆人民衛(wèi)生出版社、2002年4月編的“察合臺(tái)現(xiàn)代維吾爾語(yǔ)詳解詞典”紙質(zhì)版詞典收錄。由于基于規(guī)則的語(yǔ)言模型比較脆弱,針對(duì)性比較強(qiáng),且很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整,因此本文試圖嘗試基于詞匯庫(kù)的察合臺(tái)詞識(shí)別,從訓(xùn)練的語(yǔ)言數(shù)據(jù)中自動(dòng)地獲取統(tǒng)計(jì)知識(shí),建立察合臺(tái)詞用法識(shí)別的語(yǔ)言模型。由于察合臺(tái)詞用法的識(shí)別實(shí)際上是句子中的詞序列問(wèn)題,且察合臺(tái)詞的使用與其所在的上下文語(yǔ)境序列有密切的聯(lián)系,因此本文選擇條件隨機(jī)場(chǎng)模型來(lái)進(jìn)行察合臺(tái)詞用法的自動(dòng)識(shí)別研究。采用基于詞匯庫(kù)的方法進(jìn)行察合臺(tái)詞識(shí)別,能進(jìn)一步提高轉(zhuǎn)換技術(shù)的準(zhǔn)確率。
(一)系統(tǒng)初步設(shè)計(jì)
首先通過(guò)對(duì)察合臺(tái)語(yǔ)進(jìn)行分析,并研究其在歷史當(dāng)中的作用;對(duì)其能夠流傳至今作出科學(xué)的評(píng)判和理解。做出更加科學(xué)、合理的教學(xué)指引思路。
軟件制作后方便學(xué)者利軟件輸入關(guān)鍵字,迅速查到關(guān)于本關(guān)鍵字的相關(guān)文獻(xiàn)信息。
(二)系統(tǒng)的功能設(shè)計(jì)
輸入察合臺(tái)語(yǔ)的詞匯時(shí)快速查找顯示出來(lái)此詞匯對(duì)應(yīng)的現(xiàn)代維吾爾語(yǔ)翻譯,解釋?zhuān)陶Z(yǔ),列句子。
確定了軟件設(shè)計(jì)結(jié)構(gòu)后,通過(guò)編碼和優(yōu)化實(shí)現(xiàn)這一結(jié)構(gòu)是不太復(fù)雜的。但是涉及到相關(guān)的細(xì)節(jié)問(wèn)題相當(dāng)多,例如,程序的初始界面是怎樣的,一開(kāi)始運(yùn)行程序,首先應(yīng)該有字母表,否則用戶(hù)無(wú)法選取;此外,應(yīng)總是有一些單詞(即使在初始狀態(tài)下),這表現(xiàn)了設(shè)計(jì)者的友好的設(shè)計(jì)風(fēng)范。所以,當(dāng)程序一旦加載,就應(yīng)該出現(xiàn)字母表和以A字母開(kāi)頭的單詞。隨著用戶(hù)的使用,界面上的單詞和釋義不斷做出變化,這一過(guò)程是交互的。還可以給單詞或釋義配音,甚至用動(dòng)畫(huà)等方式帶來(lái)更易接受的效果;合理的引導(dǎo)信息,當(dāng)用戶(hù)未點(diǎn)擊到有效的區(qū)域時(shí),智能型的軟件可以給用戶(hù)做出自動(dòng)提示,例如告知:“您沒(méi)有點(diǎn)擊到單詞上,請(qǐng)?jiān)僭囈淮巍钡鹊取?/p>
達(dá)到能夠有效的查閱、收集和整理古典文學(xué)研究文獻(xiàn),為古典文學(xué)研究者提供良好的基礎(chǔ)軟件,給世界各地的維吾爾語(yǔ)古典文學(xué)研究者和各位學(xué)者提供一個(gè)很好的詞匯檢索軟件。通過(guò)收集察合臺(tái)語(yǔ)詞典的紙質(zhì)版古典文學(xué)研究的維吾爾文論文信息整理并輸入到數(shù)據(jù)庫(kù),制作古典文學(xué)研究文獻(xiàn)詞典軟件。
[1]阿布都魯夫·塔克拉瑪干尼。察合臺(tái)維吾爾語(yǔ)法。北京民族出版總社、2007年6月
[2]王小科、C#開(kāi)發(fā)實(shí)戰(zhàn)vs2010版、清華大學(xué)出版社、2013年9月
斯馬依江·艾買(mǎi)爾(1984.3~),性別:男,籍貫:新疆伽師縣,學(xué)歷(2014級(jí)碩士研究生)研究方向:計(jì)算語(yǔ)言學(xué)。
(作者單位:新疆師范大學(xué))
通過(guò)制作“古典文學(xué)研究詞典軟件”軟件初步形成維吾爾古典文學(xué)文獻(xiàn)搜索引擎,為古典文學(xué)研究者提供良好的基礎(chǔ)軟件,還可以及時(shí)更新信息并擴(kuò)展到今后維吾爾文學(xué)作品軟件體系。使世界各地的古典文學(xué)研究者和各位學(xué)者提供一個(gè)很好的詞匯檢索軟件。本軟件可以有效的彌補(bǔ)古典文學(xué)研究專(zhuān)著電子型研究軟件方面的空白。