999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多策略的烏孜別克語名詞詞干識別研究

2018-10-19 03:13:48艾孜海爾江祖力克爾江艾孜爾古麗玉素甫艾白都拉
中文信息學報 2018年9期
關鍵詞:詞綴特征信息

艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉

(1. 新疆師范大學 計算機科學技術學院,新疆 烏魯木齊 830054;2. 新疆師范大學 文學院,新疆 烏魯木齊 830054)

0 引言

2013年中國國家主席習近平提出了包括“絲綢之路經濟帶”和“21世紀海上絲綢之路”的一帶一路戰略。從此中國成為與新疆接壤的部分中亞國家最主要的貿易伙伴,并相繼成為哈薩克斯坦、烏茲別克斯坦、吉爾吉斯斯坦和塔吉克斯坦的第二大貿易伙伴。隨著中烏兩國政治、經濟文化交流的發展,漢語和烏孜別克語之間交流頻繁,這兩種語言交流的重要性日益凸顯。烏孜別克語自然語言處理技術和漢—烏機器翻譯的實現對“一帶一路”戰略的實現發揮著重要的作用。

烏孜別克語屬黏著性語言,在詞法結構上與維吾爾語相比存在著一定的區別。帕提古麗、玉素甫等人深入研究烏孜別克語中的語音變化現象,并提出音變現象的自動還原模型。該文分析烏孜別克語中發生語音變化的詞干本身的特征,設計音變現象的還原模型,并結合詞干庫配對方法來實現自動還原[1]。祖日古麗、玉素甫等人對烏孜別克語的音節結構進行分析,在前者的研究基礎上,歸納了烏孜別克語詞匯的音節變化規律[2]。阿西穆·托合提提出了基于詞典和規則相結合的維吾爾語和烏孜別克語機器翻譯方法[3]。文獻[4]利用維吾爾語和烏孜別克語之間的這種相似關系,設計并實現了烏孜別克語-維吾爾語雙語語料庫構建平臺。

本文構建一定規模的烏孜別克語西里爾文生語料庫,將其轉換為對應的拉丁文,結合烏孜別克語詞法特征,提出基于多策略的烏孜別克語名詞標注方法,研究一種融合烏孜別克語形態特征的最大熵名詞標注模型。烏孜別克語名詞識別技術可以廣泛應用于烏孜別克語名詞短語分析、詞性標注、機器翻譯等領域,并且能部分消解歧義。烏孜別克語信息化研究,對“一帶一路”戰略語言服務提供技術、方法及數據支持,具有一定的研究和應用價值。

1 烏孜別克語名詞詞干提取研究

1.1 烏孜別克語名詞形態分析研究

烏孜別克語共有29個字母,其中6個元音字母、23個輔音字母。

烏孜別克語元音字母如表1所示。

表1 烏孜別克語元音字母

烏孜別克語輔音字母如表2所示。

表2 烏孜別克語輔音字母

1.2 烏孜別克語音節研究

烏孜別克語詞由若干個音節組成。音節是人的聽覺能夠自然感受到的最小語音片段。以元音字母結尾的音節叫做開音節,如u(他)、o-na(母親)、do-i-ra(范圍)。以輔音字母結尾的音節叫做閉音節,如biz(我們),aql(智慧),gul(花)。

詞由一個或多個語音組成,每個音節由元音或元音與輔音字母組成。字母組合次序不同,導致音節結構也不同。烏孜別克語具有九種類型的音節結構。在音節結構中“V”表示元音字母,“C”表示輔音字母,音節類型如表3所示。

表3 音節結構類型

前六種烏孜別克語音節表示基本音節結構,后三種是借用外來詞描述的音節結構。

1.3 烏孜別克語詞分類

烏孜別克語詞法包括詞的構成、形態變化和詞的分類等內容,語法學中主要研究詞的形態變化。烏孜別克語和維吾爾語都是黏著性語言,具有較為復雜的形態變化。

烏孜別克語詞分為虛詞、實詞、模擬詞、嘆詞等四大類。實詞包括形容詞、名詞、動詞、數詞、副詞、代詞,虛詞包括連詞、后置詞、語氣詞[5]。本文主要研究對象是烏孜別克語名詞,即用于表示人或事物的詞類的詞,如Alisher(艾力西爾),kitob(書),mushuk(貓)等。

1.4 烏孜別克語詞的結構

烏孜別克語詞具有“詞根+詞綴+詞尾”的語法結構,詞根、詞綴和詞尾的結合存在嚴格的次序規則,其中烏孜別克語中的詞綴有改變詞義的功能,詞尾具有語法功能。烏孜別克語的詞去除詞尾后剩下的部分稱為詞干,因此烏孜別克語的詞也是由詞干和詞尾構成的[6],具體構詞方式如圖1所示。

圖1 烏孜別克語構詞方式

圖1中,A表示詞根,B表示后詞綴,C表示詞尾,D表示詞干,B+表示前詞綴,W表示詞語。

烏孜別克語詞干的概念就是一個實詞在語言應用過程中要求追加附加成分(詞綴)的一種詞語形式。例如,yo’linglar(你們的路) [yo’l+ing+lar ]。由此可見,對最后的復數詞綴“lar”來說,詞形“yo’ling(你的路)”是詞干;對中間的單數第二人稱詞綴“ing”來說,詞形“yo’l(路)”是詞干。為此可以得出結論: 詞干不同于詞根。詞根是不可再切分的語義單位,是固定的。因此,它與構形詞綴沒有直接關系;而詞干與構形詞綴是有著直接的關系。根據語言實際運用的需求,一個實詞可以附加一個或兩個以上的構形詞綴。對詞匯中的每一個構形詞綴來說,該詞綴前面的部分就是詞干。因此,詞干是非固定的。需要進一步說明的一點是,派生詞對社會語言學來說是可以切分的。例如,

ish工作(名詞)+chi=ishchi工人(名詞)

osh飯(名詞)+xona=oshxona餐廳(名詞)

be (表示否定意義的前綴)+xabar消息(名詞)=bexabar沒有消息

烏孜別克語的格范疇有六種,即主格、屬格、賓格、從格、向格、位格。為方便從計算語言學的角度處理烏孜別克語,本研究還添加了從格、止格、范圍特征格、量似格、形似格。烏孜別克語名詞的復數附加成分有1個、格附加成分有10個、領屬附加成分有10個,總共有21個詞綴。

(1) 烏孜別克語的格范疇

名詞的格表示名詞與句子中其他詞之間的語法關系。烏孜別克語的名詞有以下10種形式:

① 主格,沒有詞綴符號,例: Kitob(書),said(人名)。

② 屬格,ning,例: kitobning(書的),ishekning(門的)。

③ 向格,ga/ka /qa,例: kitobga(向書),ishekka(向門)。

④ 賓格,ni,例: kitobni(把書),ishekni(把門)。

⑤ 位格,da,例: kitobda(在書上),ishekda(在門)。

⑥ 從格,dan,例: kitobdan(從書上),ishekdan(從門那里)。

⑦ 止格,gacha,例: kitobgacha(到書那里),ishekgacha(到門那里)。

⑧ 范圍特征格,dagi,例: kitobdagi(書里的),ishekdagi(門口的)。

⑨ 形似格,dek,例: kitobdek(像書一樣),ishekdek(像門一樣)。

⑩ 量似格,chali,例: kitobchali(和書相同),ishekchali(和門相同)。

從上10種烏孜別克語格可見,只有向格有三個變體,其他的格只有一種變體。

(2) 名詞的復數詞綴

名詞的復數范疇是表示人或事物跟數量的關系的語法范疇。烏孜別克語只有一種詞綴,如lar(復數詞綴)。

(3) 名詞的領屬詞綴

名詞的領屬范疇是表示人或事物屬于另一個事物的語法范疇。烏孜別克語里每個形式均有兩個變體。例如,

① 第一人稱:

單數,mim,例: Aka-Akam,kitob-kitobim。

復數,mizimiz,例: Akam-Akamiz,kitob-kitobimiz。

② 第二人稱:

一般,nging,例: Aka-Akang,kitob-kitobing。

尊稱,ngizingiz,例: Aka-Akangiz,kitob-kitobingiz。

③ 第三人稱:

i-si,例: Aka-Akasi,kitob-kitobi。

1.5 基于詞法分析的名詞詞干提取方法

烏孜別克語自身具有獨特的形態特征。烏孜別克語中存在大量的構形、構詞詞綴,而且它們都有同形或兼類現象,在烏孜別克語中名詞、動詞、數詞、形容詞等詞類具有特定的構形附加成分[5]。烏孜別克語名詞識別研究主要包括烏孜別克語語料采集、詞匯統計、詞干提取、詞性標注等關鍵技術與方法。

烏孜別克語的詞干提取方法的設計與實現,要求掌握語言的形態變化規則和理解應用系統的需求。由于烏孜別克語的形態結構與規則不同,因此本研究采用多策略詞干提取方法,其流程如圖2所示。

圖2 多策略詞干提取方法流程圖

2 融合烏孜別克語形態特征的最大熵名詞標注模型

熵是描述事物無序性的參數,熵越大說明事物的無序性越強。Jaynes首次提出了最大熵模型,其基本原理如下: 對所有的已知事實建模,對未知不做任何假設,也就是建模時選擇一個滿足約束的且熵盡可能大的概率模型。若將詞性標注或者其他自然語言處理任務看作一個隨機過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時熵值最大。最大熵方法通過將樣本數據中的已知知識轉化為特征來進行。特征可以定義為以下的二值特征函數[7]:

(1)

由最大熵理論可知,系統必須選擇能夠滿足所有的作用在特征值上的約束,表示為式(2)。

(2)

最大熵原理的主要思想描述為: 將已知事實作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布,該模型的形式[8]如式(3)、式(4)所示。

其中,Zλ(x)為歸一化函數;fi(x,y)∈(0,1)為特征函數;λi是特征函數的權重,代表每個特征函數的重要性,每個λi對應一個特征函數[8]。

本文提出一種融合烏孜別克語形態特征的最大熵名詞標注模型。依據上文中提出的烏孜別克語構詞特點,定義了上下文特征模板,提取其特征集,然后根據人工設置的規則篩選模板,并訓練最大熵概率模型參數。實驗結果表明,使用該模型標注烏孜別克語名詞能獲得較好的性能。本文依據烏孜別克語名詞本身的構詞特點選擇了相應的模型特征。根據烏孜別克語構詞特點和統計結果,本文分別設計了詞內部特征和前后依存詞特征。

詞內部特征表現了一個詞的內部變化,其中包括詞干信息和詞綴信息。烏孜別克語中的詞是通過在一個詞干之后連接不同的詞綴(構詞詞尾)構成的,詞綴信息表現詞性等語法意義,故本研究設計了詞干信息和詞綴信息兩個類型的詞內部信息特征模板。

(1) 詞干信息

烏孜別克語構形詞尾不影響整個詞的詞類信息,對于烏孜別克語詞干、詞根上連接構形詞尾構成的詞,只需要考慮該詞的詞干或詞根的標注信息。比如,joyda是名詞,該詞由詞干joy加上詞綴da構成,只需要考慮詞干joy的詞性即可,特征函數定義為式(5)。

(5)

表4 詞內部信息特征模板

(2) 詞綴信息

盡管烏孜別克語的構詞和構形都是以詞根、詞干上連接不同詞尾來形成各類詞,但是詞尾信息是有限的,根據“烏孜別克語法信息詞干詞典”收錄為準烏孜別克語詞綴中過濾的詞綴。設計例如,“da”等作為名詞詞綴的一些特征模板。特征函數可以定義為式(6)。

(6)

(3) 前后依存詞特征

前后依存詞特征體現一個句子中與當前詞緊密聯系的詞之間的關系。使用前后依存詞相關信息可以解決一詞兼多個詞類的問題[5]。例如,句子1: Men otga minishni o’rgandim(我學會了騎馬)和句子2: Siz boshqa basketbol o’yinchilar otish(請你籃球扔給對方選手)中的“ot”有動詞和名詞兩種詞性,可以通過其前后詞的詞類特征進行消歧處理。本文設計的特征如表5所示。

表5 前后依存詞信息特征模板

3 實驗結果分析

3.1 實驗數據說明

(1) 開發文字統一轉換工具

本工具把烏孜別克語西里爾文文本轉換成烏孜別克語拉丁文,形成統一的拉丁文文本語料庫。文字轉換工具模塊,如圖3所示。

圖3 文字轉換模塊圖

(2) 研制烏孜別克語詞匯統計系統

在現有的維吾爾語統計技術基礎上,結合烏孜別克語特點,研發烏孜別克語統計系統,總文本語料的70%作為封閉語料,構建烏孜別克詞匯庫,共建立五萬多種詞匯,是烏孜別克語詞干庫的構建及烏孜別克語詞類標注的重要基礎。

(3) 烏孜別克語詞匯庫詞類標注

以烏孜別克語詞匯庫為處理對象,對36 790篇文本中出現的68 750個詞匯進行詞類標注,構建68 750種烏孜別克語標注詞匯庫,為建立烏孜別克語語法信息詞干詞典做準備。

(4) 建立烏孜別克語法信息詞干詞典

以上研究基礎上,結合人機交互技術和人工參與的方法,對68 750種烏孜別克語標注詞匯進行詞干提取,建立規模為17 064種的烏孜別克語語法信息詞干詞典。

3.2 實驗結果分析

實驗數據如表6所示。

表6 烏孜別克語語料結果概括表

表6的實驗結果表明,本方法可行、有效。在實驗結果中,有些綴接詞綴的動詞命令式、帶有屬性人稱的代詞等也被識別成名詞。為了提高識別效率,將要補充詞干庫,同時也需要進一步深入研究烏孜別克語的語法、語義特征。另外,還有一些不帶附加成分的未登錄詞,不在名詞庫中的人名、地名、專有名詞容易被忽略,需要豐富名詞詞干庫,彌補本詞庫的缺陷,提高名詞識別正確率及效率。

4 總結

本文介紹了烏孜別克語名詞詞干識別的一些研究工作,重點陳述了烏孜別克語名詞的形態分析和在最大熵模型下的特征選擇。依據烏孜別克語的自身特點,以詞內部詞干和詞綴、詞前后信息等形態信息為特征,提出了融合烏孜別克語形態特征的最大熵名詞標注模型。實驗結果表明,利用該模型,能夠有效地利用上下文信息,可對烏孜別克語名詞標注產生顯著效果。

猜你喜歡
詞綴特征信息
從網絡語“X精”看“精”的類詞綴化
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
釋西夏語詞綴wji2
西夏研究(2017年1期)2017-07-10 08:16:55
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
試析否定詞綴在漢維語中的不同表現
語言與翻譯(2014年3期)2014-07-12 10:31:56
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
類詞綴與詞綴的共性特點分析
主站蜘蛛池模板: 国产午夜人做人免费视频| 亚洲码一区二区三区| 亚洲天堂伊人| 男女男免费视频网站国产| 国产香蕉在线视频| 综合五月天网| 亚洲国产成人在线| 1级黄色毛片| 日本不卡在线播放| a在线观看免费| 国产高清精品在线91| 日韩欧美网址| 国产亚洲精品无码专| 伊人精品成人久久综合| 成人一级免费视频| 自慰网址在线观看| 亚洲综合精品香蕉久久网| 四虎影院国产| 国产成人av一区二区三区| 欧美福利在线播放| 91年精品国产福利线观看久久 | 99热这里只有精品免费| 特级做a爰片毛片免费69| 国产无码精品在线播放| 国产一区二区三区精品久久呦| 视频二区亚洲精品| 在线观看精品国产入口| 91网红精品在线观看| 国产男人天堂| 乱码国产乱码精品精在线播放| 中国一级特黄视频| 亚洲天堂成人在线观看| 久青草免费在线视频| 99精品在线看| 国产真实乱子伦视频播放| 日韩免费中文字幕| 免费中文字幕一级毛片| 亚洲成人免费看| 伊在人亚洲香蕉精品播放| 九九九久久国产精品| 国产精品大尺度尺度视频| 日韩毛片免费视频| 日韩精品一区二区三区中文无码| 美女被躁出白浆视频播放| 亚洲国产av无码综合原创国产| 伊人久热这里只有精品视频99| 亚洲欧美一区二区三区麻豆| 日韩欧美国产中文| 男女男免费视频网站国产| 国产精品一区二区久久精品无码| 国产男人天堂| 免费无码AV片在线观看国产| 亚洲中文字幕23页在线| 国产91精品调教在线播放| 找国产毛片看| 97国产在线观看| 青青草国产在线视频| 中文字幕在线观| 欧美一区二区自偷自拍视频| 国产美女无遮挡免费视频| 天堂久久久久久中文字幕| 国产成人你懂的在线观看| 在线观看网站国产| 日韩黄色在线| 伊人色综合久久天天| 国产成人福利在线视老湿机| 久久99国产乱子伦精品免| 国产精品自拍合集| 久久久久久高潮白浆| 久久国产拍爱| 伊人婷婷色香五月综合缴缴情| 亚洲αv毛片| 国产真实乱人视频| 99伊人精品| 国产在线自乱拍播放| 亚洲精品手机在线| 久久性视频| 奇米影视狠狠精品7777| 毛片最新网址| 国产一区二区三区精品久久呦| 日韩欧美高清视频| 天堂va亚洲va欧美va国产|