999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

“蒙古語名詞語義信息詞典”的開發與應用

2015-04-21 08:43:51海銀花那順烏日圖
中文信息學報 2015年3期
關鍵詞:語義分類信息

海銀花,那順烏日圖

(1. 內蒙古大學 蒙古學學院,內蒙古 呼和浩特 010021;2. 內蒙古大學 蒙古學學院,內蒙古 呼和浩特 010021)

?

“蒙古語名詞語義信息詞典”的開發與應用

海銀花1,那順烏日圖2

(1. 內蒙古大學 蒙古學學院,內蒙古 呼和浩特 010021;2. 內蒙古大學 蒙古學學院,內蒙古 呼和浩特 010021)

2009年至今,“蒙古語名詞語義信息詞典”(以下簡稱為“名詞語義詞典”)通過幾年的開發目前詞典基本成形,并且有了顯著的新進展。其新進展主要體現在詞條的擴充、屬性字段的增添及其初步應用。該文概要介紹“名詞語義詞典”的研發過程,實例說明這部詞典的新進展和初步應用情況。

蒙古語名詞;語義信息詞典;開發;應用

1 引言

“蒙古語語義信息詞典”是基于“蒙古語語法信息詞典”研發的一部面向蒙古語語句自動處理的語言知識庫。它以數據庫文件形式收錄5.7萬個詞條,不但給出每個詞語所屬的詞類、語義分類、近義、反義、同形等基本語義屬性之外,而且以義項為單位詳細描述了它們的各種語義搭配限制和配價信息。無論是基礎研究還是應用開發,它是一部基于蒙古語詞匯的語義屬性描述體系,為滿足計算機語義自動分析、詞義消歧等更深層次的語言信息處理提供形式化語義知識。整個詞典的研發進程包括如下內容:

(1) 充分表示蒙古語詞語語義關系和語義層次的詞語語義分類框架體系及其相關標記集,它是面向語義分析和語義生成的蒙古語詞語語義屬性描述體系。主要包括七項大類、198項子類的名詞語義分類體系及其標記集;六項大類、217項子類的形容詞語義分類體系及其標記集;以及五項大類、121項子類的動詞語義分類體系及其相應的標記集。

(2) 描述每個詞語翔實語義信息的“名詞語義信息詞典”、“形容詞語義信息詞典”和“動詞語義信息詞典”等蒙古語三大詞類的知識庫,其各自囊括的信息量和信息總量計算如表1所示。

(3) 針對該詞典是一部盡可能從多角度、多層次上描述現代蒙古語常用詞語語義特征的知識庫這一特點,開發了“蒙古語同形詞知識庫”、“蒙古語多義詞詞典”、“蒙古語連接形式知識庫”等三個輔助庫[1]。

表1 “蒙古語語義信息詞典”信息量計算表

(4) 集語法信息與語義信息于一身的語言知識庫管理平臺。為了更好地管理并補充和完善蒙古語語言知識庫中的詞條及語法、句法、語義信息的統一性和完整性,管理平臺對各個資源庫設計了若干個MDI子節點窗體,分別實現了添加、修改、刪除、查詢、瀏覽和校對等功能和一系列連貫操作。

本課題是已有國家自然科學基金項目的原有成果“蒙古語語法信息詞典”的繼承和延伸。譬如,“名詞語義詞典”14 105詞條的直接來源為語法信息詞典“名詞分庫”的原有詞條[2],“形容詞語義詞典”的11 025余詞條是通過 擴 充 語法信息詞典“形容詞分庫”的7 600余詞條而獲取的[3]。詞典管理平臺集成語法信息和語義信息的同時具備了對于語法信息詞典和語義信息詞典均可進行科學的管理和維護功能[4]。

2 “名詞語義詞典”的開發

2.1 語義分類體系及其標記集

我們充分利用有關蒙古語詞語語義分類前人研究成果,借鑒和參考英語、漢語等其他語言的詞語語義分類體系的同時,根據名詞的基本詞匯語義把蒙古語14 105個常用名詞進行語義分類。整個語義分類體系包括事、物、智慧、時間、空間、動作、度量等七個大類,198個子類,具有九個層次,如圖1所示。有關名詞語義分類體系另有一篇文章詳述[5]。由于該分類體系是針對“名詞語義詞典”的開發而研制,所以詞典庫中的“大語義類”和“子語義類”等兩個屬性字段的取值來源于該分類體系。

圖1 蒙古語名詞語義分類體系及其標記集樣本

2.2 語義屬性描述

“名詞語義詞典”數據庫中填置了22個屬性字段及其相應的取值。我們把22種語義屬性信息可以歸納為“連接信息”、“基本語義信息”、“語義分類信息”、“搭配規則信息”和“配價信息”等五種大類,其各自囊括的屬性字段如表2所示。

表2 語義屬性類別表

詞典數據庫中設制的屬性字段名稱和取值翔實說明如表3所示。

表3 屬性字段名稱和屬性取值說明

續表

圖2 “名詞語義詞典”數據庫樣本

3 新進展

3.1 詞條的擴充和整理

我們通過以下兩個步驟把詞典詞條從原有的14 105條擴充成18 000條。

3.2 屬性字段的增加

目前我們在詞典數據庫中增添的屬性字段及其屬性值說明如下所述。

表4 “名詞語義詞典”中的一價名詞配價信息描述樣本

3.3應用價值

“名詞語義詞典”中的語義屬性在蒙古語多義詞義消歧、同形異義詞的辨別、短語結構關系判定以及語義角色的標注等各個層面都提供形式化語義知識。例如,以蒙古語作為目標語的機器翻譯系統中“名詞語義詞典”判斷哪些詞是多義詞的方法是通過“義項”、“同形”、“大語義類”、“子語義類”等四個字段中的任何一個內容可以說明當前的詞條是否一個多義詞。當同一個名詞的多個義項屬于不同語義類時,它們在句子中所受到的搭配限制也有所不同。其中可以利用“大語義類”、“子語義類”、“釋義”、“價量”和“價質”等字段在生成目標語言過程中對當前多義詞進行消歧,從多義詞的不同譯法中挑選最合適的一個譯詞來提高譯文質量。

由于該詞典處于開發完后的初步階段,尚未進入全面的應用或產品化階段,所以下面我們只能以兩個實例來說明該詞典已開始逐步投入應用這一進展情況。

(1) 蒙古語名詞短語語義角色的統計分析研究[8]中應用“名詞語義詞典”的“詞語”、“大語義類”、“子語義類”等三個字段,通過標注蒙古語5 107個簡單句進行語義角色標注,統計分析7 646條名詞短語充當語義角色情況,歸納出813條名詞短語的語義角色識別規則,其具體方法步驟如下:

1) 構建名詞語義角色分析庫的基礎上,統計分析名詞短語語義角色結構特征,例如,“存在”(0rs)的語義角色由NPd,NPs,Ne1, Ne2等形式表現,其實例為{{{{SAYIN Ac HELE-TEI Ne1}NPd {MAGV Ac J0HIYAL Ne1}NPd}NPd

主站蜘蛛池模板: 又猛又黄又爽无遮挡的视频网站| 日本亚洲欧美在线| 国产H片无码不卡在线视频| 国产精品亚洲片在线va| 欧美精品亚洲日韩a| 三区在线视频| 久久人搡人人玩人妻精品| 久久亚洲国产最新网站| 国产成人高清亚洲一区久久| 91国内外精品自在线播放| 国产欧美在线观看视频| 亚洲色欲色欲www在线观看| 亚洲人成网站在线观看播放不卡| 国产免费看久久久| 伊人激情久久综合中文字幕| 亚洲午夜久久久精品电影院| jizz国产视频| 久久99久久无码毛片一区二区| 亚洲成人在线网| 中文字幕欧美日韩高清| 日本道综合一本久久久88| 亚欧乱色视频网站大全| 亚洲色图欧美在线| 亚洲高清无码精品| 欧美成人a∨视频免费观看| 日日拍夜夜嗷嗷叫国产| 波多野结衣的av一区二区三区| 亚洲黄色激情网站| 免费毛片网站在线观看| 久久这里只有精品23| 女人毛片a级大学毛片免费| 欧美在线精品一区二区三区| 亚洲精品国产成人7777| 国产精品主播| 99中文字幕亚洲一区二区| 中文无码精品A∨在线观看不卡 | 精品成人免费自拍视频| 人人爱天天做夜夜爽| 久久久精品无码一区二区三区| 人妻91无码色偷偷色噜噜噜| 欧美性精品| 丁香五月婷婷激情基地| 国产精品久久久久婷婷五月| 亚洲一区二区三区国产精华液| 国产色图在线观看| 97se亚洲| 思思热在线视频精品| 色婷婷狠狠干| 亚洲va欧美ⅴa国产va影院| 丁香婷婷久久| 精品第一国产综合精品Aⅴ| 高清码无在线看| 手机在线看片不卡中文字幕| 国产一级毛片在线| 日韩欧美中文亚洲高清在线| 在线国产三级| 一本视频精品中文字幕| 午夜视频www| 久久性妇女精品免费| 午夜性刺激在线观看免费| 国产成人高清精品免费软件 | 91九色视频网| 欧美精品1区| 国产精品自在拍首页视频8| 真人免费一级毛片一区二区| 亚洲AV成人一区二区三区AV| 人妻丝袜无码视频| 国产精品免费久久久久影院无码| 国产精品一区二区不卡的视频| 99在线免费播放| 国产麻豆aⅴ精品无码| 高清不卡毛片| 妇女自拍偷自拍亚洲精品| 这里只有精品在线播放| 亚洲丝袜中文字幕| 亚洲午夜福利精品无码不卡| 福利在线一区| 亚洲AV无码久久精品色欲| 欧美午夜一区| 亚洲视频在线青青| 中国精品自拍| 97免费在线观看视频|