999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藏文語義本體中的上下位關系模式匹配算法

2011-06-28 06:27:08邱莉榕趙小兵
中文信息學報 2011年4期
關鍵詞:語義概念

邱莉榕,翁 彧,趙小兵

(1. 中央民族大學 信息工程學院,北京 100081;2. 國家語言資源監測與研究中心 少數民族分中心,北京 100081)

1 前言

藏文顯示技術、藏文編碼技術以及藏文輸入技術得到了較好的解決[1]。藏文信息處理在字處理、詞和短語處理方面已經陸續取得了相對突破,句處理階段的攻關已經開始。在句處理階段,句法知識、語義知識、語用知識的基礎理論研究是亟待解決的關鍵性問題。

詞典中定義的概念本身并沒有二義性,它能唯一地、準確地指向現實世界中的實體或對象。但在句處理中,句中的概念是由詞表示的。例如概念詞“木馬”在下面三個句子中至少可以表示三種概念:

(1) 木馬是一種玩具。

(2) 木馬是一種運動器械。

(3) 木馬是一種病毒。

因此所謂概念二義性,就是由于一個概念詞可以表示多個概念引起的。而藏語也會因為上下文語境的不同,其漢語有不同譯文:

同學們正在學習。

圣人的如釋迦牟尼。

語言文字本身存在的語義模糊性和歧義性增加了機器分析的難度。文字(對于計算機而言就是二進制數據)僅僅是傳達語義的媒介,而語義的表達才是交流的核心和關鍵。

對具有某種知識水平的人來說,可以根據句子的語境理解概念要傳達的明確語義。例如: 如果“木馬”同“計算機”“程序”等詞同時在文中出現的話,那么可以根據已有知識,得到此處的“木馬”應該指“木馬”病毒的可能性最大。

知網(HowNet)的作者董振東先生提出“自然語言處理系統最終需要更強大的知識庫的支持”[2]。語義的核心是知識,語義本體就是共享概念模型顯示的形式化規范說明[3],用于描述(特定領域的)知識。

我們可以創建計算機領域本體,如果這個領域本體中包含了“木馬、計算機、程序”等概念,并定義了這些概念之間的關系,那么計算機在使用這個本體的時候,就相當于有了這些儲備知識。

藏語的語義本體的創建研究在以下問題解決上,具有突出意義:

(1) 有助于擴大詞典規模: 當前已經手工建立了許多詞典用于自然語言處理,但是詞典的容量畢竟是有限的,不可能包含所有的詞,特別是未登錄詞。本體中的上下位關系定義了概念和概念之間的層次,基于這種上下位關系,可以獲得更多語義新詞。

(2) 支持進一步的高層(語義級、知識級)智能應用: 語義本體的最終目標是將雜亂無章的信息源轉變為有序易用的知識源,通過語義本體的描述,可以整合浩如煙海且瞬息萬變的信息,從中發現、選擇和組織有用的信息和知識,傳遞給需要的人或需要的系統,從而支持進一步的高層(語義級、知識級)智能應用。

(3) 緩解民族語言數據稀疏問題: 雖然藏文是少數民族語言中使用人口較多的語言,但相對于漢語和英語來說,藏文語言資源相對匱乏,特別是帶標注文本和雙語對齊的文本稀少,這對藏文的信息處理帶來不利影響。利用本體中詞的語義關系,可以減少數據稀疏的影響,大大提高藏語信息處理精度。

本文首先介紹了藏文語義本體的創建過程,詳細描述藏文語義本體創建的各個步驟。然后針對上下位這種基礎的語義關系,提出了藏文上下位關系模式,以及基于這種模式的匹配算法。

2 相關工作

20世紀90年代初期,國際計算機界舉行了多次關于本體的專題研討會,本體成為包括知識工程、自然語言處理和知識表示在內的諸多人工智能研究團體的熱門課題,其主要原因在于本體使人與人、人與機器、機器與機器之間的交流建立在共識知識的基礎上。

目前中英文自然處理領域,已經有很多語義本體的研究成果,其中最突出的是WordNet和HowNet。

英文本體WordNet[4]的詞匯包括名詞、動詞、形容詞、副詞和功能詞。每個詞(更確切地說是詞的一條意項)是一個網絡節點。節點之間通過“同義關系”、“反義關系”、“上位關系”、“下位關系”、“部分—整體關系”、“形態關系”等聯系在一起。

中文本體HowNet[5]是揭示概念與概念之間以及概念所具有屬性之間的關系為基本內容的常識知識庫,從1996年研發至今,已有漢語詞項96 744條,多家科研單位研發基于HowNet知識表示的信息處理技術。

在藏語的語義層面的研究中,一些工作對藏語句法行為的規律性進行了研究,有些研究者利用句法和語義信息將詞劃分成類別,從而更細致全面地反映各種類型藏語句式的語法結構框架,如句子的語序、詞格標記和句法助詞,并對藏語從句行為進行了分析[6]。多杰卓瑪給出了基于框架的藏語詞語語義研究[7],通過對框架進行結構信息的描述增加語義信息。龍從軍研究了藏語名詞語義關系,提出組織名詞的基本單位是義類,聯系名詞與名詞、名詞與其他詞之間的關系是語義關系[8]。

但目前,查新還沒有查到藏文語義本體表示層面的藏文處理相關研究內容。基于語義的本體庫在文本處理、信息抽取、基于文本的數據挖掘、自動翻譯中都有廣泛的應用,合適的本體庫將成為文本自動處理中的一個重要環節。

3 本體創建過程

語義本體的創建是耗時耗力的艱苦工作,需要語言學家、知識工程師和信息處理人員合作完成。目前的語義本體的創建,有手工創建和自動生成兩種策略。完全手工創建的本體一般規模較小,無法應付海量的知識源。自動策略一般采用有監督或無監督的機器學習技術從文本語料中自動獲取概念和關系,人工干預程度較低。但自然語言處理的語義表達的復雜性和模糊性,完全的自動處理精度太低,處理結果的可用性很差。況且針對藏語來說,不同于英語和漢語具有大規模的標注語料和現有的語義詞典,藏語語義本體建設可用的藏語資源很有限。

基于此,本文采用半自動本體創建策略,第一步,由知識工程師和語言專家手工建立上層本體,利用電子詞典進行同義詞擴充后,在多語言本體庫(漢英語言創建的本體)中根據對應的上下位關系模式進行基于模式匹配的詞匯擴充和翻譯。第二步,根據本體概念和對應的上下位關系,在已標注語料或電子詞典中查找近義詞,并基于詞匯語義相似度算法進行相似度從高到低的排序。知識工程師對排序結果進行修訂,編輯本體。

采用半自動本體創建策略,如圖所示,分以下步驟展開:

(1) 由知識工程師和語言專家手工編輯建立基于HowNet的上位本體,并研究藏語上下位關系的模式表示方法;

(2) 上位本體中出現的概念,利用電子詞典的釋義,創建概念的同義詞詞匯集;

(3) 在多語言本體庫(漢英語言創建的本體)中進行概念的上下位關系模式匹配,擴充本體概念層次;

(4) 本體概念和抽取的上下位關系模式匹配,在已標注語料或電子詞典中查找近義詞;

(5) 基于詞匯語義相似度算法進行相似度從高到低的排序[9];

(6) 知識工程師對排序結果進行修訂、編輯本體。

在整個本體創建過程中,上下位關系是確定本體中概念分層的語義因素。上下位關系的模式可以輔助進行概念擴充,也可以作為建立和維護本體的輔助工具,這在一定程度上降低了創建和維護本體的成本。

4 上下位模式及匹配算法

首先,我們借鑒劉磊博士的博士學位論文[10],給出上下位關系的定義。

定義1上下位關系, Hyponymy: 如果給定概念C1和C2,C1的同義集合為{C1,C1′, …},C2的同義集合為{C2,C2′, …},若C2的外延包含C1的外延,則認為C1和C2具有上下位關系,其中C1稱為C2的下位概念(hyponym),C2稱為C1的上位概念(hypernym),記作hr(C1,C2)。判斷hr(C1,C2)是否成立的簡單方法是看句子: “C1是一種/類/個C2”是否可以接受。

上下位關系模式學習主要包括三個問題:

1) 種子上下位關系的選取;

2) 模式的獲取算法——模式自動生成器的構造問題;

3) 獲取模式分類和評價。

4.1 上下位模式

(1) 單對單模式: 只提取一個下位概念C1和一個上位概念C2,組成一個上下位關系hr(C1,C2)。如:

【是一種】

{冰箱}C1【是一種】{電器}C2。

hr(冰箱,電器)

(2) 多對單模式: 多對單模式提取多個下位概念C1, C2, …, Cm和一個上位概念 Cm+1,組成一組上下位關系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1)。如:

.、..【等】.

衣柜里面有{上衣}C1、{褲子}C2、{袍子}C3【等】很多{服裝 }C4

hr(上衣,服裝),hr(褲子,服裝),hr(袍子,服裝)

(3) 單對多模式: 單對多模式提取一個下位概念C1和多個上位概念C2, C3, …, Cm,組成一組上下位關系hr(C1, C2), hr(C1, C3), …, hr(C1, Cm)。如:

.【即是】..【又是】.

{扎西}C1【即是】{老師的一個好{學生}C2}【又是】媽媽的乖{兒子}C3

hr(扎西,學生),hr(扎西,兒子)

(4) 多對多模式: 多對多模式提取多個下位概念C1, C2, …, Cm和多個上位概念Cm+1, Cm+2, …, Cm+n,組成一組上下位關系hr(C1, Cm+1), hr(C2, Cm+1), …, hr(Cm, Cm+1), …, hr(C1, Cm+2), hr(C2, Cm+2), …, hr(Cm, Cm+2), …, hr(C1, Cm+n), hr(C2, Cm+n), …, hr(Cm, Cm+n)。如:

.<、>..【既是】..【又是】.

{卓瑪}C1、{格桑}C2【既是】校醫院的{大夫}C3【又是】醫學院的{老師}C4

(5) 多層次模式: 多層次模式可以提取一組概念C1, C2, C3。使得hr(C1, C2),hr(C2, C3)多層上下位關系成立,如:

.【是所有】..【中】.

{次央}C1【是所有】{服務員}C2【中】文化程度最高的{人}C3

提取關系: hr(次央, 服務員),hr(服務員, 人)

4.2 模式匹配算法

模式匹配問題可以描述為: 上下位關系模式集合P={p1,p2, …,pm},語料庫G,G中含有句子集合S={s1,s2, …,sn},對任意s∈S,若通過模式匹配算法得到p1,p2, …,pk(pi∈P,i=1, 2, …k)與s匹配,記作(s, {p1,p2, …,pk}),若不存在模式與s相匹配,則記作(s, ?)。

模式匹配算法步驟如下:

上下位關系模式匹配算法

輸入: 上下位關系模式集合P,語料庫G,

輸出: 模式匹配結果

Step 1: 預處理,將語料G分割轉換為句子序列S={s1,s2, …,sn};

Step 2: 若S不為空,對每一個句子s∈S,執行Step3-Step5;

Step 3: 對s先進行分詞處理;

Step 4: 在P中搜索s所滿足的上下位關系模式,得到s所滿足上下位關系模式p1,p2, …,pk(pi∈P,i=1, 2, …,k);

Step 5: 根據p1,p2, …,pk中每個模式的上位概念域和下位概念域屬性提取對應的上位概念部分和下位概念部分;

Step 6: 輸出所有匹配結果。

例句s:

衣柜里面有上衣、褲子、袍子等很多服裝。

模式p:

Defpattern 上下位關系模式 //定義一個多對一模式

{

基本模式:

.、..【等】.

下位概念域:

下位變量項: ,和

下位概念個數: 多個,和 單個

下位概念位置: 右,和 右

上位概念域:

上位變量項:

上位概念個數: 單個

上位概念位置: 右

}

模式匹配結果:

衣柜里面有/上衣/、/褲子/、/袍子/等很多服裝。

提取上位概念部分和下位概念部分:

下位概念域 =衣柜里面有上衣、褲子

下位概念域 =袍子

上位概念域 =服裝

候選上下位關系:

hr(上衣、褲子, 服裝)

hr(袍子, 服裝)

正確上下位關系:

hr(上衣,服裝)

hr(褲子,服裝)

hr(袍子,服裝)

5 總結

語義本體是共享概念模型的顯示的形式化規范說明,其目標是將雜亂無章的信息源轉變為有序易用的知識源。目前語義本體還主要依賴于手工創建模式。上下位關系是一種基本的語義關系,常用于語義本體中概念的自動獲取和驗證。本文首先描述了藏語語義本體的創建方法,進而給出了藏文中的上下位關系模式以及模式匹配算法。

后續的工作包括用于上下位關系驗證的概念空間構造方法研究、模式匹配驗證算法、基于概念空間的上下位關系迭代概念學習算法等。

[1] 江荻,龍從軍.藏文字符研究—字母、讀音、編碼、排序、圖形、拉丁字母轉寫規則研究[M].北京: 社會科學文獻出版社.2010.

[2] 董振東,董強,郝長伶.知網的理論發現[J].中文信息學報,2007,21(4): 3-9.

[3] R. Studer, V. R. Benjamins, and D. Fensel. Knowledge engineering: Principles and methods[J]. Data and Knowledge Engineering, 1998,25(1-2):161-197.

[4] WordNet[OL],http://wordnet.princeton.edu/wordnet/.

[5] HowNet[OL], http://www.keenage.com/.

[6] 江荻.現代藏語動詞的句法語義分類及相關語法句式[J].中文信息學報,2006,20(1): 37-43.

[7] 龍從軍,周學文.藏語名詞語義關系研究. http://d.g.wanfangdata.com.cn/Conference_7143464.aspx.

[8] 多杰卓瑪.藏語語義框架的理解與描述[J].西北民族大學學報,2009,30(74): 17-21.

[9] 劉群, 李素建. 基于《知網》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學研討會,中國臺北, 2002.

[10] 劉磊,概念和上下位關系的獲取理論和方法研究[D].中科院計算所博士論文,2007.

猜你喜歡
語義概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
概念的限制
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 55夜色66夜色国产精品视频| 欧美人人干| 成人中文在线| 超清无码一区二区三区| 国产情侣一区二区三区| 丁香亚洲综合五月天婷婷| 亚洲色图欧美视频| 国产免费网址| 国产欧美精品专区一区二区| 国产白浆视频| 亚洲中文字幕无码mv| 午夜天堂视频| 宅男噜噜噜66国产在线观看| 国产毛片高清一级国语| 亚洲人成人伊人成综合网无码| 欧美成人A视频| 国产不卡在线看| 99在线视频免费| 久久久久青草大香线综合精品| 欧美在线综合视频| 国产在线自揄拍揄视频网站| 国产成人永久免费视频| 亚洲色图在线观看| 国产区成人精品视频| 亚洲欧美极品| 亚洲AV无码乱码在线观看代蜜桃| 在线免费看片a| 久久毛片网| 超级碰免费视频91| 亚洲一区无码在线| 欧美午夜理伦三级在线观看| 五月婷婷丁香色| 一本一本大道香蕉久在线播放| 在线日韩一区二区| 中文毛片无遮挡播放免费| 精品五夜婷香蕉国产线看观看| 久久黄色一级视频| 永久免费无码日韩视频| 亚洲国产综合精品一区| 国产精品亚洲五月天高清| 亚洲国产日韩一区| 十八禁美女裸体网站| 国产波多野结衣中文在线播放| 91无码人妻精品一区二区蜜桃 | 国产极品美女在线| 欧美午夜在线视频| 亚洲看片网| 国产午夜福利亚洲第一| 亚洲天堂日韩av电影| 欧美亚洲国产日韩电影在线| 亚洲欧洲日韩综合| 日本欧美一二三区色视频| 六月婷婷激情综合| 99激情网| 一级片一区| 这里只有精品在线播放| 亚洲午夜国产精品无卡| 亚洲综合精品香蕉久久网| 成色7777精品在线| 欧美国产日本高清不卡| 亚洲首页国产精品丝袜| 天天做天天爱天天爽综合区| 永久免费精品视频| 亚洲免费黄色网| 青青草原国产| 乱系列中文字幕在线视频| www亚洲天堂| 午夜激情福利视频| 亚洲中文字幕久久精品无码一区| 国产成年女人特黄特色大片免费| 免费看a毛片| 一本一本大道香蕉久在线播放| 色精品视频| 小说区 亚洲 自拍 另类| 久久综合色播五月男人的天堂| 自拍欧美亚洲| 国产SUV精品一区二区6| 国产一区二区精品福利| 亚洲αv毛片| 成人国产一区二区三区| 欧美不卡视频在线| 欧美一级视频免费|