999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《現代漢語動詞語義知識詞典》的開發與應用

2018-11-16 07:57:42孫道功亢世勇
中文信息學報 2018年10期
關鍵詞:句法語義詞匯

孫道功,亢世勇

(1. 南京師范大學 文學院,江蘇 南京 210097; 2. 魯東大學 文學院,山東 煙臺 264025)

0 引言

自然語言處理的迅速發展,不僅召喚語言研究向技術化層面延伸,同時也進一步凸顯了語義分析的重要性和迫切性。眾所周知,語義知識是語言信息處理的難點。如何解決語義問題,如何為計算機的理解生成提供可形式化、可計算化的語義網絡,成為語義研究的核心[1]。從20世紀60年代歐美語言學實現從語形研究到語義研究的歷史性轉向后,越來越多的學派和學者開始關注語義問題。尤其從20世紀80年代中期開始,為了克服語言處理中普遍存在的“語義障礙”(semantic barrier),越來越多的國家開始開發語義詞典。

1 語義詞典研究評述

語義詞典作為自然語言處理系統的重要組成部分,為語言處理提供語義資源,目前比較有影響的語義知識詞典,國外如WordNet、MindNet、FrameNet等;國內如《同義詞詞林》、 知網(HowNet)、《現代漢語語義詞典》(SKCC)、漢語框架語義知識庫(CFN)等。

國內外語義詞典研究把“語義關系”作為描寫重點。作為20世紀80年代后國外語義詞典的重要代表,WordNet的特色表現為根據詞義關系而不是單純詞形標記組織詞匯信息。具體言之,首先基于詞義關系,把名詞、動詞和形容詞聚類為代表某一基本詞匯概念的同義詞集合,然后在這些同義詞集合之間建立語義關系。目前,WordNet已對95 600個不同的詞形(51 500個簡單詞和44 100個搭配詞)進行了分析,形成了70 100個詞義集合(或者說同義詞聚類)[2]?;谡Z義分類構建聚類系統以及語義關系構建關聯體系這一做法,成為國外語義知識詞典建構的重要方法。FrameNet是以框架語義學理論為基礎,以英語真實語料為依據,涵蓋1 007個語義框架11 797個詞的在線語義詞典,目前已經對近7 000個詞、9 000多個核心框架元素和30多個外圍元素進行了注釋和描寫。作為一個在線的詞典編纂工程, 在對語義框架、框架元素、句子語義標注體系處理方面富有特色,尤其是其研制思路和理念,對國內語義知識庫構建產生了很大影響[3]。MindNet 的特色表現為完全采用自動的方式來獲取語言知識,其理論基礎仍然是語義關系,庫中共定義了24種不同的語義關系標記,分析了近16萬個詞。在技術層面,仍然是基于規則的方法,采用廣域句法分析器(Broadcoverage Parser)獲取語義信息,其根本目的是建立一個范圍廣泛的自然語言理解系統[4]。

國內語義詞典編纂歷史悠久,秦漢時期的《爾雅》是世界上最早的義類詞典。20世紀80年代之后,以《同義詞詞林》為先導,國內出現了多種不同的語義知識詞典?!锻x詞詞林》作為國內最具影響力的語義詞典之一,通過對50 000多詞語約67 000義項進行整理分析,分為三個層級,其中大類12個,中類94個,小類1 428個。并在小類下列出所對應的詞語(或義位)[5]?!锻x詞詞林》所建構的語義分類體系被國內語義詞典編撰者參考或模仿。

董振東等人開發的知網,其實質是基于英漢詞語所代表概念的描寫,揭示概念之間的相互聯系的在線語義知識庫。根據詞語的語義特征,在概念分類和關系描寫的基礎上,使語義信息形成了相互關聯的知識網絡系統。概念系統涵蓋萬物、時間、空間、屬性、屬性值、事件、部件七大類。但在語義分類上仍然兼顧了對應的詞性信息,大致對應情況是: 實體、屬性、單位對應名詞;事件對應動詞和部分形容詞;屬性值對應形容詞和副詞。分別稱為N范疇、V范疇、A范疇。通過概念、屬性等縱橫交錯關系最終形成一個網狀知識系統[6]?!冬F代漢語語義詞典》(SKCC)在大類的劃分上采用詞性標準,小類上采用了語義標準,共收實詞66 539條,并以數據庫的形式進行呈現,包括12個數據庫: 1個總庫,11個子庫,分別是: 名詞、時間詞、處所詞、方位詞、代詞、動詞、形容詞、區別詞、狀態詞、副詞、數詞;但是詞典中沒有設立虛詞庫??値熘邪ㄔ~語、拼音、同形、義項、語義類、詞類、子類、兼類八個字段。每類詞的特有屬性填在各類詞庫中,如名詞庫設15個屬性字段,動詞庫設16個屬性字段。每個庫文件都詳細刻畫了詞語及其語義屬性的二維關系,最終目的是為計算機語義自動分析、詞義消歧等提供支持[7]。該詞典中的語義分類主要參考了WordNet的分類體系,在大類劃分上仍然基于詞性角度。另外,劉開瑛等人以框架語義學理論為基礎,以FrameNet為參照, 構建了漢語框架語義知識庫(CFN)。CFN 數據庫由框架庫、句子庫和詞元庫三部分組成。目前已構建了130 個框架,涉及動詞詞元1 428個、形容詞詞元140個、事件名詞(即有配價的名詞)詞元192 個,句子8 200多條[8]。其特色表現為結合漢語特點,把詞元庫和句子庫結合起來,并不是對FrameNet的簡單漢化。

綜上所述,目前語義詞典尤其是國內語義詞典編撰存在的問題,主要表現為四個方面: ①多數仍停留在詞語的語義分類層面,且分類依據一般是哲學或邏輯,通常以詞性標準為綱、詞義分類為輔,并不是完全意義上的語義分類。②在語義分類后僅列出符合某一義類的詞語,缺乏對內部成員的分析描寫,尤其缺乏對不同義類成員的語義關系和語義差異的深度刻畫。③有些詞典雖然增設了詞匯語義關系的分析說明,但尚未對所收錄詞語的語義進行多維度刻畫,尤其是缺乏句法語義信息的深度描寫。④大都著眼于傳統的詞匯語義視角,尚未對批量詞匯進行詞匯語義和句法語義的一體化描寫,也未揭示其內在關聯性。本文基于受限原則,先以少量詞匯為典型樣本,構建語義詞典,解決上述存在的問題。

2 收詞原則和研制思路

《現代漢語動詞語義知識詞典》(簡稱“詞典”)實質上是一個在線語義知識庫,與常規詞典的不同之處主要表現為: 通過對批量動詞的詞匯語義和句法語義的標注,揭示了兩者的內在關聯,從而實現了對詞匯語義和句法語義一體化的分析和描寫,為語義形式化研究和語言信息處理提供語言資源。動詞語義詞典研制的首要任務就是要選取具有代表性的常用動詞作為典型分析對象,在此基礎上進行相關信息的標注和描寫。

2.1 收詞原則

結合本詞典的相關特點,確定了以下收詞原則[9]。

第一,典型原則。典型原則指詞典所收錄詞匯應該具有代表性和權威性,使用頻度和熟知度高,是目前大部分動詞類辭書收錄詞匯的交集部分?;凇冬F代漢語詞典》(商務印書館第7版,2016)、《現代漢語頻率詞典》(北語語言教研所,1986)、《現代漢語動詞大詞典》(林杏光等,1994)、《現代漢語動詞分類詞典》(郭大方,1994)等篩選出交集部分的動詞。

第二,廣布原則。廣布原則指詞典所收錄詞匯應該分布范圍廣,通行于各個領域,不應該僅適用于某一特定領域或特定人群。這與典型原則有一定相似之處,但又有差異。典型原則強調使用率,即使用頻度高;廣布原則側重分布率,即使用領域廣。針對某些詞表在語域方面的局限性,選詞時會多方面兼顧,把多個語域中廣泛使用的詞語吸收進來,提高覆蓋率。

第三,單義原則。單義原則指詞語選擇和詞義描寫時,以詞元為單位。詞元是按照一形一音一義對應原則對詞語進行分化的結果,一個詞元在語義上僅對應一個能夠獨立使用的義項。故包含多個獨立運用的義項的詞語,可以分化為多個詞元,分別用A1、A2、A3……表示。之所以使用詞元對詞語進行分化,一方面,同一詞形對應的多個詞元,其使用率和分布率并不相同,以詞元為單位可以使詞義描寫更加精細化;另一方面,同一詞語分化形成的多個詞元,在語義搭配、語義句模、“句法—語義”接口等方面的表現也大相徑庭。

基于以上原則,進行篩選并確定詞典的收錄對象。到目前為止,共選取6 000個詞元作為詞典分析對象。

2.2 研制思路

具體研制思路如圖1所示。

圖1 語義詞典研制路線圖

3 屬性信息

為了滿足語義形式化和中文信息處理的需要,對所涉及范疇標注時盡量采用字母標記形式。與以往的動詞語義詞典相比,本《詞典》設置的屬性信息更為豐富,不僅涉及詞匯語義層面的常規信息,還涉及句法語義層面的信息,以及詞匯語義與句法語義的內在關聯信息。具體如下:

(1) 常規信息,指詞典中所收錄詞元的拼音、聲調等信息。其中四聲分別用 “1,2,3,4”表示,例如,“吃”是“chi1”。如果是輕聲,則用“5”表示。

(2) 詞類信息,指詞元對應的詞性信息。按照北京大學計算語言所的語法詞典的詞類標準和標記符號進行描寫。因為本文構建的是動詞語義知識詞典,分析對象中的詞類僅涉及動詞一類,即動詞(V)。

(3) 釋義信息,指某詞元在《現代漢語詞典》中對應釋義。雖然屬性信息中包含了義類信息字段,但是二者并不完全一樣。其內在關聯主要表現為需要依據釋義信息來確定詞匯義類。

(4) 義類信息,指某詞元所屬的語義類,如動物、植物、人類等。與詞元對應的釋義信息不同,義類信息著眼于詞元所屬的上位語義范疇。由于本文所開發的動詞語義詞典,其目的之一是對詞匯語義和句法語義進行一體化描寫,涉及語義框架的描寫,所以在句子標注中不能僅僅考察動詞義類。實際標注中涉及名詞、形容詞等非動詞的義類信息。該義類標記集包括10大類32小類,其中動詞(陳述類)的義類信息共涉及7類。括號內為其語義類型和標記符號。如表1所示。

表1 詞語義類信息表

大規模的義類標注是規模浩大的語言工程。受時間、精力等多方面條件的制約,目前義類標注還停留在二級層面,共標注了32個小類。三級小類標注是下一步研究的重要任務。

(5) 義場層級信息,指從詞匯語義層級的角度,從高層到低層分別列出某詞元的上下位的語義關系圖。義類分析和義場建構是互動的過程,基于所收錄6 000個詞元構建了251個義場。

(6) 語義范疇信息,指句子中語塊所對應的語義信息,包括核心范疇、角色范疇、情態范疇、超句范疇,目前超句范疇暫不標注。

具體標注時,以語塊為單位,標到語義體系的第二層級。為了便于統計和減少角色符號的重碼率,標注中所涉及范疇也都采用了對應漢字拼音的首字母來表示。在同一大類中,如果首字母重合,會采用音節的第二個字母表示,如果依然重合,再采用第三個字母。語義范疇信息包括動核八類19種,基本角色九類32種,附加角色六類26種,共計77種。

動核包含的類型及標記符號如表2所示。

表2 動核類型信息表

基本角色范疇包含的類型及標記符號,如表3所示。

表3 基本角色類型信息表

注: ①表3中,因為施事和受事首字母重合,為了區分,施事使用了JS,受事使用了JSS。②表3和表4中,成事與處所、遭事與致事、所加與時間、受事與所使、共事與感事、變事與比事、當事與斷事、涉者與所遭,首字母相同。其中處所、遭事、時間、受事、共事、變事、當事、涉者仍然采用音節首字母表示,而成事、致事、所加、所使、感事、比事、斷事、所遭分別采用前音節首字母加后音節第二字母來表示,其中“J”表示角色。

附加角色范疇包含的類型及標記符號如表4所示。

情態范疇包括時體(TST)和評估(PPG)兩類。時體表示事件中動作行為的開始、進行、持續或完成等。評估表示對事件中所發生的動作行為推測、估計、評價、強調等。目前暫時標注到時體、評估大類層面。

(7) 句法范疇信息,指動核及關聯成分對應的句法成分信息。雖然所要建構的是語義詞典,但是語義范疇信息的標注以語塊為單位。同時句法范疇與語義范疇信息是密切關聯的,開發本語義詞典重要目的之一是為“句法—語義”接口的研究提供平臺和語言資源,故在信息庫中仍然保留了句法信息。包括主語、謂語、賓語、狀語、補語。定語通常和后面的中心語作為一個語塊承擔某種句法成分或語義角色,所以不分開標注。

表4 附加角色類型信息表

注: 因為歸者采用兩個音節首字母與感者重復,采用第二字母又會與感事重合,所以采用前音節首字母和后音節第三個字母的組合形式。

(8) 句模信息,即句子對應的語義結構信息。根據語義知識庫中所標注的句法、語義范疇信息抽取某動詞詞元形成的句子語義模型,也是動詞語義詞典語義信息描寫的重要組成部分。如JS+HXD+JSS,指施事+協動核+受事。

(9) 義類與語義范疇對應關系信息,指某詞元所屬義類與語義范疇的內在關聯?;谡Z義知識庫提取動詞詞元關涉語義范疇所對應的詞元信息,考察其義類,建立詞元義類與語義范疇的對應關系模型。

4 文件結構

4.1 收詞原則

《詞典》采用關系數據庫技術,在Access下實現。文件中信息都盡量地用漢字表示。根據研究需要共設置了三個庫。其中總庫一個,另外兩個分別是: 詞匯義類信息庫、句法和語義范疇信息庫。這三個庫通過“詞匯、拼音”字段鏈接。其中總庫中包含了其他兩個庫的義類、語義范疇和句法成分標注信息。該詞典具有開放性,計劃先收錄10 000個詞元,目前已經收錄并分析6 000個。

4.2 庫文件的結構及屬性的描述

4.2.1 總庫的文件及屬性描述

總庫的具體屬性字段、字段寬度、屬性值,以口部動作詞“吃”為例,具體描述如表5所示。

4.2.2 詞匯義類信息庫文件結構及屬性描述

該庫包含四個部分: 詞類信息、釋義信息、義類信息、義場層級信息。詞類信息和釋義信息如總庫中結構信息表5中所述,不贅。義類信息相對簡單,即某詞元對應的《語義詞類標記集》中的所屬類型。義場層級信息比較復雜,對詞典中所收錄詞元,庫文件中會分層級列出所屬的義場信息。同一義類動詞的義場層級信息相似度高。如“動作”大類中的手部動作義場的四個詞元“打2(毆打)、拿、指、托”對應的義場層級信息,如圖2所示。

表5 總庫文件結構信息表

第一層第二層第三層第四層第五層

打2動作——人類——上肢——手部——整手

拿 動作——人類——上肢——手部——手指

指 動作——人類——上肢——手部——手指

托 動作——人類——上肢——手部——手掌

圖2 義場層級圖示例

4.2.3 句法和語義范疇信息庫的文件結構及屬性描述

該庫包含所收錄的動詞詞元以及帶有句法成分和語義范疇信息的句子實例。其中,句法成分包括S/V/O/D/P。語義范疇信息相對比較復雜,包括動核、角色和情態,具體信息如詞典屬性信息部分所述。

在此選取了現代漢語非常復雜的手部動作詞“打”為例?!按颉弊鳛榈湫偷膭幼鲃釉~,其義項多達24個,其中最高頻義項是“打2”(毆打)。該詞元對應了43種句模,43種句法語義對應關系模式。其中原型句模是JS+HXD+JSS;原型句法結構是S+V+O。在句法和語義范疇信息庫中提取的相關例句,具體如下:

1. {V打/xd}【HXD】{O他/cd} [JSS]啊/yq!

2. {D三/sl} [JJL] {V打/xd}【HXD】{O白骨精/mc} [JSS]。

3. {D棒/mc} [JGJ] {V打/xd}【HXD】{O鴛鴦/mc} [JSS]。

4. {D莫/pg}(PPG){V打/xd}【HXD】{O笑臉/mc 人/mc} [JSS]!

5. {D按/jy軍規/mc} [JYJ] {D要/pg}(PPG){V打/xd}【HXD】{O他/cd} [JSS] {O軍棍/mc} [JJL]。

6. {D一/sl棒/mc[JGJ]{V打/xd}【HXD】{P死/zz}[JJG]了/st{O妖精/mc}[JSS]!

7. {D由于/jy不/pg小心/zt}[JYY]{V打/xd}【HXD】{P破/xz}[JJG]了/st(TST){O水銀/mc溫度計/mc}[JSS]。

8. {V打/xd}【HXD】{P死/zz}[JJG]{O侵略軍/mc 400/sl多/sl人/mc}[JSS]。

9. {S他/cd}[JS] {D把/jy小三/mc}[JSS]{V打/xd}【HXD】了(TST)!

10. {S他/cd} [JS] {D把/jy人/mc}[JSS] {V給/jy打/xd}【HXD】{P死/zz}[JJG]{O一/sl個/jw}[JJL]?

11. {S兇殘/xz的/zg敵人/mc}[JS] {D把/jy這個/zb青年/mc}[JSS]{V打/xd}【HXD】{P暈/zt}[JJG]了/st(TST)!

12. {S敵人/mc} [JS] {D把/jy他/mc} [JSS] {P往/jy死/zz里/kj} [JCD]{V打/xd}【HXD】。

13. {S你/cd} [JS]{V打/xd}【HXD】{O我/cd} [JSS]啊/yq!

14. {S林沖/mc} [JS] {D棒/mc} [JGJ]{V打/xd}【HXD】{O洪教頭/mc} [JSS]。

15. {S外婆/mc} [JS] {D只/pg} [JFV]{V打/xd}【HXD】{O 淘氣/xz的/zg哥哥/mc} [JSS]!

16. {S你/cd}[JS] {D憑/jy什么/zb}[JYY]{V打/xd}【HXD】{O他/cd}[JSS]!

17. {S他/cd}[JS] {D為了/jy老婆/mc}[JMD]{V打/xd}【HXD】了(TST){O警察/mc}[JSS]。

18. {S那個/zb城管/mc}[JS] {D正在/sj}(TST){V打/xd}【HXD】{O人/mc}[JSS]呢/yq?

19. {S我/cd}[JS] {D一/sl拳/jw}[JGJ]{V打/xd}【HXD】{P爛/zt}[JJG] {你/cd的/zg狗頭/mc}[JSS]。

20. {S列車長/mc} [JS] {D狠狠/xz地/zg} [JFS]{V打/xd}【HXD】了/st(TST){O他/cd} [JSS] {O一/sl巴掌/mc} [JGJ]!

21. {S我/cd} [JS]{V打/xd}【HXD】{P斷/zt} [JJG] {O你/cd的/zg狗/mc腿/mc} [JSS]!

22. {S他們/cd} [JS] {D不敢/pg}(PPG){V打/xd}【HXD】{O你/cd}[JSS]!

23. {S武松/mc}[JS] {D酒/mc醉/zt后/sj}[JSJ] {D在/jy景陽岡/kj}[JCS] {D赤手空拳/fs}[JFS]{V打/xd}【HXD】{P死/zz}[JJG] {O老虎/mc}[JSS]。

24. {S泰森/mc}[JS] {D狠狠/xz地/zg}[JFS]{V打/xd}【HXD】{O他/cd}[JSS] {P一/sl拳/jw}[JGJ]。

25. {S你/cd家/mc孩子/mc}[JSS] {V被/jy打/xd}【HXD】了/st(TST)?

26. {S小販/mc}[JSS] {V被/jy打/xd}【HXD】{P死/zz}[JJG] {P在/jy臺階/mc前/kj}[JCS]。

27. {D立即/sj}(TST){D把/jy那/zb只/jw瘋狗/mc}[JSS]{V打/xd}【HXD】{死/zz}[JJG]!

28. {S他/cd的/zg右臉/mc}[JSS] {V被/jy打/xd}【HXD】{P腫/zt}[JJG]了/st(TST)!

29. {S媽媽/mc你/cd}[JS]{V打/xd}【HXD】啊/yq!

30. {S他/cd}[JS] {D很/qz重/xz地/zg}[JFS]{V打/xd}【HXD】{P下來/qx}[JQX]!

31. {S他/cd}[JS] {D一/sl棍子/mc}[JGJ] {D狠狠/xz地/zg}[JFS]{V打/xd}【HXD】{P過去/qx}[JQX]!

32. {S我/cd}[JS] {D沒/pg}(PPG){V打/xd}【HXD】啊/yq!

33. {D敢/pg}(PPG){V打/xd}【HXD】{P一/sl下/jw}[JJL]嗎/yq?

34. {D怎么/}(PPG){D朝/jy孩子/mc腦瓜/mc上/kj}[JCS]{V打/xd}【HXD】呢/yq?

35. {V打/xd}【HXD】{O哪兒/kj}[JCS]呢/yq?

36. {V打/xd}【HXD】{P得/zg哭/zd爹/mc喊/xd娘/mc}[JJG]!

37. {D一/sl記/yw重重/zt的/zg老/xz拳/mc}[JGJ]{V打/xd }【HXD】{P得/zg眼冒金星/zt}[JJG]。

38. {D給/jy我/cd}[JTZ]{V打/xd}【HXD】!

39. {D一/sl電棍/mc}[JGJ]{V打/xd}【HXD】{P在/jy他/cd腰/mc上/kj}[JCS]。

40. {D無緣無故/pg}(PPG){V被/jy打/xd}【HXD】了/st(TST){P一/sl個/jw多/sl小時/sj}[JSJ]!

41. {S老虎/mc}[JSS] {D被/jy武松/mc}[JS]{V打/xd}【HXD】{P死/zz}[JJG]了/st(TST)。

42. {S他/cd}[JSS] {D被/jy一/sl個/jw花白/xz胡子/mc的/zg人/mc}[JS]{D用/jy馬鞭/mc}[JGJ]{V打/xd}【HXD】{P暈/zt}[JJG]了/st(TST)。

43. {S嘎子/mc} [JS] {D趁/jy他/cd不/pg注意/sg} [JTJ]{V打/xd}【HXD】{O他/cd} [JSS] {P一/sl頓/jw} [JJL]。

動詞詞元在組合層面形成的句法結構和語義句模信息,都是基于該庫中的句子實例的標注信息提取的。由于再大的語料庫也無法涵蓋所有的語言事實,隨著語料庫的擴大,手部動詞“打2”對應的模式類型和數量可能會有所增加,但都是基于原型模式通過添加附加角色或情態范疇遞歸形成的。該庫為動詞詞元涉及的句法成分、語義范疇、句模形式的描寫提供了語言資源。

4.3 總庫文件樣例

總庫的具體詞元樣例,因篇幅所限,僅能部分列舉分析,仍然以手部動作詞“打”進行說明。“打”的24個義項中,有些已經抽象化,屬于手部動作的轉義。在此僅分析與手部動作直接相關的七個具體義項,如表6所示。

表6 總庫文件樣例信息表

續表

5 主要應用

與以往的語義詞典相比,本詞典的主要特點是對詞匯語義和句法語義信息進行一體化描寫,不僅標注了動詞詞元的義類信息,同時給出了在組合層面關涉的句法語義范疇以及形成的語義組合模式,為詞匯與句法語義關系的描寫,尤其是“句法—語義”接口研究提供了平臺和語言資源。

首先,《詞典》所標注詞匯語義和句法語義信息,可以應用于詞匯語義計算。詞匯語義計算包括相關度計算和相似度計算兩種類型。相似度著眼于詞匯相互替換但不改變句法語義結構。相關度雖然涵蓋了相似度的概念,但二者并不完全一致。目前學界對相關度的研究較少。基于《詞典》中標注的義類知識和義場層級信息,可以計算同一義場詞元的語義相似度,也可以計算不同義場詞元的語義相關度。詞匯語義計算的相關數據可以服務于信息檢索、詞義消歧、文本分類以及文本聚類等方面。

其次,《詞典》中標注的句法成分、語義角色以及句模等信息,可以服務于語義關系的自動獲取。目前獲取方法主要有基于統計的機器學習方法或基于語言組合特征的關系獲取算法等[10]。自然語言處理領域的語義關系有不帶標記和帶標記兩種類型。前者通?;谕F統計的方法獲得, 只能表明詞語之間存在關系,卻不能體現是何種關系;后者能體現出詞語存在關系以及何種關系。本《詞典》 標注的豐富的句法語義信息,尤其是組合中的語義范疇和語義關系類型,可以服務于語義關系的自動獲取,從而呈現出帶有標記的語義關系。

再次,《詞典》為“詞匯—句法語義”的接口(或鏈接/銜接)研究提供支持平臺。漢語中大部分句子都是以動詞為中心的,基于語料庫構建的動詞語義知識詞典,對詞匯語義和句法語義進行了一體化描寫,為探討“詞匯—句法語義”的接口提供了基礎。具體思路是基于動詞語義詞典中所標注的詞匯語義和句法語義信息,考察詞匯單位實現為語義范疇,尤其是語義角色的機制、語義角色的排序機制、語義角色句法實現機制以及語用制約機制。因為某一義類的詞元類聚為同一義場,同一義場詞元往往具有相同的句法表現。具體考察時以義場為單位,基于《詞典》中的標注信息和統計數據,考察并得出義類與角色范疇的對應關系、角色范疇與句法成分的對應關系,以及角色范疇句法實現時與語用的制約關系。

最后,基于《詞典》,開發了句法語義范疇標注工具。不僅可以對語料文本進行句法語義范疇的標注,還可以提取動詞關涉的語義角色頻度信息,以及所形成的語義結構信息。如基于《詞典》提取的關于動詞“打2”(毆打)的部分語義結構信息,具體如圖3所示。

圖3 “打2”的語義結構模式圖

此外,《詞典》還可以應用于: ①某一詞元的義類義場的提取和統計研究;②同一義場詞元形成語義框架的對比研究等,不再贅述。

6 結論

綜上,本文在對國內外語義詞典評述的基礎上,吸收動詞研究的已有相關成果,提出了動詞語義詞典開發的相關原則和研制思路,界定并描寫了詞典所涉及的相關屬性信息,并對詞典的總體文件結構及其庫的信息進行了描寫和說明,并進一步指出了本詞典的主要用途和應用前景。創新之處主要表現為: ①詞典中所確定的相關屬性信息及描寫方法為之后的動詞語義詞典開發提供了樣例和參考模板; ②對批量動詞詞元進行詞匯語義和句法語義的一體化描寫,為語義形式化和句法語義關系的獲取提供了基礎; ③對常用動詞詞元從釋義、義類、語義層級、語義關系到語義差異進行多層次深度刻畫,為動詞的語義分析和處理提供豐富的語義資源;④基于語義詞典開發了相關的標注工具和軟件,為大規模語料的句法語義標注提供了便利。

受字數等諸多因素的限制,文中僅對詞典的整體框架進行展示,對于某些屬性信息及關系缺乏更充分的描寫和介紹。同時,動詞語義知識詞典的開發,需要根據研制目的,制定相應的標注規范和標注規模,其具體標注過程耗時費力,目前所開發的規模還比較小,希望在進一步的研究中擴大規模,完善標注信息,以期能夠更好地服務于語義形式化和語言信息處理研究。

猜你喜歡
句法語義詞匯
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产91无毒不卡在线观看| 亚洲精品无码在线播放网站| 日本午夜三级| 亚洲天堂视频网| 99热国产在线精品99| 无码国产偷倩在线播放老年人| 尤物视频一区| 日韩国产一区二区三区无码| 丝袜无码一区二区三区| 亚洲精品色AV无码看| 国精品91人妻无码一区二区三区| 亚洲Aⅴ无码专区在线观看q| 中文字幕第4页| 99草精品视频| 丁香五月激情图片| 91久久夜色精品国产网站| 国产日韩欧美成人| 99热6这里只有精品| 欧美不卡在线视频| 中文字幕亚洲电影| 婷婷综合亚洲| 中文字幕啪啪| 最新国产午夜精品视频成人| 日韩av资源在线| 久久国产乱子伦视频无卡顿| 五月丁香在线视频| 一本无码在线观看| 在线精品视频成人网| 人妻丰满熟妇AV无码区| 成人一级免费视频| 手机精品福利在线观看| 无码人妻免费| 欧美日本在线一区二区三区| 欧美色图久久| 日韩在线播放中文字幕| 久久五月天国产自| 亚洲激情区| 国产一级毛片yw| 亚洲欧美日韩动漫| 天天躁日日躁狠狠躁中文字幕| 久久综合色视频| 免费一极毛片| 99热这里只有精品2| 国产精品免费p区| 国产理论最新国产精品视频| 成人福利在线看| 97在线免费| 国产网站黄| 日本人又色又爽的视频| 国产chinese男男gay视频网| 成人午夜视频免费看欧美| 激情在线网| 中文字幕亚洲专区第19页| 国产在线无码一区二区三区| 中文字幕永久在线观看| 老司机aⅴ在线精品导航| 欧美日韩资源| 亚洲成av人无码综合在线观看| 高清无码手机在线观看| 97国产精品视频自在拍| 自偷自拍三级全三级视频| 欧美日韩午夜| 亚洲AV永久无码精品古装片| av一区二区三区高清久久| 无遮挡国产高潮视频免费观看| 欧美a级在线| 狠狠综合久久久久综| 91精品国产自产91精品资源| 国产女人在线视频| 日韩欧美中文在线| 日本高清有码人妻| 国产日韩欧美在线播放| 国产在线一区视频| 国产白浆在线观看| 99国产精品免费观看视频| 国产在线一区视频| 国产91久久久久久| 99无码中文字幕视频| 一级爱做片免费观看久久| 亚洲男人的天堂视频| 欧美日韩综合网| 波多野结衣无码中文字幕在线观看一区二区 |