999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

《現(xiàn)代漢語析義元語言詞典》的開發(fā)與應用*

2011-08-07 05:05:34孫道功
辭書研究 2011年5期
關鍵詞:語義詞匯分析

孫道功

(南京師范大學文學院 江蘇 210097)

語義是目前語言信息處理的難點。如何解決語義的形式化問題,如何為計算機理解生成提供可形式化的語義網(wǎng)絡,成為語義研究的核心。2001年,李葆嘉提出了“面向信息處理的現(xiàn)代漢語元語言研究”這一課題,認為存在詞匯元語言、釋義元語言和析義元語言、認知元語言四個層面。析義元語言,即語義特征,簡稱義征,是比釋義元語言更加抽象的元語言系統(tǒng),具有人工語言性質。析義元語言研究通過對同一義場內義位的對比分析挖掘義征標記,屬于元語言研究的微觀層面。任何一個義位都是義征的聚合體,析義元語言詞典的開發(fā)正是基于此,在提取和建構現(xiàn)代漢語義征標記集的基礎上,對常用詞匯進行義征分析,按照義征排序規(guī)則(析義元句法模式)列出義征表達式,并根據(jù)屬性信息建立文件結構。

一、析義元語言詞典的收詞原則

收詞范圍和所收詞匯是衡量一部詞典質量優(yōu)劣的重要標準,析義元語言詞典建構亦是如此。但與常規(guī)詞典的不同之處表現(xiàn)在對詞的語義分析上。常規(guī)詞典對詞的分析通常采用詞匯釋義的方式,而析義元語言詞典的語義分析采用義征分析的方法。義征分析是析義元語言詞典建構的基石。析義元語言詞典收詞須遵循三個原則:

第一,代表性原則。代表性原則指所選詞匯應該具有較高的權威性和使用率,不應該僅僅適用于某一領域或通行于某一特定人群。目前漢語詞匯常用詞表有《漢語詞匯的統(tǒng)計與分析》(北京語言學院教學研究所1985)、《現(xiàn)代漢語三千常用詞表》(何克抗等1987)、《普通話三千常用詞表》(增訂本)(鄭林曦等1987)等。有的詞表是基于語料統(tǒng)計的方法建構的,如《漢語詞匯的統(tǒng)計與分析》;有的是詞匯研究的階段性成果,如《現(xiàn)代漢語三千常用詞表》《普通話三千常用詞表》。比較發(fā)現(xiàn),各個詞表雖然包含了一定量的共有詞匯,但也存在較大差異。而且通過基于個人語感的考察發(fā)現(xiàn),有些日常生活中的常用詞,在某些詞表中并未出現(xiàn)。

第二,廣布性原則。廣布性原則指所選詞匯應該具有較大覆蓋性和分布率,通行于各個領域。這與代表性原則有一定相似之處,但又有差異。代表性原則側重使用率,廣布性原則側重分布率。如《漢語詞匯的統(tǒng)計與分析》和《現(xiàn)代漢語三千常用詞表》的語料基礎是中小學教材,屬于母語教學領域;《普通話三千常用詞表》的語料基礎是多種工具書和課本,屬于普通話學習領域。各個詞表雖有一定代表性,但也有其語域的局限性。選取義征分析對象詞匯時,力求充分考慮到廣布性,盡量把各種語域中廣泛使用的詞語吸收進來。

第三,共現(xiàn)性原則。共現(xiàn)性指所選詞匯應該是在目前大多數(shù)詞典和詞表中收錄的。共現(xiàn)性的高低體現(xiàn)詞典或詞表研究者對某詞語認可程度的高低。細言之,共現(xiàn)性主要包括口語交際領域和書面語領域的共現(xiàn)以及母語教學領域和對外漢語教學領域的共現(xiàn)等。

基于以上三原則,考察選取詞匯義征分析的對象詞匯。到目前為止,已選取3500個常用詞匯作為義征分析對象。具體包括名詞1221個,動詞1002個,形容詞784個,副詞226個,類別詞(量詞)154個,代詞12個,數(shù)詞10個,其他虛詞暫收91個。擇詞時不拘泥于某一詞表或某一專著。把常用性強的詞語最大可能地吸收到分析范圍內,從而使所收錄的詞匯更具有代表性、廣布性和全面性。

二、析義元語言詞典的分析方法

使用限量詞匯進行詞典釋義是國外詞典釋義的主流。但國內很多詞典往往還停留在隨機釋義的層面。析義元語言作為最具人工語言性質的類型,與釋義元語言雖然不同,但其釋義同樣需要采用限量詞匯義征。析義元語言詞典的分析是基于《現(xiàn)代漢語詞匯義征標記集》(2836個標記)進行的。[1]具體分析時,依據(jù)義征分析步驟,并參考了漢語權威詞典的解釋。不同類型的詞語,在分析時會采用不同的義征序列模式,即析義元句法模式。以實詞義位為例,說明如下:

1.名詞義征分析模式

NGn+Pn(+F)

N是Noun的縮寫。G是Genus的縮寫,P是Property的縮寫,n表個數(shù),括號中F表語體、語用等附加說明,以下皆同。

NG表類別義征,NG的個數(shù)取決于語義分類層級,幾個NG之間必是上下義關系。P表屬性義征。F只有在所比較義位其他義征都相同,而要加以區(qū)分的情況下才出現(xiàn)。同場義位的區(qū)別表現(xiàn)在P上。因受篇幅所限,僅舉面食義場部分義位為例:

饅頭[+面食][+面粉][+發(fā)酵][-有餡][±圓形][-水煮][+熱蒸]

包子[+面食][+面粉][+發(fā)酵][+有餡][+圓形][-水煮][+熱蒸]

面條[+面食][+面粉][-發(fā)酵][-有餡][+線形][+水煮][-熱蒸]

水餃[+面食][+面粉][-發(fā)酵][+有餡][+半圓][+水煮][-熱蒸]雖然某些名詞可能采用其他分析模式,但上述模式是名詞義征分析的典型模式。

2.動詞義征分析模式

VGn+Sn+An(+F)

V是Verb的縮寫,S是Semantic role的縮寫,A是Action的縮寫。VG表類別義征。S表語義角色,通常n=3~5。A表動作行為義征,是對動作行為語義的凸顯描述或分解描述。同場義位的區(qū)別在于S和A的性質和數(shù)量。以手掌動作義場部分義位為例:

托[+動作][+手掌][+向上][+承受][+物體][-傳遞]

捂[+動作][+手掌][-向上][+蓋住][+物體][-傳遞]

接[+動作][+手掌][+向上][+接受][+物體][+傳遞]

3.代詞義征分析模式

RG+S+Pn(+F)

R是Pronoun的縮寫,因為已用P表屬性特征,故用英文第二個字母表示。RG是類別義征。S表指代的對象或范圍。同場義位的區(qū)別表現(xiàn)在P上。以人稱代詞義場部分義位為例:

我 [+代稱][+人類][+自稱][+單數(shù)]

你 [+代稱][+人類][+對稱][+單數(shù)]

他 [+代稱][+人類][+他稱][+單數(shù)]

4.形容詞義征分析模式

AGn+Sn+Pn(+F)

A是Adjective的縮寫。AG表類別義征。S表描寫對象,其數(shù)量取決于描寫深度。同場義位的差別表現(xiàn)在P的內容或數(shù)量上。以心情高漲類義場部分義位為例:

激動[+情形][+心情][+高漲][+沖動][+通用]

激昂[+情形][+心情][+高漲][+沖動][+高揚]

激憤[+情形][+心情][+高漲][+沖動][+憤怒]

5.副詞義征分析模式

DGn+Sn+Pn(+F)

D是Adverb的縮寫,因形容詞中已使用A,故用英文第二個字母表示。DG表類別義征,DG數(shù)量取決于語義分類層次。S表義位的限制對象或關涉范圍。同場義位的區(qū)別體現(xiàn)在P上。以時頻副詞義場部分義位為例:

往往[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數(shù)][+極多][+推定]

有時[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數(shù)][+很少][-定時]

常常[+時頻][+行為|狀況][+較長][+時段][+發(fā)生][+次數(shù)][+極多][-推定]

6.數(shù)詞義征分析模式

數(shù)目詞的析義元句法模式包括樞紐模式和其他模式兩類:

樞紐模式UG+Pn(+F)

其他模式UG+S1+A+S2

U是Numeral的縮寫,因名詞中已使用N,故用英文第二個字母表示。UG表類別義征,S是關涉對象,A是關系義征。以基數(shù)詞義場部分義位為例:

一[+數(shù)目][+獨立][+個體]

二[+數(shù)目][+成雙][+個體]

三[+數(shù)目][+二][+增加][+一個]

四[+數(shù)目][+三][+增加][+一個]

“一、二”的分析基于事物的個體和相配,屬性義征P的數(shù)量為2。在“三、四”中,S1、S2分別表參照對象和增加對象,A表計算關系。

7.類別詞義征分析模式

CGn+Pn+Sn(+F)

C是Category的縮寫。CG表類別義征。S表修飾對象或關涉范圍。同場義位的區(qū)別體現(xiàn)在P、S的內容上。以叢狀義場部分義位為例:

簇[+叢狀][+聚集][+密][+多][+植物][+毛發(fā)][+人類][-口語]

叢[+叢狀][+聚集][+密][+多][+植物][-毛發(fā)][-人類][-口語]

三、析義元語言詞典屬性信息的確立

為了語義形式化和語言處理的需要,《析義元語言詞典》設置以下屬性信息:

1.詞匯信息。即詞典中所收錄詞語。對于包含多個義項的詞根據(jù)義項分列。如總庫文件的收錄詞語樣例中的拍1、拍2。

2.常規(guī)信息。即詞的拼音信息。

3.語法信息。按照北京大學計算語言學研究所的《現(xiàn)代漢語語法信息詞典》,描寫所收詞匯的語法信息。

4.釋義信息。雖然與常規(guī)詞典釋義方式不同,但常規(guī)的詞典釋義仍是義征分析的借鑒,故在屬性信息中設立詞典釋義信息。

5.義類信息。庫中共分出四大義類:指稱類、陳述類、修飾限制類、情態(tài)功能類。

6.義場信息。析義元語言分析必須在義場中進行,基于所收詞匯共構建了551個義場。

7.義征表達式信息。與常規(guī)詞典的最大區(qū)別在于,析義元語言詞典的語義分析結果是通過義征表達式體現(xiàn)的。每一個義位的析義結果體現(xiàn)為一個有層次的義征表達序列。不同詞類的義位其義征表達式結構是不同的。

8.義位組合信息。同一義場義位組合時,往往具有共性特征。義位組合研究可以以義場為單位進行考察。如“穿著”場和“衣物”場組合,“進食”場和“食物”場組合。但具體來看,同一義場義位在組合小類上又有所區(qū)別。在文件結構中,會附加能與該義位組合的義場和義位信息。同時,義位進入組合后,詞義往往會發(fā)生變化,增加該義位進入組合的語義信息變化的常見類型分析和例證說明。

四、析義元語言詞典的文件結構

析義元語言詞典的編纂采取以義類為綱,以義場為單位分析的方法。從義類角度進行詞典編纂,最早可以追溯到成書于秦漢時期的《爾雅》。義類研究曾經(jīng)一度中斷,到了上世紀80年代,以《同義詞詞林》(梅家駒等1983)為發(fā)端,出現(xiàn)了諸多義類分析詞典。借鑒目前分類方法,基于日常感知,我們對基本詞匯進行語義分類。在具體研究中,將其分為4大類、15中類、42小類和551子場。如下圖所示。

為了語義研究的精細化,在進行析義元語言分析時,盡可能地再劃分小類和次小類,其中最深層次為8級,如“猴”,其語義類別層級是:事物-有形-生物-動物-野生-獸類-陸棲-小型。

1.詞典文件的總體結構及規(guī)模

析義元語言詞典采用關系數(shù)據(jù)庫技術,在Access下實現(xiàn)。詞典中信息都盡量用漢字表示。根據(jù)需要,詞典共設置了四個庫。其中總庫一個,義場義類信息庫一個,義征表達式信息庫一個,義位組合信息庫一個,這四個庫通過“詞匯”、“拼音”兩個字段鏈接。該詞典具有開放性,計劃收詞1萬條左右,目前已經(jīng)收錄并分析了3500詞。

2.庫文件的結構及屬性的描述

(1)總庫文件結構及屬性描述

總庫的具體屬性字段、字段寬度、屬性值描述如下:

(2)義類義場信息庫文件結構及屬性描述

義場義類信息庫主要包含兩部分:義類信息和義場信息。義類信息相對簡單,即總庫中的四大類:指稱類、陳述類、修飾限制類、情態(tài)功能類。義場信息比較復雜,對詞典中所收錄詞語,分層級列出所屬的義場信息,其中第一層就是義類屬性。如以下“指稱類”下的“人類稱謂”義場的“堂兄、堂妹、表兄、表妹”所處的層級:

第一層 第二層 第三層 第四層 第五層 第六層 第七層 第八層

指稱類——人類稱謂——親稱——親戚——同輩——堂親——男性——堂兄

指稱類——人類稱謂——親稱——親戚——同輩——堂親——女性——堂妹

指稱類——人類稱謂——親稱——親戚——同輩——表親——男性——表兄

指稱類——人類稱謂——親稱——親戚——同輩——表親——女性——表妹

(3)組合信息庫文件結構及屬性描述

義位組合信息庫比較復雜,包括兩部分內容,一是與該義位組合的義場信息,一是該義位組合時詞義變化信息。與某義位相組合的義場以及意義的凸顯變化類型,都是基于語料的考察得出的,限于篇幅不再列舉。

3.總庫文件所收詞語樣例

表1

五、析義元語言詞典的應用價值

析義元語言是元語言系統(tǒng)中最具人工性質的類型,其研究對語言信息處理與本體研究都有重要價值。概括言之,包括兩個方面。

1.服務于語言信息處理研究

世界范圍內的自然語言處理,經(jīng)過字處理、詞處理階段之后相繼進入句處理階段。以往句處理研究的重點是句法結構和語義角色的自動分析和標注,以及句法分析器的研制。根據(jù)語義語法學理論,句法植根于詞匯意義,詞匯意義決定句法語義,語義性是語言的本質屬性。句子的生成,需經(jīng)過對象世界-認知圖式—語義結構-句法結構四個階段實現(xiàn),其中語義結構是核心環(huán)節(jié)。語義研究的基石正是義征的提取和研究。析義元語言詞典的開發(fā),揭示了漢語常用詞匯的微觀語義層面,并提供了與之組合的常見義位,以及義位組合的語義變化信息,為句子生成和詞庫選擇提供幫助。同時析義元語言詞典把語義分析的顆粒度細化到了義征層面,能夠更加清楚地凸顯詞元之間的細微語義差異,為提高詞義消歧的精度提供了幫助。

2.豐富語義語法學理論

語義語法學強調語言的語義本質性,認為句法結構本質是相關義場的語義關聯(lián)或相關詞語的義征纏繞。“語義統(tǒng)一場”假說是語義語法理論的核心思想(李葆嘉2007)。析義元語言詞典的開發(fā),為漢語常用詞匯的詞匯語義系統(tǒng)建構和組合選擇提供元語言基礎,為義位組合的語義變化信息考察提供模型,為漢語詞匯研究提供義類分析框架。語義語法學的最終目標是建構語義網(wǎng)絡,而語義網(wǎng)絡建構的關鍵是詞匯-句法語義的銜接研究,其基本任務是:在詞匯語義層面,進行義征提取和義場建構;在句法語義層面,進行句法范疇歸納、句法范疇義征提取和語義句模建構。而析義元語言詞典的開發(fā),把漢語常用義位分析為義征表達式,為詞匯-句法語義的銜接提供詞匯語義基礎。這些無疑進一步豐富了語義語法學理論。

析義元語言詞典具有開放性,目前僅分析了部分常用詞,之后將逐步擴大規(guī)模。同時,析義元語言詞典的開發(fā)也是個長期艱巨的工程,到目前為止尚未有人對漢語詞匯做大規(guī)模的義征分析,這一狀況需要在研究中不斷地改進和完善。

附 注

[1]義征提取和義征標記集的建構,詳見孫道功等 《試論析義元語言標記集的建構》,《語言文字應用》2008年第2期,P132-138。該義征標記集共包括2836個義征標記,具有較強的解釋力。

1.安華林.現(xiàn)代漢語釋義基元詞研究.北京:中國社會科學出版社,2005.

2.亢世勇.《現(xiàn)代漢語新詞語信息電子詞典》的開發(fā)與應用.辭書研究,2001(1).

3.李葆嘉.理論語言學:人文與科學的雙重精神.南京:江蘇古籍出版社,2001.

4.李葆嘉等.語義語法學導論.北京:中華書局,2007.

5.梅家駒等.同義詞詞林.上海:上海辭書出版社,1983.

6.孫道功等.試論析義元語言標記集的建構.語言文字應用,2008(2).

猜你喜歡
語義詞匯分析
本刊可直接用縮寫的常用詞匯
隱蔽失效適航要求符合性驗證分析
一些常用詞匯可直接用縮寫
語言與語義
本刊可直接用縮寫的常用詞匯
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動化發(fā)展趨勢分析
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
本刊一些常用詞匯可直接用縮寫
主站蜘蛛池模板: 精品1区2区3区| 国产精品亚洲一区二区在线观看| 欧美激情二区三区| 色婷婷亚洲综合五月| 国产毛片高清一级国语 | 日韩欧美网址| 日本黄色a视频| 99在线免费播放| 综合久久五月天| 国产欧美另类| 国产www网站| 国产一区成人| 香蕉久久国产超碰青草| 亚洲欧美另类中文字幕| 99热这里只有精品2| 男人天堂亚洲天堂| 久久综合AV免费观看| 真实国产乱子伦高清| 国产特级毛片aaaaaa| 国产激情无码一区二区APP| 男人天堂亚洲天堂| 国产亚洲欧美在线专区| 国产成人精品一区二区三区| 中字无码av在线电影| 国产精品成人观看视频国产| 亚洲中文字幕久久精品无码一区| 亚洲第一页在线观看| 亚洲电影天堂在线国语对白| 中日无码在线观看| 91外围女在线观看| 国产精品 欧美激情 在线播放 | 五月天福利视频| 欧美黄网在线| 亚洲美女久久| 国产香蕉一区二区在线网站| 国产精品无码久久久久久| 天天综合天天综合| 亚洲美女视频一区| 最新亚洲人成无码网站欣赏网 | 日韩在线播放欧美字幕| 中文成人在线视频| 成人免费一区二区三区| 中文字幕 91| 囯产av无码片毛片一级| 黄色网页在线观看| 国产欧美日韩精品第二区| 2048国产精品原创综合在线| 国内精品视频区在线2021| 99在线国产| 蜜桃臀无码内射一区二区三区| 国产国模一区二区三区四区| 五月婷婷导航| 国产精品55夜色66夜色| …亚洲 欧洲 另类 春色| 国产素人在线| 操国产美女| 久精品色妇丰满人妻| 国产丝袜啪啪| 伊人久久福利中文字幕| 性欧美在线| 狠狠色综合网| 被公侵犯人妻少妇一区二区三区| 四虎影视8848永久精品| 欧美中文字幕一区| 精品国产一区二区三区在线观看 | 毛片网站在线播放| 久草国产在线观看| 专干老肥熟女视频网站| 国产原创演绎剧情有字幕的| 日韩精品欧美国产在线| 久久动漫精品| 国内精品小视频在线| 亚洲国产天堂久久综合| 孕妇高潮太爽了在线观看免费| 亚洲天堂网2014| 国产毛片一区| 成人免费网站久久久| 亚洲精品波多野结衣| 亚洲天堂网视频| 亚洲黄色高清| 综合网天天| 亚洲乱码在线视频|