999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大規(guī)模語(yǔ)料庫(kù)的現(xiàn)代漢語(yǔ)動(dòng)賓搭配知識(shí)庫(kù)構(gòu)建

2021-03-18 07:17:48王貴榮饒高琦1荀恩東
中文信息學(xué)報(bào) 2021年1期
關(guān)鍵詞:語(yǔ)義語(yǔ)言

王貴榮,饒高琦1,,荀恩東

(1. 北京語(yǔ)言大學(xué) 漢語(yǔ)國(guó)際教育研究院,北京 100083;2. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京 100083)

0 引言

在任何語(yǔ)言里,詞語(yǔ)搭配都是一個(gè)重要問(wèn)題,在漢語(yǔ)中,尤為突出。從語(yǔ)言本體來(lái)看,漢語(yǔ)重“意合”,詞語(yǔ)缺乏形態(tài)變化,詞與詞的搭配有時(shí)會(huì)超出語(yǔ)法形式的約束,只要滿足意義、邏輯的要求就可以搭配。因此,無(wú)論是語(yǔ)言本體還是語(yǔ)言教學(xué)研究,詞語(yǔ)搭配都是言語(yǔ)組裝的重要環(huán)節(jié)。從自然語(yǔ)言理解來(lái)看,要實(shí)現(xiàn)計(jì)算機(jī)對(duì)自然語(yǔ)言的“理解”,語(yǔ)言知識(shí)是必不可少的。而漢語(yǔ)缺乏形態(tài)變化,不能提供充分的形式化知識(shí),因此,詞語(yǔ)搭配知識(shí)也就成為自然語(yǔ)言理解各子任務(wù)的一個(gè)重要知識(shí)源。由于詞語(yǔ)搭配描述的是詞與詞之間的組合情況,既包含結(jié)構(gòu)知識(shí)也包含語(yǔ)義知識(shí),更能準(zhǔn)確地刻畫(huà)出句子中詞與詞之間的聯(lián)系,在句法分析中受到人們廣泛的重視。依存句法認(rèn)為,動(dòng)詞是句子的中心,依存分析中各個(gè)節(jié)點(diǎn)都是詞,不存在詞和短語(yǔ)或短語(yǔ)之間的關(guān)系判定問(wèn)題,主要是通過(guò)獲取句子的核心動(dòng)詞及其所支配的詞語(yǔ)搭配,進(jìn)而分析句子內(nèi)詞語(yǔ)之間的依存關(guān)系,以建立依存句法樹(shù)。

一般而言,動(dòng)賓結(jié)構(gòu)在SVO型語(yǔ)言里是很常見(jiàn)的,是句內(nèi)的核心成分,處于優(yōu)勢(shì)地位,可以形象地稱之為“骨架”,它實(shí)際上映射了整個(gè)句子的輪廓。1942年呂叔湘先生在《中國(guó)文法要略》中就指出“句子的中心是一個(gè)動(dòng)詞”[1]。1959年法國(guó)語(yǔ)言學(xué)家特思尼耶爾(L Tesniere)在“依存語(yǔ)法”的代表作《結(jié)構(gòu)句法基礎(chǔ)》中明確指出“動(dòng)詞是句子的中心,它支配著別的成分,而它本身卻不受其他任何成分的支配。動(dòng)詞在句子中起的作用是關(guān)聯(lián),就是說(shuō)動(dòng)詞把句子中其他的詞連成了一個(gè)整體。”[2]只要能準(zhǔn)確識(shí)別出動(dòng)賓結(jié)構(gòu),就能在此基礎(chǔ)上進(jìn)行一些后續(xù)分析,從動(dòng)詞出發(fā),可以向左識(shí)別各種狀語(yǔ),逼近句子的主語(yǔ)成分,從賓語(yǔ)出發(fā),可以向左識(shí)別賓語(yǔ)的各種修飾成分,逼近動(dòng)詞,從而為實(shí)現(xiàn)深層句法分析奠定一定的研究基礎(chǔ)。本文以大數(shù)據(jù)為支撐,構(gòu)建動(dòng)賓搭配知識(shí)庫(kù),以期為句法分析提供結(jié)構(gòu)化引導(dǎo)知識(shí),提高句法分析的準(zhǔn)確率,同時(shí)該知識(shí)庫(kù)也可為語(yǔ)言本體、語(yǔ)言教學(xué)研究等提供大量實(shí)例。

1 研究現(xiàn)狀

1.1 語(yǔ)言學(xué)界的研究

一直以來(lái),現(xiàn)代語(yǔ)言學(xué)界關(guān)于動(dòng)賓搭配的研究就層出不窮,研究思路主要有四種。

一是在格語(yǔ)法的理論視角下,用賓語(yǔ)的語(yǔ)義角色的來(lái)對(duì)賓語(yǔ)進(jìn)行分類,主要的研究有李臨定[3]、馬慶株[4]等;也有學(xué)者展開(kāi)了賓語(yǔ)不同語(yǔ)義角色的細(xì)致研究,如宋玉柱[5]介紹了原因賓語(yǔ)的類型及不同類型中充當(dāng)原因賓語(yǔ)的成分;陳昌來(lái)[6]否認(rèn)了工具成分可以表現(xiàn)為主語(yǔ)、賓語(yǔ),并介紹了工具成分可以出現(xiàn)的句法結(jié)構(gòu);趙旭[7]研究了處所賓語(yǔ)的判別標(biāo)準(zhǔn)、內(nèi)部小類以及非典型處所賓語(yǔ)的生成動(dòng)因。

二是以配價(jià)語(yǔ)法為理論支撐,從動(dòng)詞價(jià)位的角度來(lái)考察動(dòng)詞所帶的賓語(yǔ),如羅夢(mèng)鹿[8]指出雙賓語(yǔ)句式動(dòng)詞包括大部分三價(jià)動(dòng)詞和一部分二價(jià)動(dòng)詞;王慧[9]分析了二價(jià)動(dòng)詞不帶賓語(yǔ)、帶單賓語(yǔ)和帶雙賓語(yǔ)的情況;袁毓林[10]提出了一種基于配價(jià)層級(jí)和配位方式的漢語(yǔ)配價(jià)語(yǔ)法的描寫(xiě)模型,用以全面地反映動(dòng)詞在不同的句式中對(duì)名詞性成分的支配能力及其句法組配方式。

三是從韻律的角度分析了動(dòng)賓搭配的規(guī)律,如呂叔湘[11]指出漢語(yǔ)雙音化傾向明顯,并分析了單雙音節(jié)對(duì)漢語(yǔ)劃分詞語(yǔ)邊界的影響;馮勝利[12]系統(tǒng)闡釋了韻律構(gòu)詞學(xué)和韻律句法學(xué)這兩個(gè)全新的理論系統(tǒng);駱健飛[13]指出單音節(jié)動(dòng)詞一般是強(qiáng)時(shí)空動(dòng)詞,傾向于搭配工具、方式類賓語(yǔ),雙音節(jié)動(dòng)詞一般是泛時(shí)空動(dòng)詞,傾向于搭配原因、目的類賓語(yǔ)。

四是從賓語(yǔ)的體謂性來(lái)考察動(dòng)詞特征,如宋玉柱[14]提出將動(dòng)詞按賓語(yǔ)的語(yǔ)法性質(zhì)劃分為體賓動(dòng)詞、謂賓動(dòng)詞和體謂賓動(dòng)詞三類;亢世勇[15]對(duì)常用謂賓動(dòng)詞帶動(dòng)賓、形賓、小句賓進(jìn)行了分類統(tǒng)計(jì);陳永莉[16]指出形式動(dòng)詞只能帶雙音節(jié)動(dòng)詞賓語(yǔ),并介紹了形式動(dòng)詞受事成分的語(yǔ)法位置和賓語(yǔ)擴(kuò)展形式;崔少娟[17]、孫萍[18]從動(dòng)詞分類、賓語(yǔ)語(yǔ)義特征等方面對(duì)《現(xiàn)代漢語(yǔ)動(dòng)詞用法詞典》中的謂賓動(dòng)詞進(jìn)行了全面研究;梁永紅[19]研究了及物動(dòng)詞帶名賓情況的發(fā)展變化的具體表現(xiàn)、特征以及影響因素。

從筆者的調(diào)研情況來(lái)看,目前已有的對(duì)動(dòng)賓搭配的研究,基本都是選取動(dòng)賓搭配的某一側(cè)面進(jìn)行定性研究,且文中也都是通過(guò)舉例的方式來(lái)驗(yàn)證結(jié)論,尚未有人基于大數(shù)據(jù)對(duì)動(dòng)賓搭配進(jìn)行抽取和研究。

1.2 中文信息處理領(lǐng)域的研究

相對(duì)語(yǔ)言本體領(lǐng)域豐富多彩的研究,中文信息處理領(lǐng)域關(guān)于動(dòng)賓搭配的研究則比較單一,主要是從動(dòng)賓搭配的自動(dòng)識(shí)別角度展開(kāi)研究的,如孫宏林[20]從語(yǔ)料庫(kù)中歸納了判斷“V+N”序列是合法短語(yǔ)的14條語(yǔ)法規(guī)則;高建忠[21]提出“匹配+語(yǔ)義限制”和“匹配+詞語(yǔ)相似度”計(jì)算模型,用于動(dòng)賓搭配的自動(dòng)識(shí)別;李晉霞[22]從內(nèi)部構(gòu)成出發(fā)以定中“V_雙+N_雙”結(jié)構(gòu)類型的識(shí)別為突破口提出“V_雙+N_雙”結(jié)構(gòu)類型自動(dòng)識(shí)別的規(guī)則;程月等人[23]提出機(jī)器學(xué)習(xí)中的條件隨機(jī)場(chǎng)方法,用于漢語(yǔ)動(dòng)賓搭配的自動(dòng)識(shí)別。也有學(xué)者開(kāi)始從語(yǔ)義的角度進(jìn)行研究,如周衛(wèi)華[24]從動(dòng)賓之間的語(yǔ)義角色關(guān)系、動(dòng)詞對(duì)賓語(yǔ)的語(yǔ)義選擇限制這兩個(gè)方面詳盡地考察了500個(gè)單音節(jié)動(dòng)詞和賓語(yǔ)之間的語(yǔ)義搭配情況;李斌[25]對(duì)動(dòng)賓之間語(yǔ)義選擇限制的多樣性和強(qiáng)度差異做了系統(tǒng)標(biāo)注和統(tǒng)計(jì)分析。

目前學(xué)者對(duì)動(dòng)賓搭配所做的研究,無(wú)論是基于結(jié)構(gòu)進(jìn)行的對(duì)動(dòng)賓搭配的自動(dòng)識(shí)別和獲取,還是跳過(guò)結(jié)構(gòu)直接對(duì)動(dòng)賓搭配進(jìn)行語(yǔ)義分析和計(jì)算的,都是在探究動(dòng)賓搭配的一種形式化規(guī)律,以方便計(jì)算機(jī)的處理,但是這種方法也只能覆蓋語(yǔ)言中的一些高頻現(xiàn)象。

此外,圍繞中文信息處理構(gòu)建的知識(shí)庫(kù)也有很多。如由山西大學(xué)建設(shè)的漢語(yǔ)框架語(yǔ)義知識(shí)庫(kù)(CFN)[26]是以加州大學(xué)伯克利分校的FrameNet為參照、以漢語(yǔ)真實(shí)語(yǔ)料為依據(jù)的供計(jì)算機(jī)使用的漢語(yǔ)詞匯語(yǔ)義知識(shí)庫(kù),主要包括框架庫(kù)、句子庫(kù)和詞元庫(kù)三部分。其中,詞元庫(kù)記錄了詞元的語(yǔ)義搭配模式和框架元素的句法實(shí)現(xiàn)方式。由北京大學(xué)開(kāi)發(fā)的《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典》[27]是為計(jì)算機(jī)實(shí)現(xiàn)漢語(yǔ)分析和漢語(yǔ)生成而研制的一部電子詞典,全面地描述了所收錄詞語(yǔ)的語(yǔ)法信息。知網(wǎng)(HowNet)[28]是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。北京大學(xué)袁毓林主持建設(shè)的《北京大學(xué)現(xiàn)代漢語(yǔ)實(shí)詞句法語(yǔ)義功能信息詞典》[29],其中,《動(dòng)詞句法語(yǔ)義功能信息詞典》主要包括動(dòng)詞的語(yǔ)法功能、語(yǔ)義角色及動(dòng)詞和語(yǔ)義角色組配的句法格式。句法組配格式提供句法上可搭配的位置,動(dòng)賓搭配提供語(yǔ)義上可搭配的詞語(yǔ),二者配合使用,漢語(yǔ)句法語(yǔ)義分析將獲得重大進(jìn)步。也有學(xué)者編纂過(guò)搭配詞典,如張壽康和林杏光主編的《現(xiàn)代漢語(yǔ)實(shí)詞搭配詞典》、趙培癢編著的《常用詞語(yǔ)搭配詞典》等。但它們只收錄了高頻使用的搭配,規(guī)模相對(duì)較小,不能全面反映動(dòng)賓的搭配情況。目前已有的知識(shí)庫(kù)主要提供語(yǔ)義、語(yǔ)法、常識(shí)知識(shí),對(duì)動(dòng)詞各方面的知識(shí)有詳盡描寫(xiě),具有一定的形式化能力,一定程度上促進(jìn)了中文信息處理技術(shù)的發(fā)展。但這些知識(shí)庫(kù)仍以對(duì)語(yǔ)言學(xué)知識(shí)的抽象表征為主,計(jì)算機(jī)使用起來(lái)不夠便捷。

本文擬基于BCC語(yǔ)料庫(kù)構(gòu)建動(dòng)賓搭配知識(shí)庫(kù)。BCC語(yǔ)料庫(kù)語(yǔ)料來(lái)源領(lǐng)域較多,有文學(xué)、科技、報(bào)刊、博客等,能覆蓋更多的語(yǔ)言現(xiàn)象,且BCC語(yǔ)料庫(kù)處于動(dòng)態(tài)更新?tīng)顟B(tài),能及時(shí)捕獲新的語(yǔ)言現(xiàn)象。基于該語(yǔ)料庫(kù)構(gòu)建的動(dòng)賓搭配知識(shí)庫(kù)更具全面性、時(shí)效性,對(duì)語(yǔ)言研究和語(yǔ)言教學(xué)而言,具有更高價(jià)值。動(dòng)賓搭配知識(shí)抽取也是信息抽取的一項(xiàng)子任務(wù),能夠用于詞義消歧、信息檢索、機(jī)器翻譯、句法分析、自然語(yǔ)言生成等多個(gè)方面。如詞義消歧方面,人能夠正確無(wú)誤地理解某個(gè)詞語(yǔ),就是利用了詞語(yǔ)的上下文信息,而詞語(yǔ)搭配正是確定詞語(yǔ)義項(xiàng)的上下文,動(dòng)賓搭配知識(shí)為動(dòng)詞歧義消解提供了知識(shí)源。機(jī)器翻譯方面,由于不同語(yǔ)言的搭配規(guī)律不同,造成不同語(yǔ)言詞語(yǔ)之間的對(duì)等翻譯極為困難,詞語(yǔ)搭配的翻譯將有助于提高翻譯質(zhì)量。句法分析方面,動(dòng)賓搭配作為句法、語(yǔ)義雙重關(guān)系的載體,能夠幫助確定句子的核心成分關(guān)系,提高分析精度。

本文的研究將從以下幾個(gè)方面具體開(kāi)展: 首先,從語(yǔ)言本體的角度出發(fā),總結(jié)動(dòng)賓搭配知識(shí)體系;其次,根據(jù)動(dòng)賓搭配知識(shí)體系制定BCC語(yǔ)料庫(kù)的檢索式,獲得動(dòng)賓搭配知識(shí)對(duì);最后,根據(jù)檢索結(jié)果優(yōu)化檢索式,并對(duì)獲得的動(dòng)賓搭配知識(shí)進(jìn)行消歧。

2 動(dòng)賓搭配知識(shí)體系

前人從語(yǔ)言學(xué)角度對(duì)動(dòng)賓搭配所做的研究相對(duì)較多,但前人研究多是從語(yǔ)義角度展開(kāi)的,不利于形式化抽取。本文主要從賓語(yǔ)由哪些詞類或結(jié)構(gòu)充當(dāng)?shù)慕嵌日韯?dòng)賓搭配知識(shí)體系,首先從宏觀的角度將動(dòng)賓搭配分為三大類型,根據(jù)賓語(yǔ)的體謂性將動(dòng)賓搭配分為“動(dòng)+體賓”和“動(dòng)+謂賓”兩大類,又因?yàn)殡p賓語(yǔ)的情況比較特殊,故沒(méi)有將“動(dòng)+雙賓”歸為上述兩類中,單獨(dú)歸為一類;其次,對(duì)每一大類下的賓語(yǔ)構(gòu)成做細(xì)致區(qū)分,并列舉相應(yīng)例句,該過(guò)程以朱德熙、李臨定、劉月華先生的賓語(yǔ)語(yǔ)義分類為主,結(jié)合高校使用的現(xiàn)代漢語(yǔ)教材中對(duì)賓語(yǔ)構(gòu)成成分的說(shuō)明(表1),最終形成一個(gè)動(dòng)賓語(yǔ)義全面且便于形式化檢索的知識(shí)體系。本文在抽取動(dòng)賓搭配知識(shí)時(shí),考慮到語(yǔ)言層層遞歸的復(fù)雜性以及抽取方式的局限,只對(duì)一般名賓、代詞賓語(yǔ)、數(shù)量名賓語(yǔ)、簡(jiǎn)單定中作賓語(yǔ)、動(dòng)詞賓語(yǔ)、形容詞賓語(yǔ)進(jìn)行了抽取。

表1 前人的賓語(yǔ)分類體系

前人對(duì)體詞性賓語(yǔ)的語(yǔ)義類研究較多,謂詞性賓語(yǔ)一般分為動(dòng)賓和小句賓。為便于書(shū)寫(xiě)形式化的檢索式,本文從充當(dāng)賓語(yǔ)的詞類出發(fā),對(duì)賓語(yǔ)進(jìn)行重新分類,盡可能覆蓋所有的賓語(yǔ)語(yǔ)義角色。賓語(yǔ)的常用語(yǔ)義角色基本是一般名詞(n)作賓語(yǔ),本文把能用詞性區(qū)分出來(lái)的處所賓語(yǔ)(ns)單獨(dú)劃分為一類,其余都?xì)w入一般名賓;數(shù)量結(jié)構(gòu)作賓語(yǔ),本文認(rèn)為動(dòng)量短語(yǔ)是對(duì)動(dòng)作的補(bǔ)充說(shuō)明,是補(bǔ)語(yǔ)而不是賓語(yǔ),將名量短語(yǔ)和時(shí)量結(jié)構(gòu)作賓語(yǔ)劃分為數(shù)量賓語(yǔ);代詞和聯(lián)合短語(yǔ)作賓語(yǔ),根據(jù)體謂性將其分別歸入體賓和謂賓中;存現(xiàn)句是一種特殊句法現(xiàn)象,且存現(xiàn)動(dòng)詞是一個(gè)封閉的類,故將存現(xiàn)賓語(yǔ)單獨(dú)劃分為一類。只有朱德熙先生的分類中有程度賓語(yǔ),本文認(rèn)為其是程度補(bǔ)語(yǔ),不納入賓語(yǔ)范圍。體詞性賓語(yǔ)中其他小類劃分情況較為一致,這里沿用前人分類。謂詞性賓語(yǔ)中,過(guò)去都只是粗略分為動(dòng)賓、形賓、小句賓,本文將可以充當(dāng)賓語(yǔ)的謂詞性結(jié)構(gòu)均單獨(dú)分類,更加細(xì)致,便于從形式上區(qū)分。另只有黃廖本的《現(xiàn)代漢語(yǔ)》中提到復(fù)句作賓語(yǔ)的情況,鑒于復(fù)句也是謂詞性的,將其劃分為謂賓下的一類。雙賓動(dòng)詞也是一個(gè)封閉詞表,根據(jù)雙賓中兩個(gè)賓語(yǔ)的類型劃分為“真賓+準(zhǔn)賓”“真賓+真賓”兩類。綜上,本文定義的動(dòng)賓搭配知識(shí)體系如表2所示。

表2 動(dòng)賓搭配知識(shí)體系表

續(xù)表

3 動(dòng)賓搭配獲取

3.1 檢索系統(tǒng)

本文獲取動(dòng)賓搭配知識(shí)的語(yǔ)料庫(kù)是對(duì)外開(kāi)放的北京語(yǔ)言大學(xué)語(yǔ)料庫(kù)BCC(http://bcc.blcu.edu.cn)的延伸版,其包括報(bào)刊、文學(xué)、科技、微博等各領(lǐng)域的語(yǔ)料,數(shù)據(jù)規(guī)模較公開(kāi)版更大,約1.1萬(wàn)億字。該語(yǔ)料庫(kù)能夠支持集字符、屬性和結(jié)構(gòu)信息為一體的復(fù)雜查詢,且檢索速度較快。基于該語(yǔ)料庫(kù)抽取動(dòng)賓搭配知識(shí),需要制定相應(yīng)的BCC檢索式,接下來(lái)將詳細(xì)介紹檢索式的構(gòu)成。

3.1.1 簡(jiǎn)單檢索

簡(jiǎn)單檢索的檢索式只有Query部分,可以包含字符串、詞性符號(hào)、離合符號(hào)“*”、單個(gè)詞語(yǔ)標(biāo)識(shí)符“~”、空格等內(nèi)容,對(duì)上下文的限制較少,只能表達(dá)簡(jiǎn)單的結(jié)構(gòu)和語(yǔ)義信息。BCC簡(jiǎn)單檢索式構(gòu)成具體介紹如表3所示。

表3 BCC簡(jiǎn)單檢索式構(gòu)成說(shuō)明

續(xù)表

3.1.2 復(fù)雜檢索

復(fù)雜檢索的檢索式包括Query和Condition兩部分,形如“Query{condition1;condition2;...;print($i)}”。從功能上看,復(fù)雜檢索式可以對(duì)上下文進(jìn)行條件約束,對(duì)抽取部分進(jìn)行韻律結(jié)構(gòu)限制、詞屬性類限制,同時(shí)可以實(shí)現(xiàn)同一個(gè)檢索式中詞表的實(shí)例化檢索,提高檢索效率。從形式上看,復(fù)雜檢索式的Query部分可以出現(xiàn)“()”,表示被限定的部分,condition部分表示條件限制,print表示輸出語(yǔ)句。如“不(v) (n) W{len($1)=2;len($2)=2;print($1$2)}”,表示“不+雙音節(jié)v+雙音節(jié)n+標(biāo)點(diǎn)”共現(xiàn)的情況,用“()”括起來(lái)的部分表示需要予以限定的部分,“$1”表示第一個(gè)被括起來(lái)的部分,可以用詞表對(duì)其進(jìn)行類的限制,“[S_T_體謂準(zhǔn)_體]”為自定義詞表,表示體賓動(dòng)詞,也可對(duì)音節(jié)進(jìn)行限制,“l(fā)en($1)=2”表示第一個(gè)元素即“v”是雙音節(jié)的;“W”表示標(biāo)點(diǎn)符號(hào),這里是指以標(biāo)點(diǎn)結(jié)尾的動(dòng)名搭配;“print($1$2)”這里表示輸出query部分被括起來(lái)的內(nèi)容,即只輸出“v n”搭配,沒(méi)有print語(yǔ)句時(shí),默認(rèn)輸出整個(gè)檢索式的檢索結(jié)果。同時(shí),復(fù)雜檢索式可以使用“$V”表示實(shí)例化檢索式詞表中的詞,如“$V=[S_V_趨_趨向動(dòng)詞]”,表示將趨向動(dòng)詞表中的詞語(yǔ)逐個(gè)放入檢索式中“$V”的位置進(jìn)行檢索。

3.1.3 簡(jiǎn)單檢索與復(fù)雜檢索抽取結(jié)果對(duì)比

簡(jiǎn)單檢索式抽取結(jié)果和復(fù)雜檢索式抽取結(jié)果對(duì)比如表4所示。

表4 簡(jiǎn)單檢索與復(fù)雜檢索抽取結(jié)果對(duì)比

簡(jiǎn)單檢索式“v n”抽取的搭配中“采訪時(shí)、參與方式”并不是動(dòng)賓搭配,“采訪時(shí)”的韻律構(gòu)成是2+1,馮勝利[12]指出“2+1”式動(dòng)賓組合容易導(dǎo)致“抑揚(yáng)”結(jié)構(gòu),普通重音無(wú)法實(shí)現(xiàn),不易構(gòu)成動(dòng)賓搭配,因此,可以分別采用不同的韻律構(gòu)成單獨(dú)檢索。“參與方式”是動(dòng)詞作定語(yǔ)構(gòu)成的定中結(jié)構(gòu),而動(dòng)詞作定語(yǔ)時(shí),一般是不能被否定副詞修飾的,可以在檢索式中加入否定副詞“不”進(jìn)行限制,如復(fù)雜檢索式“不(v)(n) W{len($1)=2;len($2)=2;print($1$2)}”,則可以避免上述情況的出現(xiàn),提高檢索的準(zhǔn)確性。簡(jiǎn)單檢索式“打 * n”只能抽取關(guān)于動(dòng)詞“打”的離合型名詞賓語(yǔ),而不同屬性類的動(dòng)詞帶賓的上下文情況不同,需要根據(jù)動(dòng)詞小類及賓語(yǔ)上下文情況細(xì)化檢索式。復(fù)雜檢索式“$V過(guò)(n) W{$V=[S_V_趨向動(dòng)詞_趨];len($1)=2}”中,“$V”表示動(dòng)詞某一屬性類的詞表,該檢索式可以對(duì)詞表內(nèi)的詞語(yǔ)進(jìn)行實(shí)例化檢索,大大提高檢索效率。經(jīng)過(guò)對(duì)比可知,復(fù)雜檢索式效果要好于簡(jiǎn)單檢索式,故本文在抽取時(shí)大多采用復(fù)雜檢索式。

3.2 動(dòng)賓搭配規(guī)則

上一節(jié)詳細(xì)介紹了動(dòng)賓搭配的分類情況,本節(jié)將詳細(xì)說(shuō)明為抽取動(dòng)賓搭配知識(shí)制定的檢索式情況。現(xiàn)代漢語(yǔ)語(yǔ)法具有遞歸性,不同結(jié)構(gòu)類型層層嵌套形成的動(dòng)賓結(jié)構(gòu)比較復(fù)雜,故本文目前只抽取了簡(jiǎn)單類型的賓語(yǔ),即體詞性賓語(yǔ)中的一般名賓、代詞賓語(yǔ)、數(shù)量名賓語(yǔ)的連續(xù)類型和離合類型,謂詞性賓語(yǔ)中的動(dòng)詞賓語(yǔ)和形容詞賓語(yǔ)的連續(xù)類型和離合類型。根據(jù)這幾種情況,再分別從屬性類、上下文、韻律結(jié)構(gòu)和自然標(biāo)注信息等方面添加限制條件,共制定檢索式223個(gè)。

3.2.1 連續(xù)型動(dòng)賓搭配規(guī)則

連續(xù)型動(dòng)賓主要抽取了動(dòng)詞后緊鄰賓語(yǔ)的情況,在檢索時(shí)重點(diǎn)關(guān)注動(dòng)詞的上下文,從動(dòng)詞的修飾語(yǔ)、屬性類、動(dòng)賓的韻律構(gòu)成和標(biāo)點(diǎn)信息等方面來(lái)添加限制條件,盡可能使抽取的搭配能夠構(gòu)成動(dòng)賓關(guān)系。連續(xù)型動(dòng)賓檢索情況如表5所示。

表5 連續(xù)型動(dòng)賓檢索情況

續(xù)表

3.2.2 離合型動(dòng)賓搭配規(guī)則

離合型動(dòng)賓主要抽取了動(dòng)詞和賓語(yǔ)之間有其他詞語(yǔ)出現(xiàn)的情況,抽取時(shí)重點(diǎn)關(guān)注能出現(xiàn)在動(dòng)賓之間的不同離合成分,抽取了離合成分為“著了過(guò)”、“了個(gè)”、數(shù)量、賓語(yǔ)的定語(yǔ)成分等的動(dòng)賓搭配。離合型動(dòng)賓檢索情況如表6所示。

表6 離合型動(dòng)賓檢索情況

3.3 動(dòng)賓搭配消歧

在第一輪抽取工作結(jié)束后,筆者詳細(xì)觀察了抽取到的動(dòng)賓搭配知識(shí),發(fā)現(xiàn)抽取的知識(shí)長(zhǎng)尾效應(yīng)明顯,且由于語(yǔ)料的分詞錯(cuò)誤、詞性標(biāo)注錯(cuò)誤和檢索式的局限性,抽取到的動(dòng)賓搭配數(shù)據(jù)中也存在著一些非動(dòng)賓搭配的類型。動(dòng)賓搭配知識(shí)作為句法分析中最基礎(chǔ)的資源,其準(zhǔn)確性直接影響整個(gè)句法分析器的效果,因此,為了獲得更為準(zhǔn)確的動(dòng)賓搭配知識(shí),本文從檢索式書(shū)寫(xiě)、動(dòng)詞、賓語(yǔ)等方面進(jìn)行了初步的消歧。

3.3.1 檢索式優(yōu)化

為提高檢索結(jié)果的準(zhǔn)確率,筆者對(duì)初步制定的223個(gè)檢索式人工進(jìn)行了有效性評(píng)估,分別用1到5來(lái)表示檢索式有效性從低到高,對(duì)于有效性低于3的檢索式從限制動(dòng)詞和賓語(yǔ)兩個(gè)方面進(jìn)行改進(jìn),若改進(jìn)后檢索效果有所提升,則保留改進(jìn)后的檢索式,若改進(jìn)后檢索效果仍不理想,則舍棄該檢索式。如簡(jiǎn)單檢索式“(v)(n) W{len($1)=2;len($2)=2}”的有效性只有2,雖然該檢索式能夠召回大量的“VN”對(duì),但非動(dòng)賓搭配的負(fù)例情況也較多,比如“聯(lián)系電話”“購(gòu)買地址”這種最典型的動(dòng)詞作定語(yǔ)修飾名詞的例子也會(huì)被當(dāng)作動(dòng)賓搭配抽取出來(lái),故在動(dòng)詞前用典型否定副詞“不、沒(méi)”加以約束,并對(duì)“V”和“N”進(jìn)行屬性類的約束,構(gòu)造出更有效的檢索式“不(v)(n)W{$1=[S_V_體謂準(zhǔn)_體];$1!=[S_V_趨向動(dòng)詞_趨];len($1)=2;$2=[P_N_賓語(yǔ)_可];len($2)=2;print($1$2)}、沒(méi)(v)(n)W{begin($1)!=[有];$1=[S_V_體謂準(zhǔn)_體];len($1)=2;$2=[P_N_賓語(yǔ)_可];len($2)=2;print($1$2)}”,一定程度上減少了非動(dòng)賓搭配對(duì)。經(jīng)評(píng)估改進(jìn)后,共得到140個(gè)檢索效果相對(duì)較好的檢索式。

3.3.2 動(dòng)詞部分消歧

動(dòng)詞部分引起歧義主要是由兩方面的原因?qū)е拢皇莿?dòng)詞方面,即動(dòng)詞不能帶賓語(yǔ)或抽取出來(lái)的是動(dòng)詞作定語(yǔ)的情況;二是語(yǔ)料庫(kù)方面,即BCC語(yǔ)料庫(kù)的分詞錯(cuò)誤、詞性標(biāo)注錯(cuò)誤及分詞粒度等原因。

針對(duì)動(dòng)詞方面的原因,筆者在抽取語(yǔ)料時(shí)根據(jù)前人研究整理了及物動(dòng)詞表、體賓動(dòng)詞表、謂賓動(dòng)詞表、可作定語(yǔ)的動(dòng)詞表、《現(xiàn)代漢語(yǔ)詞典(第7版)》中的動(dòng)詞表、心理動(dòng)詞表、趨向動(dòng)詞表等一系列動(dòng)詞子類表。一方面,在書(shū)寫(xiě)檢索式時(shí)可以使用這些詞表作為限制條件,提高檢索效果;另一方面,可以對(duì)抽取結(jié)果進(jìn)行篩選。如“不起精神”雖然符合檢索式“不(v)(n)W{$1=[S_V_體謂準(zhǔn)_體];len($1)=1;$2=[P_N_賓語(yǔ)_可];len($2)=2;print($1$2)}”,“起”也可以帶體賓,例如,“起作用”“起血泡”等,但觀察語(yǔ)料發(fā)現(xiàn),“不起精神”并不是動(dòng)賓搭配,而是“打不起精神”的一部分,而且“起”作補(bǔ)語(yǔ)的情況要更為普遍,所以筆者利用趨向動(dòng)詞表將趨向動(dòng)詞的搭配從檢索結(jié)果中抽取出來(lái),人工校驗(yàn)。

針對(duì)語(yǔ)料庫(kù)方面的原因,筆者以《現(xiàn)代漢語(yǔ)詞典(第7版)》的動(dòng)詞為標(biāo)準(zhǔn),將與詞典詞性不一致的視為詞性標(biāo)注錯(cuò)誤,但也有一些特殊情況除外。如詞典中沒(méi)有“看到”一詞,這主要是因?yàn)椤翱吹健笨梢岳斫鉃閯?dòng)詞“看”與趨向動(dòng)詞“到”組合形成的述補(bǔ)結(jié)構(gòu),但由于二者結(jié)合比較緊密,高頻使用,故語(yǔ)料庫(kù)往往將其切分為一個(gè)詞。針對(duì)這種不一致,仍保留該詞為動(dòng)詞。而“達(dá)”在詞典中為一個(gè)語(yǔ)素,但是在語(yǔ)言中經(jīng)常會(huì)有“人口達(dá)13億”“產(chǎn)值達(dá)290億元”“竹制品已達(dá)200多個(gè)”等“達(dá)”作動(dòng)詞,后常跟數(shù)量短語(yǔ)的用法,因此也將其視為一個(gè)詞。“把把”應(yīng)該是“把把關(guān)”,是“把關(guān)”一詞的變形,雖然語(yǔ)料庫(kù)中將“把把”切分為一個(gè)動(dòng)詞,但抽取動(dòng)賓搭配時(shí)不宜將其視為一個(gè)詞。

3.3.3 賓語(yǔ)部分消歧

賓語(yǔ)部分引起歧義也分為賓語(yǔ)自身和語(yǔ)料庫(kù)兩方面的原因。前者主要是賓語(yǔ)部分不能與動(dòng)詞構(gòu)成動(dòng)賓搭配,如“時(shí)候”“臺(tái)風(fēng)”“產(chǎn)品”不能與動(dòng)詞“打”構(gòu)成動(dòng)賓搭配,但這類現(xiàn)象幾乎在每個(gè)動(dòng)詞的搭配表中都會(huì)出現(xiàn),分布較為離散,本文目前只將低頻部分舍去,尚未對(duì)高頻部分進(jìn)行過(guò)濾。后者主要也是分詞錯(cuò)誤和詞性標(biāo)注錯(cuò)誤。經(jīng)觀察語(yǔ)料發(fā)現(xiàn)詞性標(biāo)注錯(cuò)誤主要表現(xiàn)為英文字母、標(biāo)點(diǎn)符號(hào)、數(shù)字、其他詞性的詞等都有被標(biāo)為名詞的現(xiàn)象,比如語(yǔ)氣詞“嗎”、代詞“那”等。分詞錯(cuò)誤主要表現(xiàn)為把標(biāo)點(diǎn)和詞語(yǔ)切分在一個(gè)詞語(yǔ)內(nèi),如“W酸奶”“眼病W”等。對(duì)于詞性錯(cuò)誤和標(biāo)點(diǎn)切分錯(cuò)誤,統(tǒng)一采用正則表達(dá)式對(duì)抽取結(jié)果進(jìn)行剔除。

3.3.4 人工校對(duì)

正如齊夫律(Zipf’s Law)揭示的那樣,針對(duì)于一種語(yǔ)言的詞匯分布來(lái)說(shuō),極少數(shù)高頻詞(型)的出現(xiàn)次數(shù)已經(jīng)覆蓋一個(gè)語(yǔ)料庫(kù)總詞數(shù)的絕大部分,而詞(型)總數(shù)中大約一半的詞(型)在這個(gè)語(yǔ)料庫(kù)中卻只出現(xiàn)一次。詞語(yǔ)搭配的分布同樣也遵循齊夫律,因此,本文在上述消歧結(jié)束后選取了動(dòng)賓搭配中高頻80%的部分,進(jìn)行了人工消歧,最終獲得動(dòng)賓搭配300萬(wàn)對(duì)。動(dòng)賓搭配知識(shí)庫(kù)各子類分布情況如表7所示。

表7 動(dòng)賓搭配知識(shí)庫(kù)各子類分布情況

從表7可知,能夠帶體詞性賓語(yǔ)的動(dòng)詞數(shù)量要比能夠帶謂詞性賓語(yǔ)的動(dòng)詞多,動(dòng)賓搭配知識(shí)庫(kù)中“動(dòng)+體賓”的搭配對(duì)數(shù)占總搭配數(shù)的89.74%,要遠(yuǎn)遠(yuǎn)高于“動(dòng)+謂賓”的10.26%,這說(shuō)明了體詞比謂詞更容易被支配,人們?cè)谡Z(yǔ)言生活中表達(dá)較多的是動(dòng)作行為與客觀事物、對(duì)象的關(guān)系,以及人們對(duì)客觀事物、對(duì)象的觀點(diǎn)、看法等;表達(dá)較少的是動(dòng)作行為與動(dòng)作行為的支配關(guān)系。其中,體詞性賓語(yǔ)中連續(xù)型名賓的數(shù)量最多,占了體賓總數(shù)的94%;其次是離合型名賓,占體賓總數(shù)的3%,如圖1所示。謂詞性賓語(yǔ)中連續(xù)型動(dòng)詞賓語(yǔ)的數(shù)量最多,占了謂賓總數(shù)的87.6%,其次是連續(xù)型形容詞賓語(yǔ),占謂賓總數(shù)的10.6%,如圖2所示。體賓與謂賓相比,離合型賓語(yǔ)更多,即“動(dòng)+體賓”中更容易添加“著、了、過(guò)”等詞語(yǔ),以表示動(dòng)作發(fā)生的時(shí)態(tài),而“動(dòng)+謂賓”中,動(dòng)詞大多數(shù)是心理動(dòng)詞,時(shí)態(tài)性較弱,更傾向于緊鄰搭配。

圖1 體賓各子類分布情況

圖2 謂賓各子類分布情況

3.4 動(dòng)賓搭配知識(shí)庫(kù)

本文將抽取到的300萬(wàn)對(duì)動(dòng)賓搭配按層級(jí)入庫(kù),即先按“動(dòng)+體賓”“動(dòng)+謂賓”分類,再將每一類下每個(gè)動(dòng)詞的所有賓語(yǔ)按頻次高低排序, 具體如圖3所示。“VN”表示“動(dòng)+體賓”,“VP”表示“動(dòng)+謂賓”。且本文抽取的動(dòng)賓搭配已建立檢索服務(wù),可以查詢某一個(gè)動(dòng)詞的全部賓語(yǔ),也可以查詢兩個(gè)詞語(yǔ)是否是動(dòng)賓搭配。

圖3 動(dòng)賓搭配庫(kù)存儲(chǔ)形式

4 結(jié)語(yǔ)

本文主要從動(dòng)賓搭配知識(shí)體系的構(gòu)建、檢索式構(gòu)成及書(shū)寫(xiě)、動(dòng)賓搭配抽取及消歧等方面展開(kāi)工作,共制定檢索式140個(gè),抽取到動(dòng)賓搭配300萬(wàn)對(duì),構(gòu)建了一個(gè)規(guī)模較大、質(zhì)量較高的動(dòng)賓搭配知識(shí)庫(kù)。該知識(shí)庫(kù)的構(gòu)建不僅為中文信息處理的子任務(wù)提供了大規(guī)模、高質(zhì)量的基礎(chǔ)知識(shí),提高了計(jì)算機(jī)分析語(yǔ)言的能力,同時(shí)也為語(yǔ)言研究和語(yǔ)言教學(xué)提供了大量真實(shí)可靠的實(shí)例。此外,在構(gòu)建動(dòng)賓搭配知識(shí)庫(kù)的過(guò)程中發(fā)現(xiàn),盡管動(dòng)賓搭配的知識(shí)體系較為完善,但漢語(yǔ)缺乏形態(tài)變化,很多語(yǔ)言學(xué)知識(shí)人們能夠理解并很好地運(yùn)用,但卻無(wú)法將其形式化,轉(zhuǎn)化為計(jì)算機(jī)可利用的知識(shí)。因此,本文的工作仍有一定的不足之處。首先,本文利用更多的是詞性信息、動(dòng)賓搭配的韻律條件及少量的動(dòng)詞子類信息,只完成了簡(jiǎn)單動(dòng)賓搭配的抽取,對(duì)層層嵌套遞歸性的動(dòng)賓抽取尚無(wú)能為力。其次,檢索式自身的表達(dá)能力也相對(duì)有限,在抽取動(dòng)賓搭配知識(shí)時(shí),只能體現(xiàn)有限的上下文,且語(yǔ)料庫(kù)自身存在著分詞和詞性標(biāo)注的錯(cuò)誤,造成后期消歧壓力較大。最后,由于人力物力的限制,本文只對(duì)抽取結(jié)果進(jìn)行了初步消歧,檢索結(jié)果仍有進(jìn)一步消歧的需要。

目前,本文初步完成了動(dòng)賓搭配知識(shí)庫(kù)的構(gòu)建,今后還可以從以下幾個(gè)方面進(jìn)一步完善和改進(jìn)。第一,采用計(jì)算的方法對(duì)抽取結(jié)果再次進(jìn)行消歧,提高動(dòng)賓搭配知識(shí)庫(kù)的質(zhì)量;第二,利用已有知識(shí)庫(kù)建立深度學(xué)習(xí)模型,自動(dòng)抽取本文目前尚未覆蓋的其他動(dòng)賓搭配類型,不斷完善動(dòng)賓搭配知識(shí)庫(kù);第三,探索將動(dòng)賓搭配方面更多語(yǔ)言知識(shí)形式化的方法,降低知識(shí)抽取的難度。

本文資源將逐步以合宜方式在學(xué)術(shù)界和工業(yè)界共享。

猜你喜歡
語(yǔ)義語(yǔ)言
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
語(yǔ)言與語(yǔ)義
讓語(yǔ)言描寫(xiě)搖曳多姿
多向度交往對(duì)語(yǔ)言磨蝕的補(bǔ)正之道
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
我有我語(yǔ)言
認(rèn)知范疇模糊與語(yǔ)義模糊
論語(yǔ)言的“得體”
“深+N季”組配的認(rèn)知語(yǔ)義分析
主站蜘蛛池模板: 亚洲第七页| 欧美成人国产| 欧美在线国产| 国产成人亚洲精品蜜芽影院| 天天色天天综合| 国产成人综合日韩精品无码首页| 中文字幕精品一区二区三区视频| 婷婷在线网站| 欧美成人精品在线| 国产精品一线天| 亚洲精品日产精品乱码不卡| 一区二区三区四区在线| 欧美黄网在线| 亚洲欧美在线看片AI| 国产精品久久久久鬼色| 九九这里只有精品视频| 91亚洲精选| 狠狠色综合久久狠狠色综合| 国产大片喷水在线在线视频| 亚洲中文字幕在线一区播放| 五月天综合网亚洲综合天堂网| 高h视频在线| 国产网站免费观看| 精品视频福利| 婷婷伊人五月| 婷婷五月在线| 91一级片| 久青草国产高清在线视频| 国产欧美精品午夜在线播放| 亚洲日本韩在线观看| 国产欧美日韩综合一区在线播放| 香蕉精品在线| 欧美日韩亚洲综合在线观看| 欧美在线国产| 日本在线国产| 亚洲第一视频区| 国产精品毛片一区| 成人av专区精品无码国产| 99久久国产综合精品2020| 国产午夜人做人免费视频中文| 国产中文一区a级毛片视频| 免费一级无码在线网站| 国产玖玖视频| 欧美激情伊人| 影音先锋丝袜制服| 老司机久久99久久精品播放| 欧美啪啪精品| 久久婷婷六月| 亚洲成人网在线播放| 黄色国产在线| 国产精品欧美在线观看| 无码AV日韩一二三区| 亚洲日韩每日更新| 欧美日韩在线亚洲国产人| 国产免费福利网站| 久久综合九色综合97婷婷| 91青青草视频在线观看的| 久久精品无码专区免费| 强奷白丝美女在线观看| 九九九国产| 欧美无专区| 欧美色伊人| 国产97视频在线观看| 成人在线观看不卡| 麻豆精品国产自产在线| 九月婷婷亚洲综合在线| 欧洲欧美人成免费全部视频| 亚洲色欲色欲www在线观看| 国产一区二区精品高清在线观看| 欧美区一区| 国产在线欧美| 欧美在线综合视频| 亚洲黄网视频| 91精品视频在线播放| 午夜在线不卡| 热99精品视频| 日韩无码视频播放| 午夜在线不卡| 老司机精品99在线播放| 97se亚洲综合不卡 | 不卡色老大久久综合网| 91久久国产综合精品女同我|