999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義省略“的”字結構自動識別研究*

2020-05-20 01:52:38戴茹冰侍冰清曲維光
語言科學 2020年1期
關鍵詞:語義結構

戴茹冰 侍冰清 李 斌 曲維光,**

1南京師范大學文學院 江蘇 南京 210097 2南京師范大學計算機科學與技術學院 江蘇 南京 210023

提要 語義省略是語言使用中存在的一類普遍現(xiàn)象,其省略的信息給機器自動理解造成困難。其中具有語義省略“的”字結構,在省略概念添加的類型中所占比例最高。文章利用“的”字局部上下文的詞性和句法信息,通過動詞框架找出具有語義省略的“的”字結構。實驗表明,該方法能夠在CTB8.0(Chinese Treebank)語料中有效識別出含有語義省略的“的”字結構,在測試集中F1值達到87%,取得了較好的實驗效果,為機器對深層語義的理解奠定基礎。

1 引言

1.1 研究理由

省略是語言中存在的一種普遍現(xiàn)象,也是語言研究中不可回避的問題之一。對于省略的界定,朱德熙(1982:248)、呂叔湘(1979:67-68)、王維賢(1997:25-26)等學者分別從句法、語義和語用三個平面給出定義。但不管哪種形式的省略,總是語形隱而語義存。對于省略的語義信息,人類可通過百科知識和語境信息加以理解,但對機器而言,語義省略無疑會給機器理解造成巨大障礙。在語言理論方面,已有學者從傳統(tǒng)語法、功能語法和認知語法等角度做了大量研究。在自然語言處理領域,省略研究多集中在零代詞類別的恢復和零代詞的指代消解(尹慶宇等 2015)。對于語義表示,國內外現(xiàn)有的語義資源,包括PropBank(Palmer et al.2005),F(xiàn)rameNet(Collin et al. 1998),Chinese FrameNet(劉開瑛 2011)等,對省略成分的語義標注問題均未涉及。

近幾年一種新型的句子語義表示方式——AMR(Abstract Meaning Representation,抽象語義表示)(Laura et al. 2013)受到學界的廣泛關注。該方法突破了傳統(tǒng)基于句法形式表示語義的方式,允許補充省略或隱含的語義概念以還原句子完整語義。這種概念添加方式對于漢語中的省略結構同樣有著良好的表示能力,能夠較為完整地補充出省略成分(曲維光等 2017)。李斌等(2017)將AMR語義表示體系引入到漢語中,并對AMR語料中需要添加的省略語義概念進行統(tǒng)計分析,發(fā)現(xiàn)“的”字結構在所有省略概念添加類型中所占比例為45.7%,占有最高比重。

“的”作為現(xiàn)代漢語使用頻率最高的虛詞之一,意義和用法靈活,在各種虛詞中的研究也最為普遍。其中存在部分具有語義省略“的”字結構,如“賣菜的”“開車的”等。這些不依附任何成分而獨立充當名詞性成分的“的”字結構通常在語義上伴有省略的成分。具有語義省略“的”字結構雖然在整個“的”字語料中所占比例較小,但其所隱含的成分對于整體語義的理解卻有至關重要的作用。正確識別帶有語義省略的“的”字結構能夠有效減少因省略造成的語義自動理解障礙,為補充句子完整的語義打下基礎。

1.2 已有研究

在現(xiàn)代漢語中,對于“的”的研究可追溯到1961年朱德熙《說“的”》。他將“的”的用法分為副詞性語法單位的附加成分、形容詞性語法單位的附加成分和名詞性語法單位的附加成分三個類別。之后,朱德熙(1966)又進一步完善關于“的”字的分類體系,將由謂詞性成分構成的“的”字分為兩類:一類是如“吃的”“穿的”可獨立使用的,表示轉指的用法;另一類是不能獨立表示事物,用來修飾名詞的表示自指的用法,如“跑步的(時間)”等。

“的”字結構是名詞性偏正結構的語境變體(徐陽春 2003:126),實質是定中關系的偏正短語中心詞隱去后的短語。其形成特征為詞語后附著一個“的”字。然而并不是所有具有定中關系的偏正短語中心詞都可以隱去從而形成“的”字結構。對于中心詞可省的條件限制,黃國營(1982)、呂叔湘(1999:159-160)從語法角度分析了形如“X+的”結構中X與中心詞的句法關系,即當中心詞為X的主賓語時,中心詞可省。孔令達(1992)則從意義角度區(qū)分了X與中心詞的語義類別關系,并對X是否具有區(qū)別性總結了一套形式化的鑒別方式。此外,石毓智(2000)從語言認知角度闡釋了“的”字結構的生成機制。

在語言理論及認知方面對“的”字結構研究較為普遍。在自然語言處理領域,韓英杰等(2011)將“的”納入虛詞用法研究中,基于“三位一體”(虛詞用法詞典、虛詞用法規(guī)則庫和虛詞用法語料庫)現(xiàn)代漢語廣義虛詞用法知識庫(昝紅英和朱學峰 2009)對“的”字的用法進行自動識別。但因其出現(xiàn)頻率高且用法復雜,基于規(guī)則的方法識別效果并不理想。并且鮮有人從省略的語義成分角度關注“的”字結構表示的語義完整性問題。僅從句法角度分類描述“的”的用法和特征,并不能深入挖掘受語境和語言經濟原則制約而省略的中心語,還原“的”字結構完整語義。這也是傳統(tǒng)句法表示無法解決詞內分析困境的缺陷之一。

本文以省略“的”字結構為研究對象,以賓州中文樹庫CTB8.0語料(Chinese Treebank,以下簡稱 CTB)的10000句網(wǎng)絡媒體語料作為統(tǒng)計樣本和實驗語料,利用中文AMR的人工標注結果抽取出省略“的”字結構并進行人工校對,形成可用于比對的標準答案。對其中前5000句AMR語料中因語義省略而需要添加的概念進行統(tǒng)計分析,并以此作為樣本總結“的”字結構內部構成規(guī)律及上下文信息特點,針對不同類別“的”字結構制定識別策略。后5000句作為開放測試語料來驗證省略“的”字結構的識別效果。實驗結果表明,該方法能夠有效地提取省略“的”字結構,從而更好地促進機器對深層語義的理解。

2 “的”字結構特征及識別策略

2.1 “的”字結構類型特征

本文從“的”外部信息出發(fā),結合語法類詞典《現(xiàn)代漢語八百詞》(呂叔湘 1999)、《現(xiàn)代漢語詞典》(2012年,第六版)、現(xiàn)代漢語廣義虛詞用法知識庫(昝紅英和朱學峰 2009)及CTB8.0網(wǎng)絡媒體真實語料,分析省略與非省略“的”字所在上下文特征,并針對各類別給出不同的識別策略。

《現(xiàn)代漢語八百詞》把“的”的意義分為7個義項,29種用法,其中省略“的”字結構用法分散在兩個義項中。《現(xiàn)代漢語詞典》(2012年,第六版)把“的”的意義分為6個義項,14種用法,對省略“的”字結構的描寫細分為5小類,但未給出具體的用法特征。在“三位一體”虛詞用法詞典中,“的”的意義分為11個義項,39種用法,并通過釋義、用法、例句、搭配等屬性對助詞“的”的用法進行描述。為便于統(tǒng)計,劉秋慧等(2018)對虛詞用法詞典中“的”的用法設置合并方案,將出現(xiàn)頻率較低的用法向上合并。合并后的“的”字共為5個義項,9種用法。對于每類用法的形式化描述規(guī)則主要基于上下文詞性特征。綜合以上語言資源,結合CTB8.0真實語料中各類型“的”的分布情況,本文針對語義省略“的”字結構識別任務,整合使用頻率較低的用法,總結了“的”的4個主要義項和17種用法,基本覆蓋“的”字結構在語料中出現(xiàn)的各種類型。“的”的主要義項和用法及在CTB8.0前5000句樣本分析語料中的出現(xiàn)頻率如表1所示。

表1 “的”主要義項及用法描述

義項頻率釋義用法例句義項14563構成“的”字短語修飾名詞名|動|形|副|介詞短語|小句+的+名國有企業(yè)代表國家~實力。義項2275構成“的”字短語代替名詞,即省略“的”字結構名|形|動|小句+的[+名]該說~都已經說了。義項3306構成“的”字短語做謂語。(若前面有“是”,構成“是…的”句式)名|代|形|動|小句|四字語+的這帽子(是)我~。義項4148表示一定的語氣,一般用在句子末尾用在陳述句或疑問句末尾他什么時候走~?

其中,義項2“的”字短語代替名詞的用法和義項3的部分“是……的”用例表示的“的”字結構含有語義省略成分,即本文所要識別的“的”的主要用法。

為識別省略“的”字結構,我們考察其語義省略與非省略用法的差異,通過比對二者詞性和句法信息特征,從樣本語料中提取“的”的鄰接成分與共現(xiàn)成分并進行統(tǒng)計分析,總結其中具有可操作性的判斷特征,制定形式化規(guī)則以有效識別省略“的”字結構。采用的特征為目標詞(“的”)上文離合共現(xiàn)的詞性序列特征及下文緊鄰共現(xiàn)的詞語或詞性特征。

2.1.1 下文特征

非省略“的”字用法主要包含義項1和義項3的部分用例及義項4。從各義項在語料中的出現(xiàn)頻率來看,非省略用法在整個語料中所占比例較高,在絕對數(shù)量上也遠超省略類型。對比其與省略“的”字結構用法差異如下:

省略“的”字結構與非省略中義項1用法主要區(qū)別在其下文特征:“的”字下文是否含有被修飾的中心語。例如:(1)本文所舉例句均出自CTB8.0語料。例句中括號內為省略的語義成分。因識別規(guī)則基于詞性信息,為便于描述,例句中的詞語均采用中文賓州樹庫詞性標記集來標注詞性。具體信息參見Santorini(1990:1-5)。

(1)國家/NN 的/DEG 實力/NN

(2)沒/AD 來/VV 的/DEC(人)請/VV 舉手/VV

例(1)中,“的”字前后的修飾語與中心語在句法和語義層面都是完整的,因此判為非省略結構助詞。例(2)“的”字結構修飾的中心語“人”受語境或經濟原則制約而省略,表達的語義信息不完整,因此判為省略類型。

在區(qū)別二者時主要觀察“的”字下文的詞語或詞性特征:義項1的“的”字用法中,“的”字下文若為名詞或名詞短語,則判斷其后存在中心語,為非省略結構,即義項1的“的”字下文特征為“的+名詞|名詞短語”。在義項2的“的”字結構中,通過對下文鄰接詞位置的詞語和詞性進行統(tǒng)計,發(fā)現(xiàn)出現(xiàn)頻次最高的詞語和詞性分別為“是”和動詞,其中“是”出現(xiàn)頻次為156次,動詞出現(xiàn)38次,二者占據(jù)70%以上的比例。從語法結構上看,若“的”下文為動詞,動詞前的“的”字結構會被看作一個整體,作為動詞的主語,而該主語以“的”字結尾,缺少中心語,可看作語義省略結構。因此我們將義項2“的”字下文特征界定為“的+是|動詞”。

對“的”字用法義項1與義項2的下文特征分析表明,“的”字下文緊鄰共現(xiàn)的詞語或詞性有較明顯的特征。表2中省略結構在“的+名詞|名詞短語”和“的+是|動詞”兩類的比例也讓我們有理由預測將“的”字下文特征作為識別規(guī)則可以得到較好的分類效果。

2.1.2 上文特征

省略“的”字結構與義項3和義項4在用法描述上并無明顯的下文特征區(qū)別,并且上文特征如陳述句、疑問句及小句因結構復雜,在虛詞用法規(guī)則庫上也未能抽取出嚴格的形式化特征。結合呂叔湘(1999:159)對“的”后中心語可省條件的描述:中心名詞能做前面動詞的主語或賓語的,可省。因此我們將省略“的”字結構和非省略語氣詞用法的上文特征區(qū)別定義為:判斷“的”字上文緊鄰的動詞所包含的論元結構是否完整,若論元結構完整,“的”字為語氣詞,屬于非省略結構;否則,判斷為省略結構。例如:

(3)事物/NN 都/AD 有/VE 正反面/NN 的/SP

(4)你/PN 能/VV 想到/VV 的/DEC(事情),/PU 國家/NN 早/AD 就/AD 能/VV 想到/VV

例(3)中,動詞“有”的必有論元成分“事物”(主語)和“正反面”(賓語)完整,因此判為非省略類型。例(4)中“的”前動詞“想到”的賓語成分缺失,因此判為省略類型。

義項3“的”字短語作謂語,包含一類較為特殊句式,即“是……的”句,其中“是”所承擔的句法功能分為主要謂語動詞和與“的”連用表示判斷語氣兩種用法。在樣本分析語料中,該類別中省略“的”字結構所占比例為25.8%(見表2)。鑒于該類沒有明顯的上下文緊鄰詞性特征,僅將“是……的”句式單獨列出。

綜上所述,“的”字用法特征可總結為以下四類: 1)的+名詞|名詞短語;2)的+是|動詞;3)“是……的”句式;4)其他類型。其中1)類為非省略類型“的”字下文特征,2)類為省略類型“的”字下文特征,3)和4)類型沒有明顯的上下文緊鄰詞特征,需要進一步挖掘深層的語義特征或配合使用語義語法知識資源來制定識別策略。上述4類“的”字結構用法特征中省略及非省略的類型及所占比例詳見表2。

表2 各類“的”字結構省略類型比例

“的”字結構類型省略類型非省略類型個數(shù)比例個數(shù)比例的+名詞|名詞短語90.2%459399.8%的+是|動詞20495.3%104.7%是……的8325.8%23774.2%其他5751.4%5448.6%

2.2 “的”字結構的識別策略及形式化描述

根據(jù)表2數(shù)據(jù),觀察到“的+是|動詞”和“的+名詞|名詞短語”兩個類別可直接根據(jù)下文信息判斷省略與非省略類型。對于“是……的”句式和“其他”兩類,識別策略主要依靠“的”字上文的句法成分及所在短語的核心動詞的論元結構判斷,每種類型具體識別策略如下。

2.2.1 “的+名詞|名詞短語”類型識別策略

對于名詞短語的判斷,本文基于詞性從CTB樣本分析語料中總結出65種基本名詞短語及擴展模板。該類別“的”下文內容主要形式為限定性詞語+名詞|名詞短語(n|np),其中限定性詞語包括:形容詞(VA)|區(qū)別詞(JJ)|動詞(VV)|名詞(NN)|代詞(PN)等。在名詞短語中,常會出現(xiàn)多個“的”字短語共現(xiàn)的現(xiàn)象。在句法結構中,其結構類型可分為嵌套結構和并列結構,即中心語前的多個限定語之間的結構關系。但在詞性序列中,表現(xiàn)為多個限定語+的+n|np 的線性序列,“的”前限定語成分為多種類型,只有中心語為強制出現(xiàn)成分,可為名詞或名詞短語。例如:

(5)他/PN 的/DEG 無私/AD 奉獻/VV 的/DEC 精神/NN……

其中“的”后的名詞短語為中心語前多個修飾語的嵌套結構。

本文以有序的BNF(Backus-Naur Form)范式描寫每類語言規(guī)則,名詞短語具體形式化描述為:{[AD]+VA|JJ|VV|PN+[的]}+n|np,即“的”下文能與該字符串模式匹配的用法為非省略類型。

2.2.2 “的+是|動詞”類型識別策略

對于該類別,我們主要判斷“的”下文一元鄰接詞是否為“是”或動詞,有時動詞會受副詞成分修飾,在“是”或動詞前加上副詞表達一定的語氣或程度差異,此時“是”或動詞會出現(xiàn)在下文二項共現(xiàn)詞的位置。對于這類現(xiàn)象采取縮減策略對副詞性成分進行歸并處理,避免識別過程受副詞成分干擾。該策略識別結果為省略類型。

2.2.3 “是……的”類型的識別策略

該類別主要判斷依據(jù)為“是”和“的”之間的詞語序列,即主謂賓句法成分是否完整。若是完整的序列結構,“的”屬于語氣詞,判斷為非省略,否則為省略結構。對于“是”“的”之間的詞語序列,本文主要依據(jù)詞性序列判斷其語法成分。通過對語料中符合該句式的句子統(tǒng)計分析,得到詞性序列模板(其中每類所列出的模板都為該結構的基本模板,語料中存在大量擴展式小類,本文采取縮減策略對各類擴展模板整合歸并,以還原為基本模板,具體縮減策略詳見下頁表4)。

通過觀察“的”字上文信息,參考《現(xiàn)代漢語八百詞》對“是……的”用法描寫,我們將其細分為以下四個小類。表3給出了各小類在“是……的”句中所占比例及是否為省略類型。

表3 “是……的”句式類型比例表

“是……的”句式類型個數(shù)比例是否為省略是+主謂結構+的 7624.9%省略是+名詞性成分+的237.6%省略是+形容詞成分+的8828.8%非省略是+動詞性成分+的11838.7%非省路

每種類型的具體分析及詞語序列的形式化模板描述如下:

1)是+主謂結構+的

該句式強調動作的施事,但當“是”前面僅為指示代詞時,由于“是”與“的”之間缺少賓語,所以需要將其省略的賓語補充出來。補充信息多為整個句子的主語,在標注時需要將代詞和前面的指代信息相關聯(lián),這樣才能較為完整地表示句義。因此該類型為省略結構。詞語序列基本模板:是+NN|NR|PN+{VV}+的。例如:

(6)這/PN 根本/AD 不/AD 是/VC印度/NR 想/VV 看到/VV的/DEC (事情)

2)是+名詞性成分+的

此類型的“是……的”句式,名詞性成分與主語的語義關系多為領屬、解釋關系。日常使用中我們?yōu)橥癸@焦點,經常將“的”后的從屬類省略。在此類別中需要將主語的上位信息補充完整。因此該類型為省略結構。詞語序列基本模板:是+{NN|NR|PN}+的。例如:

(7)樓主/NN 是/VC淮南/NR 礦業(yè)/NN 集團/NN的/DEG(人)吧/SP

3)是+形容詞成分+的

這里的形容詞性成分既可以為性質形容詞,也可以是形容詞短語。此句式中形容詞性成分已承擔謂詞功能,因此不必增加省略信息。詞語序列基本模板:是+{VA|JJ}+的。例如:

(8)絕大多數(shù)/CD 中國人/NN 都/AD 是/VC舒心/VA 愉悅/VA的/SP

4)是+動詞性成分+的

這一類別在“是……的”句式中所占比例最高。這里的動詞性成分一般是“能愿動詞+動詞”結構、“動詞+可能補語”結構或動賓短語。由于動詞性成分已出現(xiàn)且不缺少賓語,因此這類結構不需要在“的”字后增補內容,為非省略結構。詞語序列基本模板:是+{VV}+[NN]+的。例如:

(9)許多/CD 事情/NN 原/AD 是/VC可/VV 避免/VV的/SP

本文將語料中的“是……的”句式,分為以上四種類型。若修飾語過長則采用縮減策略,將其修飾語成分歸并再處理,再統(tǒng)一進行分類。表4為主要詞語序列縮減策略的示例。

表4 縮減策略示例

縮減序列類型縮減前序列縮減后序列定中結構{JJ}+NNNN狀中結構{AD}+VV數(shù)量結構CD+M+NNNN并列名詞結構{NN}+CC+{NN}NN方位結構NN+LCNN

該類別的識別策略具體步驟如下:

步驟1:提取“是”“的”中間的詞語序列,依據(jù)表4縮減策略對提取的詞語序列進行縮減;

步驟2:將步驟1縮減后的詞語序列進行字符串模式匹配,匹配到表2中的四種類型;

步驟3:根據(jù)步驟2得到的類型結果,判斷“的”字結構是否為省略類型。

2.2.4 其他類型的識別策略

在去除“的”字下文特征及“是……的”特殊句式后,剩余的其他類型中,觀察發(fā)現(xiàn)省略“的”所在短語的核心動詞的必有論元成分必定是缺失的。如“的”字結構“當官員的”指代“當官員的人”,其中核心動詞“當”的必有論元,即施事與受事沒有全部出現(xiàn)。針對該類別本文利用動詞框架,(2)動詞框架(verb frame)指謂語動詞所帶核心論元結構。基于斯坦福依存分析結果和中文謂詞庫(Chinese Proposition Bank,以下簡稱CPB)的謂語動詞框架詞典識別“的”字所在短語的核心動詞的論元結構,進而判斷該結構是否含有語義省略成分。該詞典含有每個謂詞在不同義項下的語義角色框架,共收錄24510個中文謂詞(包括動詞、形容詞等)的26650個義項的不同語義角色框架(Xue 2008)。上例中,“當”在CPB中的動詞框架為“Arg0:position holder;Arg1:position”。(3)CPB中使用Arg0,Arg1,Arg2,Arg3,Arg4五種論元表示動詞的論元種類。該“的”字結構中“當”的必有論元僅出現(xiàn)了框架中的Arg1,而施事未出現(xiàn),這也與上文中呂叔湘對“的”字結構中心語可省的條件描述相對應。因此可以認為,對比完整意義的“的”字結構,在帶有省略語義性質的結構中,動詞必有論元成分是不完整的。

不同于以上三類基于上下文共現(xiàn)的詞語或詞性序列模板匹配的識別策略,該類別的識別策略具體步驟如下:

步驟1:提取“的”字左邊所有的動詞在句中的位置,依次放入列表中;

步驟2:根據(jù)列表中內容,執(zhí)行以下操作:

1)如果列表中僅存在一個位置元素,該位置的動詞即為核心動詞,則跳轉至步驟3;

2)如果列表中存在多個位置元素,提取最后兩個位置元素Windex1和Windex2,執(zhí)行以下操作:

① 構造臨時句子Snt:Windex1…… Windex2;

② 借助斯坦福依存分析工具,得到Snt中最后兩個動詞間的機標依存分析結果;

③ 根據(jù)②中機標結果,判斷兩個動詞間的依存關系,并根據(jù)依存關系和動詞在CPB中的論元(即后一個動詞是否能做前一個動詞必有論元成分)來確定后一個動詞是否為核心動詞:如果是,則利用依存結果為后一個動詞補充主語或賓語,改造Snt并將原“的”字結構用新Snt替代,跳轉至步驟3;如果不是,則將后一個動詞的位置元素從列表中移除,跳轉至步驟2。

這里我們就步驟2中若存在多個動詞的“的”字結構時,核心動詞的判斷舉例說明:

(10)而/AD 同樣/AD應該/VV 申請/VV 世界/NN 紀錄/NN 的/DEC,/PU 還/AD 有/VE 當?shù)?NN 負責/VV 治安/NN 的/DEC 部門/NN

例(10)中,根據(jù)“的”字前的動詞,從后向前構造Snt:應該 申請。Windex1是Snt中第一個動詞“應該”位置元素,Windex2是Snt中第二個動詞“申請”位置元素。根據(jù)構造的Snt調用斯坦福依存分析器,得到依存分析結果dobj(應該-1,申請-2)。在依存關系中dobj(direct object)表示直接賓語,即“申請”為“應該”的直接賓語,則后一個動詞做前一個動詞的必有論元成分,因此判斷“申請”為該“的”字結構的核心動詞。

步驟3:將核心動詞的主賓語與其所在CPB中的最少論元數(shù)義項的論元結構匹配,若核心動詞的主賓語與CPB中論元結構不匹配,即核心動詞的主語或賓語缺失,則判斷為省略;否則,判斷為非省略。

3 識別省略“的”字結構實驗

3.1 評價指標

省略“的”字結構識別任務可以看作是一個分類問題,普遍使用的性能評價指標是精確率(Precision,P),召回率(Recall,R),F(xiàn)1值(F1 score)。精確率是指正確判斷出省略類別的“的”字結構數(shù)量占所有判斷出省略類別的“的”字結構數(shù)量的比例,如公式(i)所示:

(i)

召回率是指正確判斷出省略類別的“的”字結構數(shù)量占所有省略類別“的”字結構數(shù)量的比例,如下頁公式(ii)所示:

(ii)

F1值(F1 Score,又稱F1 Measure)是精確率和召回率的調和平均值,如公式(iii)所示:

(iii)

3.2 語料來源

本文基于的AMR表示方法,允許根據(jù)語義靈活增刪概念節(jié)點。該方式通過 thing(物)、person(人)、location(地點)等概念節(jié)點的添加,對于省略“的”字結構,能夠較為完整地補充出省略成分,彌補了傳統(tǒng)句法表示的嚴重缺陷。圖1給出AMR句子對于省略“的”字結構的示例。

圖1 AMR概念補充省略“的”字結構示例

AMR將句中省略的概念“person(人)”補充出來,作為“開車”的arg0(施事),使省略“的”字結構的意義得到較為完整的表達,也體現(xiàn)出其對漢語省略結構語義表示的價值。

本文采用的語料為賓州中文樹庫 CTB8.0的10000句網(wǎng)絡媒體語料,利用中文AMR的人工標注結果(4)目前CTB8.0的AMR語料標注數(shù)據(jù)已通過語言數(shù)據(jù)聯(lián)盟(LDC)平臺發(fā)布,由于本文使用早期版本,句子總數(shù)相差149句。語料下載地址https://catalog.ldc.upenn.edu/LDC2019T07。以及后期人工校對,抽取出含有增補概念節(jié)點的“的”字結構作為本文主要的研究對象。其中前5000句作為樣本語料觀察分析“的”上下文特征及規(guī)則制定,得到省略“的”字結構識別策略,后5000句作為測試集驗證識別策略的效果。表5是CTB8.0分析和測試語料中所包含“的”字類型的基本情況。

表5 CTB“的”字語料數(shù)據(jù)集

語料省略實例非省略實例總數(shù)分析語料32049725292測試語料34461936537

3.3 實驗與分析

3.3.1 實驗步驟

步驟1:從樣本分析語料中,提取所有“的”字結構。依據(jù)中文AMR人工標注結果,得到所有“的”字結構省略與非省略類別;

步驟2:將所有“的”字結構匹配到2.1節(jié)介紹的4種類型;

步驟3:對每個“的”字類型,根據(jù)2.2節(jié)介紹的基于規(guī)則的識別策略,形成機標結果;

步驟4:將機標語料與人工校對的語料即標準答案進行對比,對數(shù)據(jù)進行統(tǒng)計分析,評價規(guī)則之間的覆蓋性,確定規(guī)則的處理順序;

步驟5:在封閉集中,使用步驟1提取所有“的”字結構。按照步驟4確定的規(guī)則處理順序,處理每個“的”字結構,得到機標結果。具體如下:1)遍歷規(guī)則處理順序,保留第一個和該“的”字結構匹配的類型;2)使用1)中該類型對應的識別策略處理該“的”字結構,判斷該“的”字結構是否為省略類型;

步驟6:將機標語料與人工校對的標準答案進行對比,最終得到語義省略“的”字結構識別的精確率和召回率等指標結果。

3.3.2 規(guī)則處理順序

本文根據(jù)“的”字結構的分類,旨在找到最有利于正確分類的處理順序,判斷具體哪一種類型需要優(yōu)先處理,然后針對每種類型分別制定識別策略得到類型結果。即需要確定一個固定的遍歷順序對省略“的”字結構進行識別。考慮各規(guī)則之間的相互覆蓋程度及各類用法在真實語料文本中的分布概率,規(guī)則描述清晰以及自動識別精確率較高的規(guī)則優(yōu)先級別高,排在前面優(yōu)先處理。

表6 單獨抽取類別錯誤比例表

抽取類別的+名詞|名詞短語的+是是……的的+動詞其他的+是0.0%/0.0%0.0%0.0%是……的97.2%0.0%/2.8%0.0%的+動詞54.3%14.2%31.5%/0.0%其他4.0%0.0%96.0%0.0%/

表6為針對每種類型單獨從樣本分析語料中抽出屬于該類型“的”,并列舉采取了對應的策略得到的省略類型中錯誤分類比例。其中每一行是一種“的”字結構類型的處理結果,每一列是其錯誤分類的“的”字結構中其他類型的比例,旨在尋找是由于哪一種類型沒有優(yōu)先遍歷而產生錯誤分類的比例。表6“的”字結構抽取類別中,單獨列出“的+是”因為該類型識別策略的精確率高達98.2%,如果合并成“的+動詞|是”,則會忽略其他動詞的分析。其中,“的+動詞”與“的+是”類型可通過“的”字下文詞語或詞性信息直接判斷且精確率較高,因此優(yōu)先處理這兩類。此外,“是……的”對“其他”類型影響較大,因此將“是……的”置于“其他”類型之前處理。

綜上,省略“的”字結構識別模型最優(yōu)的類型處理順序為:的+是→的+名詞|名詞短語→的+動詞→“是……的”→其他類型。

3.3.3 實驗結果

表7和表8是省略“的”字結構識別模型分別在封閉訓練集和開放測試集上的效果。實驗結果精確率及召回率均在85%以上,在測試集上整體F1值也達到87.1%,取得了較好的分類結果。

表7 省略“的”字結構識別級聯(lián)模型封閉訓練結果

精確率召回率F1值的+是|動詞93.0%100.0%96.4%是……的84.8%62.2%71.8%其他75.9%75.9%75.9%整體88.4%88.4%88.4%

表8 省略“的”字結構識別級聯(lián)模型開放測試結果

精確率召回率F1值的+是|動詞95.7%100.0%97.8%是……的80.0%53.3%64.0%其他68.1%74.6%71.2%整體88.5%85.7%87.1%

為了解不同建模方法對于省略“的”字結構識別任務的優(yōu)劣,本文基于條件隨機場(Conditional Random Field,CRF)模型對同一任務進行對比實驗。CRF作為一種判別式的概率無向圖模型,是在給定一組輸入隨機變量條件下,輸出隨機變量的條件概率分布模型。它結合最大熵模型和隱馬爾科夫模型的特點,在詞性標注和命名實體識別等自然語言處理任務中得到廣泛應用。本文提取當前詞、詞性及前后兩個詞和詞性等上下文語境作為省略“的”字結構識別特征。為便于和基于規(guī)則的級聯(lián)模型對比,CRF模型以相同數(shù)據(jù)集進行訓練與測試。兩種識別方法的對比測試結果如表9所示。

表9 省略“的”字結構識別級聯(lián)模型及CRF模型對比測試結果

精確率召回率F1值CRF模型82.6%76.2%79.3%級聯(lián)模型88.5%85.7%87.1%

從表9可以看出,基于規(guī)則的方法實驗效果明顯優(yōu)于基于統(tǒng)計的CRF模型,且基于統(tǒng)計的方法對數(shù)據(jù)需求比較高,即在大規(guī)模語料上表現(xiàn)要優(yōu)于小數(shù)據(jù)集。但從表5實驗數(shù)據(jù)及真實語料來看,省略與非省略“的”字結構數(shù)量懸殊,相較于非省略類型,省略“的”字結構在訓練和測試語料的出現(xiàn)頻率較低,因此在類別不均衡的數(shù)據(jù)集上基于統(tǒng)計的方法效果并不理想。基于規(guī)則的方法雖然在精確率上結果較好,但召回率在一定程度上受到規(guī)則適用限制的影響,在“是……的”類型和“其他”類型的“的”字結構識別上表現(xiàn)較差。即便如此,從整體結果來看,在現(xiàn)有同等規(guī)模數(shù)據(jù)集下,基于規(guī)則的級聯(lián)模型F1值超過CRF模型7.8%,優(yōu)勢還是較為明顯。

綜上,基于規(guī)則的級聯(lián)模型和基于統(tǒng)計的CRF模型在省略“的”字結構識別任務中各有優(yōu)劣。但從現(xiàn)有數(shù)據(jù)規(guī)模及實驗結果來看,基于規(guī)則的級聯(lián)模型擁有更好的實驗效果,更適用于省略“的”字結構識別任務。

3.3.4 錯誤分析

通過對實驗中172個錯誤實例進行分析,發(fā)現(xiàn)其中特殊句式依存分析的錯誤所占比例較大,如賓語前置句、定語后置句等。

一般在口語使用中,當說話者有意強調賓語時,會將賓語前置,形成賓語+主語+謂語的語序。例如:

(11)吃住/NN 不/AD 花錢/VV ,/PU午飯/NN 單位/NN 負責/VV 的/SP

例(11)的正常語序為“單位負責午飯”,但語料中說話者將賓語“午飯”放在主語“單位”之前,形成賓語前置句。對于此類句子,現(xiàn)有基于依存分析的方法無法正確識別各成分間的句法關系,只能將核心謂詞“負責”的論元結構施事定位到“單位”,而受事則為空,因此造成了省略判斷的錯誤。

此外,對于一些定語后置的“的”字結構用法,可將其理解為“中心語在前關系小句在后”的一種古已有之的漢語句法結構在現(xiàn)代漢語中的延續(xù)。例如:

(12)法律/NN 上/LC 有/VE 規(guī)定/NN ,/PU 對于/P終身/NN 傷害/NN 非/VC 一次性/AD 能/VV 賠清/VV 的/DEC,/PU 以后/NT 在/P 需要/VV 時/LC 還/AD 可/VV 繼續(xù)/VV 提出/VV 索賠/NN

(13)故意/AD 傷害/VV 他人/PN 身體/NN 致/VV 人/NN 重傷/VV 的/DEC,/PU 處/VV 三/CD 年/M 以上/LC 十/CD 年/M 以下/LC 有期/JJ 徒刑/NN

對于這種定語后置句造成的省略結構,由于其結構復雜經常會判斷錯誤,但其所在的文本類型比較集中,多為法律文書,后期我們針對這類文體的“的”字結構進行單獨分析和處理。

4 結語

本文通過對“的”字結構的分析,對比省略與非省略“的”字結構在句法和語義上的差異,結合上下文詞性信息和動詞框架下論元結構匹配的判斷方法,能夠較為準確地識別出帶有語義省略的“的”字結構。

在接下來的工作中,我們會進一步研究各類文本中復雜的定語后置“的”字結構及特殊句式,引入特征模板或其他語義語法資源來提高識別性能。另外針對省略“的”字結構對其缺省的信息進行補全,并嘗試將補全的“的”字結構用于語義自動解析等工作中。

猜你喜歡
語義結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
語言與語義
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
創(chuàng)新治理結構促進中小企業(yè)持續(xù)成長
認知范疇模糊與語義模糊
基于BIM的結構出圖
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 国产在线高清一级毛片| 国模粉嫩小泬视频在线观看| 国产亚洲男人的天堂在线观看| 亚洲欧美不卡视频| 欧美国产日韩在线播放| 99视频全部免费| 亚洲婷婷丁香| 国产婬乱a一级毛片多女| 99国产在线视频| 国产亚洲第一页| 日韩高清无码免费| 亚洲第一国产综合| 中文无码毛片又爽又刺激| 久久人体视频| 成人午夜天| 国产91九色在线播放| 日韩亚洲综合在线| 亚洲国产精品一区二区高清无码久久| 久一在线视频| 成人看片欧美一区二区| 一级片免费网站| 午夜国产理论| 亚洲欧美不卡中文字幕| 91日本在线观看亚洲精品| 日本午夜三级| 国产又大又粗又猛又爽的视频| 88国产经典欧美一区二区三区| 国产成人成人一区二区| 国产嫖妓91东北老熟女久久一| 黄网站欧美内射| 国产va在线观看免费| 亚洲日本中文字幕乱码中文| 欧美性天天| 欧美在线黄| 国产精品刺激对白在线| 免费啪啪网址| 国产无码在线调教| 国产青榴视频在线观看网站| 污污网站在线观看| 国产噜噜噜| 无码精品国产dvd在线观看9久 | 亚洲成人精品在线| 日韩无码黄色网站| 呦女精品网站| 国产经典三级在线| 国产91导航| 国产亚洲精久久久久久无码AV| 国产丝袜无码精品| 亚洲第一香蕉视频| 极品尤物av美乳在线观看| 国产亚洲精品yxsp| 精品无码一区二区三区在线视频| 国产欧美高清| 国产真实乱人视频| 免费视频在线2021入口| 精品1区2区3区| 综合天天色| 欧美色视频日本| 日本不卡在线播放| 美女免费精品高清毛片在线视| 视频二区欧美| 91精品人妻互换| 97国产在线视频| 中文无码伦av中文字幕| 国产成人a毛片在线| 亚洲清纯自偷自拍另类专区| 精品国产亚洲人成在线| 人妻丰满熟妇αv无码| 992Tv视频国产精品| 久久永久视频| 伊人久久精品无码麻豆精品| 一区二区午夜| 无码国产伊人| 国产91无毒不卡在线观看| 欧美一区福利| 无码'专区第一页| 伊在人亚洲香蕉精品播放| 国产黄色片在线看| 久久这里只有精品8| 国产成人免费观看在线视频| 一级毛片a女人刺激视频免费| 国产在线视频自拍|