999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

句法分析中基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法

2022-01-01 13:10:44陳鴻彬張玉潔徐金安陳鈺楓
中文信息學(xué)報 2022年10期
關(guān)鍵詞:詞匯方法模型

陳鴻彬,張玉潔,徐金安,陳鈺楓

(北京交通大學(xué) 計算機(jī)與信息技術(shù)學(xué)院, 北京 100044)

0 引言

句法分析作為自然語言處理的基礎(chǔ)技術(shù),其精度的提高對于機(jī)器翻譯[1]和語義角色標(biāo)注[2]等自然語言處理任務(wù)的應(yīng)用至關(guān)重要。現(xiàn)在主流的神經(jīng)網(wǎng)絡(luò)句法分析模型依賴大規(guī)模的標(biāo)注數(shù)據(jù),其精度受限于人工標(biāo)注樹庫的規(guī)模和質(zhì)量,目前普遍缺乏足夠的漢語標(biāo)注樹庫。為了提高句法分析模型的精度和魯棒性,研究人員開始研究如何利用現(xiàn)有的標(biāo)注樹庫進(jìn)行數(shù)據(jù)增強(qiáng)[3-4]。

數(shù)據(jù)增強(qiáng)是指利用有限標(biāo)注數(shù)據(jù)自動生成大量的標(biāo)注數(shù)據(jù),以提升現(xiàn)有模型精度和魯棒性的一種技術(shù)[5]。現(xiàn)有自然語言處理的數(shù)據(jù)增強(qiáng)技術(shù)通常是為了提高文本分類[5]和機(jī)器翻譯[6-7]等任務(wù)的精度和魯棒性而發(fā)展起來,這些任務(wù)的數(shù)據(jù)增強(qiáng)目標(biāo)通常是生成同語義不同表達(dá)方式的句子。但是在句法分析的數(shù)據(jù)增強(qiáng)任務(wù)中,我們關(guān)注的是詞匯和短語的句法標(biāo)注信息,生成句只要語義合理即可[8],不需要與原句保持相同的語義。因此,在句法分析中的數(shù)據(jù)增強(qiáng)任務(wù)上,對于給定的標(biāo)注樹庫,數(shù)據(jù)增強(qiáng)方法所生成的句子應(yīng)滿足如下兩個條件: 第一,要求生成句具有多樣化且完整的句法樹結(jié)構(gòu);第二,要求生成句具有合理的語義。對此,我們首次提出基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法,該方法由兩部分組成,分別用于解決這兩個需求。其中,針對第一個需求,我們提出利用詞匯化樹鄰接語法進(jìn)行解決,詞匯化樹鄰接語法是計算語言學(xué)中的一種重要形式語法,基于該語法可以在句法樹之間進(jìn)行“接插”和“替換”的操作,從而推導(dǎo)生成新的句法樹,并且用語言學(xué)的知識保證其生成的句法樹符合語法規(guī)則且具有正確的句法結(jié)構(gòu)標(biāo)注。針對第二個需求,我們提出基于語言模型的生成句語義合理性評估方法,利用語言模型對生成句進(jìn)行語義合理性評估,從而選出語義合理的句子作為最終的增強(qiáng)數(shù)據(jù)。我們通過這兩種方法分別解決句法分析中數(shù)據(jù)增強(qiáng)的兩個問題,并使用增強(qiáng)數(shù)據(jù)的方法提高漢語句法分析模型的精度和魯棒性。

本文組織結(jié)構(gòu)如下: 第1節(jié)介紹相關(guān)研究;第2節(jié)介紹詞匯化樹鄰接語法;第3節(jié)介紹基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法的實現(xiàn);第4節(jié)介紹所構(gòu)建的增強(qiáng)數(shù)據(jù)在句法分析上的評測實驗和實驗結(jié)果分析;第5節(jié)對本文研究進(jìn)行總結(jié)。

1 相關(guān)研究

現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)通常從文本分類[5]和機(jī)器翻譯[6-7]發(fā)展而來。在文本分類和機(jī)器翻譯中,為了使得數(shù)據(jù)增強(qiáng)方法所生成的句子也適用原來的分類標(biāo)簽或者譯文,要求生成句和原句在語義上相近。因此,已有的數(shù)據(jù)增強(qiáng)方法為保證生成句和原句具有相似的語義,主要采用回譯、隨機(jī)詞替換和非核心詞替換等方法。回譯的原理是利用已有的機(jī)器翻譯模型,將其中一種語言的句子翻譯到一個中間語言,再從中間語言翻譯回去,由此獲得與原有句子相同語義但具有不同表達(dá)的數(shù)據(jù),從而提高模型的精度和魯棒性[6-7]。隨機(jī)詞替換的數(shù)據(jù)增強(qiáng)方法包括同義詞替換、隨機(jī)插入、隨機(jī)交換和隨機(jī)刪除等詞級別編輯操作,主要解決文本分類中樣本分布不均或者樣本過少的問題[5]。由于隨機(jī)詞替換太過隨機(jī),容易將一些關(guān)鍵詞進(jìn)行錯誤替換或刪除,導(dǎo)致生成句與原句的語義相差太大。針對此問題,Xie等人提出一種非核心詞替換的方法,該方法使用TF-IDF衡量一個詞對于一段文本的重要性,計算字典中每個詞的TF-IDF值,再根據(jù)TF-IDF值決定是否替換該詞,從而避免刪除或替換掉某些關(guān)鍵詞,確保生成句更好地保持原有的語義[9]。

但是,句法分析的數(shù)據(jù)增強(qiáng)任務(wù)有其特殊性,對于給定的標(biāo)注樹庫,要求數(shù)據(jù)增強(qiáng)所生成的句子滿足如下條件: ①要求生成句具有多樣化的表達(dá)、完整的句法樹結(jié)構(gòu)和正確的句法樹結(jié)構(gòu)標(biāo)注; ②要求生成句具有合理的語義。因此,由于此處數(shù)據(jù)增強(qiáng)的需求存在差異,當(dāng)現(xiàn)有的數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)用于句法分析的標(biāo)注樹庫時,會造成生成句的句法樹結(jié)構(gòu)和語義遭到破壞,引入過多噪聲,從而影響句法分析模型的精度。對此,針對句法分析中數(shù)據(jù)增強(qiáng)的特殊需求,Zheng等人[8]使用英文的依存句法分析數(shù)據(jù)集,利用對抗學(xué)習(xí)的方法,選取句中最容易導(dǎo)致依存關(guān)系錯誤的詞,進(jìn)行同詞性的詞替換,生成對抗樣本以提高依存句法分析模型的魯棒性。我們針對漢語樹庫,提出基于詞匯化樹鄰接語法數(shù)據(jù)增強(qiáng)方法,通過詞匯化樹鄰接語法保證生成句具有多樣化且完整的句法樹結(jié)構(gòu)標(biāo)注。同時,通過利用語言模型對生成句進(jìn)行語義合理性評估,選取語義合理的句子作為最終的增強(qiáng)數(shù)據(jù),從而滿足句法分析中數(shù)據(jù)增強(qiáng)任務(wù)的兩個需求。

2 詞匯化樹鄰接語法

句法分析從本質(zhì)上說是一個句法結(jié)構(gòu)的識別問題,即按一定的語法規(guī)則對句子進(jìn)行識別解析,構(gòu)成句法樹。早期的句法分析需要語言學(xué)專業(yè)的學(xué)者人工對句子進(jìn)行句法分析,構(gòu)造句法樹。該方法人工成本高,并且不同語言的語法不盡相同,構(gòu)建樹庫的過程十分煩瑣。針對該問題,學(xué)者提出先構(gòu)造巨大的詞匯化樹庫,通過在詞匯化樹之間進(jìn)行“替換”和“接插”的操作,進(jìn)而生成句法樹,最終構(gòu)建大規(guī)模樹庫。所以詞匯化樹鄰接語法(Lexicalized TreeAdjoining Grammar,LTAG)越來越受到計算語言學(xué)界的重視[10]。

2.1 詞匯化樹鄰接語法的表示

詞匯化樹鄰接語法作為當(dāng)代形式語法理論中的一種重要語法,在機(jī)器翻譯[11]和信息提取[12]等任務(wù)中有眾多應(yīng)用。它從樹鄰接語法 (Tree Adjoining Grammar, TAG )演化和發(fā)展而來,LTAG在TAG的基礎(chǔ)上將初始樹和輔助樹都與某個或某些具體的單詞關(guān)聯(lián)起來,提高句法樹生成的精確度和效率,是近年計算語言學(xué)研究的重大成果之一,其理論以簡潔的樹形結(jié)構(gòu)表示形式描述了復(fù)雜的語言現(xiàn)象[13]。

LTAG可以用一個五元組(VN,VT,S,I,A)[14]來表示,其中:

(1)VN為非終結(jié)符;(2)VT為終結(jié)符,即語言中的單詞;(3)S為起始符號,它是一個特殊的非終結(jié)符,S∈VN;(4)I為初始樹(Initialtree,簡稱I樹)的有限集合,它有兩個特征:

① 所有的非葉子節(jié)點用非終結(jié)符號標(biāo)記。

② 所有的葉子節(jié)點,用終結(jié)符號(單詞)標(biāo)記,或者使用帶下箭頭(↓)的非終結(jié)符號標(biāo)記,表示該節(jié)點可以被其他樹結(jié)構(gòu)替換。

(5)A為輔助樹(Auxiliarytree,簡稱A樹)的有限集合,它有三個特征:

① 所有的非葉子節(jié)點用非終結(jié)符號標(biāo)記。

② 有一個用于“接插”操作的“足節(jié)點”(footnode),該節(jié)點帶有星號(*)標(biāo)記。除了足節(jié)點外,其他葉子節(jié)點都用終結(jié)符號或者使用帶有下箭頭(↓)的非終結(jié)符號標(biāo)記。

③ 輔助樹的足節(jié)點和根節(jié)點的符號相同。

下面以如圖1所示的一組基礎(chǔ)樹來說明LTAG的五元組。

圖1 詞匯化樹鄰接語法中的基礎(chǔ)樹

在圖1中,以左邊的初始樹集合為例,非終結(jié)符有S、VP、NP、VV、NR和NN,因為這些節(jié)點都有各自的孩子節(jié)點,而NP↓是特殊的非終結(jié)符,表示該節(jié)點可以作為替換節(jié)點進(jìn)行LTAG中“替換”的操作。“通過”“小明”和“考試”這些單詞都是葉子節(jié)點,都屬于終結(jié)符,這些詞匯化樹都符合初始樹的兩個特征。在右邊的輔助樹中,它和初始樹的區(qū)別是有一個帶(*)的足節(jié)點(VP*),并且與其根節(jié)點的VP有一樣的句法標(biāo)簽,該節(jié)點可以進(jìn)行LTAG中的“接插”操作。同時,如果一個初始樹的根節(jié)點為X,我們就稱它為X類型的初始樹,如I1的根節(jié)點為S,我們就稱I1為S類型的初始樹,輔助樹同理。

2.2 詞匯化樹鄰接語法的操作

在詞匯化樹鄰接語法中,它定義了兩種語法操作,分別為“替換”和“接插”,通過這兩種操作,可以將基礎(chǔ)樹推導(dǎo)合成為完整的句法樹,下面以圖2和圖3兩個例子詳細(xì)描述這兩種操作。

替換操作:如圖2所示,I3的根節(jié)點和I1的可替換節(jié)點擁有相同的句法標(biāo)簽NP,并且I1的NP是具有(↓)的可替換非終結(jié)符,因此將I3的根節(jié)點與I1的替換節(jié)點進(jìn)行合并即可生成新的句法樹,組合成新的短語。

圖2 詞匯化樹鄰接語法的替換操作

接插操作:接插是將輔助樹插到任何一棵樹的過程,它包括三種動作,分別為“剪”“接”和“插”,用圖3所示來描述這個過程。

圖3 詞匯化樹鄰接語法的“接插”操作

(1) 剪:S類型的初始樹I1有一個非終結(jié)符為VP的子樹,輔助樹A1根節(jié)點為VP,并且有一個可以接插的足節(jié)點VP*,在I1中剪掉VP子樹,只保留其根節(jié)點的語法標(biāo)簽VP,并將VP子樹保存在副本VP′中,其根節(jié)點的語法標(biāo)簽也是VP。

(2) 接:副本VP′根節(jié)點與輔助樹A1上標(biāo)有“*”號的足節(jié)點具有相同的語法標(biāo)簽VP,于是將副本VP′接到輔助樹帶有“*”號的足節(jié)點上,形成一個新的輔助樹A1′;(3) 插:將根節(jié)點為VP的輔助樹A1′插到原I1上同為VP的節(jié)點上,從而完成整個接插過程。

通過這兩種操作,我們可以在基礎(chǔ)樹集合中,從S類型的初始樹I開始,然后不斷地進(jìn)行“替換”和“接插”操作,直到所有帶替換標(biāo)記的節(jié)點和帶接插標(biāo)記的節(jié)點都被成功替換和接插后,形成一棵完整的句法樹;最后,再把所生成的句法樹的葉子節(jié)點按順序列出,即可獲得該樹鄰接語法所生成的句子[15]。如圖4所示,把“小明”和“考試”兩個初始樹I2和I3替換到S類型的初始樹I1上,把輔助樹“成功”也接插到I1,最后生成了句法樹“小明成功通過考試”。同時,詞匯化樹鄰接語法所定義的這些操作都是基于基礎(chǔ)樹中各子樹已有的語法標(biāo)簽進(jìn)行,當(dāng)我們把這兩種語法操作應(yīng)用于不同的基礎(chǔ)樹集合之間時,不僅能夠生成更多樣化的句法結(jié)構(gòu),而且能夠保證生成的句子具有完整的句法結(jié)構(gòu)和正確的句法標(biāo)簽。如圖4所示,在另一個基礎(chǔ)樹集合有“小紅”和“高架橋”兩個以句法標(biāo)簽NP為根節(jié)點的名詞短語,我們即可將其拿來對當(dāng)前的句法樹進(jìn)行替換,從而生成新句子“小紅成功通過高架橋”,該句法樹不僅有完整的句法樹結(jié)構(gòu),還具有全新的語義,最終達(dá)到數(shù)據(jù)增強(qiáng)的目的。

圖4 詞匯化樹鄰接語法推導(dǎo)生成句法樹的完整過程

3 基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法

我們設(shè)計基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法,其框架如圖5所示。該方法包括兩個部分,第一部分是基于詞匯化樹鄰接語法句法樹生成算法,這部分負(fù)責(zé)生成句法樹,并通過詞匯化樹鄰接語法來確保所生成句法樹的多樣性和完整性。第二部分是語言模型,當(dāng)句法樹生成之后,所對應(yīng)句子會被輸入到語言模型中,由語言模型來評估其句子的語義是否合理。本文中我們以句子的概率這一指標(biāo)進(jìn)行評估,選取語義合理的句子作為最終的增強(qiáng)數(shù)據(jù)。通過這兩部分分別解決句法分析中數(shù)據(jù)增強(qiáng)的兩個需求。最后經(jīng)過數(shù)據(jù)轉(zhuǎn)換模塊將所生成的句法樹轉(zhuǎn)換為依存句法分析和成分句法分析所需要的數(shù)據(jù)格式。

圖5 基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法框架

3.1 基于詞匯化樹鄰接語法的句法樹生成算法

3.1.1 詞匯化樹抽取算法

根據(jù)詞匯化樹鄰接語法的定義,在進(jìn)行“替換”和“接插”的操作之前,需要構(gòu)建基礎(chǔ)樹集合,其中,基礎(chǔ)樹分為“輔助樹”和“初始樹”。給定的標(biāo)注樹庫都是完整的句法樹,因此在使用詞匯化樹鄰接語法生成新句法樹之前,我們需要先從當(dāng)前的標(biāo)注樹庫中抽取詞匯化樹,構(gòu)建基礎(chǔ)樹集合,為后續(xù)推導(dǎo)生成新句法樹做準(zhǔn)備。

為了確保詞匯化樹鄰接語法最后生成的句法樹簡潔并且符合語言特性,Xia等人為詞匯化樹的抽取定義了如圖6所示的三種類型[16],在圖6中,X、Y、Z和W都表示成分句法標(biāo)簽,POS為單詞的詞性標(biāo)簽。

中心樹:該類型屬于基礎(chǔ)樹中的“初始樹”,如圖6(a)所示,該樹的錨點(帶有詞的節(jié)點)是X,然后經(jīng)過X1、X2……歸約到根節(jié)點Xm。Xi+1是Xi的父節(jié)點,它們一般是動詞短語的句法標(biāo)簽,如VB或VP。在每一層,Xi和它的兄弟節(jié)點都是謂詞關(guān)系,即有可能是主謂關(guān)系或者是動賓關(guān)系。

圖6 詞匯化樹的類型

修飾樹:該類型屬于基礎(chǔ)樹中的“輔助樹”,如圖6(b)所示,這種類型的詞匯化樹要求根節(jié)點和一個孩子節(jié)點的成分句法標(biāo)簽相同,如圖6(b)中的W*和W。

連接樹:該類型屬于基礎(chǔ)樹中的“輔助樹”,如圖6(c)所示,中間是一個連詞,如“和”或者標(biāo)點符號“、”等,連接兩個并列成分。

本文的抽取算法主要關(guān)注中心樹、修飾樹和連接樹,不符合這三種定義的子樹歸為普通初始樹,如圖7中的“小明”和“考試”這兩個子樹。初始樹可根據(jù)其句法標(biāo)簽類型與其他具有相同標(biāo)簽類型的節(jié)點進(jìn)行“替換”操作,生成新的句法樹。

詞匯化樹的抽取算法首先從樹的根節(jié)點出發(fā),遞歸地遍歷整個樹,對當(dāng)前節(jié)點進(jìn)行謂語關(guān)系、修飾關(guān)系和連接關(guān)系的判斷,并做相應(yīng)抽取。三種判斷所依據(jù)的句法標(biāo)簽定義如表1所示,具體的判斷與抽取操作描述如下。

表1 謂語動詞和連接詞的句法標(biāo)簽集合

(1) 謂語關(guān)系:如果當(dāng)前節(jié)點的句法標(biāo)簽X屬于謂語動詞。此時記錄下從根節(jié)點到該節(jié)點的路徑,并復(fù)制作為一棵中心樹,然后將當(dāng)前節(jié)點之外的其他節(jié)點的句法標(biāo)簽更改為↓作為替換節(jié)點。

(2) 修飾關(guān)系:如果當(dāng)前節(jié)點只有一個兄弟節(jié)點,并且它在兄弟節(jié)點的左邊修飾兄弟節(jié)點;同時該節(jié)點的句法標(biāo)簽與其父節(jié)點一樣。此時記錄下從父節(jié)點一直到葉子節(jié)點的路徑作為一棵修飾樹,然后將當(dāng)前節(jié)點的句法標(biāo)簽W修改為W*,表示其作為足節(jié)點可以進(jìn)行接插。

(3) 連接關(guān)系:如果當(dāng)前節(jié)點有兩個具有相同句法標(biāo)簽的兄弟節(jié)點,并且這兩個兄弟節(jié)點中間還存在一個句法標(biāo)簽為連接詞的兄弟節(jié)點。此時記錄這三個兄弟節(jié)點與它們的父結(jié)點作為一棵連接樹,保留連接樹中間的連接詞,而將當(dāng)前節(jié)點和另一個兄弟節(jié)點的句法標(biāo)簽分別更改為↓作為替換節(jié)點。

3.1.2 句法樹合成算法

當(dāng)標(biāo)注樹庫經(jīng)過詞匯化樹抽取算法處理之后,標(biāo)注樹庫中的每個句法樹會形成一個詞匯化樹集合,該集合包含一組初始樹I和一組輔助樹A,I∪A統(tǒng)稱為基礎(chǔ)樹,如圖7所示。

圖7 詞匯化樹的抽取

在構(gòu)建完基礎(chǔ)樹集合后,我們就可以利用詞匯化樹鄰接語法,在不同句子對應(yīng)的基礎(chǔ)樹集合之間進(jìn)行“替換”和“接插”操作,從而生成新的句法樹,如圖8所示。

圖8 不同基礎(chǔ)樹集合之間推導(dǎo)生成句法樹

在圖8中,原句法樹S1=“小紅經(jīng)過努力做完了作業(yè)”,抽取獲得基礎(chǔ)樹I1∪A1,其中 I1={做完,作業(yè),努力,小紅,了},A1={經(jīng)過}。原句法樹S2=“小明成功通過考試”,抽取獲得基礎(chǔ)樹I2∪A2,其中I2={通過,考試,小明},A2={成功}。然后在兩個基礎(chǔ)樹集合之間相互進(jìn)行詞匯化樹鄰接語法的“替換”和“接插”操作,即可生成新的句法樹S3= “小明成功做完了作業(yè)”和S4= “小紅經(jīng)過努力通過考試”。可見,不同的基礎(chǔ)樹集合之間經(jīng)過以上的操作,即可生成新的句法樹,并且都具有完整的句法結(jié)構(gòu)和正確的句法標(biāo)注信息。基于這樣兩種操作,我們能夠充分利用已有的標(biāo)注樹庫自動生成具有句法結(jié)構(gòu)多樣且句法標(biāo)注正確的句子,從而滿足句法分析中數(shù)據(jù)增強(qiáng)的第一個需求。

3.2 基于語言模型的生成句語義合理性評估方法

3.2.1 語言模型

語言模型是一種基于概率的判別模型,通過計算一個句子的概率,判斷一個句子的語義合理性[17]。換言之,就是判定句子在我們平常的自然語言表達(dá)習(xí)慣中有多大概率會出現(xiàn)這樣的語言表達(dá)方式。因此,在語言模型中,一個句子的語義越合理,該句子出現(xiàn)的概率越接近于1,反之則越接近于0。在2.2節(jié)中,我們通過詞匯化樹鄰接語法推導(dǎo)生成句子S1= “小明成功通過考試”,但是由于“小明”和“考試”都是名詞短語,因此在推導(dǎo)過程中也可能生成S2= “考試成功通過小明”,顯然,S2的語義是不合理的,因此在一個刻畫我們?nèi)粘1磉_(dá)的語言模型中,即可計算出P(S1)>P(S2),從而選取語義合理的句子作為我們最終的增強(qiáng)數(shù)據(jù)。

目前語言模型在具體的實現(xiàn)方式上分為概率統(tǒng)計語言模型和神經(jīng)網(wǎng)絡(luò)語言模型,雖然神經(jīng)網(wǎng)絡(luò)語言模型在解決數(shù)據(jù)稀疏等問題上比概率統(tǒng)計語言模型要好,但是概率統(tǒng)計語言模型以其高效的性能,仍有很大的應(yīng)用空間。所以我們使用N-gram概率統(tǒng)計語言模型和RNN神經(jīng)網(wǎng)絡(luò)語言模型分別實現(xiàn)并進(jìn)行對比分析。其中N-gram語言模型使用srilm語言模型工具進(jìn)行建模和實驗,RNN語言模型使用百度通過大規(guī)模網(wǎng)頁語料訓(xùn)練所獲得的DNN語言模型[18]進(jìn)行實驗。

3.2.2 語義合理性評估指標(biāo)

語言模型計算一個句子的概率如式(1)所示,其中,s為當(dāng)前句子,l為句子中單詞的數(shù)量,p(wi∣w1w2…wi-1) 表示基于前i-1個單詞計算得出的第i個單詞的概率。P(s)表示整個句子的概率,P(s)越大,表明這個句子越合理。

P(s)=p(w1w2…wl)

(1)

4 評測實驗與結(jié)果分析

4.1 實驗設(shè)計

本論文設(shè)置兩種實驗來驗證我們所提出的數(shù)據(jù)增強(qiáng)方法的有效性,一個是小樣本實驗,另一個是魯棒性實驗。

數(shù)學(xué)課堂留白,指數(shù)學(xué)教師在課堂教學(xué)的某些環(huán)節(jié)中,有意留出一定的時間和空間讓學(xué)生自主思考、感悟,為學(xué)生構(gòu)建屬于自己的數(shù)學(xué)認(rèn)知結(jié)構(gòu),從事數(shù)學(xué)探究活動,表達(dá)對數(shù)學(xué)的理解提供機(jī)會.?dāng)?shù)學(xué)課堂留白藝術(shù)的運用,為師生思維火花的碰撞提供契機(jī),有助于提高數(shù)學(xué)課堂教學(xué)的效能.

(1) 小樣本實驗:在小樣本實驗中,我們主要探討如何使用本文方法對已有的小樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),從而提高模型的精度。對此,我們從訓(xùn)練集中抽取20%、40%、60%、80%和100%比例的訓(xùn)練數(shù)據(jù),使用本文的數(shù)據(jù)增強(qiáng)方法增強(qiáng)0~3倍(0倍表示未使用增強(qiáng)數(shù)據(jù))的數(shù)據(jù)進(jìn)行實驗。

(2) 魯棒性實驗:為了增加評測數(shù)據(jù)中未見數(shù)據(jù)的語言現(xiàn)象的多樣性,我們利用所提方法在原測試集的數(shù)據(jù)上生成新的評測數(shù)據(jù),與原測試集合并構(gòu)成擴(kuò)展測試集。因此,我們試圖建立魯棒性評測的方式,測試模型對多種多樣的語言現(xiàn)象的處理能力。

我們分別在成分句法分析模型和依存句法分析模型上進(jìn)行小樣本和魯棒性實驗。其中,成分句法分析模型采用基于序列到序列的編碼解碼模型,具體細(xì)節(jié)參見文獻(xiàn)[19];依存句法分析模型采用Biaffine和二階子樹的分詞依存聯(lián)合模型,具體細(xì)節(jié)參見文獻(xiàn)[20]。在所采用的成分句法分析模型中,我們?nèi)コ薆ert,一方面是為了保持與依存句法分析模型的一致(未使用Bert),另一方面是為了純粹驗證本文所提數(shù)據(jù)增強(qiáng)方法所帶來的效果。

評價的數(shù)據(jù)增強(qiáng)方法包括本文提出的三種方法: ①詞匯化樹鄰接語法(LTAG); ②LTAG + n-gram語言模型; ③LTAG + RNN語言模型,以及作為對比對象選擇的同義詞替換的數(shù)據(jù)增強(qiáng)方法; ④同義詞替換。我們考慮同義詞在語義上相近并且很有可能具有相同的詞性標(biāo)簽,從而保證替換后的句子在語義上的相近、在句法結(jié)構(gòu)上的完整以及句法結(jié)構(gòu)標(biāo)簽的正確。在實驗中,我們以0.3的概率對句子中的單詞進(jìn)行同義詞替換。

4.2 實驗數(shù)據(jù)及評測指標(biāo)

我們使用賓州漢語樹庫CTB 5.1作為句法分析數(shù)據(jù)集進(jìn)行實驗,訓(xùn)練集采用編號為001~270、440~931和1 001~1 151的文章,共953篇,開發(fā)集所采用的編號為301~325的文章,共25篇,測試集采用的文章編號為271~300的文章,共30篇[19-20]。我們利用所提方法在測試集的數(shù)據(jù)上生成新的評測數(shù)據(jù)共86個,與原測試集合并作為擴(kuò)展測試集,表2顯示了新生成的測試數(shù)據(jù)中的幾個實例。表3展示了實驗數(shù)據(jù)的統(tǒng)計信息。

表2 擴(kuò)展測試集中新生成的測試實例

表3 賓州漢語樹庫CTB5.1數(shù)據(jù)集統(tǒng)計信息

我們采用準(zhǔn)確率、召回率和綜合性能指標(biāo)F1值[19-20]對依存句法分析和成分句法分析進(jìn)行評測。

4.3 評測實驗結(jié)果及分析

4.3.1 依存句法分析評測結(jié)果

本實驗中,我們在依存句法分析上進(jìn)行小樣本和魯棒性實驗,小樣本的實驗結(jié)果如圖9所示。

圖9 依存句法分析上的小樣本實驗結(jié)果

圖9(a)~9(d)分別為四種不同數(shù)據(jù)增強(qiáng)方法在不同規(guī)模的小樣本下增強(qiáng)0~3倍數(shù)據(jù)的實驗結(jié)果,顯示不同增強(qiáng)倍數(shù)對依存句法分析模型精度的影響。通過對圖9(a)~9(d)的觀察我們發(fā)現(xiàn),四種數(shù)據(jù)增強(qiáng)方法都可以在小樣本的情況下提升依存句法分析模型的精度,并且小樣本規(guī)模越小,數(shù)據(jù)增強(qiáng)為模型精度所帶來的提升幅度越大。上面分析表明在資源稀缺情況下,本文方法能夠帶來精度提升,而且提升效果顯著。

同時我們看到,隨著小樣本規(guī)模的增大,模型精度也的確有所提升,只是沒有數(shù)據(jù)較少情況下提升得幅度大;精度沒有隨著小樣本數(shù)據(jù)規(guī)模的增大有相應(yīng)幅度的提升,說明增強(qiáng)數(shù)據(jù)中存在冗余。關(guān)于解決冗余的方案,我們考慮可以從數(shù)據(jù)制作策略和增強(qiáng)數(shù)據(jù)篩選方面進(jìn)行研究,一方面可以考慮針對容易發(fā)生分析錯誤的語言現(xiàn)象進(jìn)行數(shù)據(jù)增強(qiáng);另一方面也可以考慮利用當(dāng)前模型從增強(qiáng)數(shù)據(jù)中篩選出無法正確分析的句子作為有效的增強(qiáng)數(shù)據(jù)使用。

我們進(jìn)一步觀察圖9(a)~9(d)發(fā)現(xiàn),盡管模型精度隨著增強(qiáng)數(shù)據(jù)倍數(shù)的增大而有所提升,但是提升的幅度呈減小趨勢,其中增強(qiáng)3倍和增強(qiáng)2倍的效果非常接近,說明在依存句法分析的小樣本情況下,增強(qiáng)1~2倍即可達(dá)到大幅精度提升的效果。

在小樣本規(guī)模相同且增強(qiáng)數(shù)據(jù)1倍情況下,不同數(shù)據(jù)增強(qiáng)方法的對比實驗結(jié)果如圖9(e)所示,具體數(shù)值如表4所示。表4和圖9(e)中的對比結(jié)果表明,在本文的三種方法中,使用語言模型的兩種方法比不使用語言模型的方法能夠帶來更大精度提升,且均超過同義詞替換的方法,其中LTAG+RNN語言模型的表現(xiàn)更好,在小樣本規(guī)模為40%的情況下對比差異最顯著。上面的對比說明,語言模型能夠進(jìn)一步提升增強(qiáng)數(shù)據(jù)的質(zhì)量,從而提升依存句法分析模型的性能。

表4 不同數(shù)據(jù)增強(qiáng)方法在增強(qiáng)1倍數(shù)據(jù)下的依存句法小樣本實驗結(jié)果

我們在擴(kuò)展測試集上進(jìn)行依存句法分析的魯棒性實驗,其結(jié)果如表5所示。通過分析表5我們可以看到,四種數(shù)據(jù)增強(qiáng)方法都可以提升模型的魯棒性,并且增強(qiáng)1倍的數(shù)據(jù)即可帶來不錯的性能提升,而繼續(xù)擴(kuò)大增強(qiáng)數(shù)據(jù)的倍數(shù)并未帶來明顯的精度提升。在增強(qiáng)1倍數(shù)據(jù)量的情況下進(jìn)行對比發(fā)現(xiàn),本文的數(shù)據(jù)增強(qiáng)方法為模型所帶來的性能提升均比同義詞替換方法高,說明我們所提的數(shù)據(jù)增強(qiáng)方法能夠有效提高依存句法分析模型的魯棒性。

表5 依存句法分析的魯棒性實驗結(jié)果 (單位: %)

為進(jìn)一步驗證使用本文方法所得到的增強(qiáng)數(shù)據(jù)集所訓(xùn)練的模型具有更好的魯棒性,我們專門分析模型在新加入的86個句子上的分析結(jié)果,并以根節(jié)點的分析結(jié)果作為評測對象。我們之所以評測根節(jié)點,主要考慮根節(jié)點的預(yù)測通常很難,同時對于句子的句法結(jié)構(gòu)和語義理解很重要,故可以作為魯棒性評測的一個方面。具體的,我們使用根節(jié)點正確率(Root Accuracy, RA)進(jìn)行評測,其結(jié)果如表6所示。從表6可以看到,使用本文方法獲得的增強(qiáng)數(shù)據(jù)可以使模型在86個新的測試數(shù)據(jù)上,表現(xiàn)出更好的根節(jié)點正確率。上面分析結(jié)果表明本文數(shù)據(jù)增強(qiáng)方法可以提升模型應(yīng)對新句子的能力,對新的測試句具有更好的適應(yīng)性。

表6 擴(kuò)展測試數(shù)據(jù)根節(jié)點正確率對比 (單位: %)

4.3.2 成分句法分析評測結(jié)果

本實驗中,我們在成分句法分析上進(jìn)行小樣本和魯棒性實驗,小樣本的實驗結(jié)果如圖10所示。

圖10 成分句法分析小樣本實驗結(jié)果

圖10(a)~10(d)分別為四種不同數(shù)據(jù)增強(qiáng)方法在不同規(guī)模的小樣本下增強(qiáng)0~3倍數(shù)據(jù)的實驗結(jié)果,顯示不同增強(qiáng)倍數(shù)對成分句法分析模型精度的影響。分析圖10(a)~10(d)的結(jié)果發(fā)現(xiàn),四種數(shù)據(jù)增強(qiáng)方法都可以在小樣本的情況下提升成分句法分析模型的精度。同時,我們看到隨著小樣本規(guī)模的增大,模型精度也的確有所提升,只是沒有數(shù)據(jù)較少情況下提升的幅度大。這一現(xiàn)象與前面依存句法分析實驗的表現(xiàn)類似,具體的分析已在4.3.1小節(jié)給出。

圖10(e)顯示在增強(qiáng)1倍數(shù)據(jù)情況下的不同數(shù)據(jù)增強(qiáng)方法的對比結(jié)果,具體數(shù)值表現(xiàn)如表7所示。

表7 不同數(shù)據(jù)增強(qiáng)方法在增強(qiáng)1倍數(shù)據(jù)下的成分句法小樣本實驗結(jié)果 (單位: %)

分析表7和圖10(e)的結(jié)果發(fā)現(xiàn),本文所提的三種數(shù)據(jù)增強(qiáng)方法均超過同義詞替換的數(shù)據(jù)增強(qiáng)方法,其中在樣本規(guī)模為20%的時候,對比最為顯著。同時我們也發(fā)現(xiàn),加入語言模型后的數(shù)據(jù)增強(qiáng)方法對模型性能提升幅度較小。我們分析這一現(xiàn)象與成分句法分析任務(wù)的特點有關(guān),這里主要對句中的短語進(jìn)行識別和層次劃分,更多關(guān)注句法樹結(jié)構(gòu)的多樣性;而LTAG已經(jīng)能夠提供足夠多樣化的句法樹,語言模型的加入只是提升增強(qiáng)數(shù)據(jù)在語義上的合理性,對于句法樹結(jié)構(gòu)多樣化的貢獻(xiàn)有限。

同時,我們也在擴(kuò)展測試集中進(jìn)行依存句法分析的魯棒性實驗,其結(jié)果如表8所示。我們分析表8發(fā)現(xiàn),本文所提的三種方法都能為成分句法分析模型帶來精度上的提升,其中LTAG+RNN語言模型所帶來的提升幅度最大,為0.44,而使用同義詞替換的方法卻導(dǎo)致模型精度下降0.21。魯棒性對比實驗的結(jié)果表明本文所提的數(shù)據(jù)增強(qiáng)方法可以提升模型應(yīng)對新句子的能力,對新的測試句具有更好的適應(yīng)性。

表8 成分句法分析的魯棒性實驗結(jié)果 (單位: %)

5 總結(jié)

本文首次提出基于詞匯化樹鄰接語法的數(shù)據(jù)增強(qiáng)方法,針對句法分析中數(shù)據(jù)增強(qiáng)的兩個問題分別提出解決方案。我們設(shè)計實現(xiàn)了基于詞匯化樹鄰接語法的詞匯化樹抽取算法與句法樹合成算法,利用詞匯化樹鄰接語法確保生成的句法樹具有多樣且完整的句法結(jié)構(gòu),并結(jié)合n-gram語言模型與RNN語言模型對生成句進(jìn)行語義評估,選取語義合理的句子作為最終的增強(qiáng)數(shù)據(jù)。最后我們進(jìn)行小樣本和魯棒性的評測實驗,實驗結(jié)果證明所提出的數(shù)據(jù)增強(qiáng)方法能夠有效提升現(xiàn)有漢語句法分析模型的精度和魯棒性。

本文主要提出了一種新的基于樹鄰接文法的數(shù)據(jù)增強(qiáng)方法,利用已有樹庫生成新的語句及句法結(jié)構(gòu)標(biāo)注。關(guān)于該方法的應(yīng)用方式有待進(jìn)一步探索,特別是增強(qiáng)數(shù)據(jù)中的冗余性問題,因此如何結(jié)合對抗樣本生成方法的思想解決該問題成為下一步的研究課題。

猜你喜歡
詞匯方法模型
一半模型
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
本刊可直接用縮寫的常用詞匯
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产特一级毛片| 色综合狠狠操| 亚洲伊人久久精品影院| 亚洲欧美另类中文字幕| 国产小视频网站| 中文字幕在线播放不卡| 欧美成人h精品网站| 日韩在线欧美在线| 国产精品久久精品| 亚洲国产精品美女| 114级毛片免费观看| 亚洲综合专区| 色综合天天操| 免费一级毛片不卡在线播放| 亚洲天堂精品在线| 日本一区二区不卡视频| 亚洲第一成年网| 国产一区二区三区在线精品专区| 亚洲日本中文字幕天堂网| 香蕉伊思人视频| 亚洲精品第五页| 精品国产香蕉伊思人在线| 国产美女精品在线| 亚洲国产日韩一区| 亚洲综合久久一本伊一区| 久久人妻xunleige无码| 午夜国产精品视频| 亚洲乱伦视频| 日韩精品成人在线| 国产精品久久久久久久久久98| 国产aaaaa一级毛片| 中文字幕亚洲乱码熟女1区2区| 国产综合无码一区二区色蜜蜜| 毛片久久网站小视频| 亚洲一区二区三区麻豆| 毛片免费视频| 国产午夜精品一区二区三区软件| 亚洲无码日韩一区| 婷婷伊人五月| 亚洲热线99精品视频| 久青草网站| 精品国产成人三级在线观看| 国产精品极品美女自在线| 日韩久草视频| 一级爱做片免费观看久久 | 日韩一级毛一欧美一国产| 精品国产免费观看一区| 2019年国产精品自拍不卡| 亚洲中文字幕在线精品一区| 久草中文网| 色老头综合网| 亚洲无线一二三四区男男| 91精品人妻一区二区| 国产乱人免费视频| 2020国产免费久久精品99| swag国产精品| 91最新精品视频发布页| 日韩一区二区三免费高清| 怡红院美国分院一区二区| 欧美伦理一区| 亚洲成a人片77777在线播放 | 毛片一区二区在线看| 99re在线视频观看| 国产精品亚洲一区二区三区在线观看| 成人福利一区二区视频在线| 亚洲成a人片| 欧美天天干| 亚洲区一区| 亚洲无码高清视频在线观看| 国产性爱网站| 国产麻豆永久视频| 国产在线观看人成激情视频| 超碰免费91| 伊人丁香五月天久久综合| 激情综合网激情综合| AⅤ色综合久久天堂AV色综合| 欧美 亚洲 日韩 国产| 久久伊伊香蕉综合精品| 成人免费午间影院在线观看| 99这里精品| 亚洲天堂网站在线| 日本国产一区在线观看|