999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

向上學習方法改進移進-歸約中文句法分析

2015-04-21 09:26:33朱慕華王會珍朱靖波
中文信息學報 2015年2期
關鍵詞:實驗系統(tǒng)

朱慕華,王會珍,朱靖波

(東北大學 自然語言處理實驗室,遼寧 沈陽 110819)

?

向上學習方法改進移進-歸約中文句法分析

朱慕華,王會珍,朱靖波

(東北大學 自然語言處理實驗室,遼寧 沈陽 110819)

基于移進-歸約的句法分析系統(tǒng)具有線性的時間復雜度,因此在大規(guī)模句法分析任務中具有特別實際的意義。然而目前移進-歸約句法分析系統(tǒng)的性能遠低于領域內(nèi)最好的句法分析器,例如,伯克利句法分析器。該文研究如何利用向上學習和無標注數(shù)據(jù)改進移進-歸約句法分析系統(tǒng),使之盡可能接近伯克利句法分析器的性能。我們首先應用伯克利句法分析器對大規(guī)模的無標注數(shù)據(jù)進行自動分析,然后利用得到的自動標注數(shù)據(jù)作為額外的訓練數(shù)據(jù)改進詞性標注系統(tǒng)和移進-歸約句法分析器。實驗結果表明,向上學習方法和無標注數(shù)據(jù)使移進-歸約句法分析的性能提高了2.3%,達到82.4%。這個性能與伯克利句法分析器的性能可比。與此同時,該文最終得到的句法分析系統(tǒng)擁有明顯的速度優(yōu)勢(7倍速度于伯克利句法分析器)。

中文句法分析;移進-歸約分析;伯克利句法分析器;向上學習;無標注數(shù)據(jù)

1 前言

根據(jù)采用的搜索算法不同,中文成分句法分析領域中經(jīng)常使用的模型可以大致分為兩類: 基于動態(tài)規(guī)劃的模型[1-5]和基于貪婪搜索或者柱搜索的模型,例如,移進-歸約句法分析[6-8]。從性能來看,基于動態(tài)規(guī)劃的句法分析器普遍優(yōu)于移進-歸約句法分析器,特別是基于隱含標注的伯克利句法分析器[1],代表著目前中文句法分析的最好性能。但是在解碼效率上,移進-歸約句法分析只要求線性的時間復雜度因而具有明顯的速度優(yōu)勢。在實際應用尤其是大規(guī)模句法分析任務中(例如,對網(wǎng)絡上的海量網(wǎng)頁進行句法分析),解碼速度是我們必須考慮的一個重要因素。因此本文著重研究提高移進-歸約成分句法分析器的性能。

為了改進移進-歸約句法分析器的性能,我們可以從兩方面著手。(1) 提高中文詞性標注的性能。移進-歸約句法分析通常要求輸入句子中包含詞性信息,而且詞性標注的準確性對句法分析的性能有很大影響(參照文獻[7]的實驗部分)。然而與其他語言(例如,英語)相比,中文詞性標注的性能還有較大的提高空間。(2) 改進移進-歸約句法分析系統(tǒng)本身。改進詞性標注與句法分析器的一個可行方案是建立兩者的聯(lián)合模型,利用詞性與句法之間的相互作用提高整體性能。例如,在依存句法分析領域,Hatori等[9]提出了基于移進-歸約框架的詞性標注與句法分析聯(lián)合模型。然而在成分句法分析領域中,管道式框架(依次進行詞性標注和句法分析)仍然是主流。因此本文將沿用管道式框架,采用無標注數(shù)據(jù)分別改進詞性標注與句法分析的準確性。

為了利用無標注數(shù)據(jù),我們采用向上學習(uptraining)方法[10]。向上學習的基本思想是利用一個性能較高但速度相對較慢的系統(tǒng)來幫助改進一個性能相對較弱但是擁有速度優(yōu)勢的系統(tǒng),其目標是使高速系統(tǒng)的性能接近(甚至超過)低速系統(tǒng)的性能。Petrov等[10]最先提出了向上學習的方法,利用領域適應性較強的伯克利句法分析器改進領域適應性相對較弱的移進-歸約依存句法分析器。在本文的工作中,我們除了應用向上學習方法構建高性能移進-歸約成分句法分析系統(tǒng)之外,還將針對以下問題進行討論。

(1) Petrov等人的工作[10]中,由于領域差異性,源領域內(nèi)構建的詞性標注器和移進-歸約句法分析器在目標領域內(nèi)的性能都明顯下降,因此實驗中所用的基準系統(tǒng)的性能相對較低。本文的訓練和測試數(shù)據(jù)都來自新聞領域。實驗中所采用中文詞性標注和句法分析基準系統(tǒng)的性能已經(jīng)較高。在這種情況下,向上學習是否仍然有效果是一個需要通過實驗驗證的問題。

(2) Petrov等人的工作[10]中,向上學習同時改進了詞性標注和移進-歸約句法分析器的性能,但是沒有討論詞性標注性能對句法分析性能的影響。我們發(fā)現(xiàn)詞性標注的準確性與句法分析的性能并不是絕對的正相關關系: 在某些情況下,詞性標注準確性下降反而產(chǎn)生更有利于句法分析的詞性標注結果。我們通過實驗對這個現(xiàn)象進行了討論。

實驗結果表明,應用向上學習方法和無標注數(shù)據(jù)使移進-歸約句法分析的性能提高了2.3%,達到82.4%。這個性能很接近伯克利句法分析器,同時優(yōu)于其它基于動態(tài)規(guī)劃算法的句法分析器。此外,本文的移進-歸約系統(tǒng)具有明顯的速度優(yōu)勢。

2 本文方法

本文應用向上學習方法改進移進-歸約句法分析系統(tǒng)的性能。具體地說,我們應用伯克利分析器幫助改進移進-歸約句法分析器Zpar[7]的性能。下面我們首先簡單介紹這兩個句法分析系統(tǒng),然后描述向上學習的過程。

2.1 伯克利句法分析器

伯克利句法分析器是基于隱含標注的成分句法分析模型。其出發(fā)點在于人工標注的句法樹從計算的角度來看存在不足: 某些位置的標注過細,而某些位置的標注則過于粗糙。伯克利分析器認為真正適合統(tǒng)計學習的標注是未知的,而且隱含在人工標注的句法樹之中。因此伯克利句法分析器利用期望最大化(Expectation Maximization,EM)[11]方法自動學習隱含的標注并在此基礎上構建句法分析模型。

2.2 移進-歸約句法分析器

移進-歸約句法分析過程可以看作狀態(tài)轉移過程,其中狀態(tài)由兩個數(shù)據(jù)結構表示: 堆棧S和隊列 Q。S保存已經(jīng)完成的(部分)句法分析結果而Q則存儲輸入句子(詞序列和相應的詞性序列)中尚未被處理的部分。在初始狀態(tài)下,S為空而Q中保存著完整的輸入句子;在終止狀態(tài)下Q為空而S保存著最終的句法分析結果。從初始狀態(tài)到終止狀態(tài)的轉移過程中,分析器或者執(zhí)行移進操作將Q的最左端元素壓入S的棧頂;或者對S頂端的元素執(zhí)行一元歸約(擴展堆棧頂端的元素)或者二元歸約操作(擴展堆棧頂端的兩個元素)。

本文所采用的移進-歸約句法分析系統(tǒng)為Zpar[7]。據(jù)我們所知,該分析器是目前性能最好的移進-歸約中文句法分析系統(tǒng)。與之前的移進-歸約句法分析器(例如,文獻 [6])相比,Zpar在訓練階段做出了改進,提出了全局訓練的方法。Zpar之前的移進-歸約句法分析方法將分析過程看作是一個分類決策問題: 從起始狀態(tài)到終止狀態(tài),利用分類器選擇合適的移進或者歸約操作進行狀態(tài)轉移。因此句法分析器的訓練過程實質(zhì)上等同于訓練分類器。Zpar將訓練過程看作柱搜索過程: 從初始狀態(tài)出發(fā)尋找終止狀態(tài)。在柱搜索過程中產(chǎn)生多個相互競爭的中間狀態(tài),其中有且只有一個可以達到正確的終止狀態(tài)。Zpar的學習目標是確保該“正確”狀態(tài)始終停留在柱中不被減枝。由于篇幅所限,關于Zpar的更詳細介紹可以參考文獻[7]。

2.3 向上學習過程

應用伯克利句法分析器和移進-歸約句法分析器Zpar進行向上學習的過程如圖1所示。我們首先應用伯克利句法分析器對(經(jīng)過自動分詞的)無標注數(shù)據(jù)進行句法分析。分析的結果稱為自動標注數(shù)據(jù),其中包含自動標注的詞性和句法樹。然后我們將得到的自動標注數(shù)據(jù)與人工標注的訓練數(shù)據(jù)進行合并,分別訓練詞性標注器和Zpar。在測試階段,依次應用中文詞性標注和句法分析系統(tǒng)得到句法分析結果。

圖1 向上學習過程圖

很顯然,向上學習方法不會改變詞性標注和句法分析系統(tǒng)的解碼時間復雜度(但是系統(tǒng)所需的訓練時間隨著訓練數(shù)據(jù)的增多而相應地增加),因此最終得到的移進-歸約句法分析器仍然具有速度上的優(yōu)勢。另外,向上學習方法的實現(xiàn)非常簡單: 我們只需要將詞性標注和句法分析系統(tǒng)看作黑盒而不需要掌握系統(tǒng)內(nèi)部的實現(xiàn)細節(jié)。從性能角度考慮,上述方法成功的關鍵在于應用伯克利句法分析器對無標注數(shù)據(jù)進行自動分析。本文采用伯克利句法分析器的原因之一是伯克利句法分析器在中文句法分析任務上的性能優(yōu)勢: 更高的性能可以產(chǎn)生更高質(zhì)量的自動標注數(shù)據(jù)。此外,伯克利分析器對詞性標注與句法分析采取了集成解碼策略(類似的句法分析器還包括文獻[3]),因此自動詞性標注的結果受到上層句法信息的約束。以這種方式得到的大規(guī)模自動標注詞性數(shù)據(jù)可以幫助構建更加有利于句法分析的詞性標注器。

注意到向上學習方法與句法分析領域中經(jīng)常使用的自學習方法非常相似。區(qū)別在于產(chǎn)生自動標注數(shù)據(jù)的方式。基于移進-歸約句法分析器的自學習方法要求依次應用基準詞性標注系統(tǒng)和基準句法分析系統(tǒng)對無標注數(shù)據(jù)進行處理以生成自動標注數(shù)據(jù);本文的向上學習方法采用伯克利句法分析器,該分析器對詞性標注和句法分析采取了集成解碼策略。在向上學習過程中,我們需要考慮兩個學習參數(shù): (1)參與訓練的自動標注數(shù)據(jù)的規(guī)模;(2)在數(shù)據(jù)合并時人工標注數(shù)據(jù)和自動標注數(shù)據(jù)的相對權重。

3 實驗

3.1 實驗數(shù)據(jù)與設置 本文的實驗基于賓州大學的中文樹庫(PCTB)5.1版[12]以及如下所述的數(shù)據(jù)劃分方法: 文檔001-270和440-1151中的句法樹用作訓練數(shù)據(jù),文檔270-300中的句法樹作為測試數(shù)據(jù)而文檔301-325中的句法樹用于系統(tǒng)開發(fā)與調(diào)參。此外,本文實驗中所用的無標注數(shù)據(jù)來自于中文Gigaword(LDC2003T09),我們從中隨機抽取100萬句無標注數(shù)據(jù)并且利用一個基于條件隨機場的分詞系統(tǒng)(CTB5.1測試集上的分詞準確性為97.2%)進行了自動分詞。數(shù)據(jù)相關統(tǒng)計信息如表1所示。

表1 本文實驗所用數(shù)據(jù)的相關統(tǒng)計信息

本文實驗設置如下: 首先利用伯克利句法分析器對100萬無標注數(shù)據(jù)進行句法分析。這里所用的伯克利句法分析器在CTB5.1訓練數(shù)據(jù)上訓練,EM的迭代次數(shù)設置為5。然后我們將自動標注數(shù)據(jù)作為額外訓練數(shù)據(jù)分別訓練詞性標注器和移進-歸約句法分析器。具體地說,利用自動標注數(shù)據(jù)中的詞性部分與CTB訓練數(shù)據(jù)合并訓練斯坦福詞性標注器[12];利用自動標注數(shù)據(jù)中句法樹(包括詞性)與CTB訓練數(shù)據(jù)一起訓練Zpar。在數(shù)據(jù)合并時,所有數(shù)據(jù)的相對權重都設置為1。在訓練和測試階段,Zpar的柱寬(beam size)設置為16。所有實驗在3.16G赫茲的個人計算機上進行。

實驗中我們需要評價詞性標注與句法分析的準確性。詞性標注的性能評價指標采用精準率(accuracy),即測試集中被正確賦予詞性標記的詞的比例;對句法分析的性能評價我們采用準確率、召回率以及F1值(由EVALB[13]評價工具提供)。

3.2 系統(tǒng)的最終性能

我們首先報告本文系統(tǒng)在測試集上獲得的最終性能和測試時間,并且與相關的句法分析器進行比較,結果如表2所示。這里斯坦福詞性標注器的訓練采用CTB訓練數(shù)據(jù)和500K自動標注數(shù)據(jù);Zpar的訓練采用CTB訓練數(shù)據(jù)和250K自動標注數(shù)據(jù)。這里使用的自動標注數(shù)據(jù)的規(guī)模通過在開發(fā)集上進行調(diào)試得到(詳見3.3和3.4節(jié)的討論)。CH00、BI04、PK07和CJ05分別指文獻[3]、[14]、[1]和[15]中所提出的句法分析模型,其中CH00、BI04和PK07是單系統(tǒng)模型而CJ05是基于重排序的句法分析器。注意,PK07就是本文采用的伯克利句法分析器。參與比較的句法分析器除了Zpar之外都不需要獨立的詞性標注器。這里我們忽略模型裝載的耗時而只評價句法分析所需的時間。

表2 不同句法分析器在測試數(shù)據(jù)上的性能與運行時間比較

在不使用任何自動標注數(shù)據(jù)時,斯坦福詞性標注器在測試集上的精準率為95.4%,Zpar句法分析性能為80.1%;使用自動標注數(shù)據(jù)之后,詞性標注精準率提高到95.5%,而句法分析的最終性能達到82.4%。因此,向上學習和無標注數(shù)據(jù)獲得了2.3%的句法分析性能提升,其中詞性標注的改進貢獻了1.2%,而句法分析器的改進貢獻了剩余的1.1%。另外,從表2可以看出,本文移進-歸約句法分析器的性能明顯超過了CH00和BI04而且略優(yōu)于基于重排序的句法分析器CJ05。此外,我們發(fā)現(xiàn)本文的句法分析器的性能仍然要低于PK07,但是我們的句法分析器在運行效率方面具有明顯的優(yōu)勢。具體地說,伯克利句法分析器處理測試集中的句子需要三分鐘,而我們的句法分析器卻只需要25秒。注意,我們沒有衡量CJ05的運行速度,但CJ05以CH00為第一階段分析器生成k最優(yōu)侯選,因此它的運行時間要多于CH00所需的時間。

3.3 向上學習對詞性標注的影響

本節(jié)分析向上學習對詞性標注的影響以及得到最優(yōu)結果的自動標注數(shù)據(jù)的規(guī)模。我們在CTB訓練數(shù)據(jù)的基礎上逐步加入自動標注數(shù)據(jù)以重新訓練斯坦福詞性標注系統(tǒng)。得到的詞性標注器的性能在CTB開發(fā)集上進行評價(表3)。除了詞性標注精準率以外,我們還采用句法分析的性能作為詞性標注質(zhì)量的一個外部評價指標。因此,表3的最后一列報告了移進-歸約句法分析器Zpar在開發(fā)集上的性能。注意,在本實驗中Zpar固定使用CTB訓練數(shù)據(jù)而不使用任何自動標注數(shù)據(jù)。該實驗的目的在于評價詞性標注的變化對句法分析性能的影響。

表3 向上學習詞性標注在開發(fā)集上的實驗結果

從表中結果可以看出,加入自動標注數(shù)據(jù)之后,詞性標注的精準率呈下降趨勢,但是句法分析的性能(表3最后一列)卻呈現(xiàn)上升的趨勢。這意味著(1)自動標注數(shù)據(jù)可以使詞性標注器輸出更加有利于句法分析的詞性標注結果;(2)當我們面向句法分析任務討論詞性標注的質(zhì)量時,精準率并不是可靠的性能評價指標。另外,我們發(fā)現(xiàn)自動標注數(shù)據(jù)達到500K句時句法分析的性能達到85.0%,而后繼續(xù)增加新的數(shù)據(jù)會使性能下降。因此我們固定以500K句自動標注數(shù)據(jù)以及CTB訓練數(shù)據(jù)訓練詞性標注器。

我們也在測試數(shù)據(jù)上評價了引入500K自動標注數(shù)據(jù)后的詞性標注性能。我們發(fā)現(xiàn)在測試集上詞性標注的精準率得到了提高,但是提高幅度只有0.1%(從95.4%到95.5%)。另一方面,我們發(fā)現(xiàn)測試集上句法分析的性能從80.1%顯著提高到81.3%(Zpar的訓練只使用CTB訓練數(shù)據(jù))。這個現(xiàn)象與開發(fā)集上的實驗結果基本一致: 向上學習和自動標注數(shù)據(jù)的作用主要體現(xiàn)在生成更加有利于句法分析的詞性標注結果而不在于提高詞性標注的精準率。有必要對這個實驗現(xiàn)象進行進一步的分析。

我們首先比較了基準詞性標注系統(tǒng)和更新之后的系統(tǒng)在測試集上的錯誤分布,如表4所示,其中第一列表示正確的詞性而第一行表示錯誤的詞性。例如,表項[NN,VV]表示正確的詞性為NN而被系統(tǒng)錯誤標成VV的詞的個數(shù)。表項中斜杠前的數(shù)字表示基準詞性標注系統(tǒng)的錯誤計數(shù)、而斜杠后的數(shù)字表示我們的系統(tǒng)的錯誤計數(shù)。從表中結果可以看出,中文詞性標注在以下詞性之間存在較為嚴重的歧義: NN-VV(普通名詞-動詞)、DEC-DEG(補語標識-所有格標識)、NN-JJ(普通名詞-形容詞)和NN-NR(普通名詞-專有名詞)。同時,我們發(fā)現(xiàn)引入自動標注數(shù)據(jù)后對上述幾個類別的詞性的標注結果產(chǎn)生了不同的影響。具體地說,引入自動標注數(shù)據(jù)之后,NN、VV和DEC這三個詞性的標注錯誤減少;自動標注數(shù)據(jù)對DEG幾乎沒有影響; NN與NR之間的錯誤明顯增加。

表4 測試數(shù)據(jù)上詞性標注結果中的錯誤分布

上述詞性對句法分析的影響程度并不同。為了簡化討論,我們挑選測試數(shù)據(jù)中有且只有一個詞的詞性被修改的句子,共得到78句。這78個句子中NN與NR之間的跳轉占了25句,其中13個句子的句法分析性能完全沒有改變;5個句子的性能有所提高而7個句子的性能下降。這個現(xiàn)象說明NR換成NN或者NN換成NR對句法分析影響比較小。我們發(fā)現(xiàn)78個句子中包含19個VV與NN之間的跳轉,其中14個跳轉改進了句法分析的性能而只有5個降低句法分析性能;VV與NN之間的跳轉總是使句法分析的性能發(fā)生改變。換句話說,將NN換成VV(或者相反)將對上層的句法結構產(chǎn)生較大影響;將NR換成NN(或者相反)并不影響我們對句法結構的理解。不同詞性對句法分析影響程度不同解釋了向上學習在幾乎不改變詞性標注精準率的情況能夠?qū)浞ǚ治鲂阅墚a(chǎn)生較大影響的原因。為了實驗的完整性,我們在測試集上衡量了NN與VV之間的跳轉次數(shù)與使用的自動標注數(shù)據(jù)規(guī)模之間的關系,以及詞性跳轉對句法分析性能的影響,結果如表5所示。表中最后3列分別表示包含NN與VV跳轉的所有句子中句法分析性能上升的句子數(shù),性能下降的句子數(shù)以及性能沒有改變的句子數(shù)。由于這些句子中可能不僅僅包含NN與VV跳轉,因此這3列數(shù)字只是近似衡量NN與VV的跳轉對句法分析的影響。從表中可以看出,隨著自動標注數(shù)據(jù)規(guī)模的增加,NN與VV之間的(正確)跳轉數(shù)以及相應的句法分析性能都有所增加,直到達到峰值。

表5 NN與VV跳轉與自動標注數(shù)據(jù)規(guī)模之間的關系

最后我們系統(tǒng)地分析句法分析性能的改變來源于何種詞性跳轉。為此,我們根據(jù)句法分析性能的變化情況將測試集中的句子分成三組: 79句通過向上學習改變詞性而得到更高的句法分析性能;48句的句法分析性能下降;221句的句法分析性能沒有改變。在第一組句子中,我們發(fā)現(xiàn)排在前五位的詞性跳轉分別為: VV-NN(28),DEG-DEC(15),DEC-DEG(12),NN-VV(12)以及NN-NR(11),其中括號內(nèi)的數(shù)字表示跳轉的次數(shù),例如VV-NN(28)表示向上學習方法使28個VV被修改為NN。類似地我們獲得第二組句子中排在前五位的跳轉,分別為VV-NN(18),DEG-DEC(12),NN-NR(10),NN-VV(9)以及DEC-DEG(6)。由此我們可以看出,向上學習主要通過上述五種詞性跳轉影響句法分析的性能(注意,如前所述,這五種詞性跳轉對句法分析的影響程度并不相同)。

3.4 向上學習對句法分析的影響

我們研究加入自動標注數(shù)據(jù)對Zpar性能的影響。同樣地,我們在CTB訓練數(shù)據(jù)的基礎上逐漸加入自動標注數(shù)據(jù)以重新訓練Zpar然后在開發(fā)集上評價其性能。實驗結果如表6所示。注意,(1)表中所列的結果全部基于詞性標注的精準率為95.5%(使用500K自動標注數(shù)據(jù)時得到的結果);(2)Zpar訓練過程中的迭代次數(shù)對最終的句法分析性能有重大的影響,因此在表6中我們也列出了在開發(fā)集上取得最優(yōu)性能的迭代次數(shù)。

表6 向上學習句法分析在開發(fā)集上的結果

從實驗結果可以看出,自動標注數(shù)據(jù)對提高Zpar的性能具有正向作用。具體地說,當250K自動標注數(shù)據(jù)被用作額外訓練數(shù)據(jù)時,性能可以達到最高(85.5%);隨著更多自動標注數(shù)據(jù)的引入,性能反而呈現(xiàn)下降趨勢。此外,我們在實驗過程中發(fā)現(xiàn)了幾個值得討論的問題。第一,隨著訓練數(shù)據(jù)規(guī)模的擴大,訓練時間相應地大幅增加(表6中最后1列表示完成最優(yōu)迭代次數(shù)所需要的訓練時間)。這是因為Zpar的訓練過程是一個在線學習(online learning)過程。學習算法需要對訓練數(shù)據(jù)重復多次掃描,每個被掃描到的句子都需要利用當前模型進行句法分析。即使采用了提前更新(early update)策略[16],這也是一個非常耗時的過程。正是由于這個原因,本實驗最多使用了750K自動標注數(shù)據(jù)。第二: 引入自動標注數(shù)據(jù)以后Zpar達到最優(yōu)性能所需要的迭代次數(shù)明顯減小。Zpar的學習目標是使學習得到的模型盡可能地擬合訓練數(shù)據(jù),即盡可能將訓練數(shù)據(jù)中所有的句子都進行正確的句法分析。然而自動標注數(shù)據(jù)中難免存在錯誤,導致Zpar的模型隨著迭代次數(shù)的增加而不斷地擬合錯誤點。因此Zpar在迭代次數(shù)達到某個值以后,性能會下降??傮w來說,自動標注的數(shù)據(jù)加入得越多,達到最優(yōu)性能所需要的迭代次數(shù)就越少。

4 討論

實驗結果表明,伯克利句法分析器輸出的自動標注數(shù)據(jù)可以有效改進詞性標注的質(zhì)量(從句法分析的角度進行評價)。出于比較的目的,我們利用斯坦福標注系統(tǒng)實驗了自學習方法[17],即應用斯坦福標注系統(tǒng)給無標注數(shù)據(jù)自動賦予詞性然后以自動標注數(shù)據(jù)作為額外的訓練數(shù)據(jù)重新訓練斯坦福詞性標注器。結果表明,自學習方法既不能提高詞性標注的精準率也不能改善句法分析的性能??紤]到斯坦福詞性標注系統(tǒng)與伯克利句法分析器具有非常接近的詞性標注精準率,我們認為產(chǎn)生性能差異的可能原因在于伯克利句法分析器產(chǎn)生的詞性序列受到上層句法規(guī)則的約束。從這個角度來說,任何詞性標注和句法分析統(tǒng)一解碼的分析器,例如,Collins句法分析器[2]和Charniak句法分析器[3]可能都具有類似于伯克利分析器的效果。這將在我們的下一步工作中進行驗證。利用自動標注數(shù)據(jù)可以改進句法分析器的性能。但是該方法存在一些不足,例如上面已經(jīng)討論的訓練時間過長,對自動標注數(shù)據(jù)中的錯誤容易過度擬合等問題。這是由Zpar的訓練過程本身的特點決定的。自動標注的數(shù)據(jù)中錯誤和噪音是不可避免的??尚械慕鉀Q辦案是利用自動標注數(shù)據(jù)中的部分信息而不是整棵句法樹。因此,將來我們可以采用類似Chen等[18]所采用的子樹抽取技術。我們將在未來工作中進行討論。

5 結論

本文采用了向上學習方法和無標注數(shù)據(jù)改進移進-歸約句法分析的性能。具體地說,我們首先利用伯克利句法分析器對無標注數(shù)據(jù)進行自動分析,然后將得到的自動標注數(shù)據(jù)作為新的數(shù)據(jù)訓練詞性標注器和句法分析器。實驗結果表明,該方法可以使移進-歸約句法分析器的性能提高2.3%,最終達到82.4%。這個性能非常接近伯克利句法分析器的性能并且要優(yōu)于其它的分析器。同時,我們得到的分析器具有速度上的明顯優(yōu)勢(七倍速度于伯克利分析器)。

[1] Slav P, Dan K. Improved inference for unlexicalized parsing[C]//Proceedings of Huamn Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, 2007: 404-411.

[2] Michael C. Head-driven statistical models for natural language parsing [D]. Ph.D. Thesis, University of Pennsylvania, 1999.

[3] Eugune C. Maximum-entropy-inspired parser[C]//Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, 2000: 132-139.

[4] 何亮,戴新宇,周俊生,等.中心詞驅(qū)動的漢語統(tǒng)計句法分析模型的改進[J]. 中文信息學報,2008,22(4):3-9.

[5] 冀鐵亮,穗志方.詞匯化句法分析與子語類框架獲取的互動方法[J].中文信息學報,2007,21(1): 120-126.

[6] Kenji S, Alon L. A classifier-based parser with linear run-time complexity[C]//Proceedings of the 9th International Workshop on Parsing Technologies, 2005: 125-132.

[7] Zhang Y, Stephen C. Transition-based parsing of the Chinese Treebank using a global discriminative model[C]//Proceedings of the 11th International Workshop on Parsing Technologies,.2009: 162-171.

[8] 馬驥,朱慕華,肖桐,等.面向移進-歸約句法分析器的單模型系統(tǒng)整合算法[J]. 中文信息學報,2012,26(3): 9-15.

[9] Jun H, Takuya M, Yusuke M, et al. Incremental joint POS tagging and dependency parsing in Chinese[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[10] Slav P, Pi-Chuan Chang, Michael R, Hiyan A. Uptraining for accurate deterministic question parsing[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 705-713.

[11] 李航. 統(tǒng)計學習方法[M].北京: 清華大學出版社,2012.

[12] Nianwen Xue, Fei Xia, Fu dong Chiou, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus [J], Natural Language Engineering, 11(20),207-238.

[13] Kristina T, Christopher D M. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger[C]//Proceedings of the 2003 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2003: 252-259.

[14] Dan B. On the parameter space of generative lexicalized statistical parsing models[D], Ph.D. thesis, University of Pennsylvania,1999.

[15] Eugune C, Mark J. Coarse-to-fine n-best parsing and MaxEnt discriminative reranking[C]//Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, 2005, 173-180.

[16] Michael C, Brian R. Incremental parsing with the perceptron algorithm[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004.

[17] Mark S, Steven B, Jeremiah C, et al. CLSP WS-02 final report: semi-supervised training for statistical parsing[R]. Technical Report, Johns Hopkins University.

[18] Wenliang Chen, Jin’ichi K, Kiyotaka U, et al. Improving Dependency parsing with subtrees from auto-parsed data[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 570-579.

[19] http://nlp.cs.nyu.edu/evalb[OL]

Improving Shift-Reduce Chinese Parsing with an Uptraining Approach

ZHU Muhua, WANG Huizhen, ZHU Jingbo

(Northeastern University NLP Lab, Shenyang, Liaoning 110819, China)

In practical applications such as parsing the Web, the shift-reduce parser is often preferred due to its linear time complexity. To be further comparable to the state-of-the-art parsers publicly available, this paper adopts the uptraining approach to improve the performance of the shift-reduce parser. The basic idea of uptraining is to apply a high-accuracy parser (such as the Berkeley parser used in this paper) to automatically analyze unlabeled data and then the new labeled data is applied as additional training data to build a POS tagger and the shift-reduce parser. Experimental results on Penn Chinese Treebank show that the approach can improve the shift-reduce parsing to 82.4% (with an absolute improvement of 2.3%), which is comparable to the Berkley parser on the same data and outperforms other state-of-the-art parsers.

Chinese syntactic parsing; shift-reduce parsing; Berkeley parser; uptraining; unlabeled data

朱慕華(1981—),博士,主要研究領域為自然語言處理。E?mail:zhumuhua@gmail.com王會珍(1980—),博士,講師,主要研究領域為自然語言處理,文本分析,知識圖譜。E?mail:wanghuizhen@mail.neu.edu.cn朱靖波(1973—),博士,教授,博士生導師,主要研究領域為自然語言處理。E?mail:zhujingbo@mail.neu.edu.cn

1003-0077(2015)02-0033-07

2012-06-22 定稿日期: 2012-09-04

國家自然科學基金(61073140,61100089),中央高?;究蒲袠I(yè)務費專項資金(N110404012),高等學校博士學科點專項科研基金(20100042110031)

TP391

A

猜你喜歡
實驗系統(tǒng)
記一次有趣的實驗
Smartflower POP 一體式光伏系統(tǒng)
微型實驗里看“燃燒”
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統(tǒng)
做個怪怪長實驗
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 欧美乱妇高清无乱码免费| 亚洲国产一区在线观看| 色哟哟国产精品| 国产亚洲欧美日本一二三本道| 丝袜无码一区二区三区| 在线播放国产99re| 亚洲 欧美 日韩综合一区| 国产麻豆另类AV| 亚洲精品视频网| 天堂岛国av无码免费无禁网站| 国产AV无码专区亚洲A∨毛片| 亚洲精品天堂自在久久77| 台湾AV国片精品女同性| 九九热精品免费视频| 亚洲三级色| 又爽又大又光又色的午夜视频| 国产午夜精品一区二区三| 国产剧情无码视频在线观看| 国产色伊人| 99精品视频在线观看免费播放| 国产在线一区视频| 99精品视频在线观看免费播放| 国产成人高清在线精品| 97视频精品全国免费观看| a亚洲视频| 国产乱子伦一区二区=| 亚洲天堂网站在线| 园内精品自拍视频在线播放| 国产91熟女高潮一区二区| 亚洲最新在线| 无码内射中文字幕岛国片| 欧美日韩免费在线视频| 国产在线视频自拍| 久久综合九色综合97网| 岛国精品一区免费视频在线观看| 婷婷亚洲最大| 久久免费观看视频| 亚洲浓毛av| 亚洲精品成人片在线播放| 欧美日韩精品在线播放| 欧美日韩国产综合视频在线观看 | 亚洲成肉网| 国产成人1024精品| 亚洲三级色| 欧美国产综合色视频| 亚洲色图综合在线| 久久中文无码精品| 综合人妻久久一区二区精品| 老司机精品一区在线视频| 国产剧情国内精品原创| 日韩高清欧美| 久久香蕉国产线| 亚洲精品无码久久久久苍井空| 国内毛片视频| 97视频免费在线观看| 国产白丝av| 久青草国产高清在线视频| 亚洲成人免费看| 91探花在线观看国产最新| 又爽又大又黄a级毛片在线视频| 无码一区18禁| 污视频日本| 国产精品99一区不卡| 国产 在线视频无码| 国内精品一区二区在线观看| 久久国产精品麻豆系列| 久久一本日韩精品中文字幕屁孩| 97青草最新免费精品视频| 99热这里只有免费国产精品 | 2020国产精品视频| 亚洲国产系列| 2021国产v亚洲v天堂无码| a级高清毛片| 国产69精品久久久久孕妇大杂乱 | 制服丝袜国产精品| 99热国产在线精品99| 国产在线97| 亚洲人精品亚洲人成在线| 欧美三级视频网站| 97se亚洲| 亚洲资源在线视频| 99色亚洲国产精品11p|