袁里馳
(江西財經大學 信息學院,數據與知識工程江西省重點實驗室,江西 南昌,330013)
句法分析[1]又稱文法分析,通過構造句法樹以確定句子的結構以及各組成成分之間的關系。句法分析是自然語言理解的一個關鍵組成部分,是對自然語言進行進一步語義分析的基礎。在自然語言理解中,準確的實體識別、事件識別等信息抽取任務和語義角色標注、問題分類等深入的自然語言處理任務都必須基于可靠的句法分析結果。句法分析的研究大體分為 2種途徑:基于規則的方法和基于統計的方法[2-9]?;谝巹t的方法是以知識為主體的理性主義(Rationalism)方法,以語言學理論為基礎,強調語言學家對語言現象的認識,采用非歧義的規則形式描述或解釋歧義行為或歧義特性?;诮y計的句法分析必須以某種方式對語言的形式和語法規則進行描述,而且這種描述必須可以通過對已知句法分析結果的訓練獲得,這便是句法分析模型。概率上下文無關文法(PCFG)是將統計方法引入到上下文無關語法規則系統而形成的語法規則系統。然而,經典的PCFG實際上是建立在一些非常理想化的獨立性假設基礎之上,而這些假設并不符合實際,于是,造成PCFG的實際效果不理想。目前的概率上下文無關語法研究主要集中在如何突破這些獨立性假設上。通過逐步放寬這些假設條件,分析的正確率得到很大提高。詞匯化的句法分析是目前自然語言處理研究的趨勢和熱點,在PCFG中引入詞匯信息,構成了詞匯化的PCFG,彌補了詞匯信息的不足。句法結構是句法形式和語義內容的統一體。對句法結構不僅要進行形式分析例如句法層次分析、句法關系分析以及句型分析等,而且要進行種種語義分析。對句法結構的語義分析越全面、越深刻,就越有可能對句法形式上的各種現象以科學合理的解釋。目前的詞匯化句法分析如中心詞驅動句法分析模型、依存語法僅僅考慮詞語之間的語義依存關系[10-13],沒有引入更多的反映詞語語義特點的信息,如語義類[14-16]、語義搭配等語義信息,而這些語義信息對句法分析和語義計算是至關重要的?,F有主流的句法分析理論并沒有有效刻畫出漢語的本質特性,導致目前漢語句法分析和語義計算的效果與英語相比相差較大。在漢語中,配價結構可以較好地刻畫漢語句子的句法結構和語義構成關系,因此,有必要更系統、廣泛地研究形式化語法理論,尤其是配價語法,并在此基礎上建立句法分析模型。
依存語法由法國語言學家Tesniere于1959年提出的,依存語法是天然詞匯化的,直接按照詞語之間的依存關系構建模型。由于依存語法中詞匯的依存本質是語義的,而不同語言間的語義層面是相通的,因此,依存語法是一種跨越語言界限、客觀揭示人類語言內在規律的句法理論。與短語文法不同,依存文法理論認為每個句子中存在1個唯一中心詞,支配著句子中其他所有的詞,其他詞直接或間接依賴于中心詞;同時,句子中除了中心詞外每個詞都只被1個詞支配。依存文法可以使用依存句法樹表示,依存分析的結構沒有非終結點,詞與詞之間直接發生依存關系,構成1個依存對,其中一個是核心詞,也叫支配詞,另一個叫修飾詞,也叫從屬詞。依存關系用1個有向弧表示,叫依存弧。在本文中,規定依存弧的方向是由從屬詞指向支配詞。
Collins提出的中心詞驅動句法分析模型[17]將詞匯依存關系引入到文法中,同樣,依存語法直接按照詞語之間的依存關系構建模型??梢哉f,目前的詞匯化句法分析僅僅考慮詞語之間的語義依存關系,而沒有引入更多的反映詞語語義特點的信息,如語義類、語義搭配等語義信息。如在句子“Astronomers saw stars with telescopes”中詞“telescopes”在語義搭配上既與其直接的核心詞“with”有關,也與整個句子的核心詞“saw”有關,如果采用依存分析法,由于受依存語法公理的制約,“telescopes”和“saw”之間無法建立依存關系。同樣,在漢語句子“王冕七歲時死了父親”中,若采用依存分析法,由于受依存語法公理的制約,“王冕”和“父親”之間無法建立依存關系,而這種關系對句法分析是至關重要的。
配價語法與依存語法一樣,同樣被認為是來源于法國語言學家特斯尼耶爾的語言學思想。按照陸劍明的《現代漢語配價語法研究》序言中的說法[19],“價”(valency/valenz,亦稱“配價”/“向”)這一術語源自化學,化學中“價”的概念用于說明在分子結構中各元素原子數目之間的比例關系,而特斯尼耶爾在語法學中引進“價”的概念,是為了說明1個動詞能支配多少個名詞詞組。如“吃”是1個二價動詞,需要支配2個名詞詞組,分別說明“誰吃”和“吃什么”;而“給”是1個三價動詞,需要支配3個名詞詞組,分別說明“誰給”、“給誰”、“給什么”。不難看出:配價語法和句子級的語義計算(特別是語義角色標注)有著緊密的聯系。現在,配價的研究已經不僅僅局限于動詞,形容詞和名詞的配價也有很多人在研究。如形容詞“年輕”和名詞“姐姐”都是一價,分別需要支配1個名詞詞組,用于說明“誰年輕”和“誰的姐姐”。
國內配價語法研究方面的著作除了《現代漢語配價語法研究》[17,19]以外,主要還有袁毓林的《漢語動詞的配價研究》等[19]。不過,配價語法目前主要還是停留在語言學的層面,還沒有看到利用配價語法建立算法模型的研究。
現有配價語法[19-20]的研究多集中于研究詞語的配價特點,而沒有考慮整個句子的配價結構。希望定義1種句子的配價結構,能反映句子中所有詞語之間的配價關系。所希望標注的配價關系不僅涉及動詞與名詞短語直接的關系,也涉及名詞與名詞短語、形容詞與名詞短語甚至副詞與動詞形容詞短語之間的關系,也就是說,配價結構應該是一種完整的句法結構,應該把句子中所有的詞語都串起來,而不是現有的短語結構或者依存結構的一種補充。
在配價語法中,領主屬賓句指“王冕七歲時死了父親”這種句子,與一般的句式相比,可看到這種句式有以下特點:(1) 句中的主語與述語動詞沒有直接的語義關系,不是述語動詞的必有語義成分,表現為主語類型的非典型性;(2) 句中賓語多為述語動詞的施事,表現為賓語類型的非典型性;(3) 主語與賓語的聯系不是靠動詞而是靠2個成分之間在詞匯語義上的“領有-隸屬”關系,伴隨這個特點的是述語動詞(或形容詞)為一價(或一向)。
以“陳楠三十歲生了兒子”、“王冕七歲時死了父親”為例,給出依存樹和設想中的配價結構,如圖1~4所示。其中圖2和圖4所示為所設想的一種可能的配價結構形式,這種形式可能在研究過程中還會發生變化和改進??梢钥吹剑?個句子具有形式相同的依存樹,卻具有不同的配價結構,可見與傳統的短語結構樹和依存樹相比,配價結構反映了更多的語義特點。同時,詞語的配價信息比較穩定。最后,配價結構從形式上并非1棵樹,而是1個有向圖。因此,配價結構具有比短語語法和依存語法更強的表現能力,有潛力獲得更高的句法語義計算性能。因為在句子“王冕七歲時死了父親”中,“王冕”是零價的,“死了”和“父親”都是一價的,而“七歲時”是1個兩價的時間副詞(2個配價成分分別說明“誰七歲”、“七歲發生了什么事情”)。而在句子“陳楠三十歲生了兒子”中,“陳楠”是零價的,“兒子”是一價的,“生了”和“三十歲”都是兩價的。有了這些詞語的配價信息,就可以比較準確地獲得上述配價結構。

圖1 句子“陳楠三十歲生了兒子”依存樹Fig.1 Dependent tree of sentence “陳楠三十歲生了兒子”

圖2 句子“陳楠三十歲生了兒子”的一種可能配價結構Fig.2 Possible valence structure of sentence “陳楠三十歲生了兒子”

圖3 句子“王冕七歲時死了父親”依存樹Fig.3 Dependent tree of sentence “王冕七歲時死了父親”

圖4 句子“王冕七歲時死了父親”的一種可能配價結構Fig.4 Possible valence structure of sentence “王冕七歲時死了父親”
句法結構是句法形式和語義內容的統一體。對句法結構不僅要進行形式分析,例如句法層次分析、句法關系分析以及句型分析等,而且要進行種種語義分析。對句法結構的語義分析越全面、越深刻,就越有可能對句法形式上的各種現象進行科學、合理的解釋。在句法分析中引入語義信息,語義信息包括語義類、語義搭配、語義依存信息等。本文的基本思想是:在句子短語結構或依存結構的基礎上,利用基于配價理論開發的語義詞典分析得到句子配價結構,反過來再利用句子配價結構對句中依存關系進行必要的修正;在句法分析模型中引入豐富的語義信息,既包括由句法樹或依存樹確定的語義依存信息,也包括由句子分析樹對應配價結構圖確定的語義搭配信息。
中心詞驅動句法分析模型是最具有代表性的詞匯化模型。為了發揮詞匯信息的作用,中心詞驅動模型為文法規則中的每一個非終結符(none terminal)都引入核心詞/詞性信息。由于引入詞匯信息,不可避免將出現嚴重的稀疏問題。為了緩解這個問題,中心詞驅動模型把每一條文法規則的右手側分解為三大部分,分別為:1個中心成分;若干個在中心左邊的修飾成分;若干個在中心右邊的修飾成分。可以寫成如下形式:

其中:P為非終結符;H表示中心成分;L1表示左邊修飾成分;R1表示右邊修飾成分;hw,lw和rw均是成分的核心詞;ht,lt和rt分別是它們的詞性。進一步假設,首先由P產生核心成分H,然后以H為中心分別獨立地產生左、右兩邊的所有修飾成分。這樣,形如(1)式的文法規則的概率為:

其中:Lm+1和Rn+1分別為左、右兩邊的停止符號。
設Φ(h)表示句法樹上已經生成的詞中與當前核心詞 h有語義依存關系(由句法樹確定)或語義搭配關系(由句子分析樹對應的配價結構圖確定)的詞和語義關系,其他符號的表示同上文一致。在本文的句法分析模型中,每一條文法規則寫成如下形式:

形如(3)式的文法規則的概率為:

其中:Lm+1和Rn+1分別為左、右兩邊的停止符號。式(4)中的概率

可分解為2個概率:

的乘積,記 Φ ( r wi)表示 r wi-1,rwi-2,…,rw1,Φ(h)詞中與當前詞rwi有語義搭配關系的詞,則有:

再假定 h w, Φ ( r wi)關于rwi條件獨立,則有:


(9)式中概率

可以說,目前詞匯化的上下文無關文法所進行的獨立性假設與語言現象不相符合,既不適合于英文,更加不適合于中文。在本文的句法分析模型中,用條件獨立性假設取代了中心詞驅動句法分析模型中的獨立性假設。從統計學的角度來說,相對條件獨立性假設,獨立性假設是過強假設,與語言現象也不盡符合。因而,該句法分析模型更符合語言的實際物理過程。通過對Collins模型的規則進行分解和修改,基于配價結構并結合中心詞驅動模型的詞匯化句法分析模型能夠更好地融入語義(既包括由句法樹確定的語義依存信息,也包括由句子分析樹對應的配價結構圖確定的語義搭配信息)等語言方面知識,提高句法分析的準確率。
試驗數據取自賓州中文樹庫(CHTB)5.0版本,大部分取材于新華社新聞、Sinorama新聞雜志以及香港新聞。CTB是由語言數據聯盟(LDC)公開發布的1個語料庫,為漢語句法分析研究提供了一個公共的訓練、測試平臺。該樹庫包含了507 222個詞,824 983個漢字,18 782個句子,有890個數據文件。為了在訓練集、開發集和測試集中平衡各種語料來源,將語料分割如下:將文件301~320和611~630作為調試集,將文件271~300和631~660作為測試集,其余文件作為訓練集。在本文的所有實驗中,模型的參數都是從訓練集中采用極大似然法估計出來的。
測試結果為常用的4個評測指標,即準確率P、召回率R、綜合指標F和交叉括號CB。其定義如下。
精確率(Precision)用來衡量句法分析系統所分析的所有成分中正確成分的比例。
召回率(Recall)用來衡量句法分析系統分析出的所有正確成分在實際成分中的比例。
交叉括號CB:給出了在1棵樹中與其他樹的成分邊界交叉的成分數目的平均數。
實驗中采用的句法分析 Baseline系統是 Daniel M.Bikel基于Collins模型實現的DBParser。表1所示為baseline系統和改進模型的句法分析實驗結果。

表1 句法分析實驗結果Table 1 Experimental results of language parsing
從表1可以看出:由于在規則的分解及概率計算中,既利用了由句法樹或依存樹確定的語義依存信息,又利用了由句子分析樹對應配價結構圖確定的語義搭配信息。改進模型的準確率P、召回率R、綜合指標F、交叉括號CB與Collins的中心詞驅動句法分析模型的相比均有了明顯提高。
(1) 目前的詞匯化句法分析如中心詞驅動句法分析模型、依存語法僅僅考慮詞語之間的語義依存關系。基于配價結構并結合中心詞驅動模型的詞匯化句法分析模型在規則的分解及概率計算中,既利用了由句法樹或依存樹確定的語義依存信息,也利用了由句子分析樹對應配價結構圖確定的語義搭配信息,性能有了明顯提高。
(2) 模型的精確率和召回率分別為 88.65%和87.26%,綜合指標F與Collins的中心詞驅動句法分析模型的相比提高6.51%。
(3) 配價語法研究拓寬了語言學的研究領域,深化了語言學的本體研究,給傳統的語言學研究提供了一個全新的視角,解決了語言應用當中用傳統方法無法解決的難點問題,但仍存在一些不足,如:配價語法理論研究過于理論化,缺乏實踐操作性;配價語法理論研究時間不是很長,許多理論觀點語方學界尚待統一,它在一定程度上制約了該學科的發展。有關配價語法的理論和應用有待進一步研究。
[1]Manning C D, Schutze H. Foundations of statistical natural language processing[M]. London: MIT Press, 1999: 184-197.
[2]Seo K J, Nam K C, Choi K S. A probalistic model of the dependency parse of the variable-word-order languages by using ascending dependency[J]. Computer Processing of Oriental Languages, 2000, 12(3): 309-322.
[3]XUE Nian-wen, XIA Fei, Chiou F D, et al. The Penn Chinese treebank: Phrase structure annotation of a large corpus[J].Natural language engineering, 2005, 11(2): 207-238.
[4]Fung P, Ngai G, Yang Y S, et al. A maximum-entropy Chinese parser augmented by transformation-based learning[J]. ACM Trans on Asian language Processing, 2004, 3(2):159-168.
[5]Vilares J, Alonso M A,Vilares M. Extraction of complex index terms in non-English IR: A shallow parsing based approach[J].Information Processing and Management, 2008, 44(4):1517-1537.
[6]趙軍, 黃昌寧. 漢語基本名詞短語結構分析模型[J]. 計算機學報, 1999, 22(2): 141-146.ZHAO Jun, HUANG Chang-ning. The model for Chinese BaseNP structure analysis[J]. Chinese Journal of Computers,1999, 22(2): 141-146.
[7]代印唐, 吳承榮, 馬勝祥, 等. 層級分類概率句法分析[J]. 軟件學報, 2011, 22(2): 245-257.DAI Yin-tang, WU Cheng-rong, MA Sheng-xiang, et al.Hierarchically classified probabilistic grammar parsing[J].Journal of Software, 2011, 22(2): 245-257.
[8]Aviran S, Siegel P H, Wolf J K. Optimal parsing trees for run-length coding of biased data[J]. IEEE Transaction on Information Theory, 2008, 54(2): 841-849.
[9]ZHOU De-yu, HE Yu-lan. Discriminative training of the hidden vectors state model for semantic parsing[J]. IEEE Transaction on Knowledge and Data Engineering, 2009, 21(1): 66-77.
[10]Seo K J, Nam K C, Choi K S. A probalistic model of the dependency parse of the variable-word-order languages by using ascending dependency[J]. Computer Processing of Oriental Languages, 2000, 12(3): 309-322.
[11]袁里馳. 基于依存關系的句法分析統計模型[J]. 中南大學學報: 自然科學版, 2009, 40(6): 1630-1635.YUAN Li-chi. Statistical language paring model based on dependency[J]. Journal of Central South University: Science and Technology, 2009, 40(6): 1630-1635.
[12]王步康, 王紅玲, 袁曉虹, 等. 基于依存句法分析的中文語義角色標注[J]. 中文信息學報, 2010, 24(1): 25-30.WANG Bu-kang, WANG Hong-ling, YUAN Xiao-hong, et al.Chinese dependency parse based semantic role labeling[J].Journal of Chinese Information Processing, 2010, 24(1): 25-30.
[13]鑒萍, 宗成慶. 基于序列標注模型的分層式依存句法分析方法[J]. 中文信息學報, 2010, 24(6): 14-22.JIAN Ping, ZONG Cheng-qing. Layer based dependency parsing by sequence labeling models[J]. Journal of Chinese Information Processing, 2010, 24(6): 14-22.
[14]GAO Jian-feng, Goodman J, MIAO Jiang-bo. The use of clustering techniques for language model–application to Asian language[J]. Computational Linguistics and Chinese Language Processing, 2001, 6(1): 27-60.
[15]Lee L. Similarity-Based approaches to natural language processing[D]. Cambridge, MA: Harvard University, 1997:35-56.
[16]袁里馳. 基于相似度的詞聚類算法和可變長語言模型[J]. 小型微型計算機系統, 2009, 30(5): 912-915.YUAN Li-chi. Word clustering based on similarity and vari-gram language model[J]. Journal of Chinese Computer Systems, 2009, 30(5): 912-915.
[17]周國光. 現代漢語配價語法研究[M]. 北京: 高等教育出版社,2011: 21-82.ZHOU Guo-guang. The study of modern Chinese valence grammars[M]. Beijing: Higher Education Press, 2011: 21-82.
[18]Collins M. Head-driven statistical models for natural language parsing[D]. Pennsylvania: The University of Pennsylvania, 1999:65-78.
[19]袁毓林. 漢語配價語法研究[M]. 北京: 商務印書館, 2010:55-170.YUAN Yu-lin. The study of Chinese valence grammars[M].Beijing: Commercial Press, 2010: 55-170.
[20]沈家煊. 句式和配價[J]. 中國語文, 2000(4): 291-297.SHEN Jia-xuan, Vaiency and sentence patterns[J]. Zhongguo Yuwen, 2000(4): 291-297.
[21]聶鴻英. 漢語“配價”語法研究綜述[J]. 延邊大學學報: 社會科學版, 2011, 44(2): 39-42.NIE Hong-ying. Review of “coordination valence” in Chinese grammar[J]. Journal of Yanbian University: Social Science, 2011,44(2): 39-42.