組塊分析研究綜述

2018-09-12 06:30:40錢小飛

現代語文 2018年6期

關鍵詞：綜述

摘要：組塊分析是一種新的句法分析思路和策略，側重于解決底層歧義問題。文章歸納分析了組塊分析的不同任務和研究方法，指出統計和規則方法相結合常常能取得更好的效果，但基本名詞短語，最長名詞短語等相對較大的語塊的識別效果仍然不能令人滿意。未來需要考慮如何將語言學特征融入統計機器學習，并且更好地將統計和規則方法結合起來。

關鍵詞：組塊句法分析綜述

一、引言

句法分析是中文信息處理領域諸多應用技術的基礎，如機器翻譯、人機對話系統等。但傳統的完全句法分析技術在處理大規模真實語料時遇到了較大的困難，正確率徘徊在70%～80%左右。在今天詞法分析已經能夠基本達到應用要求的情況下，句法分析技術已經成為制約中文信息處理技術發展的瓶頸。

20世紀90年代中后期，國內引進英語淺層句法分析的思想，展開了組塊識別與分析研究。由于底層句法歧義在很大程度上影響了句法分析的效果，淺層句法分析主張從識別句子中某些簡單的組塊開始，在充分化解底層歧義的基礎上，逐步完成句法分析的任務。它把一個句子的完整分析過程劃分為三個部分：組塊識別、組塊間依存關系的識別以及組塊內部的結構分析，并著力于組塊的識別和內部結構分析。組塊分析是句法分析技術的進步，特別適合于分析缺乏形態變化，底層歧義較多的漢語句子，成為漢語句法分析技術的重要發展趨勢。

二、系統性的組塊分析研究

組塊分析是自然語言處理一個新興的研究課題。它起源于上世紀80年代末90年代初國外關于組塊（chunk）的研究。

組塊分析可以分為單一組塊分析和一般組塊分析。單一組塊主要研究基本名詞塊或基本名詞短語的識別分析問題。一般組塊擴展了研究范圍，研究多個（實）語塊的識別分析問題，可以稱為系統性的組塊分析。上世紀90年代中后期，國際上展開了對基本塊的全面識別研究。

（一）英語組塊分析研究

早期的系統性組塊分析主要采用基于規則的方法，包括基于簡單規則，基于轉換的錯誤驅動的方法和基于有限狀態機的方法，取得了一定的效果。

Abney（1991）最先提出和界定了組塊概念，并從理論解釋和心理學實驗上證實了組塊是句法的基礎單位，具有心理現實性，并正式提出基于組塊的分析方法，構造了一個基于規則的分析系統，先進行組塊識別和系聯分析，化解底層歧義，以進一步達到部分乃至完全句法分析的目的。

Ramshaw & Marcus（1995）采用了基于轉換的錯誤驅動的學習方法進行組塊識別。該方法將短語識別問題轉化為位置標注問題，兼具統計方法和規則方法的優點。系統首先對文本進行初始標注，比較初始標注結果和正確答案，同時定義轉換規則空間（包括觸發條件和轉換動作），并結合錯誤情況形成候選轉換規則，然后遍歷規則空間中的每一條規則，用評價函數對候選規則打分，挑選出得分最高的一條規則，送入有序規則庫，并應用該規則對當前標注結果進行刷新，然后再根據轉換規則空間和錯誤情況添加新的候選轉換規則。學習過程循環進行，直到沒有規則能使評價函數高于一定閾值。組塊識別采用學習得到的有序規則集進行標注。該方法的一個好處是系統的分析能力和識別結果易于解釋。

Abney（1996）提出有限狀態疊（Finite State Cascade）的方法，其基本思想是將句法分析的過程分成多個層次，每一層級上的短語只能建立在前一級的基礎上，在每個層次內部，使用簡單的有限狀態自動機進行分析。分析過程包括一系列狀態轉換。每一個轉換定義為一個模式的集合，每一個模式是由一個句法范疇符號和一個正則式構成的產生式。正則式可轉換為有限狀態自動機，從而在某一層產生一個單一的、確定的有限狀態層次識別器Ti，它以Li-1級的輸出為輸入，并產生Li作為輸出。在模式匹配過程中，如遇到沖突，按最大匹配原則選擇合適的模式。

自然語言學習國際會議（CONCLL-2000）正式提出語塊共享任務，定義了英語的11種基本語塊，包括NP，VP，PP，ADJP，ADVP，CONJP等?；谝巹t的方法和基于統計的方法在此次任務中得到廣泛的應用，特別是基于統計的方法占據了主流，如隱馬爾可夫方法，最大熵方法，支持向量機方法，等等。其中，分類器集成成為普遍采納的一種策略，并且取得了良好的效果。

自然語言學習國際會議（CONCLL-2001）將組塊分析任務推廣到更大塊——小句（Clause）的識別。與組塊識別任務不同，由于小句結構的復雜性和嵌套性，任務被分解為三個部分：左邊界的識別、右邊界的識別和左右邊界的配對。英語小句識別任務與漢語最長名詞短語識別任務具有一定程度的相似性，漢語名詞短語中常見的“的”、指示詞等可以作為關系從句的標記，構造關系從句。此后，組塊識別進一步應用到句法語義領域，如自然語言學習國際會議（CONCLL-2002）提出的語義角色標注任務。

（二）漢語組塊分析研究

上世紀90年代以來，國內引入組塊分析的思想，在漢語短語層面展開了廣泛的研究，主要見于短語的邊界識別、短語內部的結構分析等方面。

劉芳、趙鐵軍等（2000）將組塊界定為包含一層或者兩層符合一定句法功能和反映組成意義的短語，并定義了8種組塊類型，采用增強的馬爾科夫模型與基于錯誤驅動的轉換的方法對漢語組塊進行了識別研究。

周強（2001，2007a）通過引入詞匯關聯信息，為缺乏形式標記的漢語尋找內聚性判定標準，提出了基于拓撲結構的漢語基本塊的描述體系，確立了句法和關系標記集。其中，基本拓撲結構包括三種：左角中心結構、右角中心結構和鏈式關聯結構；句法標記集包括7種：NP，VP，AP，DP，MP，TP，SP?；就負浣Y構對基本塊中的多詞表達（MWC）內部依存關系進行分析，建立了句法關系和語義內容（詞匯關聯）的橋梁。在應用實踐上，張昱琪、周強（2002）應用基于實例的MBL學習方法，對漢語中較為常見的9種基本短語進行了識別研究。

周強等（2007b）進一步研究了漢語功能塊的自動分析問題，界定了主語、謂語、賓語、狀語、兼語、補語、語氣、獨立語等8種功能塊類型，并提出了邊界識別模型和序列標注模型進行計算模擬。陳億、周強等（2008）進一步將功能塊推廣到多層級層面，統計表明，多層級的功能塊具有結構簡單、長度短且分布均勻的優點，有利于提高分析器的性能。我們認為，復雜塊的多層次化是由句法遞歸特性決定的，在解決基本塊問題之后，多層次的塊分析機制是需要進一步考慮的問題。

李素建（2002）定義了12種組塊類型，以線性方式覆蓋了語料中所有的切分單位，并采用最大熵模型、有限狀態自動機和基于錯誤轉換相結合的方法進行組塊分析，取得了良好效果，文章還進一步討論了組塊相似度計算的相關問題。

組塊分析作為一種新的研究思路，受到學術界的廣泛關注。漢語作為一種缺乏形式標記的語言，其組塊界定的理論基礎仍然值得進一步研究；組塊分析中，統計方法占據了主流，但統計與規則相結合常常能夠取得更好的效果；基本塊的研究已經取得一定成果，在基本塊分析的基礎上，我們需要進一步研究如何處理多層次、大顆粒度的組塊。

三、基本名詞短語識別與分析

基本名詞短語是最復雜的組塊類型之一，是組塊中長度最長、識別精度最低的組塊，也是組塊分析的重點問題。

在英語方面，基本名詞短語的識別與分析主要采用統計機器學習的方法，該方法將識別問題轉換為分類問題，為了進一步提高識別效果，研究者常常使用多個分類器，并將按照一定的方法將識別結果融合起來，稱為多分類器融合。多分類器融合的方法常常能夠提高識別效果，但是識別結果的可解釋性較差。

Tjong Kim Sang（2000a，2000b）分別采用了兩種不同的集成方法識別基本名詞短語。一種方法是MBL系統內集成，采用不同的標記集（IOB1，IOB2，IOE1，IOE2，O+C）構造基本分類器，另一種方法是系統間集成，采用MBL等7個分類器作為基本分類器，并測試了不同的融合策略。在標準測試集上F1值較前人研究分別取得了0.5%和0.6%左右的提高。

Taku Kudo（2001）以SVM作為分類器，采用分類器集成的方法識別基本名詞短語?；痉诸惼鞯臉嬙觳捎昧硕喾N方式，如采用不同的標記集，不同的分析方向，以及不同的投票方式等。實驗對基本名詞短語進行了獨立評測，在標準測試集上較Tjong Kim Sang（2000b）的工作提高了0.4%左右。

在漢語方面，基本名詞短語的識別分析以統計方法和統計機器學習方法為主，同時嘗試了多種不同的基于規則和理解的方法。

趙軍（1998）以漢語“區別性定語、描寫性定語和限定性定語”的定語語序為理論依據，將基本名詞短語定義為限定性定語和中心語的組合形式，提出baseNP句法組成模板與N元模型相結合的概率識別模型、基于轉換的識別模型和基于中心詞潛在依存關系的結構分析模型。該研究以語言距離為基礎界定組塊，符合認知上的規律，特別適合缺乏標記的漢語組塊界定。

張瑞霞、張蕾（2004）提出了基于知識圖的漢語基本名詞短語分析模型，以《知網》為語義知識資源，采用以語義為主、語法為輔的策略，先為短語中的每一個實詞構造“詞圖”，然后合并“詞圖”為“短語圖”，從而得到一個關于結構和語義信息的知識圖，達到分析內部句法關系和語義關系的目的。這種方法可以看作是基于理解的方法。

徐昉、宗成慶等（2007）在賓州樹庫上采用基于錯誤驅動的組合分類方法識別漢語基本名詞短語。通過對比兩種不同類型的分類器，基于轉換的方法和條件隨機場方法的分類結果，利用支持向量機學習其中的錯誤規律，對兩分類器產生的不同結果進行糾錯，從而達到提高系統整體性能的效果。文章還比較了條件隨機場和支持向量機的識別效果。結果顯示，兩種模型的效果相近，支持向量機稍勝出。我們認為，模型識別效果的差異受到多種因素的影響，與對象界定、參數設定都有關系。

徐艷華（2008）根據語法功能完全相同即為一類的原則，對3514個高頻實詞進行語法功能考察，分為676類，建立了漢語詞類體系?；久~短語識別以該體系為依據，將實例中的詞語序列轉換成相應的類標記序列，并與句法規則庫對照確定序列內部的句法關系。通過考察10081個“v+n”序列實例，總結出2066條句法規則。在判斷該序列是否基本名詞短語實驗中，按照組合模式和實例數統計，準確率分別為70.7%和71.3%。該研究顯示了語言知識細化對于解決句法問題的作用。

可以看出，盡管統計機器學習方法在基本名詞短語識別任務中占據了主流，但不乏理性主義的方法，兩者各有優點。前者多能取得較好的效果。多分類器融合的方法能夠進一步提升識別效果，但提升幅度較為有限；后者的可解釋性更強，也有非常好的提升潛力，因為語言序列本質上是結構問題。

四、最長名詞短語識別與分析

最長名詞短語的相關研究包括最長名詞短語子集和鄰近集合的識別和嚴格的最長名詞短語的識別兩個部分。

在英語方面，大多數研究屬于前者。Voutilainen（1993）的名詞短語獲取工具NPTool，采用基于限制的文法進行詞語的句法功能標注，消解詞語級歧義，并利用兩種有限狀態分析機制（NP-否定傾向機制和NP-肯定傾向機制）來發現文本中可能存在的最長名詞短語，最后使用正確表達式抽取最長名詞短語。NPTool識別的最長名詞短語包括了介詞和連詞，但不包括“that”引導的定語從句。

臺灣的Kuang-huaChen（1994）等人將名詞短語分為最短名詞短語、最長名詞短語、一般名詞短語以及可應用名詞短語，并指出最短語名詞短語、可應用名詞短語與最長名詞短語之間具有相當的重疊率。文章利用統計分塊（chunking）和有限狀態分析相結合的方法來發現句子中的各類名詞短語，總體正確率達到95%，其中，最長名詞短語召回率達到70%。

在漢語方面，大多數研究屬于后者。李文捷（1995）構造了兩個邊界概率矩陣：左邊界概率矩陣和右邊界概率矩陣，識別最長名詞短語的左右邊界，并基于最大長度匹配和最大概率配對的不同策略識別最長名詞短語，開放測試取得了71.3%正確率。實驗表明，不同的匹配方式對于識別的影響不大。

周強、孫茂松等（2000）全面分析了最長名詞短語的分布特點，提出了兩種有效的漢語最長名詞短語自動識別算法：基于邊界分布概率的識別算法和基于內部結構組合的識別算法。后者在邊界預處理的基礎上，確立基本組合成分，發現最長名詞短語的右邊界，并向左迭代組合，形成新的最長名詞短語，取得了85.4%的正確率和82.3%的召回率。實驗表明，長度大于等于5的復雜最長名詞短語的識別精度比簡單最長名詞短語低16%個百分點。復雜最長名詞短語識別精度較低的原因還值得進一步考慮。從語法上說，由于句法關系較為復雜的“的”字短語參與了部分最長名詞短語的構成，也會使得識別難度增大，而這部分最長名詞短語的長度也是較大的。

在周強、孫茂松等（2000）工作的基礎上，馮沖、陳肇雄等（2006）從機器翻譯的實用目的出發，使用條件隨機場模型識別復雜最長名詞短語。模型選用了當前及左右三個位置的詞和詞性，及其組合形式作為特征，并提供了置信度用于人機交互。實驗從訓練語料中隨機選取了部分語料進行測試，取得了75.4%的正確率和70.6%的召回率；經過人工干預，系統能夠取得更好的效果。

代翠（2009）使用條件隨機場模型以及針對開放測試語料的錯誤驅動的后繼規則修正辦法識別最長名詞短語。規則部分處理了漏識，固定搭配，簡單并列結構等5種情況。實驗基于哈工大漢語樹庫進行，隨機抽取6330個句子作訓練，1000個句子作測試，基于規則后繼修正的方法具有較明顯的效果。之后采用層疊條件隨機場模型對最長名詞短語進行分析，分析策略與Abney的有限狀態疊類似，只是每一層級上的短語由條件隨機場模型而非有限狀態自動機進行識別，實驗取得了85.1%的分析正確率。

鑒萍、宗成慶（2009）認為最長短語，包括最長名詞短語和介詞短語，左部和右部具有不同的語言學特征，并且最長名詞短語右部特征更明顯。文章選擇支持向量機識別最長短語，認為基于支持向量機的標注模型作為確定性模型，能夠更好地利用最長名詞短語的右部特征，如：中心詞，“的”等，指導左部邊界的識別。實驗表明，最長名詞短語的反向掃描策略的識別效果明顯優于正向掃描。文章還進一步利用雙向識別的互補性，提出基于分歧點的分類器集成方法，提高了識別效果。

錢小飛（2015）分析了最長名詞短語的結構和線性特征，指出統計機器學習模型的觀察窗口有限，導致識別特征難以使用，并提出了一種基于歸約的最長名詞短語識別方法，該方法首先識別基本名詞短語，歸約為中心詞，并保留其起始句法特征，使得模型的觀察范圍大大拓展，將識別的F值提高了1%。

綜上可見，統計機器學習方法仍然是基本名詞短語和最長名詞短語識別的主流方法。多分類器集成策略開始得到應用。一些研究注意到名詞短語的語言學特征，這些特征在規則方法中應用廣泛。但是，作為一種復雜短語的識別，如何將語言學特征融入統計機器學習，并且更好地將統計和規則方法結合起來，仍然值得進一步研究。

五、結語

組塊分析作為一種新的分析技術，著眼于簡單語塊的分析，在一定程度上緩解了底層歧義問題，有利于句法分析的發展。另一方面，組塊分析仍然沒有達到令人滿意的地步，特別是基本名詞短語，最長名詞短語等相對較大的語塊，識別精度仍然不夠。未來我們需要進一步考慮，哪些結構是適合進行組塊分析的，如何將語言學特征融入統計機器學習，并且更好地將統計和規則方法結合起來。

參考文獻：

[1]Chen Kuang-hua，C.，&Chen; Hsin-hsi，C.Extracting

noun phrases from large-scale texts：a hybrid approach and its automatic evaluation[A].Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics，1994：234-241.

[2]Ramshaw，L.，Marcus，F.Text chunking using

transformational-based learning[A].Proceedings of the Third Workshop on Very Large Corpora，1995.

[3]Steven Abney.Parsing by chunks[A].Principle-

Based Parsing：Computation and Psycholinguistics，1991b：257-278.

[4]Abney，S.Partial Parsing via Finite-

State Cascades[A].Proceedings of the ESSLLI'96 Robust Parsing Workshop，1996.

[5]Kudo，T.，& Matsumoto，Y.Chunking with support

vector machines[A].Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies，2001，（9）：1-8.

[6]Tjong Kim Sang.Noun phrase recognition by

system combination[A].Proceedings of the ANLP-NAACL，2000a：50–55.

[7]Tjong Kim Sang，EF.Applying system combination

[A].to base noun phrase identification.Proceedings of COLING 2000，2000b：857-863.

[8]Voutilainen，A.NPTool：a detector of English

noun phrases[A].Proceedings of the Workshop on Very Large Corpora：Academic and Industrial Perspectives，1993：48-57.

[9]陳億，周強.分層次的漢語功能塊描述庫構建分析

[J].中文信息學報，2008，（3）：24-31.

[10]代翠.漢語最長名詞短語的自動識別與分析[D].

沈陽：沈陽航空工業學院碩士學位論文，2009.

[11]鑒萍，宗成慶.基于雙向標注融合的漢語最長

短語識別方法[J].智能系統學報，2009，（5）：406-413.

[12]李素建.組塊計算的若干研究[D].北京：中國科

學院計算技術研究所博士學位論文，2002.

[13]李文捷，周明等.基于語料庫的中文最長名詞短

語的自動提取[A].陳力為，袁琦主編.計算語言學進展與應用.北京：清華大學出版社，1995：119-124.

[14]劉芳，趙鐵軍等.基于統計的漢語組塊分析[J].

中文信息學報，2000，（6）：28-32.

[15]錢小飛.基于歸約的漢語最長名詞短語識別方法

[J].中文信息學報，2015，（2）.

[16]徐昉，宗成慶.中文BaseNP識別：錯誤驅動的組

合分類器方法[J].中文信息學報，2007，（1）.

[17]徐艷華.基于語料庫的基本名詞短語研究[J].語

言文字應用，2008，（1）.

[18]張瑞霞，張蕾.基于知識圖的漢語基本名詞短語

分析模型[J].中文信息學報，2004，（3）：47-53.

[19]張昱琪，周強.漢語基本短語的自動識別[J].中

文信息學報，2002，（6）：1-8.

[20]趙軍.漢語基本名詞短語識別及結構分析[D].北

京：清華大學博士學位論文，1998.

[21]周強，孫茂松，黃昌寧.漢語最長名詞短語的自

動識別[J].軟件學報，2000，（2）：195-201.

[22]周強.漢語基本短語的標注規范.清華大學計算機

系智能技術與系統國家重點實驗室技術資料，2001，（4）.

[23]周強.漢語基本塊描述體系[J].中文信息學報，

2007a，（3）：21-27.

[24]周強.漢語功能塊自動分析[J].中文信息學報，

2007b，（5）：18-24.