“地”字結構識別

2006-04-29 00:00:00錢小飛

現代語文 2006年5期

[摘要] “地”字結構是漢語中有標記的狀語結構，“地”字結構的自動識別作為淺層句法分析的任務之一可以減少自動句法分析的歧義。本文在分析“地”字結構性質的基礎上，利用規則與統計相結合的方法，基于分詞文本對“地”字結構進行了對比性的識別研究。實驗利用200萬字的語料進行訓練，將獲取的數據用于自動識別，獲得了較好的效果。

[關鍵詞] “地”字結構句法分析規則概率

漢語是一種缺乏形態變化的語言，傳達了較少的形式化信息，增加了自然語言處理的歧義。在自動句法分析的過程中，漢語缺少可直接利用的形式信息，增加了分析的難度。

20世紀80年代末，國外開始了關于組塊（Chunk）的研究，并提出了淺層句法分析的概念，希望通過語塊的識別和語塊之間依附關系的分析來實現對完全句法分析任務的分解。90年代以來，國內學者在漢語的淺層句法分析方面也做了很多工作。郭志立利用廣義互信息研究了“的” 字短語的結構和邊界。王立霞、吳云芳使用概率模型識別了介詞短語的邊界。趙軍提出了基于轉換的漢語基本名詞短語（baseNP）識別模型。周強利用邊界概率分布和內部結構組合對最長名詞短語（MNP）進行了較為全面的識別分析。這些研究主要集中于對名詞短語和介詞短語的識別，為漢語的自動處理做出了有益的探索。

作為淺層句法分析的任務之一，“地”字結構的自動識別可以有效地減少句法分析的歧義。由于“地”字結構在句中處于狀語的位置，對于一些簡單的單句而言，該結構的自動識別常?？梢詭椭业街^語中心，劃定句子的基本結構，我們可以給出這樣的形式化表示：

S=[SZ]+Subj+[SZ]+DS+P+[Obj]

其中，S表示單句，SZ表示句首或小句狀語，DS表示“地”字結構，P表示謂語中心，Subj表示主語，Obj 表示賓語，[]表示可以出現也可以不出現，+表示語法分隔。

本文分為四個部分，第一部分對“地”字結構進行定義和分類，第二部分介紹統計與規則相結合的“地”字結構識別算法，第三部分分析實驗結果，第四部分結語。

1.“地”字結構的定義及分類

1.1“地”字結構的定義

“地”字結構是以結構助詞“地”為右邊界標志，在句中動詞前作狀語，直接修飾動詞或謂語中心語的一種句法結構。我們把“地”字結構定義為“修飾語+地”的形式。

1.2“地”字結構分類

“地”字結構內部存在多種句法關系，表現為修飾語部分可以是單個詞語，也可以是句法組合，包括狀中組合、并列組合、述賓組合、主謂組合等。根據“地”字結構內部的句法層次和句法關系對它進一步細分。

（1）簡單“地”字結構：“單元狀語+‘地’”形式的結構。

（2）復雜“地”字結構：“多元狀語+‘地’”形式的結構。

簡單“地”字結構的修飾語是單元的，即內部只有一個元素，不存在句法組合關系，如：

新的游客【源源不斷地】涌來。

復雜“地”字結構的修飾語有多個元素組合而成，這些元素之間滿足一定的句法組合關系。根據這些關系，可以將復雜“地”字結構進一步細分為多元修飾型、多元并列型、多元主謂型以及多元述賓型等：

多元修飾型：修飾語為“狀語+中心語”形式的“地”字結構，如“很努力地”。

多元并列型：修飾語為“并列成分+[連接成分]+并列成分+…”形式的“地”字結構，如“積極主動地”。

多元主謂型：修飾語為“主語+謂語”形式的“地”字結構，如“程度不同地”。

多元述賓型：修飾語為“述語+賓語”形式的“地”字結構，如“有計劃地”。

2.統計與規則相結合的“地”字結構識別策略

2.1識別目標

“地”字結構識別的目標是準確地確定“地”字結構的左右邊界。本研究以“【”作為“地”字結構左界標志，以“】”作為右界標志，對句中“地”字結構進行識別，識別結果格式如下：

中國認為，伊拉克應【全面、切實地】履行聯合國有關決議。

2.2識別算法

根據“地”字結構的特點，在語料統計分析的基礎上，我們確定采用規則匹配、概率加權選擇和上下文調整相結合的策略進行識別。

2.2.1規則匹配

我們以人民日報1998年1月份的標記語料（記為9801.tag）作為訓練語料，對其中的“地”字結構進行人工標注，并提取出每一個具體的“地”字結構的詞性標記串及其出現概率，組成“地”字結構的標記串規則集，此規則集中包含了100條規則，其中任意一條規則的出現概率P(rule[i])的計算公式如下：

我們應用此標記串規則集的具體規則對每一個“地”字結構進行可能匹配：對于每一條標記串規則，獲取相同長度的“地”字結構詞串，并通過查詞典的方式取得該詞串所有的可能標記串，如果存在某條可能標記串與標記串規則匹配，則該標記串規則作為一條可能匹配規則；如此記錄下所有的可能匹配規則，并統計其出現概率。

2.2.2概率加權選擇

由于面對的是分詞文本，規則的長度和詞串所對應的標記串都是不確定的，在實際標注過程中有兩種選擇：一種選擇是長規則優先匹配，規則長度相同時，高頻規則優先匹配；另一種選擇是通過規則的出現概率進行優選。實驗表明，第一種選擇不能體現語料中的自然比例關系，造成了短規則匹配概率低下，影響標注正確率；第二種方法具有更大的可行性和優越性。但是，通過統計得到的規則集還不能直接用于標注：

第一，用上文使用得最大似然估計法估計參數會造成嚴重的數據稀疏問題，低概率事件常常被忽略。

第二，規則的出現概率受到其長度的制約。實驗發現，短規則出現概率通常高于長規則，但規則的出現概率高不等于該規則作為“地”字結構的概率高，甚至有相反的趨勢。

我們使用一種簡單的加權方法，并將權值轉化為費用：

Feeweight[i] = P (rule[i])×Fee(rule[i]) ×(Len(rule[i])-1) 公式2

其中， Fee(rule[i])表示rule[i]的費用，Len(rule[i])表示規則rule[i]的長度。為解決數據稀疏的問題，采用了一階馬爾可夫過程計算規則費用：

trans[i][j]是指從“地”字結構內部獲取的詞性tag_i到tag_j的轉移概率。

對于某一條具體的規則rule[i]，Feeweight[i]值越大，它用于“地”字結構標注的概率越小。當某一個字符串能匹配多條規則時，優先選擇費用最低的規則進行標注。

2.2.3上下文信息

對標記串的概率優選只利用了詞性信息，一些詞語上下文信息對識別也非常有幫助。我們制定了三張詞表來進行概率標注后的微調。左界外詞表記錄常常僅作為DS左界外一詞的詞語，如“等”，左界內詞表記錄常常僅作為DS左界內一詞的詞語，如“很”，非DS左詞詞表記錄常常只出現在名詞“地”左鄰，而不出現在助詞“地”左鄰的詞語。

3.實驗結果及分析

3.1 實驗結果分析

我們應用9801.tag作訓練語料，1月份和2月份的切分語料（分別記為9801.cut和9802.cut）作測試語料，進行了多次實驗。

3.1.1 相異詞表實驗

考慮到詞表對于“地”字結構標注的影響，分別應用從9801.tag的“地”字結構中提取的封閉的小詞表（917詞條），并使用開放的先驗大詞表（約155000詞條）進行測試，其中開放測試語料為人民日報2月份上半個月的切分語料（記為9802p.cut）。令某DS左右邊界都標注正確作為1次正確識別，否則為1次錯誤識別，如果Fc表示正確識別的DS個數，Fw表示錯誤識別的個數，Ff表示識別失敗的個數，Fm表示多余識別的個數，Ft表示文本中DS總數，則正確率（Precision）、召回率（Recall）和調和平均值（Ｆ）可計算如下：