王曉媛
(四川大學計算機學院,成都610065)
并列結構作為句法分析的底層任務,它的正確識別對句法分析任務有著重要意義,同時也對其他自然語言處理應用有著深刻的影響,如機器翻譯、信息抽取等。由于其分布的廣泛性,結構的復雜性以及形式的多樣化使之成為自然語言處理研究的一大難點,本文就漢語中并列結構識別的研究做出詳細的介紹。
由于漢語本身的一些特點,識別中文并列結構主要有以下難點:
(1)結構的復雜性。在句子中除了一般的平行結構外還存在著嵌套并列結構,嵌套并列結構是指在一個并列結構中的某個并列成分中嵌套著一個子并列結構。而它的跨度往往比較寬,且涉及語義,不易確定左右邊界,給識別工作造成了很大的困難。
(2)形式的多樣性。并列結構不僅會存在于詞之間,短語之間,還會出現在子句之間。形式的多樣性往往會導致結構的復雜性,從而影響識別工作。
(3)邊界的歧義性。如CTB(中文濱州樹庫)中的一個子句“上海浦東開發與法制建設同步”就存在明顯的歧義性。并列結構可能是“浦東開發與法制建設”,也可能是“開發與法制建設”。因此,邊界的歧義性也是正確識別并列結構的一大阻礙。
雖然研究中文并列結構有很多困難,但是作為句法分析的底層任務,它的正確識別對自然語言處理的許多任務都有著積極的影響。這些年來,國內的學者在周強、孫宏林、吳云芳[1-3]等人的帶領下,對此項研究進行了許多有意義的探索,并產生了積極的影響。本文將從實驗結果以及研究方法對并列結構的研究進行詳細的梳理。
并列結構的實驗中,通常以P 值(正確率)、R 值(召回率)、F 值(調和平均值)作為實驗的評測指標。各值公式如下:

目前,研究并列結構的識別主要包括基于規則、基于統計、統計與規則融合三種方法?;谝巹t的方法主要是根據人工總結的語言學知識而制定的規則,基于統計的方法主要是依據統計機器學習模型來識別,這些都是目前比較主流的方法。以下將依此作詳細介紹。
文獻[3]中吳云芳就識別并列結構間規則的這一問題進行探索,從句法、語義兩個層面對《人民日報》標注語料庫和中文概念詞典的語言資源展開了定量的考察和定性的分析。將并列結構的研究主要分為無標記并列結構的研究、有標記并列結構的研究和并列標記的研究三部分,提出對于無標記并列結構的研究,主要目標是正確辨別同類詞連用而形成的歧義;對于有標記并列結構的研究,主要目標是確定并列結構的左右邊界;而并列標記研究的主要任務則是發現標記形式對并列結構句法語義約束產生的影響,從而利用這一影響進一步幫助并列結構邊界的識別。并將這些約束條件進行形式化的描述,然后基于知識描述對并列結構進行自動識別。
王東波[4]在文獻[3]的基礎上,詳細分析了清華大學TCT973 樹庫中的單層單標記的聯合結構,從句法結構和語法功能中統計得到規則模板,然后基于模板并結合詞語的語義相似度進行實驗,結果顯示在封閉測試和開放測試下的F 值分別為59.74%和59.15%,這一結果表明這種粗粒度的模板和缺乏精準化的語義計算在識別聯合結構的問題上是行不通的。
以上基于規則的方法在研究并列結構這一問題上都沒有很好的支撐力。而在最新發表的文獻中,劉小蝶[5]在概念層次網絡[6](HNC)的指導下,針對中文專利中有標記的并列結構,從八個維度對并列結構進行標注,并從語義、結構和外部詞三個方面對專利文本中的并列結構進行了歸納,制定出217 條形式化的規則,并將其融合到HNC 機器翻譯系統中。測試結果表明,HNC 系統中并列結構的準確率達到69.33%,召回率達到68.93%,翻譯結果優于Google 在線翻譯系統。這表明了該規則適用于識別專利文獻并列結構的研究中。
由于基于規則的方法依賴于人工的總結,不容易根據具體的情況進行調整,而基于統計的方法可以從訓練集中自動或半自動的獲取相關的語言知識,建立出有效的統計語言模型,同時還可根據實際的數據不斷進行優化。所以,有一批學者采用基于統計的方法來識別并列結構。而并列結構的識別可看作是序列標注問題,由于CRF[7](條件隨機場)自身的優勢:不僅能充分考慮到上下文以及詞和詞性的特征,而且還可加入其他相關的語言學特征使得它成為學者們識別并列結構主要的統計模型。
王東波最早在文獻[8]中使用CRF 來研究有標記的聯合結構。在18 個復雜的特征中加入詞語長度、詞語拼音、是否連詞以及是否邊界詞四個語言學特征,共同構成CRF 的特征模板。從含嵌套聯合結構、無嵌套聯合結構和最長聯合結構三個方面對《人民日報》和973 樹庫進行開放和封閉測試。從測試結果來看,增加了語言學特征的實驗結果要略微高于不添加語言學特征的實驗。
鄭略省[9]同樣使用CRF 模型進行并列結構的研究。首先對HIT-IR-CDT 語料庫中自動抽取的并列關系的角色信息進行標注,然后通過CRF 來實現并列關系的識別。實驗表明,這種做法確實優于基于圖的依存分析方法,正確率和召回率分別提高13.8%和9.1%。
一直致力于現代漢語虛詞用法研究的鄭州大學自然語言處理實驗室,在文獻[10-11]中根據已有的連詞用法構建了連詞結構的短語規則,并將該規則作為特征融合到CRF 模型中。實驗結果表明,基于CRF 的識別結果優于基于規則的實驗。
王浩[12]通過在傳統的CRF 中加入隱結構感知模型,來解決句子在訓練過程中無法被觀測到的文法信息,利用類感知器模型來對序列進行識別。研究結果表明,加入隱結構感知模型的CRF 明顯優于傳統的CRF。
基于規則的方法可移植性較差,而基于統計的方法會受到訓練語料大小的限制,所以,有一部分學者采用規則與統計混合的方法來進行并列結構的研究。
苗艷軍在文獻[13-14]中采用最大熵模型[15]與錯誤驅動相結合的方法來進行研究,首先根據連接詞的位置來確定并列結構的左右邊界,然后使用錯誤驅動對最大熵的識別結果進行校正。實驗結果表明,加入規則后的最大熵模型的識別結果比沒有錯誤驅動的結果高出3.4%。
石翠在文獻[16]中針對中文專利文獻使用規則與統計相結合的方法對單層的并列結構進行識別。依據專利文獻自身的對稱性,構建了一些提取規則,將其融入CRF 的特征模板中,然后再根據基于錯誤驅動制定的后處理規則進行完善。本文使用文獻[8]做基線系統,實驗結果表明,該模型相較于基線系統F 值提高了10.36%。
本文總結了近年來與中文并列結構有關的研究,不難看出,此項研究在諸位學者的堅持下正不斷前進著??筛爬橐韵聨c:
(1)從研究方法來說,學者們嘗試了各種方法,大致可分為基于規則,基于統計和基于混合的方法。由于條件隨機場處理序列標注問題的自身優勢比較突出,因此大部分研究還是使用條件隨機場模型來進行識別。CRF 也在各類實驗中,表現出不錯的結果。基于規則的方法相較于CRF 來說,總體稍顯弱勢,分析原因可能是因為并列結構的復雜性,有很多規則沒有被發掘出來,從而影響了實驗結果,而混合方法相較于統計方法來說,有效規則提取越多,提升效果越明顯。
(2)從研究語料來說,學者們更傾向于《人民日報》以及CTB 樹庫等,文本領域比較單一。這是因為新聞語料在自然語言處理的各類任務中都更為普遍,而且具有更為成熟的標注處理,對開展其他上層任務有著較好的利用價值。
(3)從研究目標來看,大多都是研究有標記的、簡單的并列結構,對語料進行比較粗粒度的分析。
以上不難看出,并列結構的識別仍需有很長的路要走。對此,本文提出以下幾點建議,希望可對感興趣的研究人員提供一定的參考價值:
(1)目前的研究大多集中在字數較少,結構單一的方面,未來可考慮更大跨度,結構更加復雜的情況。而且大多都基于有標記的聯合結構,以后可考慮無標記的聯合結構以及并列標記的情況。相信這些問題的解決會讓并列結構的研究更進一步。
(2)是面對目前粗粒度的規則研究,應多觀察研究中文的并列結構,考慮更細粒度,構造出更多有效的規則,將其不斷完善。
(3)目前研究語料都存在規模較小的情況,可考慮利用半監督的機器學習或引入遷移學習[17]擴充語料,進一步發現更多規則,語料集的擴充,也有利于神經網絡的引入,利用神經網絡較強的學習能力,可自動獲取更多特征,為并列結構的研究提供更多便利。
(4)并列結構的識別最終是服務于自然語言處理的各項任務和應用,作為自然語言處理的底層任務,未來應更多地結合機器翻譯、信息抽取等領域,在具體任務中檢驗并列結構的識別結果,以及由此而產生的一些實際的影響。