陳菜芳
(南京師范大學 文學院,江蘇 南京 210097)
語義角色的自動標注是對句子中謂詞所支配的語義角色進行自動標注,是對句子進行淺層語義分析的一種方法。語義角色標注技術在大規(guī)模語義知識庫的構建、問答系統(tǒng)、機器翻譯和信息抽取等領域都有著廣泛的應用,其深入的研究對自然語言處理技術的整體發(fā)展有著重要意義。下面主要從三個方面來介紹中文語義角色標注研究狀況:首先,介紹相關的中文語義角色標注語料資源;其次,描述了中文語義角色標注的發(fā)展現(xiàn)狀;最后,對中文語義角色標注未來的工作進行展望。
語義角色標注離不開語料資源的支持。英語較為知名的語義角色標注資源有FrameNet、PropBank和NomBank等。中文語義角色標注語料資源主要是從英語語義角色標注語料資源的基礎上發(fā)展起來或參照其建設的。
Chinese Proposition Bank(CPB)同英文PropBank基本類似。在CPB中,總共定義了20多個角色,只對每個句子中的核心動詞進行了標注,所有動詞的主要角色最多有6個,均以Arg0~Arg5和ArgM為標記,其中核心的語義角色為Arg0~5六種,其余為附加語義角色,用前綴ArgM表示,后面跟一些附加標記來表示這些參數(shù)的語義類別。它幾乎對Penn Chinese Treebank中的每個動詞及其語義角色進行了標注,國內(nèi)大多數(shù)語義角色標注研究都是基于此資源。
中文Nombank是在英文命題庫(Proposition Bank)和Nombank的標注框架上進行擴展,對中文名詞性謂詞的標注。中文Nombank加入了語義角色層的標注信息,與CPB一樣,也標注了核心語義角色和附加語義角色這兩類語義角色。中文NomBank中的角色位置有兩類情況:一是角色在以名詞性謂詞為核心詞的名詞短語中;二是當以名詞性謂詞為核心詞的名詞短語作支持動詞的賓語時,允許語義角色在名詞短語外。
山西大學構建的Chinese FrameNet是基于框架語義理論,類似FrameNet風格的中文詞典。它描述了框架元素的詳細句法信息和詞匯單元以及參與者框架元素之間的關系。Chinese FrameNet的架構和英文FrameNet相似,并且有許多只是稍作修改直接對英文FrameNet進行翻譯,但也有一些創(chuàng)新,增加了相應語義角色的漢語名稱。目前Chinese FrameNet已經(jīng)有130多個漢語框架,還在不斷補充。
臺灣中研院陳鳳儀建立了中文句結構樹資料庫(Sinica Treebank)。Sinica Treebank是一個包含語義標記和句法標記的混合語料庫。它的基本框架是以訊息為本的格位語法,主要是對小句進行標注。目前己標注了61 087個句子,包含了361 834個詞語。語義角色標記共有50多個,基本沿襲了格語法的標記體系,如受益格、感受格等。
北京大學袁毓林教授組織建設的中文網(wǎng)庫,是在北大漢語句法分析樹庫的基礎上進行語義標注的,有著更為細致的語義角色設置,尤其是核心論元,分別在主體論元和客體論元內(nèi)部各劃分出五個子類。具體如下:(一)必有論元:A主體論元:施事、感事、經(jīng)事、致事、主事;B客體論元:受事、與事、對象、系事。(二)非必有論元:A憑借論元:工具、材料、方式、原因、目的;B環(huán)境論元:時間、處所、源點、終點、路徑、范圍、量幅。
董振東主持建立的知網(wǎng)(HowNet)是一個常識知識庫,描述對象為漢語和英語的詞語所代表的概念,揭示了概念與概念之間以及概念所具有的屬性之間的關系。《知網(wǎng)》描述了多種類型的詞匯語義關系,涉及了詞匯語義的各個方面,著重描述了不同詞性的詞語所代表的概念之間的語義關系,其中特別重視名詞所代表的概念與動詞所代表的概念之間的語義關系,也即我們通常稱作實體與事件之間的語義關系即語義角色關系,例如作為實體的“醫(yī)生”和作為事件的“醫(yī)治”,兩者有著“事件”與“施事”的關系。在知網(wǎng)中,800個事件主要特征中的每一個都標識有一個角色框架。
2.1語義角色標注的研究最早關注的是英文,隨著賓州大學命題庫的建立,語義角色標注任務得到廣泛的國際關注,并取得了許多很好的結果。出現(xiàn)了一些相關的國際評測,如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了語義角色標注的任務,同時也促進了語義角色標注研究的蓬勃發(fā)展。
2.2中文語義角色標注的工作開展較晚,最早進行研究的是Sun等人,當時因為還沒有中文方面的專門語料,所以他們只能先人工標記了包含某些動詞的語料然后在此基礎上進行研究。后來,伴隨著Chinese Proposition Bank(CPB)的構建,就有了一些比較系統(tǒng)的中文語義角色標注的工作。國內(nèi)最早關注語義角色標注是劉挺、于江德等人,不過他們研究的重點是提升英文的語義角色標注的性能。
2.3語料資源和中文自動句法分析的不理想等因素使得國內(nèi)中文語義角色標注的研究還局限在語義角色分類方面,完整的語義角色標注研究還不多見。雖然與英文方面的工作相比,中文語義角色標注方面的研究仍處在開始階段,但該項工作已引起了許多研究人員的重視。國內(nèi)的研究工作主要集中在以下四大高校。
北京大學關于語義角色標注的工作主要集中在兩個方面:一是基于語義組塊分析和詞匯語義特征的語義角色標注;二是利用北大網(wǎng)庫的標注語料進行語義角色標注的研究。丁偉偉[1]提出了一種基于語義組塊分析的語義角色標注的處理策略。該方法將中文語義角色標注從一個節(jié)點的分類問題轉化為序列標注問題,是一種簡化的“語義組塊識別——語義組塊分類”流程,而不是傳統(tǒng)的“句法分析——語義角色識別——語義角色分類”的流程。由于避開了句法分析這個階段,使得語義角色標注擺脫了對句法分析的依賴,從而突破了漢語語法分析器的性能限制。北大網(wǎng)庫構建了一種全新的語義角色標注資源,改變了以往無論中英文研究都基于賓州大學命題庫的標注體系的局面。文獻[2]的主要目的是將之前的各種研究方法在北大網(wǎng)庫的標注語料中進行驗證,考察它們在北大網(wǎng)庫標注體系中的作用,進而討論特征的選擇對標注體系的依賴性問題,這種在北大網(wǎng)庫基礎上建立的語義角色分類系統(tǒng),在語義角色分類階段取得與在PropBank上相當?shù)膶嶒灲Y果。
哈爾濱工業(yè)大學主要貢獻是在不斷優(yōu)化特征和特征組合的基礎上,進行不同方法的實驗。文獻[3]把漢語的特點與英文語義角色標注特征相結合,構建出一些新的特征和組合特征,如謂詞和短語類型的組合、謂語動詞類別信息和路徑的組合等,并在CPB語料數(shù)據(jù)上使用最大熵分類器進行了實驗。文獻[4]以CPB為實驗數(shù)據(jù),首次將核方法應用于漢語語義角色標注中,通過對已有特征進行組合或分解,提取了更適用于漢語的新特征,得到了接近英文語義角色標注的性能。文獻[5]提出一種基于特征組合和支持向量機的語義角色標注方法。該方法的基本標注單元是句法成分,基本特征集合是從當前基于句法分析的語義角色標注系統(tǒng)中選出高效特征,然后選擇基于統(tǒng)計的特征組合方法,利用支持向量機在CPB語料上進行分類實驗。
蘇州大學的研究重點在兩個方面:一是名詞性謂詞語義角色標注,二是以依存關系為標注單元進行語義角色標注。文獻[6]和[7]討論了漢語名詞性謂詞的語義角色標注特征問題。通過對名詞性謂詞語義角色標注的研究,探索了新的詞匯、句法特征,選取了適合名詞性謂詞相關的特征集,用于名詞性謂詞語義角色標注,同時進一步利用動詞性謂詞已有的成果,極大地提高了名詞性謂詞語義角色標注的性能。文獻[8]提出標注單元為依存關系的語義角色標注系統(tǒng),經(jīng)過依存關系分析、謂詞標識、特征抽取、角色識別和角色分類,最終在CoNLL2008 SRL Shared Task自動依存分析的WSJ測試集取得了較好的結果,結果證明其性能明顯好于基于句法分析的SRL。
山西大學的工作主要是在漢語框架語義知識庫(CFN)語料庫上進行,文獻[9]基于漢語框架語義知識庫(CFN),采用條件隨機場模型,將語義角色標注問題通過IOB策略轉化為以詞為基本標注單元的線性序列標注問題,研究了漢語框架語義角色的自動標注。模型以詞為基本標注單元,選擇詞、詞性、詞相對于目標詞的位置、目標詞及其組合為特征。從CFN的219個框架中,挑選那些例句個數(shù)相對較多的25個框架的6 692個例句的語料上進行。對每一個框架,分別按照其例句訓練一個模型,同時進行語義角色的邊界識別與分類,進行2-fold交叉驗證。
其他還有南師大的陳麗江[10]利用清華大學的中文樹庫(TCT),通過梅家駒等人編纂的《同義詞詞林》對謂詞、名詞進行劃分,建立了謂詞詞表、名詞詞表和介詞詞表等來區(qū)分語義角色。在標注過程中使用規(guī)則確定謂詞論元,使用規(guī)則和詞表判定成分的語義角色,基于決策樹分類的算法,對漢語真實文本的語義角色標注進行了實驗。
可以說,對中文語義角色標注的研究還任重而道遠,下一步需要進行的研究工作還很多,集中表現(xiàn)在如下三個大的方面:
3.1成熟的語義理論。語義角色標注屬于語義分析的范疇,離不開語義理論的支持。語義角色標注需要語義角色相關理論、語義分類體系、詞匯語義等知識。目前,漢語語義這些相關理論都還不是很成熟。因此,建立合理有效的語義分類體系,系統(tǒng)地總結語法與語義之間的對應關系,是取得突破的關鍵。
3.2資源庫建設。語料庫和知識庫是自然語言處理的兩大基礎性工程,語料庫是對真實語言現(xiàn)象的收集,知識庫是對語言知識的系統(tǒng)性總結,它們對自然語言處理的質量起著關鍵性的作用。由于語言現(xiàn)象與語言知識的復雜性,語料庫和知識庫都十分龐大,一般都需要耗費十年乃至數(shù)十年的時間來構建。今后計算語言學工作開展的重點之一就是建立語義層次上的語料庫和知識庫。
3.3改進分析方法。自然語言分析處理的方法包括基于規(guī)則的方法和基于統(tǒng)計的方法。這兩種方法同樣也適用于語義角色標注。如何選擇合適的方法,如何將這兩種方法有機地結合起來,對語義角色標注任務是至關重要的。而且,無論是基于規(guī)則的方法,還是基于統(tǒng)計的方法,它們所采用的技術,以及得到的準確性和效率也同語義角色標注的準確性和實用性相關,這些也需要不斷地研究與改進。
[1]丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標注[J].中文信息學報,2009.9,VOL23(5).