何保榮,邱立坤,孫盼盼
(魯東大學 文學院,山東 煙臺264025)
語義角色標注是一種淺層語義標注,其主要內容是識別謂詞的論元,并為每個論元標注一個語義角色[1]。現有研究一般將語義角色標注視為分類問題或序列標注問題,通常使用最大熵模型、條件隨機場及RNN等深度學習模型予以實現。在訓練數據較為充足的情況下,已取得較高精度。但現有自動標注方法主要使用句法信息和詞匯信息,較少考慮謂詞的格框架及語義角色與句式之間的配合關系。
在之前的研究中,我們對“把”字句的句式及其與句模的對應關系進行了分析,總結出“把”字句的語義角色標注規(guī)則[2]。本文在已有研究工作的基礎上,對現代漢語句式及句模的對應關系進行歸納,總結出一套語義角色標注規(guī)則。本文的研究工作主要包括三方面: (1)對現代漢語句式及其句模的對應關系進行歸納; (2)以《人民日報》新聞語料語義角色標注語料庫為依據,基于人工標注的開發(fā)集,總結出若干語義角色標注規(guī)則; (3)驗證該語義角色標注規(guī)則的有效性。
為了便于句式劃分和句模描寫,本文研究工作中句子的基本單位是單句(復句可拆分為多個單句)。
本文以《現代漢語》(黃伯榮、廖旭東)中對句式的劃分為依據[3]。在此基礎上,增加了“輕動詞句”*輕動詞句: 句子的謂語動詞為輕動詞,比如“我們要對學校安全設施進行檢查”,“進行”為輕動詞,充當句子的謂語核心,后接表示實際意義的動詞賓語“檢查”。和“共享并列句”*共享并列句: 句子的謂語核心由兩個具有并列關系的動詞充當,且這兩個動詞都可以支配句子的賓語,比如“我們要建立、健全養(yǎng)老機制”,“建立”和“健全”共同充當句子的謂語核心,且共享句子的賓語“養(yǎng)老機制”。兩種句式。根據一個句子的內部結構,單句可分為主謂句和非主謂句。非主謂句主要是由定中結構或狀中結構的短語(好漂亮的裙子、真暖和)、感嘆詞(哎呦)、擬聲詞(嘩嘩)等構成。其中,定中結構的非主謂句可以構成命題結構,其他類型非主謂句則一般不構成命題結構,故本文不做討論。本文的主謂句有四類: 動詞謂語句、形容詞謂語句、名詞謂語句及主謂謂語句。動詞謂語句包括: “把”字句、“被”字句、兼語句、連謂句、比較句、雙賓句、輕動詞句、存現句、共享并列句及一般動詞謂語句等(見圖1)。

圖1 現代漢語句式
本文語義角色標注是建立在句法角色標注的基礎之上的[4]。在句法樹庫中,“VV”代表連謂動詞,“IC”代表小句的謂語中心語,“HED”代表謂語中心語。相應地,在語義角色標注語料庫中,“VV/IC/HED”表示命題的動詞核心;主語(SBV)、賓語(VOB)、間接賓語(IOB)、狀語(ADV)(動詞性狀語、副詞性狀語除外)等表示與動詞核心相關的論元成分。此外,若賓語(VOB)充當主語(SBV)的父節(jié)點,則VOB一般也是動詞,但此時,VOB中也包含了一個命題。比如“我打算后天離開上海”,“后天離開上海”作為“打算”的“VOB”,其內部還有一個命題“離開上海”,“上海”充當“離開”的“VOB”。這種情況規(guī)律性很強,也作為本文句模研究的對象。
下面分別分析和描寫動詞謂語句、形容詞謂語句、名詞謂語句及主謂謂語句的句模。
1.2.1 “把”字句
“把”字句是指用介詞“把”引出句子的“受事”,并對該“受事”加以處置的句式。最為典型的“把”字句是表示處置義的“把”字句。“把”字句中,主語一般充當“主事”,“把”介引的賓語則一般充當“客事”。還有一種把字句經常在口語中運用,該類“把”字句表示的是致使義[5],如“你們怎么把犯人跑了”。但由于該類“把”字句數量非常少,不具有典型性,故本文暫不討論。經分析,“把”字句句法結構及其句模的對應關系如下:
(1) SBV+把+POB+IC/HED→ 主事+把+客事+IC/HED*句模中的句法成分標記,在句法樹庫中一般由“IC/HED”“CMP”“VOB”“ATT”等(動詞或者形容詞)充當,這些動詞或形容詞在句子或者短語結構中都充當謂語核心。小王把桌子砸了。
(2) SBV+把+POB+IC/HED(當作類)+VOB→主事+把+客事+IC/HED+結果 老張把我當作好朋友。
(3) SBV+把+POB+IC/HED+(CMP+DEI)→主事+把+客事+IC/HED;把+主事+CMP 服務員把盤子打碎了。
(4) SBV+把+POB+IC/HED+CMP+VOB→主事+把+客事+IC/HED;把+主事+CMP+客事 父親把倉庫改成了廚房。
1.2.2 “被”字句
“被”字句指的是用介詞“被(讓、叫、給)”引出句子的“施事”,或單獨使用介詞“被”的句子。“被”一般處于謂語動詞之前,“被”字句的主語一般充當謂語動詞的“客事”(或“對象”和“與事”),介詞“被”的介引賓語則一般充當“主事”。“被”字句句法結構及其句模的對應關系如下:
(1) SBV+被+POB+IC/HED→客事+被+主事+IC/HED 小王被別人舉報了。
(2) SBV+被+POB+IC/HED(給予類)+VOB→與事+被+主事+IC/HED+客事 王波被單位授予勞動模范的稱號。
(3) SBV+被+POB+IC/HED+VOB(v)→對象+被+主事+IC/HED+客事;主事+VOB 該廠被檢察院責令停止生產。
(4) SBV+被+POB+IC/HED+CMP→客事+被+主事+IC/HED;主事+CMP 小王被對手打傷了。
(5) SBV+被+POB+IC/HED+(CMP+DEI)→客事+被+主事+IC/HED;主事+DEI 院子被我打掃得干干凈凈。
(6) SBV+被+POB+IC/HED+CMP+VOB→客事+被+主事+IC/HED;主事+CMP+客事 她被公司任命為部長。
1.2.3 雙賓句
雙賓句是指有兩個賓語的句子。前一個賓語稱為“間接賓語”,一般指人;后一個賓語稱為“直接賓語”,一般指物。在本文中,雙賓句的直接賓語用“VOB”表示,間接賓語用“IOB”表示。雙賓句的句法結構及其句模對應關系描寫為:
(1) SBV+IC/HED +IOB+VOB→主事+IC/HED+與事+客事 老師送了我?guī)妆緟⒖紩?/p>
(2) SBV+IC/HED +VOB+IOB→主事+IC/HED+客事+與事 老師送了幾本參考書給我。
1.2.4 兼語句
黃伯榮、廖旭東《現代漢語》中把兼語句定義為: 由兼語短語充當謂語或獨立成句的句子叫做兼語句[6]。如“劉經理派我去北京”。語言學中兼語句可以表示為: N1(主語)+V1(謂語中心語)+N2(兼語)+(V2(第二個謂詞)+N3)。本文句法標注體系中,兼語句形式化為: SBV+IC/HED+VOB+(ACT+VOB)。由于兼語句中都有語法標簽“ACT”,因此可將兼語句單獨抽取。
兼語句中,兩個動詞分別都能構成一個命題,故其句模是雙動核結構。一般情況下,兼語句的主語充當謂語動詞的主事,賓語充當客事;同時,賓語還充當第二個動詞“ACT”的主事,而謂語動詞和“ACT”之間則一般具有“結果”或“目的”的關系;“ACT”后的賓語一般充當“ACT”的客事。兼語句的句法結構及其句模的對應關系如下:
SBV+IC/HED +VOB+ACT→主事+ IC/HED+客事;主事+ACT;IC/HED+目的/結果 經理讓他立刻行動。
1.2.5 “比”字句
“比”字句指的是用“比”字介詞短語充當狀語的句子。“比”字句又稱“差比句”。“比”字句一般包括“比較主體、比較對象、比較項目、比較結果”四部分。語言學中一般將“比”字句標記為: X(比較主體)+比(比較對象)+Y(謂語中心語)+W(比較結果)。比如“我比她高兩公分”。本文中,“比”字句的句法結構及其句模的對應關系表示為:
(1) SBV+比+POB+IC/HED→比較主體+比+比較對象+IC/HED 我比她高。
(2) SBV+比+POB+IC/HED +VOB→比較主體+比+比較對象+IC/HED+比較結果 我比她高兩公分。
(3) TPC+SBV+比+POB+IC/HED+VOB→比較主體+比較項目+比+比較對象+IC/HED 我身高比她高兩公分。
1.2.6 連謂句
連謂句是指由連謂短語充當句子謂語或由連謂短語單獨成句的句子。連謂句中,謂語動詞一般都存在時間上的先后。
通過語料標注,我們發(fā)現絕大多數連謂句的謂語都是雙動詞結構,即謂語由兩個時間上具有先后順序的動詞構成。在本文句法樹庫中,連謂用“VV”這一標簽表示,如“老張騎上自行車就走了”,“騎”和“走”句法上的標簽為“VV”。因為連謂句可構成兩個(或者多個)命題,故其句模也是雙(多)動核結構。連謂句句法結構及句模對應關系描述如下:
SBV+VV+IC/HED+VOB→主事+VV;主事+IC/HED+客事 他上街買菜。
1.2.7 共享并列句
句式的謂語結構由兩個具有并列關系的動詞構成,且這兩個動詞共享同一個賓語,本文稱之為“共享并列句”。該句式有兩個謂語動詞,可構成兩個命題,句模為雙動核結構。比如“我們要貫徹和落實黨的政策”。“貫徹”和“落實”共享賓語“政策”。共享并列句的句法結構及其句模的對應關系為:
SBV+COS+IC/HED+VOB→主事+COS+客事;主事+IC/HED+客事 我們要建立、健全社會保障制度。
1.2.8 輕動詞句
輕動詞是一種比較特殊的動詞,其意義較虛,且其后一般要與表示實在意義的動詞組合構成動賓結構(動賓結構的賓語由表示實在意義的動詞充當)。較為常用的輕動詞有“進行、作、予以”等。比如“公司對他的事跡進行了宣傳”。其中,“進行”只表示主體實施了某項動作或行為,但具體動作或行為實際上是由動詞賓語“宣傳”發(fā)出的。故該句的意思是“公司宣傳了他的事跡”。輕動詞句的句法結構及其句模的對應關系為:
SBV+ADV+IC/HED(輕動詞)+VOB→主事+對象+IC/HED+客事;主事+客事+VOB 單位對他的建議予以了肯定。
1.2.9 名詞謂語句
名詞謂語句是指以名詞或名詞性短語充當謂語的句子,如“今天教師節(jié)”。名詞謂語句實際上是動詞謂語句的一種變體(或一種省略形式)。在語義角色標注時,本文將名詞謂語句按“省是句”來標注。名詞謂語句的句法結構和句模描寫情況如下:
SBV+IC/HED(n)→當事+IC/HED 國內生產總值80萬億元。
1.2.10 形容詞謂語句
形容詞謂語句指的是由形容詞或形容詞性短語充當謂語的句子。形容詞或形容詞性短語用來表示主語的性質或狀態(tài)。形容詞謂語句中,主語充當謂語的“當事”,如“這首歌好聽極了”。形容詞謂語句的句法結構及其句模的對應關系為:
SBV+IC/HED(a)→當事+IC/HED 音樂很優(yōu)美。
1.2.11 主謂謂語句
主謂謂語句是指由主謂短語充當句子謂語的句式。本文將主謂謂語句的大主語標注為“話題”(TPC),主謂短語中的主語標為主語(SBV)。主謂謂語句的句法結構和句模的對應關系描寫如下:
TPC+SBV+IC/HED+VOB→接事+主事+IC/HED+客事 她雙手捧著鮮花。
1.2.12 一般動詞謂句
除了上述幾種特殊句式外,動詞謂語句還有大量句法形式上無標記的句式,本文稱之為一般動詞謂句。一般動詞謂句也就是簡單的主謂賓句。主謂賓句的主語一般充當“主事”,賓語一般充當“客事”,比如“他獲得了學業(yè)獎學金”。一般主謂句的句法結構及其句模的對應關系為:
SBV+IC/HED+VOB→主事+IC/HED+客事 他們收到了兩個包裹。
本文句模研究除了研究各種句式之外,還涵蓋包含關系從句的關系結構。“關系從句”是語言中普遍存在的、特殊的并帶有一定標記的結構。確切地說,所謂的關系從句并不是真正意義上的句子,只是一種短語結構。為了便于理解,本文引用陳宗利的“關系結構”這一說法: “關系結構”是指包含關系從句的名詞性成分,由關系從句和中心語兩部分構成,關系從句和中心語也可以帶數量詞和限定詞等修飾成分。[7]
不同于其他SO語序的語言,漢語關系結構的語序比較特殊,關系從句處于核心名詞之前,如“我見過人”,“我見過”在“人”之前。漢語最普遍的關系結構標記類型是定語標記“的”[8],比如“他讀過的小說”和“他的小說”共用一個“的”,且二者都是定中結構,但兩者定語部分的性質不同。前者是關系從句作定語,后者是“的”字短語作定語。在句法結構上,二者較容易區(qū)分: 前者是“NP1+V+的+NP2”;后者是“NP1+的+NP2”。
關系結構中有兩個“NP”(“NP1”和“NP2”)。關系結構表示為“NP1+V+的+NP2”。一般情況下,NP1充當V的主事,NP2充當V的客事、與事或外圍語義角色。有些時候,NP2與V不存在語義關系。“NP1+V+的+NP2”對應到句法樹庫可形式化表示為: SBV(NP1)+ATT(V)+的+ DE(NP2)。下面是關系結構的句模類型:
(1) 主事+V+的+客事
施事+V+的+受事: 他吃的饅頭
施事+V+的+系事: 他購買的書籍
施事+V+的+內容: 他提出的建議
施事+V+的+對象: 他提拔的員工
(2) 主事+V+的+外圍語義角色
施事+V+的+路徑: 他走過的路
施事+V+的+材料: 他繪畫的鉛筆
(3) 主事+V
施事+V: 他出發(fā)的時間/他撒謊的原因/飛機起飛的地點
上述三種關系結構的句法結構相同,但句模不同。這主要是由于關系結構中動詞的“價”不同。(1)中的動詞都是二價動詞,比如“吃”“購買”“提出”等;(2)(3)則是一價動詞,比如“走”“繪畫”“出發(fā)”“撒謊”“起飛”等。在關系結構的語義角色自動標注過程中,根據動詞的格框架,采取動詞左側句法成分優(yōu)先標注的原則,將格框架中的語義角色賦予NP1和NP2。綜合上述三種句模,關系結構的句模可歸納為:
主事+ATT+的+客事/外圍語義角色
根據上述句式和句模的對應關系,本文總結出一套語義角色標注規(guī)則。該規(guī)則旨在對大多數句子進行語義角色自動標注,降低人工標注的工作量,提高語義角色自動標注的準確率。
“在實際的語義角色標注過程中,規(guī)則的使用具有先后順序。局部規(guī)則優(yōu)于全局規(guī)則。”[9]現代漢語句子中,除了一般主謂賓句沒有特殊的標記之外,其他句子都帶有一定標記。比如,“把”字句、“被”字句、“比”字句中分別帶有介詞“把”“被”“比”;雙賓句的間接賓語的標簽為“IOB”;兼語句中有“ACT”;連謂句中連謂結構標簽為“VV”;共享并列句中兩個動詞用“COS”標注;主謂謂語句用“TPC”區(qū)分;輕動詞句可通過直接限定有限的輕動詞與其他句式區(qū)分;名詞謂語句和形容詞謂語句的謂語中心語的詞性分別為名詞和形容詞,也可以與其他句式區(qū)分開來。因此,本文語義角色標注規(guī)則的運行順序是: 首先處理“把”字句、“被”字句、連謂句等特殊句式,然后處理一般主謂賓句。而關系結構有可能出現在所有句式的句子當中,故在每個句子中都要檢索是否存在關系結構。根據局部規(guī)則優(yōu)于全局規(guī)則的原則以及關系結構的特點,本文語義角色標注規(guī)則歸納如下:
規(guī)則1判斷當前句子中有無標記詞介詞“把”,如果有,則進入規(guī)則2;如果沒有檢索到介詞“把”,則進入規(guī)則7;
規(guī)則2若句式為“SBV+把+POB+IC/HED+(CMP+DEI)”,則句模為“主事+把+客事+ IC/HED;把+主事+CMP”,并進入規(guī)則31;如果不是,則進入規(guī)則3;
規(guī)則3若句式為“SBV+把+POB+IC/HED+CMP+VOB”,則句模為“主事+把+客事+IC/HED;把+主事+CMP+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則4;
規(guī)則4若句式為“SBV+把+POB+IC/HED+CMP”,則句模為“主事+把+客事+IC/HED;把+主事+CMP”,并進入規(guī)則31;如果不是,則進入規(guī)則5;
規(guī)則5若句式為“SBV+把+POB+IC/HED+VOB”,且IC/HED為“當作、稱作、稱為、叫做”等三價動詞,則句模為“主事+把+客事+ IC/HED+結果”,并進入規(guī)則31;如果不是,則進入規(guī)則6;
規(guī)則6若“把”字句句式為“SBV+把+POB+IC/HED”,則句模為“主事+把+客事+IC/HED”,并進入規(guī)則31;如果不是,則進入規(guī)則7;
規(guī)則7判斷當前句子中有無標記詞介詞“被”,如果有,則進入規(guī)則8;如果沒有檢索到介詞“被”,則進入規(guī)則14;
規(guī)則8若“被”字句句式為“SBV+被+POB+IC/HED”,其句模為“客事+被+主事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則9;
規(guī)則9若句式為“SBV+被+POB+IC/HED+VOB”,且IC/HED為“給予、授予、賦予、贈予”等動詞,其句模為“與事+被+主事+ IC/HED+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則10;
規(guī)則10句式為“SBV+被+POB+IC/HED+VOB”,且VOB的詞性為“v”(動詞),則句模為“對象+被+主事+ IC/HED+客事;主事+VOB+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則11;
規(guī)則11若句式是“SBV+被+POB+IC/HED+CMP”,句模為“客事+被+主事+ IC/HED;主事+CMP”,則進入規(guī)則31;如果不是,則進入規(guī)則12;
規(guī)則12若句式為“SBV+被+POB+IC/HED+(CMP+DEI)”,句模為“客事+被+主事+ IC/HED;主事+DEI”,則進入規(guī)則31;如果不是,則進入規(guī)則13;
規(guī)則13若句式為“SBV+被+POB+IC/HED+CMP+VOB”,則句模為“客事+被+主事+ IC/HED;主事+CMP+客事”,并進入規(guī)則31;如果不是,則進入規(guī)則14;
規(guī)則14判斷當前句子中有無介詞“比”,若有,則進入規(guī)則15;如果沒有,則進入規(guī)則18;
規(guī)則15如果“比”字句句式為“SBV+比+POB+IC/HED”,其句模為“比較主體+比+比較對象+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則16;
規(guī)則16如果句式為“SBV+比+POB+IC/HED +VOB”,其句模為“比較主體+比+比較對象+ IC/HED+比較結果”,則進入規(guī)則31;如果不是,則進入規(guī)則17;
規(guī)則17如果句式為“TPC+SBV+比+POB+IC/HED+VOB”,其句模為“比較主體+比較項目+比+比較對象+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則18;
規(guī)則18判斷當前句子的句法成分中有無“IOB”,如果有,則進入規(guī)則19;如果沒有則進入規(guī)則21;
規(guī)則19若雙賓句的句式為“SBV+IC/HED +IOB+VOB”,其句模為“主事+ IC/HED+與事+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則20;
規(guī)則20若句式為“SBV+IC/HED +VOB+IOB”,其句模為“主事+ IC/HED+客事+與事”,則進入規(guī)則31;如果不是,則進入規(guī)則21;
規(guī)則21判斷當前句子的句法成分中有無“ACT”,若有,則判斷當前句的句式是否為“SBV+IC/HED +VOB+ACT+(VOB)”,如果是,則其句模為“主事+ IC/HED+客事;主事+ACT+(客事);IC/HED+目的/結果”,并進入規(guī)則31;若不是,則進入規(guī)則22;
規(guī)則22判斷當前句子的句法成分中有無“VV”,若有,則判斷連謂句的句式是否為“SBV+VV+IC/HED +VOB”,如果是,則其句模為“主事+VV;主事+IC/HED+客事”,并進入規(guī)則31;若不是,則進入規(guī)則23;
規(guī)則23判斷當前句子的句法成分中有無“COS”,若有,則判斷并列共享句的句式是否為“SBV+COS+IC/HED +VOB”,如果是,其句模為“主事+COS+客事;主事+ IC/HED+客事”,則進入規(guī)則31;如果不是,則進入規(guī)則24;
規(guī)則24判斷當前句子的句法成分中有無“TPC”,若有,則判斷主謂謂語句的句式是否為“TPC+SBV+IC/HED+VOB”,若是,則其句模為“接事+主事+IC/HED+客體”,并進入規(guī)則31;若不是,則進入規(guī)則25;
規(guī)則25判斷當前句子的“IC/HED”(謂語核心動詞)是否為“進行、給予、作”等動詞,且賓語詞性為“v”(動詞),如果是,則判斷輕動詞句的句式是否為“SBV+ADV(p+POB)+IC/HED+VOB”,其句模為“主事+對象+ IC/HED+客事;主事+客事+VOB”,則進入規(guī)則31;如果不是,則進入規(guī)則26;
規(guī)則26判斷當前句子的“IC/HED”(謂語核心動詞)的詞性是否為“n”(名詞),如果是,則判斷名詞謂語句的句式是否為“SBV+ IC/HED”,其句模為“當事+ IC/HED”,則進入規(guī)則31;若不是,則進入規(guī)則27;
規(guī)則27判斷當前句子的“IC/HED”(謂語核心動詞)的詞性是否為“a”(形容詞),如果是,則進入規(guī)則28;若不是,則進入規(guī)則30;
規(guī)則28如果形容詞謂語句的句式為“SBV+ IC/HED”,其句模為“當事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則29;
規(guī)則29如果形容詞謂語句的句式為“SBV+ ADV(p+POB)+IC/HED”,其句模為“當事+對象/客事+ IC/HED”,則進入規(guī)則31;如果不是,則進入規(guī)則30;
規(guī)則30判斷當前句子的句式是否為“SBV+IC/HED+VOB”,若是,則當前句子的句模為“主事+IC/HED+客事”,并進入規(guī)則31;
規(guī)則31判斷當前句子中是否存在句法結構為“SBV+ATT+的+DE”,且“ATT”的詞性為“v”(動詞)的結構,如果存在,則該結構的句模為“主事+ATT+的+客事/外圍語義角色”;如果不存在該結構,則不標注。
本文語料庫來源為2000年1月份《人民日報》語料。該語料庫的句法標注體系及構建過程可參見文獻[10]。在原有句法樹庫的基礎上,對語料庫的前三萬個句子進行了語義角色標注。在用基于規(guī)則的方法進行自動標注時,前二萬句充當開發(fā)集,后一萬句作為測試集。
為了與基于統(tǒng)計的標注方法進行比較,我們還使用Mate-tools的語義角色標注模塊[11]進行了對比實驗,同樣選擇前二萬句作為訓練集,后一萬句作為測試集。該實驗全部使用默認參數,不需要調試參數,因此未設置開發(fā)集。
在上述實驗中,我們用帶標簽正確率(labeled precision, LP)、帶標簽召回率(labeled recall, LR)和不帶標簽正確率(unlabeled precision,UP)、不帶標簽召回率(unlabeled recall,UR)來評價標注質量。UP和UR僅考慮弧的正確與否,即兩個詞之間是否存在語義依存關系;LP和LR則在考慮弧的基礎上,還要考慮語義角色標簽的正確與否。
實驗結果如表1所示。

表1 自動標注結果
整個測試集中,人工標注的弧和標簽個數為78 917個,基于規(guī)則自動標注的弧個數是44 484個,正確個數為41 415,召回率為52.48%,正確率為93.10%;基于規(guī)則標注的標簽正確個數為35 024,正確率為78.73%,召回率為44.38%。假定弧正確的情況下,標簽的正確率為84.57%(35 024÷41 415≈0.84 568)。
與之相比,基于統(tǒng)計的方法召回率較高,但正確率較低。雖然基于規(guī)則的自動標注方法召回率不是很高,但其正確率卻達到了較高水平,運用該規(guī)則可降低約二分之一的標注工作量,因此本文語義角色標注規(guī)則在人工構建語料庫時是可行的。
根據我們的初步分析,基于統(tǒng)計的方法標注結果差異較大,人工校對時需要修改的地方較多;基于規(guī)則的方法標注結果一致性較高,人工校對時需要修改的地方較少,而且比較一致,但是需要添加的弧更多一些。
錯誤分析表明,目前的規(guī)則還有待進一步細化,比如可根據動詞的類是一價動詞、二價動詞或三價動詞總結出更細致的規(guī)則。
在總結句式與句模對應關系的基礎上,本文歸納出一套語義角色標注規(guī)則,并對該規(guī)則的有效性進行了驗證,測試結果證明所總結的語義角色標注規(guī)則具有較高的正確率。在人工校對語義角色標注語料庫的過程中,基于規(guī)則的方法與基于統(tǒng)計的方法相比,具有一致性高、正確率高的優(yōu)點,這些優(yōu)點帶來的收益要大于召回率低的缺點,因此可以降低人工標注的工作量。
與統(tǒng)計方法相比,本文基于規(guī)則的方法優(yōu)點在于從整體上考慮句子的結構,但由于規(guī)則考慮的因素還不夠細致,整體精度與統(tǒng)計方法相比并無優(yōu)勢。在今后的工作中,我們計劃進一步探討規(guī)則方法和統(tǒng)計方法的融合。
[1] Gildea D, Jurafsky D. Automatic labeling of semantic roles[J].Computational Linguistics,2002,28(3): 245-288.
[2] 何保榮,邱立坤,徐德寬.基于規(guī)則的把字句語義角色標注[J].中文信息學報,2017,31(1): 84-93.
[3] 黃伯榮,廖旭東.現代漢語[M].增訂四版.北京: 高等教育出版社,2007: 102.
[4] Likun Q, Yue Z, Meishan Z. Dependency tree representations of predicate-argument structures[C]//Proceedings of the AAAI-16, 2016: 2645-2651.
[5] 范曉.三個平面的語法觀[M].北京: 北京語言學院出版社,1996: 201-209.
[6] 黃伯榮,廖旭東.現代漢語[M].增訂四版.北京: 高等教育出版社,2007: 90.
[7] 陳宗利.漢語關系從句的位置與關系結構的特點[J].語言科學,2009,(2): 155-164.
[8] 劉丹青.漢語關系從句標記類型初探[J].中國語文,2005,(1): 3-15.
[9] 詹衛(wèi)東.面向中文信息處理的現代漢語短語結構規(guī)則研究[D].北京: 北京大學博士論文,1999.
[10] 邱立坤,史林林,王厚峰.多領域中文依存樹庫構建與影響統(tǒng)計句法分析因素之分析[J].中文信息學報,2015,29(5): 71-77。
[11] Bj?rkelund A, Hafdell L, Nugues P. Multilingual semantic role labeling[C]//Proceedings of the CONLL 2009, 2009: 43-48.


E-mail: 1030158547@qq.com