尹曉麗
(山西大學商務學院理學系,山西太原 030031)
語義角色標注(Semantic Role Labeling,SRL)是目前語義分析的一種主要實現方式,它也是近年來自然語言處理領域的一個研究熱點,是信息抽取、信息檢索、閱讀理解問答系統等多種自然語言處理技術的重要基礎。
文中以Fillmore的框架語義學[1-3]為理論基礎,以漢語真實語料為依據,由山西大學2005年開始開發的漢語框架網絡(CFN)知識庫[4-5]作為語料庫,以條件隨機場[6]為基本模型研究了框架語義中通用語義角色的語義角色、短語類型和句法功能三層自動標注問題,獲得了較好的實驗結果。
通用語義角色的自動標注包含語義角色、短語類型和句法功能標注3部分。我們采用層疊式標注方法:先標注語義角色,再標注短語類型,最后進行句法功能的標注。
基于條件隨機場的通用語義角色標注過程主要由以下5個模塊組成:
1)預處理模塊;
2)語料生成模塊;
3)模型訓練模塊;
4)標注模塊;
5)評測模塊。
該標注過程如圖1所示。

圖1 語義角色標注過程流程
語料庫選用了山西大學CFN句子庫,其中包含了195個框架,1 548個詞元和15 999個句子,且每個句子都已經進行了分詞和詞性標注,并且也人工標注了框架元素、短語類型和句法功能3種信息。我們抽取CFN句子庫中的含有通用語義角色的句子作為數據集,并按9∶1的比例對句子進行了劃分。該語料庫中共有13個通用語義角色:time,manr,place,degr,sco_role,part_iter,purp,mns,depic,reci,iter,freq,dui_action。
實驗中使用的是版本為0.42的CRF++軟件包,該軟件包是由Taku Kudo開發的開源軟件包。該軟件包被應用到了許多序列標注任務,如命名實體識別、信息抽取、文本語塊分析等。實驗采用了高斯平滑,將平滑參數C設置為1.0,然后使用LBFGS進行MAP估計。
實驗采取兩種不同的測試性能評價指標。
1.4.1 MUC會議上采用的指標


為了綜合評價系統的性能,通常還計算召回率和準確率的加權幾何平均,即F值,它的計算公式如下:

式中:β——召回率和準確率的不同權重,β越大,Recall對Fβ的影響越大。通常情況下,β=1,Recall和Precision具有相同的權重。
1.4.2 綜合排名法
根據實驗結果,按從大到小的順序排列,依次為1,2,3,…,如果有相同的名次排名相同,最終綜合排名靠前的實驗結果好。
通用語義角色自動標注實驗所使用的特征分為3類:基本特征、擴展特征、規則特征。
基本特征是指詞、詞性和位置。
詞,分詞后的單個字,一個詞或標點符號;詞性,詞所對應的詞性;位置,該詞相對于目標詞的位置。
擴展特征是指句法標記、結構標記和功能標記。
句法標記和結構標記都屬于基本塊標記,功能塊標記[7]是定義在句子層面的句法成分,我們采用清華大學周強教授提供的基本塊和功能塊標注工具[7]對語料進行了基本塊標注。
趙穎澤[8]對清華大學的TCT功能塊語料庫進行了統計,發現語料中S,P,O,D塊所占的比例達到了97%,文中在進行功能塊標注任務時,僅對S,P,O,D 4塊識別。
對于time,freq,degr,sco_role這4種語義角色,它們經常以一定的頻率出現,為此,我們引用了詞表信息。
由于語義角色標注是進行短語類型標注和句法功能標注的基礎,所以語義角色標注的好壞直接影響到短語類型和句法功能的標注結果。根據特征選取的不同,先后進行了下面3組實驗。
我們把只考慮詞、詞性特征的T1模板作為Baseline。
實驗1:在T1模板的基礎上,加入位置、功能塊、結構標記和句法標記單個特征,見表1。

表1 T1基礎上加入位置、功能、結構、句法特征的模板
對這5個模板的實驗結果進行分析,見表2。

表2 實驗1的結果
由表2可以看出,T3模板的F值綜合排名最好,而且明顯優于其它模板;另外,T3模板比T1模板的平均準確率、召回率和F值都高。可見位置特征是一個很重要的特征,把它作為一個必要特征加入實驗,稱之為Baseline1,下面的實驗都是基于T3模板上進行的。
實驗2:在T3基礎上加入單個結構標記、句法標記、功能標記特征,并且考慮加入它們的組合特征,見表3。

表3 實驗2的模板
對這8個模板的實驗結果進行分析,見表4。

表4 實驗2的結果
由表中可見,這幾個模板的綜合排名差異不是很大,它們的平均召回率和平均F值波動幅度不到1%,平均準確率波動幅度不到2%。換句話說,在T3的基礎上引入結構標記、句法標記、功能標記特征,并沒使結果變好,而是隨著特征的增多,測試平均準確率、召回率和F值有所下降。主要原因是基本塊和功能塊標注工具存在一定的錯誤率,實驗用的測試集都是自動標注語料,存在部分標注錯誤,由于誤差累積影響到系統的性能。
實驗3:由于以上8個模板差異不是很大,在這8個模板基礎上,把time,freq,degr,sco_role這4個語義角色加入規則特征,即引入詞表信息作為特征進行實驗,結果見表5。

表5 實驗3的結果
由表5可見,在引入詞表信息作為特征后,time,freq,sco_role這3個語義角色的平均F值大約提高了1%,4.8%,4.6%,而且綜合排名也優于不加詞表特征的排名。只有degr的平均F值降低了不到0.7%,不過從總體上看,引入詞表特征對實驗結果有一定的提高。
為了進行下面的短語類型和句法功能的標注,我們對各個通用語義角色在這13個模板下分別進行了實驗,得到每個語義角色最好的實驗結果作為短語類型標注的輸入來進行研究。然后,選取語義角色和短語類型雙層標注后最好的標注結果進行句法功能標注。
最后,把這三重自動標注實驗的最終結果進行一個簡單的比較。其中,Role_F表示語義角色自動標注結果的F值,PT_F表示語義角色、短語類型自動標注結果的F值,TriGroup_F表示語義角色、短語類型、句法功能三層標注結果的F值,Error1表示語義角色和短語類型標注結果的F值的差值,Error2表示短語類型和語義角色三層標注F值的差值,Error3表示語義角色和語義角色三層標注F值的差值,見表6。

表6 語義角色、短語類型和語義角色三層標注的結果 %
由表6可以看出,每一層標注基本上都存在一個誤差累積,這也正是層次標注的缺陷。對part_iter和sco_role這兩個語義角色,它們在語義角色標對的情況下,短語類型和句法功能也全部標注正確,這跟語義角色本身的定義有很大關系。而對于上表中一些差值為負的情況,則是由在自動標注過程中,機器自動找到的個數變少,使得準確率和F值相應提高而導致,但這種情況出現的比較少。總體上看,我們在進行語義角色三層的標注獲得了比較好的實驗結果。同時,語義角色標注的結果直接影響到短語類型和句法功能的標注,因此,提高語義角色標注的結果是下一步研究的重點。
采用山西大學開發的漢語框架網絡知識庫作為語料資源,以條件隨機場為基本模型框架,設計并實現了一個通用語義角色三層標注系統。該系統采用層疊結構,首先標注語義角色,其次標注短語類型,最后進行句法功能的標注。從實驗結果可以看出,基于條件隨機場的通用語義角色三層自動標注已經表現出了良好的性能。但是,采用層疊式標注方法容易產生誤差累積,導致實驗結果逐步下降。語義角色標注的結果直接影響到短語類型和句法功能的標注,為此,如何進一步提高語義角色標注的結果是以后研究的主要工作。
[1] Charles J Fillmore.Frame semantics and the nature of language[A]//Annals of the New York Academy of Sciences:Conference on the Origin and Development of Language and Speech[C].1976,280:20-32.
[2] Charles J Fillmore,Charles Wooters,Collin F Baker.Building a large lexical data bank which provides deep semantics[A]//Proceedings of the 15th Pacific Asia Conference on Language,Information and Computation[C].HongKong,2001:3-26.
[3] Baker C F,Fillmore C J,Lowe J B.The berkeley frameNet project[A]//Boitet C,Whitelock P,eds.Proc.of the ACL&Coling’98.Montreal:ACL,1998:86-90.
[4] 劉開瑛,由麗萍.漢語框架語義知識庫構建工程[A]//中文信息處理前沿進展[C].中國中文信息學會成立二十五周年學術會議論文集,2006,11:64-71.
[5] 由麗萍.構建現代漢語框架語義知識庫技術研究[D]:[碩士學位論文].上海:上海師范大學,2006.
[6] John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[A]//Proceedings of the 18th International Conference on Machine Learning[C].San Francisco,2001:282-289.
[7] 周強.漢語基本塊描述體系[J].中文信息學報,2007(3):23-29.
[8] 趙穎澤.漢語功能塊的自動分析[D]:[碩士學位論文].北京:清華大學,2006.