999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通用語義角色自動標注研究

2012-07-09 01:44:34尹曉麗
長春工業大學學報 2012年2期
關鍵詞:句法語義特征

尹曉麗

(山西大學商務學院理學系,山西太原 030031)

0 引 言

語義角色標注(Semantic Role Labeling,SRL)是目前語義分析的一種主要實現方式,它也是近年來自然語言處理領域的一個研究熱點,是信息抽取、信息檢索、閱讀理解問答系統等多種自然語言處理技術的重要基礎。

文中以Fillmore的框架語義學[1-3]為理論基礎,以漢語真實語料為依據,由山西大學2005年開始開發的漢語框架網絡(CFN)知識庫[4-5]作為語料庫,以條件隨機場[6]為基本模型研究了框架語義中通用語義角色的語義角色、短語類型和句法功能三層自動標注問題,獲得了較好的實驗結果。

1 基于條件隨機場模型的通用語義角色自動標注

通用語義角色的自動標注包含語義角色、短語類型和句法功能標注3部分。我們采用層疊式標注方法:先標注語義角色,再標注短語類型,最后進行句法功能的標注。

1.1 標注過程

基于條件隨機場的通用語義角色標注過程主要由以下5個模塊組成:

1)預處理模塊;

2)語料生成模塊;

3)模型訓練模塊;

4)標注模塊;

5)評測模塊。

該標注過程如圖1所示。

圖1 語義角色標注過程流程

1.2 語料的選取

語料庫選用了山西大學CFN句子庫,其中包含了195個框架,1 548個詞元和15 999個句子,且每個句子都已經進行了分詞和詞性標注,并且也人工標注了框架元素、短語類型和句法功能3種信息。我們抽取CFN句子庫中的含有通用語義角色的句子作為數據集,并按9∶1的比例對句子進行了劃分。該語料庫中共有13個通用語義角色:time,manr,place,degr,sco_role,part_iter,purp,mns,depic,reci,iter,freq,dui_action。

1.3 工具的選取

實驗中使用的是版本為0.42的CRF++軟件包,該軟件包是由Taku Kudo開發的開源軟件包。該軟件包被應用到了許多序列標注任務,如命名實體識別、信息抽取、文本語塊分析等。實驗采用了高斯平滑,將平滑參數C設置為1.0,然后使用LBFGS進行MAP估計。

1.4 實驗評測標準

實驗采取兩種不同的測試性能評價指標。

1.4.1 MUC會議上采用的指標

為了綜合評價系統的性能,通常還計算召回率和準確率的加權幾何平均,即F值,它的計算公式如下:

式中:β——召回率和準確率的不同權重,β越大,Recall對Fβ的影響越大。通常情況下,β=1,Recall和Precision具有相同的權重。

1.4.2 綜合排名法

根據實驗結果,按從大到小的順序排列,依次為1,2,3,…,如果有相同的名次排名相同,最終綜合排名靠前的實驗結果好。

2 特征的選取

通用語義角色自動標注實驗所使用的特征分為3類:基本特征、擴展特征、規則特征。

2.1 基本特征

基本特征是指詞、詞性和位置。

詞,分詞后的單個字,一個詞或標點符號;詞性,詞所對應的詞性;位置,該詞相對于目標詞的位置。

2.2 擴展特征

擴展特征是指句法標記、結構標記和功能標記。

句法標記和結構標記都屬于基本塊標記,功能塊標記[7]是定義在句子層面的句法成分,我們采用清華大學周強教授提供的基本塊和功能塊標注工具[7]對語料進行了基本塊標注。

趙穎澤[8]對清華大學的TCT功能塊語料庫進行了統計,發現語料中S,P,O,D塊所占的比例達到了97%,文中在進行功能塊標注任務時,僅對S,P,O,D 4塊識別。

2.3 規則特征

對于time,freq,degr,sco_role這4種語義角色,它們經常以一定的頻率出現,為此,我們引用了詞表信息。

3 實驗結果及其分析

3.1 語義角色標注實驗結果

由于語義角色標注是進行短語類型標注和句法功能標注的基礎,所以語義角色標注的好壞直接影響到短語類型和句法功能的標注結果。根據特征選取的不同,先后進行了下面3組實驗。

我們把只考慮詞、詞性特征的T1模板作為Baseline。

實驗1:在T1模板的基礎上,加入位置、功能塊、結構標記和句法標記單個特征,見表1。

表1 T1基礎上加入位置、功能、結構、句法特征的模板

對這5個模板的實驗結果進行分析,見表2。

表2 實驗1的結果

由表2可以看出,T3模板的F值綜合排名最好,而且明顯優于其它模板;另外,T3模板比T1模板的平均準確率、召回率和F值都高。可見位置特征是一個很重要的特征,把它作為一個必要特征加入實驗,稱之為Baseline1,下面的實驗都是基于T3模板上進行的。

實驗2:在T3基礎上加入單個結構標記、句法標記、功能標記特征,并且考慮加入它們的組合特征,見表3。

表3 實驗2的模板

對這8個模板的實驗結果進行分析,見表4。

表4 實驗2的結果

由表中可見,這幾個模板的綜合排名差異不是很大,它們的平均召回率和平均F值波動幅度不到1%,平均準確率波動幅度不到2%。換句話說,在T3的基礎上引入結構標記、句法標記、功能標記特征,并沒使結果變好,而是隨著特征的增多,測試平均準確率、召回率和F值有所下降。主要原因是基本塊和功能塊標注工具存在一定的錯誤率,實驗用的測試集都是自動標注語料,存在部分標注錯誤,由于誤差累積影響到系統的性能。

實驗3:由于以上8個模板差異不是很大,在這8個模板基礎上,把time,freq,degr,sco_role這4個語義角色加入規則特征,即引入詞表信息作為特征進行實驗,結果見表5。

表5 實驗3的結果

由表5可見,在引入詞表信息作為特征后,time,freq,sco_role這3個語義角色的平均F值大約提高了1%,4.8%,4.6%,而且綜合排名也優于不加詞表特征的排名。只有degr的平均F值降低了不到0.7%,不過從總體上看,引入詞表特征對實驗結果有一定的提高。

3.2 短語類型和句法功能標注實驗結果

為了進行下面的短語類型和句法功能的標注,我們對各個通用語義角色在這13個模板下分別進行了實驗,得到每個語義角色最好的實驗結果作為短語類型標注的輸入來進行研究。然后,選取語義角色和短語類型雙層標注后最好的標注結果進行句法功能標注。

最后,把這三重自動標注實驗的最終結果進行一個簡單的比較。其中,Role_F表示語義角色自動標注結果的F值,PT_F表示語義角色、短語類型自動標注結果的F值,TriGroup_F表示語義角色、短語類型、句法功能三層標注結果的F值,Error1表示語義角色和短語類型標注結果的F值的差值,Error2表示短語類型和語義角色三層標注F值的差值,Error3表示語義角色和語義角色三層標注F值的差值,見表6。

表6 語義角色、短語類型和語義角色三層標注的結果 %

由表6可以看出,每一層標注基本上都存在一個誤差累積,這也正是層次標注的缺陷。對part_iter和sco_role這兩個語義角色,它們在語義角色標對的情況下,短語類型和句法功能也全部標注正確,這跟語義角色本身的定義有很大關系。而對于上表中一些差值為負的情況,則是由在自動標注過程中,機器自動找到的個數變少,使得準確率和F值相應提高而導致,但這種情況出現的比較少。總體上看,我們在進行語義角色三層的標注獲得了比較好的實驗結果。同時,語義角色標注的結果直接影響到短語類型和句法功能的標注,因此,提高語義角色標注的結果是下一步研究的重點。

4 結 語

采用山西大學開發的漢語框架網絡知識庫作為語料資源,以條件隨機場為基本模型框架,設計并實現了一個通用語義角色三層標注系統。該系統采用層疊結構,首先標注語義角色,其次標注短語類型,最后進行句法功能的標注。從實驗結果可以看出,基于條件隨機場的通用語義角色三層自動標注已經表現出了良好的性能。但是,采用層疊式標注方法容易產生誤差累積,導致實驗結果逐步下降。語義角色標注的結果直接影響到短語類型和句法功能的標注,為此,如何進一步提高語義角色標注的結果是以后研究的主要工作。

[1] Charles J Fillmore.Frame semantics and the nature of language[A]//Annals of the New York Academy of Sciences:Conference on the Origin and Development of Language and Speech[C].1976,280:20-32.

[2] Charles J Fillmore,Charles Wooters,Collin F Baker.Building a large lexical data bank which provides deep semantics[A]//Proceedings of the 15th Pacific Asia Conference on Language,Information and Computation[C].HongKong,2001:3-26.

[3] Baker C F,Fillmore C J,Lowe J B.The berkeley frameNet project[A]//Boitet C,Whitelock P,eds.Proc.of the ACL&Coling’98.Montreal:ACL,1998:86-90.

[4] 劉開瑛,由麗萍.漢語框架語義知識庫構建工程[A]//中文信息處理前沿進展[C].中國中文信息學會成立二十五周年學術會議論文集,2006,11:64-71.

[5] 由麗萍.構建現代漢語框架語義知識庫技術研究[D]:[碩士學位論文].上海:上海師范大學,2006.

[6] John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[A]//Proceedings of the 18th International Conference on Machine Learning[C].San Francisco,2001:282-289.

[7] 周強.漢語基本塊描述體系[J].中文信息學報,2007(3):23-29.

[8] 趙穎澤.漢語功能塊的自動分析[D]:[碩士學位論文].北京:清華大學,2006.

猜你喜歡
句法語義特征
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲av日韩av制服丝袜| 欧美α片免费观看| 国产精品播放| 久久一本精品久久久ー99| 97青草最新免费精品视频| 99re经典视频在线| 激情无码字幕综合| 精品91自产拍在线| 欧美福利在线| 97亚洲色综久久精品| 午夜福利在线观看成人| 波多野结衣无码AV在线| 日韩第九页| 婷婷色狠狠干| 99国产在线视频| 国产乱人乱偷精品视频a人人澡| 国产无遮挡裸体免费视频| 在线观看精品自拍视频| 国产一区在线观看无码| 囯产av无码片毛片一级| 久久精品中文无码资源站| 国产精品.com| 香蕉视频在线精品| 国产男女免费完整版视频| 色综合网址| 精品国产免费第一区二区三区日韩| 欧美亚洲欧美区| 尤物午夜福利视频| 欧美日韩第三页| 在线观看91香蕉国产免费| 丝袜无码一区二区三区| 久久久91人妻无码精品蜜桃HD| 亚欧美国产综合| 在线观看的黄网| 久久精品国产999大香线焦| 午夜限制老子影院888| 在线观看国产精美视频| 精品久久久久久成人AV| 精品视频免费在线| 99re热精品视频国产免费| 丝袜美女被出水视频一区| 综合亚洲色图| 久久99国产综合精品女同| 欧美综合激情| 国内精品视频在线| 欧美一级黄色影院| 国产精品私拍在线爆乳| 国产三级成人| 久久精品国产国语对白| 99这里只有精品在线| 成人a免费α片在线视频网站| 亚洲成人精品在线| 日韩一区二区在线电影| 永久免费av网站可以直接看的 | 国产成人一区在线播放| 好紧好深好大乳无码中文字幕| 不卡无码网| 在线欧美日韩| 欧美国产精品不卡在线观看 | 再看日本中文字幕在线观看| 一级黄色网站在线免费看| 特级欧美视频aaaaaa| 99热国产这里只有精品9九| 黄色网页在线播放| 伊人中文网| 国产精品久线在线观看| 熟妇人妻无乱码中文字幕真矢织江| 欧美伦理一区| 91在线精品免费免费播放| 国产在线一区视频| 国产精品30p| 无码专区国产精品一区| 一级不卡毛片| 成人午夜亚洲影视在线观看| 国产va欧美va在线观看| 成人国产精品视频频| 国产成人av大片在线播放| 婷婷丁香色| 无码日韩视频| 亚洲精品无码在线播放网站| 91成人在线免费观看| 国产无码制服丝袜|