999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

通用語義角色自動標注研究

2012-07-09 01:44:34尹曉麗
長春工業大學學報 2012年2期
關鍵詞:句法語義特征

尹曉麗

(山西大學商務學院理學系,山西太原 030031)

0 引 言

語義角色標注(Semantic Role Labeling,SRL)是目前語義分析的一種主要實現方式,它也是近年來自然語言處理領域的一個研究熱點,是信息抽取、信息檢索、閱讀理解問答系統等多種自然語言處理技術的重要基礎。

文中以Fillmore的框架語義學[1-3]為理論基礎,以漢語真實語料為依據,由山西大學2005年開始開發的漢語框架網絡(CFN)知識庫[4-5]作為語料庫,以條件隨機場[6]為基本模型研究了框架語義中通用語義角色的語義角色、短語類型和句法功能三層自動標注問題,獲得了較好的實驗結果。

1 基于條件隨機場模型的通用語義角色自動標注

通用語義角色的自動標注包含語義角色、短語類型和句法功能標注3部分。我們采用層疊式標注方法:先標注語義角色,再標注短語類型,最后進行句法功能的標注。

1.1 標注過程

基于條件隨機場的通用語義角色標注過程主要由以下5個模塊組成:

1)預處理模塊;

2)語料生成模塊;

3)模型訓練模塊;

4)標注模塊;

5)評測模塊。

該標注過程如圖1所示。

圖1 語義角色標注過程流程

1.2 語料的選取

語料庫選用了山西大學CFN句子庫,其中包含了195個框架,1 548個詞元和15 999個句子,且每個句子都已經進行了分詞和詞性標注,并且也人工標注了框架元素、短語類型和句法功能3種信息。我們抽取CFN句子庫中的含有通用語義角色的句子作為數據集,并按9∶1的比例對句子進行了劃分。該語料庫中共有13個通用語義角色:time,manr,place,degr,sco_role,part_iter,purp,mns,depic,reci,iter,freq,dui_action。

1.3 工具的選取

實驗中使用的是版本為0.42的CRF++軟件包,該軟件包是由Taku Kudo開發的開源軟件包。該軟件包被應用到了許多序列標注任務,如命名實體識別、信息抽取、文本語塊分析等。實驗采用了高斯平滑,將平滑參數C設置為1.0,然后使用LBFGS進行MAP估計。

1.4 實驗評測標準

實驗采取兩種不同的測試性能評價指標。

1.4.1 MUC會議上采用的指標

為了綜合評價系統的性能,通常還計算召回率和準確率的加權幾何平均,即F值,它的計算公式如下:

式中:β——召回率和準確率的不同權重,β越大,Recall對Fβ的影響越大。通常情況下,β=1,Recall和Precision具有相同的權重。

1.4.2 綜合排名法

根據實驗結果,按從大到小的順序排列,依次為1,2,3,…,如果有相同的名次排名相同,最終綜合排名靠前的實驗結果好。

2 特征的選取

通用語義角色自動標注實驗所使用的特征分為3類:基本特征、擴展特征、規則特征。

2.1 基本特征

基本特征是指詞、詞性和位置。

詞,分詞后的單個字,一個詞或標點符號;詞性,詞所對應的詞性;位置,該詞相對于目標詞的位置。

2.2 擴展特征

擴展特征是指句法標記、結構標記和功能標記。

句法標記和結構標記都屬于基本塊標記,功能塊標記[7]是定義在句子層面的句法成分,我們采用清華大學周強教授提供的基本塊和功能塊標注工具[7]對語料進行了基本塊標注。

趙穎澤[8]對清華大學的TCT功能塊語料庫進行了統計,發現語料中S,P,O,D塊所占的比例達到了97%,文中在進行功能塊標注任務時,僅對S,P,O,D 4塊識別。

2.3 規則特征

對于time,freq,degr,sco_role這4種語義角色,它們經常以一定的頻率出現,為此,我們引用了詞表信息。

3 實驗結果及其分析

3.1 語義角色標注實驗結果

由于語義角色標注是進行短語類型標注和句法功能標注的基礎,所以語義角色標注的好壞直接影響到短語類型和句法功能的標注結果。根據特征選取的不同,先后進行了下面3組實驗。

我們把只考慮詞、詞性特征的T1模板作為Baseline。

實驗1:在T1模板的基礎上,加入位置、功能塊、結構標記和句法標記單個特征,見表1。

表1 T1基礎上加入位置、功能、結構、句法特征的模板

對這5個模板的實驗結果進行分析,見表2。

表2 實驗1的結果

由表2可以看出,T3模板的F值綜合排名最好,而且明顯優于其它模板;另外,T3模板比T1模板的平均準確率、召回率和F值都高。可見位置特征是一個很重要的特征,把它作為一個必要特征加入實驗,稱之為Baseline1,下面的實驗都是基于T3模板上進行的。

實驗2:在T3基礎上加入單個結構標記、句法標記、功能標記特征,并且考慮加入它們的組合特征,見表3。

表3 實驗2的模板

對這8個模板的實驗結果進行分析,見表4。

表4 實驗2的結果

由表中可見,這幾個模板的綜合排名差異不是很大,它們的平均召回率和平均F值波動幅度不到1%,平均準確率波動幅度不到2%。換句話說,在T3的基礎上引入結構標記、句法標記、功能標記特征,并沒使結果變好,而是隨著特征的增多,測試平均準確率、召回率和F值有所下降。主要原因是基本塊和功能塊標注工具存在一定的錯誤率,實驗用的測試集都是自動標注語料,存在部分標注錯誤,由于誤差累積影響到系統的性能。

實驗3:由于以上8個模板差異不是很大,在這8個模板基礎上,把time,freq,degr,sco_role這4個語義角色加入規則特征,即引入詞表信息作為特征進行實驗,結果見表5。

表5 實驗3的結果

由表5可見,在引入詞表信息作為特征后,time,freq,sco_role這3個語義角色的平均F值大約提高了1%,4.8%,4.6%,而且綜合排名也優于不加詞表特征的排名。只有degr的平均F值降低了不到0.7%,不過從總體上看,引入詞表特征對實驗結果有一定的提高。

3.2 短語類型和句法功能標注實驗結果

為了進行下面的短語類型和句法功能的標注,我們對各個通用語義角色在這13個模板下分別進行了實驗,得到每個語義角色最好的實驗結果作為短語類型標注的輸入來進行研究。然后,選取語義角色和短語類型雙層標注后最好的標注結果進行句法功能標注。

最后,把這三重自動標注實驗的最終結果進行一個簡單的比較。其中,Role_F表示語義角色自動標注結果的F值,PT_F表示語義角色、短語類型自動標注結果的F值,TriGroup_F表示語義角色、短語類型、句法功能三層標注結果的F值,Error1表示語義角色和短語類型標注結果的F值的差值,Error2表示短語類型和語義角色三層標注F值的差值,Error3表示語義角色和語義角色三層標注F值的差值,見表6。

表6 語義角色、短語類型和語義角色三層標注的結果 %

由表6可以看出,每一層標注基本上都存在一個誤差累積,這也正是層次標注的缺陷。對part_iter和sco_role這兩個語義角色,它們在語義角色標對的情況下,短語類型和句法功能也全部標注正確,這跟語義角色本身的定義有很大關系。而對于上表中一些差值為負的情況,則是由在自動標注過程中,機器自動找到的個數變少,使得準確率和F值相應提高而導致,但這種情況出現的比較少。總體上看,我們在進行語義角色三層的標注獲得了比較好的實驗結果。同時,語義角色標注的結果直接影響到短語類型和句法功能的標注,因此,提高語義角色標注的結果是下一步研究的重點。

4 結 語

采用山西大學開發的漢語框架網絡知識庫作為語料資源,以條件隨機場為基本模型框架,設計并實現了一個通用語義角色三層標注系統。該系統采用層疊結構,首先標注語義角色,其次標注短語類型,最后進行句法功能的標注。從實驗結果可以看出,基于條件隨機場的通用語義角色三層自動標注已經表現出了良好的性能。但是,采用層疊式標注方法容易產生誤差累積,導致實驗結果逐步下降。語義角色標注的結果直接影響到短語類型和句法功能的標注,為此,如何進一步提高語義角色標注的結果是以后研究的主要工作。

[1] Charles J Fillmore.Frame semantics and the nature of language[A]//Annals of the New York Academy of Sciences:Conference on the Origin and Development of Language and Speech[C].1976,280:20-32.

[2] Charles J Fillmore,Charles Wooters,Collin F Baker.Building a large lexical data bank which provides deep semantics[A]//Proceedings of the 15th Pacific Asia Conference on Language,Information and Computation[C].HongKong,2001:3-26.

[3] Baker C F,Fillmore C J,Lowe J B.The berkeley frameNet project[A]//Boitet C,Whitelock P,eds.Proc.of the ACL&Coling’98.Montreal:ACL,1998:86-90.

[4] 劉開瑛,由麗萍.漢語框架語義知識庫構建工程[A]//中文信息處理前沿進展[C].中國中文信息學會成立二十五周年學術會議論文集,2006,11:64-71.

[5] 由麗萍.構建現代漢語框架語義知識庫技術研究[D]:[碩士學位論文].上海:上海師范大學,2006.

[6] John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic Models for Segmenting and Labeling Sequence Data[A]//Proceedings of the 18th International Conference on Machine Learning[C].San Francisco,2001:282-289.

[7] 周強.漢語基本塊描述體系[J].中文信息學報,2007(3):23-29.

[8] 趙穎澤.漢語功能塊的自動分析[D]:[碩士學位論文].北京:清華大學,2006.

猜你喜歡
句法語義特征
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結構與英語句法配置
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产剧情无码视频在线观看| 2021国产精品自产拍在线观看 | 婷婷色婷婷| 午夜啪啪网| 国产正在播放| 午夜啪啪网| 日本国产一区在线观看| 国产在线欧美| 97国产成人无码精品久久久| 国产在线精品人成导航| 欧美日韩久久综合| 国产在线观看成人91| 国产噜噜在线视频观看| 就去吻亚洲精品国产欧美| 精品一区二区三区四区五区| 日本在线亚洲| 特黄日韩免费一区二区三区| 国产91全国探花系列在线播放| 国产爽歪歪免费视频在线观看 | 欧美久久网| 婷婷午夜天| 99尹人香蕉国产免费天天拍| 国产在线麻豆波多野结衣| 亚洲天堂视频在线观看| 亚洲国模精品一区| 亚洲AV成人一区国产精品| 欧美精品伊人久久| 狠狠色丁香婷婷综合| 欧美啪啪一区| 天天躁日日躁狠狠躁中文字幕| 国产欧美精品一区二区| 五月婷婷综合在线视频| 欧美成人国产| 91精品啪在线观看国产60岁| 性网站在线观看| 国产乱子伦视频三区| 性色在线视频精品| 国产精品视频猛进猛出| 国产亚洲欧美另类一区二区| 亚洲色无码专线精品观看| 久久五月视频| 在线欧美日韩国产| 天天操精品| 国产精品尤物铁牛tv| 国产一区二区三区在线精品专区| 日韩一区二区三免费高清| 国产电话自拍伊人| 亚洲中文精品久久久久久不卡| 国产高清色视频免费看的网址| 中文天堂在线视频| 91美女在线| 一区二区影院| 国产精品蜜臀| 色哟哟国产精品一区二区| 欧美亚洲第一页| 好久久免费视频高清| 欧美亚洲国产日韩电影在线| 91精品免费高清在线| 亚洲va欧美va国产综合下载| 亚洲成人精品在线| 波多野结衣一区二区三区AV| 天天综合色天天综合网| 欧美精品综合视频一区二区| AV不卡在线永久免费观看| 国产在线欧美| 色久综合在线| 青青热久麻豆精品视频在线观看| 在线观看的黄网| 国产麻豆福利av在线播放| 亚洲成人一区在线| 国产日韩欧美成人| 国产va视频| 欧美69视频在线| 欧美日韩午夜| 国产亚洲视频播放9000| 国产精品视频第一专区| 奇米影视狠狠精品7777| 老司国产精品视频| 久久大香伊蕉在人线观看热2 | 国产黑丝一区| 国产男人天堂| 国产福利免费视频|