999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分隔符和上下文術語的領域現象術語抽取*

2011-03-21 08:06:30劉里劉小明
關鍵詞:方法

劉里 劉小明

(北京理工大學計算機學院,北京100081)

術語是某種語言中專門指稱某一專業領域一般(具體或者抽象)理論概念的詞匯單位[1].領域術語集體現了領域的核心知識.自動術語抽取是信息抽取領域的重要研究課題,其在特定領域的應用需求越來越大:醫療、生物、計算機科學等領域均需要術語集來構建領域知識庫.

傳統的術語自動抽取技術可以歸納為基于統計和基于語言學知識兩種方式.廣泛采用的統計類術語抽取技術有基于語言模型統計領域相關性、領域一致性的方法[2]、基于互信息的方法[3]等.這些方法對候選結果按照統計指標進行排序,提取指標排序靠前的結果作為最終結果.基于語言學知識的術語抽取普遍采取利用術語的上下文環境,運用機器學習方法訓練模型,進行自動抽取,這在特定領域取得了不錯的效果[4].近期的術語抽取技術常常面臨3個難點:(1)部分術語可以利用的上下文特征比較少,使得基于上下文的術語抽取算法無能為力;(2)傳統算法是建立在待處理文本正確分詞的基礎上的;(3)對前期的領域知識(如領域詞庫)有較高依賴性,不便于跨領域移植.

傳統的名詞性術語抽取方法較多利用術語的領域特性,并對其賦予權重來識別[5].然而,這些方法常常碰到的困難是:對于非名詞性術語,少量特征難以將其識別出來,過多的特征又會匹配多個特征而對術語識別產生沖突.針對這些問題,文中對領域現象術語提出了一種有效的抽取方法.

領域現象術語一般都是動詞性復合詞.動詞性復合詞是指由至少一個動詞性語素構成的復合詞[6].例如,在電腦故障診斷領域,“停轉”、“藍屏”、“掉線”等都是動詞性復合詞.文中選取復合型領域現象術語作為考察對象是基于以下考慮:(1)在特定領域,現象術語作為術語出現的概率較高,且可能和名詞性術語一同出現在特定領域的詞庫中,然而這一類復合型術語往往不具備專門的詞庫,難以與名詞性術語區分開來;(2)領域現象術語可以作為故障診斷領域的“條件屬性+取值”的組合,抽取結果可以作為問句的條件值,推動問答系統的發展.復合詞的一個突出特點是難以與短語劃清界限,這是漢語研究中長期存在的一個難題.在自然語言處理(NLP)研究中,如果將這一類術語作為短語處理,由于短語結構的不確定性,難以得到理想的結果.文中從詞語的角度進行處理,如果能夠取得較高的正確率,會對此類復合詞的處理有所啟發.

1 領域現象術語抽取算法

1.1 分隔符的概念

句子是由實詞和虛詞連接構成的,常見的領域現象術語傾向于實詞.對于句子中的一個詞,與它相鄰的前后兩個詞,分別稱為它的前驅與后驅,有研究者將這兩個詞稱作分隔符[7].

與領域術語相比,分隔符更有可能是虛詞或一般性的實詞,并且具有一定的領域獨立性,更容易被識別出來.文中利用分隔符的特征進行術語抽取,即通過識別術語的前驅與后驅來標記術語,在兩個術語分隔符之間的字符串可看作是候選術語.

先分析下面的兩個例子:“云計算是一種基于因特網的超級計算模式”來源于計算機領域的一篇學術文章,其中的“云計算”、“因特網”和“超級計算模式”是計算機領域的術語,它們以術語分隔符“是”、“的”和“基于”為邊界;“人民代表大會制度是中華人民共和國的基本政治制度”來源于《中華人民共和國憲法》,其中的“人民代表大會制度”、“中華人民共和國”和“基本政治制度”是法律領域術語,它們被分隔符“是”和“的”所標記.可以看出“是”和“的”在兩個不同領域均是術語分隔符,由此可見分隔符具有一定的領域無關性.分隔符與術語關聯,在使用時也較穩定,因此分隔符可以作為術語的邊界標志.

1.2 分隔符的抽取

為了獲得更好的抽取效果,文中采取停用詞表與詞頻相結合的分隔符抽取方法.

1.2.1 基于詞頻的分隔符抽取方法

基于詞頻的分隔符抽取方法是統計領域中術語的高頻前驅后繼,并過濾掉領域術語,具體步驟如下:(1)對術語詞典中的每個術語,如果其在訓練語料中出現則進行標記;(2)對訓練語料進行分詞,對標記過的術語不進行切分;(3)抽取每個術語的前驅和后繼,組成候選分隔符集;(4)對每個候選分隔符,如果其是術語詞典中的術語,則將其從候選分隔符集中移除;(5)統計候選分隔符在訓練語料中的詞頻,選取詞頻較高的候選分隔符作為分隔符.

1.2.2 領域停用詞與分隔符的關系

停用詞是指出現頻率較高、沒有太大檢索意義的詞,如“的”、“了”、“太”、“of”、“the”等.在知識抽取中幾乎沒有真正的停用詞,只是把出現頻率較高的虛詞作為臨時的停用詞,切分完后仍然需要標記[8].主謂結構的上下文以常用虛詞為主.可見,主謂結構的上下文相當于領域停用詞,并成為主謂結構的分隔符.

經統計,領域現象術語在主謂結構中出現的概率較高.因此,將領域停用詞表中的詞加入領域現象術語的分隔符表,可以使分隔符表更加完善,提升領域現象術語抽取的效果.

1.2.3 分隔符混合抽取方法

將1.2.1節中基于詞頻方法抽取得到的分隔符表加上1.2.2節中的領域停用詞表,得到分隔符抽取的最終結果.

在分隔符抽取階段需要進行分詞,且難免出現分詞錯誤.不過分詞錯誤不會對領域現象術語抽取的最終結果造成影響,因為分詞錯誤出現在分隔符抽取階段而不是領域現象術語抽取階段,而且分隔符的權重算法也大大降低了分詞錯誤造成的影響.

1.3 抽取算法詳解

文中算法是建立在術語抽取經典算法NC-value基礎上的,NC-value算法利用上下文統計和語言學信息進行術語抽?。?].抽取出來的上下文信息根據頻率與術語的共現信息被賦予權重.

經典的NC-value算法在抽取術語的過程中僅僅利用了術語上下文.經統計,名詞性術語與領域現象術語有著較高的共現頻率.根據這一特性,在基于分隔符的基礎上,文中利用名詞性術語進行領域現象術語的抽取.文中在NC-value算法的基礎上進行如下假設:(1)名詞性術語作為上下文術語對領域現象術語的決策能力要高于普通的分隔符;(2)名詞性術語和分隔符與待抽取術語的距離越近,其對術語的決策能力越強.

通過對與領域現象術語共現的詞分配權重來實現上述假設.候選領域現象術語的抽取算法如式(1)所示:

式中,a為候選術語,P(a)為a成為候選術語的概率,Sa為a的分隔符集合,b為Sa中的一個分隔符,fa(b)為在訓練語料中b作為a的分隔符出現的頻率,weight(b)為分隔符b的權重,dis(b,a)為b與a的句法距離,Ta為a的上下文術語集合,d為Ta集合中的一個詞為在訓練語料中d作為a的上下文術語出現的頻率,syn(d,a)為d與a的句法權重,dis(d,a)為d與a的句法距離.式(1)中等號右邊第一項表示分隔符在抽取中所起的作用,第二項表示上下文術語在抽取中所起的作用.

1.3.1分隔符的作用

不同的分隔符對確定術語所起的作用不同.文中通過分隔符在訓練語料中與術語共現的頻率占其所有出現頻率的比值來確定分隔符的權重,即

式中:t(b)為訓練語料中與b一起出現的術語數目;n為訓練語料中b出現的頻率總和;Nb,a為b和a之間的詞語數目(根據分詞的結果),相鄰關系詞的Nb,a定義為1.可以看出:訓練語料中與一個詞共現的術語頻率越高,這個詞作為術語分隔符的權重就越大;一個詞與權重大的分隔符共現的頻率越高,它就越可能是一個術語,成為術語的概率與分隔符的距離成反比,即一個詞與分隔符的距離越小,其成為術語的可能性越大.

1.3.2 上下文術語的作用

文中通過與上下文術語在同一個句子中的句法關系和距離來確定領域現象術語的概率.領域現象術語的出現常有以下幾種情況:(1)與“對象”類術語(常常是名詞性術語)以主謂句法模式出現,但主謂關系有可能存在于其它類型的句法成分中,如臺式機的顯示器(對象)突然間藍屏(現象)了;(2)與其它領域現象術語并列存在,但并列關系也可能存在于其它類型的句法成分中,如臺式機的顯示器(對象)不停地抖動(并列現象),接著就藍屏(并列現象)了;(3)與“對象”類術語組合,作為狀語存在,如臺式機的顯示器藍屏時(狀語),CPU風扇運轉正常.

文中利用依存句法分析器[10]來識別句子成分.句法模式得分由句法模式(與上下文之間屬于主謂、并列關系等)和距離(與作用元素相隔的詞語數目)來決定.文中通過實驗得到句法模式得分的經驗值:主謂模式時取值為1.0,并列模式時取值為0.8,狀語模式時取值為0.6.距離得分為

式(4)表明,在同一個句子中,作用因素與候選領域現象術語的距離越近,在句法上的關系越密切,其對術語的決定作用就越高.

1.3.3 非領域現象術語的過濾

采用式(1)得到的只是候選領域現象術語,其中包含著大量非領域現象術語.利用領域詞表過濾掉其它類型的術語,得到的結果才是領域現象術語.

2 實驗與結果分析

為了和其它抽取算法進行比較,文中采用了傳統的評測標準:準確率與召回率,

實驗在抽取的“百度知道”語料庫上進行,范圍是計算機故障診斷領域.語料庫采用問答的形式,包含用戶在“百度知道”上完整的問題與答案.選擇這個語料庫有以下幾個原因:(1)計算機故障診斷領域包含的領域術語數量不多,比較容易保證人工標注的工作量和準確性;(2)一問一答的模式集中了豐富的領域信息,領域術語的密度較高;(3)“百度知道”的格式規范,利于語料庫的抽取和預處理.

文中選取700組計算機故障診斷領域的問答作為訓練語料,2885組(約1.83MB)問答作為實驗語料.由于領域現象術語不容易得到局部上下文信息,文中利用傳統的機器學習方法進行抽取,所以只將文中方法的抽取結果與傳統的基于詞頻的方法[11]及基于分隔符的方法[7]做比較.

(1)利用文中方法進行抽取按照1.2節方法對訓練語料進行分隔符抽取,在基于詞頻的方法中設置頻率閾值為3(如果一個詞與術語共現的頻率超過3次,就將其選為分隔符).利用訓練語料,抽取到有效前驅分隔符251個,有效后驅分隔符297個.停用詞庫采用Stopword List,包含了507條停用詞.將兩者進行結合,最終得到有效前驅分隔符337個,有效后驅分隔符385個.

對“搜狗”計算機詞庫進行過濾,得到“搜狗”計算機名詞性詞庫.利用訓練語料得到分隔符,并將“搜狗”計算機名詞性詞庫作為上下文術語對實驗語料按照式(1)進行抽取,得到候選領域現象術語集.然后參照“搜狗”計算機名詞性詞庫,在候選領域現象術語集中把名詞性術語過濾掉,得到最終領域現象術語.

(2)利用基于詞頻的方法進行抽取首先對語料進行分詞,分詞結果的好壞直接關系到最后的抽取結果,文中采用中國科學院的ICTCLAS[12]系統并加入“搜狗”計算機詞庫進行分詞;然后利用基于詞頻的方法對分詞結果進行術語抽取,采用“搜狗”計算機名詞性詞庫在結果中過濾掉名詞性術語,得到抽取結果.

(3)利用基于分隔符的方法進行抽取基于分隔符的抽取方法可以理解為只利用式(1)中的前半部分進行抽取,即

采用前面抽取到的分隔符,利用“搜狗”計算機名詞性詞庫在候選領域現象術語集中把名詞性術語過濾掉,得到最終結果.

3種方法的實驗結果如表1所示.從表1可知,文中提出的領域現象術語抽取方法具有較高的召回率,但準確率相對較低.這是因為文中方法對領域現象術語的過濾主要集中在名詞性術語上,還有一定數量的動詞性術語沒有過濾掉.如“打開機箱,開始清掃灰塵”中的“清掃”被認為是領域現象術語,實際上它只符合普通動詞性術語的特征.如果文中算法能將領域現象術語中的動詞性術語過濾掉,那么抽取的結果會更加準確.

表1 3種方法的抽取結果比較Table 1 Comparison of extraction results obtained by three methods

3 結語

文中將基于局部上下文的抽取方法應用到分隔符抽取中,利用分隔符和上下文術語進行術語抽取,同時過濾掉詞性不符的術語,在一定程度上解決了領域現象術語難以利用特征進行抽取的問題.這種方法在小規模語料庫上取得了較為顯著的效果,如果語料庫選取得當,可以被應用于多種限定領域,對多種復合詞進行抽取.實驗結果表明,文中方法沒有達到很高的準確率.這是由于利用式(1)方法抽取到了大量的非領域現象術語,而能夠過濾掉的術語類型又比較有限.下一步將針對如何更加合理地過濾掉更多類型的非領域現象術語進行研究.

[1]馮志偉.現代術語學引論[M].北京:語文出版社,1997:31.

[2]傅繼彬,樊孝忠,毛金濤,等.基于語言特性的中文領域術語抽取算法[J].北京理工大學學報,2010,30(3):307-310.Fu Ji-bin,Fan Xiao-zhong,Mao Jin-tao,et al.An algorithm of Chinese domain term extraction based on language feature[J].Transactions of Beijing Institute of Technology,2010,30(3):307-310.

[3]張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統[J].計算機應用研究,2005,22(5):72-73.Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based onmutual information[J].Application Research of Computers,2005,22(5):72-73.

[4]Argamon S,Dagan I,Krymolowski Y.A memory-based approach to learning shallow natural language patterns[C]∥Proceedings of the 17th International Conference on Computational Linguistics.Montreal:Association for Computational Linguistics,1998:67-73.

[5]Itagaki M,Aikawa T,He X.Automatic validation of terminology translation consistency with statisticalmethod[C]∥Proceedings of MT Summit XI.Copenhagen:[s.n.],2007:269-274.

[6]董秀芳.動詞性并列式復合詞的歷時發展特點與詞化程度的等級[J].河北師范大學學報:哲學社會科學版,2000,23(1):57-63.Dong Xiu-fang.The features of the diachronic development of verbal coordinate compound words in the Chinese language and their etymological changes[J].Journal of Hebei Normal University:Social Science Edition,2000,23(1):57-63.

[7]Qin L.Chinese term extraction using minimal resources[C]∥Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:1033-1040.

[8]化柏林.知識抽取中的停用詞處理技術[J].現代圖書情報技術,2007(8):48-51.Hua Bo-lin.Stop-word processing technique in knowledge extraction[J].New Technology of Library and Information Service,2007(8):48-51.

[9]Frantzi K,Ananiadou S,Mima H.Automatic recognition of multi-word terms:the C-value/NC-valuemethod[J].International Journal on Digital Libraries,2000,3(2):115-130.

[10]李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2002(12):15-17.Li Bin,Liu Ting,Qin Bing,et al.Chinese sentence similarity computing based on semantic dependency relationship analysis[J].Application Research of Computers,2002(12):15-17.

[11]Joachims T.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]∥Proceedings of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,1997:143-151.[12]Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo:Association for Computational Linguistics,2003:184-187.

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲不卡影院| 天天躁日日躁狠狠躁中文字幕| 亚洲综合色区在线播放2019| 毛片基地美国正在播放亚洲| 国产丝袜无码精品| 91久久偷偷做嫩草影院电| 亚洲中文字幕日产无码2021| 日本91在线| 欧美.成人.综合在线| 亚洲第一成网站| 婷婷六月激情综合一区| 国产亚洲日韩av在线| 亚洲无码视频图片| 国产97公开成人免费视频| 1024你懂的国产精品| 免费国产不卡午夜福在线观看| 台湾AV国片精品女同性| 最新日本中文字幕| 青草午夜精品视频在线观看| 日韩小视频在线播放| 国产一区二区三区精品久久呦| 五月婷婷伊人网| 国产欧美专区在线观看| 亚洲高清免费在线观看| 波多野结衣二区| 久久久国产精品免费视频| 亚洲综合一区国产精品| 手机精品福利在线观看| 在线观看免费人成视频色快速| 国产高清在线观看91精品| 亚洲v日韩v欧美在线观看| 日本欧美中文字幕精品亚洲| 久久77777| 九色国产在线| 国产福利免费观看| 人妻91无码色偷偷色噜噜噜| 中文字幕 日韩 欧美| 国产一区二区免费播放| 免费a级毛片视频| 一级毛片在线播放免费观看| 亚洲视频四区| 国产区91| 在线观看网站国产| 久久这里只精品国产99热8| 免费人成又黄又爽的视频网站| 国产成人综合亚洲网址| 国产欧美日韩视频怡春院| 国模视频一区二区| 99热亚洲精品6码| 国产95在线 | 在线精品欧美日韩| 中文无码精品A∨在线观看不卡| 99re经典视频在线| 日韩av在线直播| 国产极品美女在线观看| 国产午夜福利亚洲第一| 日本欧美成人免费| 波多野结衣无码AV在线| 97久久免费视频| 亚洲Av综合日韩精品久久久| 欧美亚洲中文精品三区| 天天做天天爱夜夜爽毛片毛片| 97av视频在线观看| 最新国产网站| 久久精品国产91久久综合麻豆自制| 亚洲无码高清视频在线观看 | 免费欧美一级| 伊人五月丁香综合AⅤ| 97se亚洲综合在线| 欧美精品综合视频一区二区| 欧美成人二区| 国产精品一区二区无码免费看片| 波多野结衣中文字幕一区| 国产二级毛片| 午夜成人在线视频| 福利小视频在线播放| 欧美在线视频不卡| 人人91人人澡人人妻人人爽| 91精品国产91久无码网站| www亚洲天堂| 国产成人一区二区| 亚洲人成亚洲精品|