999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向專利摘要的領域術語抽取方法

2016-09-26 07:31:00呂學強
計算機應用與軟件 2016年3期
關鍵詞:規則詞匯

曾 鎮 呂學強 李 卓

(北京信息科技大學網絡文化與數字傳播北京市重點實驗室 北京 100101)

?

一種面向專利摘要的領域術語抽取方法

曾鎮呂學強李卓

(北京信息科技大學網絡文化與數字傳播北京市重點實驗室北京 100101)

專利領域中術語抽取結果的好壞決定了本體構建的質量。提出一種自動生成過濾詞典并結合詞匯密集度等影響因子的術語抽取方法。首先在分詞和詞性標注的基礎上,對文獻匹配詞性規則算法生成的模板得到候選長術語和單詞型短術語集合,然后利用文檔一致度生成的過濾詞典過濾部分候選長術語集,最后針對長術語的構成特點,將詞匯密集度、文檔差比、文檔一致度三個術語因子加權平均作為整個長術語的術語權重值,并按值高低排序。在8000篇專利摘要文獻的基準語料上進行實驗,隨機選取五組實驗數據,平均準確率達到86%。結果表明該方法在領域術語抽取方面是行之有效的。

領域術語本體構建過濾詞典詞匯密集度

0 引 言

專利文獻作為技術信息的有效載體,涵蓋了全球90%以上的最新技術情報[1]。由于70%~80%的發明創造都只能通過專利文獻的形式發表,專利文獻本身蘊含了巨大的信息價值。為了增強自身競爭力,越來越多的企業也開始把目光投向了專利文獻,一方面通過專利申請來保障自己的發明成果,另一方面通過專利檢索了解同行的最新技術進展情況,不斷學習,使自己在激烈的市場競爭中保持不敗之地。因此對于專利信息部門,從專利文獻中抽取有效知識,構建一個基于專利文獻的本體知識庫,為各企業、技術人員提供專利檢索和專利預警、專利分析的支持是一個迫切而又有意義的工作。

本體構建的首要任務便是從專利文本中自動抽取出概念術語,且獲得的術語準確率的高低直接影響后續的本體框架。目前很多學者都開展了這方面的研究,總的來說主要分為基于規則的方法、基于統計的方法以及兩者結合的方法。從總體效果方面來看,規則與統計結合的方法更占優勢。韋小麗[2]等提出采用最大熵模型的機器學習算法來提取領域概念術語。施水才[3]等運用條件隨機場模型來構建合理的特征模板達到識別領域術語的效果。上述方法雖不依賴規則的制定、且可移植性較強,但需耗費一定的人力來標注訓練語料,訓練語料的規模也會最終影響到實驗結果。文獻[4-7]使用了互信息、對數似然比和C-value這類統計量在大規模語料中抽取術語。該方法很難處理單篇文檔,且互信息容易錯誤識別經常搭配的非術語短語。劉豹[8]嘗試將統計機器學習方法和規則結合起來抽取術語,雖取得了不錯的效果,但缺乏對體現領域特點的長術語的識別。湯青[9]采用基于術語部件庫的方法實現術語抽取,該方法對于部件庫的質量有著嚴格的要求,不存在已知部件庫的術語很難被識別。徐川[10]分析字符串之間的結合強度,提出邊界結合度、串邊結合度等概念抽取術語,該方法不易識別缺乏固定搭配的術語。文獻[11]集成統計和規則的方法,能夠挖掘大規模新詞術語,但同時也引入大量如“供 選擇”這類非術語固定搭配的噪音詞匯。

上述研究中所抽取出來的術語從嚴格意義上來講只能稱為短語,幾乎未能體現術語的領域特性。針對上述方法所存在的不足,該文提出一種首先利用詞性規則模板得到候選的單詞型短術語和多詞長術語集合,然后計算詞匯密集度權重參數來抽取單詞型術語,最后結合平衡語料自動生成一部過濾詞典,通過過濾詞典和組成該長術語的每個詞的術語因子篩選出最終的長術語的方法。過濾詞典由于利用領域一致度動態生成,且較好的篩選掉部分非術語常用搭配噪音信息,能很好地跨領域移植。對構成長術語的原子詞語賦予其術語權重,加權平均其術語權重值,作為整個長術語的術語度,最后按術語度對術語進行排序。排名越靠前其成為術語的可能性越大, 剩下的非術語常用搭配由于其組成詞語術語權重值均偏低,其排名偏靠后,這種隨可信度分布的術語詞表可以提供用戶更靈活的選擇。

1 詞性規則模板

1.1語料預處理

專利摘要作為對整個專利的介紹說明,是整篇專利文檔核心內容,蘊含豐富的價值信息。其內容一般涵蓋以下幾部分:對專利的用途介紹、專利的工作原理闡述、專利的創新改進之處,專利的功效矩陣、以及專利的應用領域。

對8 000篇新能源電動汽車領域的專利摘要進行分詞和詞性標注的文檔預處理。分詞工具選用中科院自主開發的ICTCLAS,ICTCLAS運用隱馬爾科夫模型進行分詞,融合了實體識別、未登錄詞識別和詞性標注等功能模塊,是市面上十分成熟的一個分詞軟件。

1.2詞性規則生成算法

術語按其組成長度可劃分為單詞短術語和多詞長術語[12],單詞短術語由單個詞匯構成,下文簡稱短術語,多詞長術語一般由2到6個詞組成。作為某個領域反復使用、形勢較為固定又表達某特定概念的詞語,術語的組成結構一般具有詞性特點。單詞短術語一般為名詞n或動名詞vn。多詞型長術語的詞性規則比較復雜,常見的搭配有n+n、vn+n、b+v+n等。Sui在文獻[11]總結了2詞-6詞的術語構詞規則。該規則比較寬松,對特定的領域語料并不十分實用。在大量研究專利文獻的基礎上,發現標題多為體現該專利創新的領域特色的長術語,且其嵌套詞組也多為術語?;谶@個現象,設計一個針對實驗文獻自動生成詞性規則的算法。算法流程如下所示:

輸入:標題字符串集合T={T1,T2,…T8000},TI=W1,W2,…,Wn(i=1,…,8000)

文本字符串集合D={D1,D2,…,DM},Di=W1,W2,…,Wn(i=1,…,m)

文本字符串以標點符號為分隔符,WI為詞性標記

輸出:HashMap,其key為詞性規則WI,value為規則頻次

流程:for T1to T800

Begin

IF D包含TI|| D包含Ti的字串Sub(Ti)

IF Ti||Sub(Ti)不存在HashMap中

HashMap.add(Ti||Sub(Ti),1)

Else

從HashMap取得其對應的value

HashMap.put(Ti||Sub(Ti),value++)

Repeat;

長術語由于其詞匯繁多,結構復雜成為術語抽取的一個難點。該算法從文獻的實際特點出發,其生成的長術語的構詞規則更符合其在整個文獻的實際頻次分布。在HashMap結果集中取出長度為2到6且頻次為前三名的詞性規則,如表1所示。

表1 部分術語詞性構詞規則

表1中,n表示名詞,vn表示動名詞,v表示動詞,m表示數詞,b表示區分詞,u表示助詞。將上述詞性規則作為模板在文獻里匹配得到候選多詞長術語集。篩選出所有詞性標注為名詞或動名詞的詞語作為候選短術語集。本文的規則自動生成算法解決了通用規則準確性差和領域適應性低的問題。

2 過濾詞典

術語作為在專有學科領域內具有高流通量的詞匯,其本身含有極強的專業性,且與日常生活領域交集甚少。某些明顯不含領域專業信息,卻在日常生活常見的詞匯,如“我們”、“簡單”、等,可以通過判斷候選術語是否包含它們篩選出非術語,從而實現最終的術語抽取。這里將其定義為過濾詞,好的過濾詞典能保證抽取術語質量的好壞?,F有專利領域內往往不存在專業的過濾詞典,一方面是詞典的構建需要耗費大量人力,另一方面詞典限制了其他領域的適應性,不易移植,對外部資源依賴性大。本文借鑒領域一致度[13]用在平衡語料上,實現過濾詞典的自動生成。

定義1領域文檔一致度是指某術語在不同領域類別的文檔分布一致情況。設有k個不同領域D={D1,D2,…,Dk},每個領域的文檔數為{T1,T2,…,TK}。則候選術語t的領域文檔一致度定義為:

(1)

其中概率P(t,Dj)可用頻率估計:

(2)

其中,f(t,Dj)表示候選術語在領域Dj內出現的文檔數。當候選術語t在平衡語料各個領域內出現的文檔分布越均勻時,其文檔一致度H(t)也就越大,說明其很大可能上是過濾詞。專業的術語在其他領域內并不流通、很少甚至不出現,其分布極不平衡,故其領域文檔一致度偏小。依據式(1)和平衡語料能自動生成一部過濾詞典,借助過濾詞典能從候選術語集篩選出大部分明顯不是術語的詞組。部分過濾詞如表2所示。

表2 部分過濾詞

3 詞匯密集度和文檔差比

觀察專利文檔發現,術語對領域依賴性較強,作為領域核心知識的載體,同一術語往往會在單篇文檔內被反復提到?;谝陨弦幝?,提出詞匯密集度的概念。

定義2候選術語t在單篇文檔的平均詞頻表示t在領域文檔內的密集程度。術語t的密集程度可以用公式表示為:

(3)

其中,tf(t)表示術語t在整個領域內的出現頻次,df(t)表示術語t在領域內出現的文檔數。術語的密集度并不能有效區分一些不屬于本領域的基礎術語和常用詞匯。如“化合物”、“微生物”等詞已延伸到各個學術、生活領域中。通過候選術語的在領域文檔和平衡文檔的文檔差比來加權平均,定義一個綜合指標來篩選單詞集中的單詞短術語。

(4)

其中,DF、PF分別表示領域文檔總數和平衡文檔總數,權重α和β表示詞匯密集度和文檔差比各自的貢獻度。df(t)和pf(t)指示候選術語t在領域文檔的文檔頻次和平衡文檔的文檔頻次。當候選術語t的詞匯密集度較大時,t可能為領域術語,但也將日常用語如“感覺”、“意識”、“結果”等錯選為領域術語。但該類詞語在其他領域也應用廣泛,即其領域文檔差比值教小,真正的領域術語存在在本領域密集分布,平衡領域鮮有出現的現象,最終使得其綜合指標D(t)值偏大,而達到過濾單詞術語的效果。

一般而言,人們所掌握的詞匯是有限的,如果在構建專業術語時大量引入新的詞匯,會阻礙技術之間的交流和知識的普及。這就出現了頻繁使用已有單詞來構成新的術語的現象,正是這種背景下,隨著學科領域的發展,出現了大批的詞組型長術語,并且詞組型長術語在整個術語系統中也遠遠超過了單詞型術語的規模。

詞組型長術語一般含有核心詞語來表示其概念內容,圍繞在核心詞周圍往往還有很多修飾詞。所以僅憑長術語中單個詞或一兩個詞很難判定其是否是術語。本文充分考慮組成長術語中的每個詞對整體的影響,利用上述提到的式(1)和式(2),設計一個表示單個詞對術語貢獻度大小的術語權重因子,最后將每個詞的術語權重因子加和求均值來表示該長術語成為術語的可能性大小。術語權重因子公式如下:

(5)

其中,H(t)越小,表示該候選術語t在平衡語料中分布越不均勻,其越有可能是領域術語,對H(t)做了取倒操作來與D(t)的變化保持一致。

4 實驗和結果分析

本文的實驗語料為專利總局提供的8000篇關于新能源電動汽車領域的專利摘要文獻。專利摘要一般包含專利標題、專利分類號和申請專利說明。平衡語料選用了搜狗實驗室開放的2012年分類語料[14],選取軍事、娛樂、女人、旅游、經濟、房地產等六大類領域語料各1300篇。

4.1實驗步驟

先對所有文檔進行分詞和詞性標注。在此基礎上,將規則自動生成算法所生成的候選規則集,保留其前40條最為最終的術語篩選構詞規則。采用前向最大匹配算法對專利文檔處理,得到候選的詞組型長術語22 935個,并按詞頻從大到小排序。候選單詞型短術語集則按名詞或動名詞屬性過濾獲取,也按詞頻排序,數量為13 943。

結合平衡語料,對候選單詞型短術語集進行式(1)運算,自動生成一部過濾詞典,詞匯量大小為1217個。候選單詞型短術語集在去除了過濾詞典后,繼續按式(3)篩選出最終的單詞型短術語4216個,其中參數α和β分別設為0.4和0.6。過濾詞典則用來去除部分候選詞組型長術語。在術語權重排名階段,式(5)中λ值為max(H(t))。術語可能性越大的排名越靠前,閾值的選定可以按準確率和召回率的要求適當調整。

4.2評價指標

實驗結果用準確率、召回率、F值進行評價。由于語料規模較大,加上專家知識有限、很難標注出所有術語,難以計算實際的召回率。為此隨機選取五組語料,每組由5篇專利文獻組成。對每組文獻單獨計算其準確率和召回率。

定義3單組正確率,即單組文獻中,正確識別的術語數Nt與該組文獻中提取到的術語數Tt之比:

(6)

定義4單組召回率,即單組文獻中,正確識別術語數Nt與該組文獻中所有術語數At之比:

(7)

4.3結果分析

本文利用領域文檔一致度公式自動生成了過濾詞典。1217個過濾詞在候選詞組型長術語篩選出8215個非術語。部分結果如表3所示。

表3 部分過濾詞篩選出的長術語結果

從表3可以看出,過濾詞確實很大程度上解決了規則寬泛所帶來的大量錯誤候選長術語問題,大大提升了候選長術語的質量。過濾詞典借助平衡語料自動生成,具有跨領域的優勢。但“微生物燃料電池”、“電子散熱元件”等術語也被錯誤地篩選了,這是因為“微生物”、“電子”等基礎學術性詞匯早已突破了單個學科的限制,融入了人們的日常生活。提高過濾詞的篩選閾值可以部分避免這一現象。

對剩余候選長術語利用詞匯密集度、文檔差比、文檔一致度三個加權因素計算其最終的術語權重并對其排序。排序結果如表4所示。

表4 候選長術語排序結果

表4中結果表明該術語權重排名方法較為真實地反映了每個候選詞組型長術語代表領域術語的真實程度。排名靠前的長術語均是對新能源電動汽車專利領域內的核心知識表述,具有很強的專業性,集中概括了能源汽車這個領域知識體系的重要知識點。排名靠后的可以明顯判斷出其不屬于術語范疇,大都是分詞不規范而滿足一定詞性規則所遺留下來的短語結構。此外排名靠前的結果集中如“固體聚合物電解質膜燃料電池”這類四詞以上的長術語也占了不小的比例,長術語的正確識別,保障了整個術語庫的質量,體現出領域知識特點。

以權重值5為閾值,將大于閾值的長術語作為最后的術語識別結果??偣埠I域術語10 843個。為了驗證該方法在局部專利文獻內的識別效果,選定了5組測試文檔,每組由5篇專利文獻組成,平均每篇文獻術語量達到12個。人工標注出領域術語,對照最后的領域長術語集和單詞型短術語,計算出單組準確率、單組召回率評價指標??紤]到文獻[10]的研究方向也是專利文獻的術語抽取,故選取其最終的實驗結果作為BaseLine,結果如圖1所示。

圖1 術語抽取實驗結果

從圖中的統計結果看出,本文提出的方法取得了不錯的實驗效果,五組專利文檔平均準確率達到了86%,召回率達到了82%,相對于BaseLine80.24%的準確率和80.61%的召回率,結果有不小的提高。實驗過程中發現,對BaseLine中易識別錯誤的動賓結構短語,如“發出 信號”等詞組,本文生成的過濾詞典往往能涵蓋到那些常用動詞,從而有效地避免了這一現象。BaseLine中存在的常用非術語搭配詞組在本方法中一部分被過濾詞典成功過濾,一部分自動排序到術語詞表末尾處。只剩下分詞粒度過大的非術語搭配存在誤識別,如“電動汽車 結構簡單”、“蓄電池 充電狀態”,這類詞語因符合詞性規則且反復出現,但由于分詞軟件將“結構簡單”、“充電狀態”分為單個詞,使其在平衡語料中也甚少出現,從而出現了誤識別。如將“結構簡單”拆分為“結構”、“簡單”,“充電狀態”拆分為“充電”、“狀態”,則能被成功過濾。少量在專利文檔內很少出現,沒形成統計規律的低頻術語,如“電磁波 衰減 材料”等詞組,其術語權重排名靠后,在召回它們的同時會帶入大量非術語。

5 結 語

專利摘要中領域術語的識別,對后期專利知識庫的構建和用戶對專利信息的語義檢索等方面都有著極為重要的意義。本文從專利文獻獨有的數據特點出發,設計了易移植的術語詞性規則生成算法,根據過濾詞在平衡語料內分布比較均勻的特點,利用文檔一致度熵公式自動構造過濾詞典,達到過濾掉一部分候選長術語的目的,對剩下的數據集結合詞匯密集度、文檔差比、文檔一致度三個針對領域術語的分布規律公式來計算每個候選長術語的術語權重參數,并按值排序,實現術語的自動抽取。在實際應用階段,如何最大限度準確抽取無明顯統計規律的低頻候選長術語,提高它們的術語權重排名,是需要進一步改進的地方。

[1] 專利分析系統:專利生命周期評價模型[EB/OL].(2011-08-02).[2014-07-02].http://www.iprtop.com/pages/view/fn/fxxt_7/.

[2] 韋小麗,孫涌,張書奎,等.基于最大熵模型的本體概念獲取方法[J].計算機工程,2009,35(24):114-116.

[3] 施水才,王鍇,韓艷鏵,等.基于條件隨機場的領域術語識別研究[J].計算機工程與應用,2013,49(10):147-149.

[4] 胡阿沛,張靜,劉俊麗.基于改進C-value方法的中文術語抽取[J].現代圖書情報技術,2013,29(2):24-29.

[5] 陳士超,郁濱.面向術語抽取的雙閾值互信息過濾方法[J].計算機應用,2011,31(4):1070-1073.

[6] 屈鵬,王惠臨.面向信息分析的專利術語抽取研究[J].圖書情報工作,2013,57(1):130-135.

[7] 林磊,孫承杰,張二艷,等.一種基于改進似然比的術語自動抽取方法[J].廣西師范大學學報:自然科學版,2010(1):153-156.

[8] 劉豹,張桂平,蔡東風.基于統計和規則相結合的科技術語自動抽取研究[J].計算機工程與應用,2008,44(23):147-150.

[9] 湯青,呂學強,李卓,等.領域本體術語抽取研究[J].現代圖書情報技術,2014(1):43-50.

[10] 徐川,施水才,房祥,等.中文專利文獻術語抽取[J].計算機工程與設計,2013,34(6):2175-2179.

[11] Sui Zhifang,Chen Yirong.The Research on the Automatic Term Extraction in the Domain of Information Science and Technology[C]//Proceedings of the 5th East Asia Forum of the Terminology,2007.

[12] 周浪.中文術語抽取若干問題研究[D].南京:南京理工大學計算機學院,2009.

[13] 傅麗鳥,黃利強,付春雷.一種改進的面向文本的領域概念篩選算法[J].計算機科學,2012,39(Z6):253-256.

[14] 搜狗官方實驗室文本分類語料庫.[EB/OL].(2008-06-30).[2014-07-02].http://www.sogou.com/labs/dl/c.html.

A FIELD TERMINOLOGY EXTRACTION METHOD FOR PATENT ABSTRACTS

Zeng ZhenLü XueqiangLi Zhuo

(BeijingKeyLaboratoryofInternetCultureandDigitalDisseminationResearch,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China)

The quality of ontology is determined by the result of terminology extraction in patent field. In this paper we propose a method of terminology extraction, which automatically generates the filtering dictionary and combines the effect of factors such as the intensity of vocabulary terms. First, on the basis of word segmentation and parts of speech tagging, it matches the template generated by the parts of speech rule algorithm on the literatures and gets the candidate long terms set and word-type short terms set. Then it uses the filtering dictionaries generated with documentation coincidence to filter part of the candidate long term set. Finally, in light of the characteristic of long terms constitution, it uses the weighted average of three term factors of word intensity, document discrepancy ratio and document consistency as the term weight of whole long terms, and sorts them from high to low. Experiments were conducted on the benchmark corpus of 8000 patent summary literatures, and we randomly selected five sets of experimental data, the average accuracy rate achieved 86%. Results showed that the method was effective in the aspect of field terminology extraction.

Field terminologyOntology creationFiltering dictionaryWords intensity

2014-07-20。國家自然科學基金項目(61271304);北京市教委科技發展計劃重點項目暨北京市自然科學基金B類重點項目(KZ201311232037);北京市屬高等學校創新團隊建設與教師職業發展計劃項目(IDHT20130519)。曾鎮,碩士,主研領域:中文信息處理。呂學強,博士。李卓,研究員。

TP3

A

10.3969/j.issn.1000-386x.2016.03.010

猜你喜歡
規則詞匯
撐竿跳規則的制定
數獨的規則和演變
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
規則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
TPP反腐敗規則對我國的啟示
搜索新規則
主站蜘蛛池模板: 中文字幕永久在线观看| 成人中文字幕在线| 久久免费精品琪琪| 成人va亚洲va欧美天堂| 五月婷婷伊人网| 噜噜噜久久| 色噜噜在线观看| 一级香蕉视频在线观看| 亚洲人成人伊人成综合网无码| 国产无人区一区二区三区| 91视频日本| 成人久久精品一区二区三区| 中文字幕在线一区二区在线| 40岁成熟女人牲交片免费| AⅤ色综合久久天堂AV色综合| 欧美一级大片在线观看| 一区二区午夜| 国产三级国产精品国产普男人| 日本精品中文字幕在线不卡| 国产精品免费露脸视频| 国产va在线观看| 亚洲美女一区二区三区| 一本一本大道香蕉久在线播放| 国产亚洲视频在线观看| 亚洲欧美精品在线| 久久亚洲黄色视频| 91精品免费久久久| 爆乳熟妇一区二区三区| 91麻豆精品国产91久久久久| 毛片最新网址| 中文字幕乱码二三区免费| 极品私人尤物在线精品首页| 992Tv视频国产精品| 欧美精品伊人久久| 操操操综合网| a级毛片免费网站| 一本大道香蕉高清久久| 亚洲国产精品不卡在线| 在线免费看片a| 欧美日本一区二区三区免费| 3344在线观看无码| 日韩无码一二三区| 久久人与动人物A级毛片| 2019年国产精品自拍不卡| 亚洲va欧美ⅴa国产va影院| 欧美日韩国产综合视频在线观看| 久久精品中文字幕免费| 无码粉嫩虎白一线天在线观看| 国产午夜在线观看视频| 精品无码国产自产野外拍在线| 国产高清色视频免费看的网址| 一级毛片免费高清视频| 宅男噜噜噜66国产在线观看| 日韩国产 在线| 亚洲性日韩精品一区二区| 亚洲美女高潮久久久久久久| 日韩在线播放欧美字幕| 自慰网址在线观看| 国产在线精品99一区不卡| 婷婷午夜影院| 狠狠色丁香婷婷| 成人在线亚洲| 国产一区二区精品高清在线观看| 久久综合五月婷婷| 国产成人av一区二区三区| 欧美精品在线免费| a毛片基地免费大全| 色老头综合网| 2021国产乱人伦在线播放| 国产永久在线视频| 久久精品这里只有精99品| 亚洲人成亚洲精品| 亚洲第一综合天堂另类专| 无码人妻热线精品视频| 国产美女在线观看| 久草网视频在线| 欧美成人精品欧美一级乱黄| 国产视频一区二区在线观看| 成人av手机在线观看| www中文字幕在线观看| 亚洲欧美日韩高清综合678| 97亚洲色综久久精品|