999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邊界標(biāo)記集的專利文獻(xiàn)術(shù)語抽取方法*

2015-03-19 00:35:34呂學(xué)強(qiáng)劉克會(huì)
關(guān)鍵詞:方法

丁 杰,呂學(xué)強(qiáng),劉克會(huì)

(1.北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播重點(diǎn)實(shí)驗(yàn)室,北京100101;2.北京城市系統(tǒng)工程研究中心,北京100035)

1 引言

專利文獻(xiàn)是當(dāng)今世界科學(xué)技術(shù)最大的信息源,快速有效地利用此信息源,能夠促進(jìn)人類新知識(shí)的傳播和科技成果的普及。術(shù)語是自然語言處理中的一種特殊的詞匯數(shù)據(jù),與語言中一般的普通詞匯不同,術(shù)語大多數(shù)都是由多個(gè)單詞組成的詞組型術(shù)語,它們對(duì)于科學(xué)技術(shù)的發(fā)展特別敏感,隨著科學(xué)技術(shù)的發(fā)展而發(fā)展[1]。在中文專利信息處理過程中,專利術(shù)語識(shí)別是一個(gè)基礎(chǔ)環(huán)節(jié),專利的檢索、專利翻譯等后續(xù)工作都離不開中文專利術(shù)語的識(shí)別。因此,專利術(shù)語識(shí)別質(zhì)量的高低直接影響到專利文獻(xiàn)的應(yīng)用和科學(xué)技術(shù)的普及。

現(xiàn)有的專利術(shù)語抽取方法主要有語言學(xué)方法、統(tǒng)計(jì)學(xué)方法及統(tǒng)計(jì)學(xué)和語言學(xué)相融合的方法[2]。目前,大部分的研究已經(jīng)從傳統(tǒng)的語言學(xué)方法逐步轉(zhuǎn)變?yōu)榻y(tǒng)計(jì)與語言學(xué)相結(jié)合的方法。利用統(tǒng)計(jì)的方法獲取候選術(shù)語,再結(jié)合規(guī)則的方法對(duì)候選術(shù)語進(jìn)行規(guī)則過濾。其中,文獻(xiàn)[3,4]通過改進(jìn)的TFIDF模型并經(jīng)權(quán)重計(jì)算和閾值篩選后得到專利術(shù)語集,但是其方法領(lǐng)域針對(duì)性較強(qiáng),無法證明在大規(guī)模語料中的通用性。文獻(xiàn)[5~7]等使用條件隨機(jī)場(chǎng)模型CRF(Conditional Random Fields)機(jī)器學(xué)習(xí)方法結(jié)合過濾規(guī)則對(duì)術(shù)語進(jìn)行抽取,該方法能顯著提高未登錄術(shù)語的召回率,但是語料的標(biāo)注卻需要消耗大量的人力和時(shí)間。文獻(xiàn)[8,9]通過統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,構(gòu)建相應(yīng)的規(guī)則庫(kù)并選擇有效的統(tǒng)計(jì)量或機(jī)器學(xué)習(xí)模型對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語抽取,但并未考慮上下文的信息。

本文在總結(jié)前人研究的基礎(chǔ)之上,針對(duì)前人研究方法在大規(guī)模語料中的通用性差、語料標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn),提出了邊界標(biāo)記集的概念,并應(yīng)用邊界標(biāo)記集的獲取無需人工標(biāo)注、領(lǐng)域獨(dú)立性的特點(diǎn),提出基于邊界標(biāo)記集的術(shù)語抽取方法。該方法首先根據(jù)文中邊界標(biāo)記集的定義提出邊界標(biāo)記集的構(gòu)造方法;然后使用種子術(shù)語權(quán)重計(jì)算方法抽取候選術(shù)語并結(jié)合術(shù)語部件庫(kù)抽取術(shù)語;最后通過統(tǒng)計(jì)和規(guī)則的方法對(duì)抽取出的術(shù)語進(jìn)行過濾。該方法充分考慮了專利術(shù)語的上下文信息特點(diǎn),對(duì)抽取長(zhǎng)術(shù)語和短術(shù)語都有較好的效果,可明顯提高術(shù)語抽取的準(zhǔn)確率和召回率。

2 基于邊界標(biāo)記集的專利術(shù)語抽取方法

2.1 邊界標(biāo)記集的概念

句子是由實(shí)詞和虛詞連接構(gòu)成的,對(duì)于句子中的每一個(gè)詞,與它直接相鄰的兩個(gè)詞稱之為它的前驅(qū)與后繼,本文根據(jù)專利文獻(xiàn)中術(shù)語和前后兩個(gè)詞的位置關(guān)系,定義術(shù)語邊界標(biāo)記集如下:

定義1術(shù)語邊界標(biāo)記集:在專利文獻(xiàn)中,由專利術(shù)語的前驅(qū)和后繼及對(duì)應(yīng)的詞性所構(gòu)成的集合稱為術(shù)語的邊界標(biāo)記集。

作為專利術(shù)語的邊界標(biāo)記是通用性較強(qiáng)、具有一般詞匯意義的詞,并且這些詞具有一定的領(lǐng)域獨(dú)立性。在專利文獻(xiàn)中,同一個(gè)術(shù)語的上下邊界標(biāo)記可能存在多個(gè)。例如:術(shù)語“光刻投影裝置”的上邊界標(biāo)記詞有“一種”、“用”、“的”等,下邊界標(biāo)記詞為“來”、“中”、“工作”等;不同專利術(shù)語可能存在相同的邊界標(biāo)記詞,例如“掩模臺(tái)”和“晶片步進(jìn)器”具有相同的上邊界標(biāo)記詞“在”。雖如此,但可以看出這些詞在詞性構(gòu)成上具有一定的相似性,如大部分是動(dòng)詞、助詞、標(biāo)點(diǎn)等。為能夠更直觀地展示出專利文獻(xiàn)中邊界標(biāo)記集元素的構(gòu)成,本文隨機(jī)抽取10篇不同領(lǐng)域?qū)@墨I(xiàn)并統(tǒng)計(jì)術(shù)語邊界標(biāo)記集,文獻(xiàn)中術(shù)語的邊界標(biāo)記詞性構(gòu)成的統(tǒng)計(jì)結(jié)果如表1所示。

Table 1 Part of speech distribution of boundary tags in the term boundary tag set表1 術(shù)語邊界標(biāo)記集中邊界標(biāo)記詞性分布表

由表1可以看出:專利術(shù)語邊界標(biāo)記符的集合由一些沒有構(gòu)詞能力的實(shí)詞,如動(dòng)詞,一些標(biāo)點(diǎn)符號(hào)以及一些虛詞,如介詞、連詞、量詞等構(gòu)成。根據(jù)上述邊界集詞性特點(diǎn)并對(duì)邊界詞與術(shù)語在專利文獻(xiàn)中的共現(xiàn)信息統(tǒng)計(jì)分析,總結(jié)邊界標(biāo)記集的特點(diǎn)如下:

(1)完備性。邊界標(biāo)記集的完備性是指邊界標(biāo)記集合中的邊界標(biāo)記可將專利文獻(xiàn)完全切分為字符串長(zhǎng)度符合術(shù)語長(zhǎng)度的候選術(shù)語串的程度。一般來講,邊界標(biāo)記集的完備性越高,抽取專利術(shù)語的召回率越高。

(2)多樣性。邊界標(biāo)記集合的多樣性是指由于專利術(shù)語的上下文不同導(dǎo)致專利術(shù)語的邊界標(biāo)記也不相同,同時(shí),不同術(shù)語的上下文標(biāo)記也不完全相同。

(3)重復(fù)性。邊界標(biāo)記集的重復(fù)性是指邊界標(biāo)記集中存在一些邊界標(biāo)記可以作為多個(gè)術(shù)語的邊界。例如,同一個(gè)介詞或其它一些常見的虛詞可能成為不同專利術(shù)語的上界標(biāo)記或下界標(biāo)記。例如“由/p扎/v模/n工藝制備/n”“由/n 傳感器裝置/n”中上邊界“由/p”可作為多個(gè)專利術(shù)語的邊界。

根據(jù)專利文獻(xiàn)中對(duì)發(fā)明專利陳述的特點(diǎn),不同領(lǐng)域的專利文獻(xiàn)都可采用相同的邊界標(biāo)記集的構(gòu)建方法。首先,不同領(lǐng)域的專利文獻(xiàn)有很多相同的邊界標(biāo)記集,例如:“該發(fā)明”“利用”“使用”“提高”“以便于”都在不同領(lǐng)域的專利文獻(xiàn)中出現(xiàn);另外,一些標(biāo)點(diǎn)等非文字特征的邊界標(biāo)記也是不同領(lǐng)域的專利文獻(xiàn)所共有的邊界標(biāo)記。因此,邊界標(biāo)記集具有一定的通用性,并根據(jù)不同領(lǐng)域?qū)@墨I(xiàn)的擴(kuò)展而擴(kuò)展。

雖然中文專利文獻(xiàn)中的邊界標(biāo)記集提供了邊界詞之間詞串構(gòu)成術(shù)語的可能性,但不能完全保證前后邊界標(biāo)記詞之間的詞串就是術(shù)語。因此,需要根據(jù)邊界標(biāo)記集的特點(diǎn),并結(jié)合一定的術(shù)語抽取規(guī)則和統(tǒng)計(jì)量來抽取術(shù)語。

2.2 基于邊界標(biāo)記集的術(shù)語抽取流程

根據(jù)術(shù)語邊界標(biāo)記集的特點(diǎn),本文提出基于部件的本體術(shù)語抽取方法,如圖1所示,主要包括種子術(shù)語抽取、種子術(shù)語擴(kuò)展和候選術(shù)語校驗(yàn)三個(gè)部分。其中在種子術(shù)語抽取部分包括邊界標(biāo)記構(gòu)建和術(shù)語部件庫(kù)構(gòu)建;種子術(shù)語擴(kuò)展部分充分利用詞性規(guī)則和統(tǒng)計(jì)量對(duì)抽取出的種子術(shù)語進(jìn)行擴(kuò)展,最終根據(jù)術(shù)語左右熵的方法對(duì)搭配錯(cuò)誤的候選術(shù)語進(jìn)行過濾。

3 種子術(shù)語抽取

3.1 邊界標(biāo)記集構(gòu)建方法

從邊界標(biāo)記集的定義可以看出,每個(gè)術(shù)語都具有術(shù)語邊界標(biāo)記集,且專利術(shù)語的邊界標(biāo)記集就是專利術(shù)語的上下文信息。根據(jù)專利文獻(xiàn)術(shù)語上下文信息并結(jié)合邊界標(biāo)記集的特點(diǎn),通過以下方法構(gòu)建術(shù)語邊界標(biāo)記集Set:

Figure 1 Chinese patent term extraction method圖1 中文專利術(shù)語抽取方法

(1)初始化術(shù)語邊界標(biāo)記集Set為空。

(2)利用統(tǒng)計(jì)量IDF構(gòu)造專利文獻(xiàn)通用詞表,將專利文獻(xiàn)中IDF值較高的無構(gòu)詞能力的詞作為專利文獻(xiàn)通用詞,并添加到標(biāo)記集Set中。

(3)將專利文獻(xiàn)中標(biāo)點(diǎn)、數(shù)詞、介詞、連詞、助詞等添加到標(biāo)記集Set中。

雖然介詞、連詞和副詞后面的動(dòng)詞是專利術(shù)語邊界標(biāo)記集的組成部分,但均不能作為專利術(shù)語的組成部分,將該類的動(dòng)詞也加入邊界標(biāo)記集Set中,例如,專利文獻(xiàn)中“還/d 包括/v”“所/u 述/v”“還/d 可以/v”中“還/d”、“所/u”都不是術(shù)語的組成部分。

3.2 術(shù)語部件庫(kù)構(gòu)建

術(shù)語是由一個(gè)或多個(gè)詞構(gòu)成的,其中有些詞生成術(shù)語的能力很強(qiáng),有些詞生成術(shù)語的能力不強(qiáng),這些構(gòu)成術(shù)語的一個(gè)個(gè)詞就叫做術(shù)語部件[10]。術(shù)語一般分為單詞型術(shù)語和多詞型術(shù)語兩類,單詞型術(shù)語由單個(gè)詞語組成,如“傳感器”“過濾器”等。單詞型術(shù)語本身就是部件,它可以生成新的短語型術(shù)語,如“溫度傳感器”“廢氣過濾器”,而構(gòu)成多詞型術(shù)語的每個(gè)詞都可以看作術(shù)語部件。

單詞型術(shù)語識(shí)別通常采用語料庫(kù)比較的方法,即選擇一個(gè)通用的平衡語料庫(kù)與領(lǐng)域語料庫(kù)相比較,比對(duì)兩個(gè)語料庫(kù)生成的詞表并按照與頻度相關(guān)的某個(gè)統(tǒng)計(jì)量進(jìn)行排序,刪除領(lǐng)域詞表中在通用詞表中統(tǒng)計(jì)量高的,剩下的詞被認(rèn)為是術(shù)語[11]。

單詞型術(shù)語的識(shí)別和部件庫(kù)的構(gòu)建在方法上是一致的,但部件庫(kù)中的每個(gè)詞未必都是術(shù)語。文中的術(shù)語部件僅從術(shù)語的領(lǐng)域性來考慮,如果一個(gè)詞具有較強(qiáng)的領(lǐng)域性,可以把這個(gè)詞看作術(shù)語部件,因此可以采用與上述抽取單詞型術(shù)語類似的方法來抽取領(lǐng)域部件。人民日?qǐng)?bào)中的詞匯大部分是人們生活中經(jīng)常使用的詞匯,領(lǐng)域性較弱,為此本文選用1998年1 月份人民日?qǐng)?bào)熟語料[12]作為專利文獻(xiàn)的對(duì)比語料,比較兩個(gè)語料庫(kù)生成的詞表,將只在專利詞表出現(xiàn)的詞匯抽取出來作為專利術(shù)語部件,所得的部分術(shù)語部件如表2所示。

Table 2 Term component library表2 術(shù)語部件庫(kù)

從表2的結(jié)果中可以看出,有些部件已經(jīng)是術(shù)語,如“暗電流”“光電二極管”等,或是術(shù)語的組成部分,如“設(shè)備、蝕刻、輸出”。通過觀察抽取出的術(shù)語部件庫(kù)發(fā)現(xiàn):部件庫(kù)中存在一些詞不能作為術(shù)語的組成詞,如“范圍”,但這并不影響術(shù)語的抽取效果,因?yàn)槲闹械牟考?kù)僅用于對(duì)候選串進(jìn)行過濾,并不使用部件庫(kù)來生成術(shù)語,所以最終能夠提高候選術(shù)語的術(shù)語度,而不會(huì)在術(shù)語識(shí)別過程中引入噪音。

3.3 種子術(shù)語抽取

根據(jù)術(shù)語邊界標(biāo)記集完備性的特點(diǎn),將專利文獻(xiàn)中相鄰的兩個(gè)邊界標(biāo)記之間的字符串抽取出來,并通過術(shù)語部件庫(kù)過濾以獲取候選術(shù)語。種子術(shù)語抽取的過濾規(guī)則如下:

規(guī)則1若抽取出的字符串為單字詞,則該單字詞必須在部件庫(kù)中出現(xiàn),否則刪除該字符串;

規(guī)則2若抽取出的字符串為多字詞,經(jīng)分詞后的每個(gè)單字詞中應(yīng)該至少有一個(gè)在部件庫(kù)中出現(xiàn),否則將該字符串刪除。

將上述規(guī)則過濾之后剩余的字符串作為術(shù)語候選串。專利術(shù)語在專利文獻(xiàn)中的存在具有相對(duì)穩(wěn)定的結(jié)構(gòu),其內(nèi)部詞語可以看作一個(gè)完整的結(jié)構(gòu),不可隨意拆分。目前,術(shù)語抽取研究中使用的大部份統(tǒng)計(jì)方法都是基于術(shù)語的結(jié)構(gòu)完整性特征,選擇有效的統(tǒng)計(jì)量和評(píng)估機(jī)制,來衡量術(shù)語中詞語之間的黏合度以及共現(xiàn)概率[13]。其方法可分為兩類:一類是通過統(tǒng)計(jì)量分析詞串內(nèi)部詞語之間的緊密關(guān)系,來確定該詞串是否是一個(gè)結(jié)構(gòu)穩(wěn)定的短語;另一類認(rèn)為:如果一個(gè)詞串多次在不同的上下文中出現(xiàn),那么該詞串可以作為結(jié)構(gòu)上結(jié)合緊密的單元,并且很有可能是術(shù)語。

專利術(shù)語邊界標(biāo)記集具有多樣性,同一個(gè)術(shù)語上下文環(huán)境的不同,術(shù)語的上下邊界標(biāo)記也不相同,從而可證明該術(shù)語具有穩(wěn)定的結(jié)構(gòu),這也符合上文中第二種評(píng)估字符串粘合度的方法。因此,可通過候選術(shù)語被不同的切分標(biāo)記切分的數(shù)量來衡量候選術(shù)語的緊密結(jié)合程度。實(shí)驗(yàn)中使用了改進(jìn)的TF-IDF方法,弱化了高詞頻對(duì)權(quán)重的影響,增加了通過多樣性切分標(biāo)記切分獲取的候選串的權(quán)重。本文根據(jù)邊界標(biāo)記集的特點(diǎn)提出種子術(shù)語的權(quán)重計(jì)算方法,具體計(jì)算方法如下:

其中,preSeg、postSeg分別為候選術(shù)語S前后邊界標(biāo)記集合;f(preSeg)為術(shù)語邊界標(biāo)記集合大小,因?yàn)閜reSeg、postSeg都表示集合,都已將重復(fù)的候選串刪除,弱化了同一術(shù)語相同上下文在術(shù)語抽取中的作用,增強(qiáng)了切分標(biāo)記集多樣性的影響;N表示所有專利文獻(xiàn)的篇數(shù);df(S)表示候選術(shù)語串在所有專利文獻(xiàn)中出現(xiàn)的篇數(shù);α、β為權(quán)重因子。將Weight(S)滿足某一個(gè)閾值的候選術(shù)語抽取出來作為種子術(shù)語。

4 種子術(shù)語余串?dāng)U展

為了便于對(duì)種子術(shù)語進(jìn)行擴(kuò)展,通過種子術(shù)語對(duì)包含種子術(shù)語的候選串進(jìn)行擴(kuò)展,并定義如下變量。

定義2種子術(shù)語余串:在候選術(shù)語串中,去除種子術(shù)語后剩余的部分,稱之為種子術(shù)語的余串。

定義3單字詞:本文將經(jīng)ICTCLAS[14]切分且具有獨(dú)立詞性標(biāo)注的最小語義單元稱作單字詞。如“形成/v”,“傳感器/n”“的/u”。

定義4最長(zhǎng)術(shù)語:本文將在專利文獻(xiàn)中出現(xiàn)的且不被更長(zhǎng)的術(shù)語包含的專利術(shù)語稱之為最長(zhǎng)術(shù)語。

在本文實(shí)驗(yàn)中,通過邊界標(biāo)記符集抽取的候選串都是“寬類型”的,這里的“寬類型”是指一個(gè)候選串是術(shù)語或者包含一個(gè)最長(zhǎng)的術(shù)語,而不會(huì)被其它更長(zhǎng)的專利術(shù)語包含。例如候選串“制造/v CMOS/x 圖像/n 傳感器/n”中包含最長(zhǎng)的術(shù)語“CMOS/x 圖像/n 傳感器/n”,而不會(huì)被其他更長(zhǎng)的術(shù)語包含,這是因?yàn)樵诤蜻x串中出現(xiàn)的詞未在邊界標(biāo)記集中出現(xiàn)。基于候選串的這個(gè)特點(diǎn),可以在種子術(shù)語基礎(chǔ)之上,對(duì)候選串進(jìn)行左右種子術(shù)語余串?dāng)U展。例如,種子術(shù)語“傳感器/n”,如果“圖像/n 傳感器/n”不在種子術(shù)語中,可以通過種子術(shù)語左擴(kuò)展一個(gè)單字詞“圖像/n”,抽取出術(shù)語“圖像/n傳感器/n”。

4.1 詞性規(guī)則過濾單字余串

定義5上邊界拒取:設(shè)候選串S可以表示為S1S2,其中S2為種子術(shù)語,S1為單字詞,如果S1S2不符合術(shù)語詞性搭配規(guī)則,則將S1刪除,稱之為上邊界拒取。

定義6下邊界拒取:設(shè)候選串S可以表示為S1S2,其中S1為種子術(shù)語,S2為單字詞,如果S1S2不符合術(shù)語詞性搭配規(guī)則,則將S2刪除,稱之為上邊界拒取。

根據(jù)文獻(xiàn)[13]中統(tǒng)計(jì)結(jié)果并結(jié)合專利術(shù)語的特點(diǎn)發(fā)現(xiàn),專利術(shù)語大多都是以名詞(/n)、動(dòng)詞(/v)、形容詞(/a)、副詞(/d)等四類詞開頭,且大多以名詞和動(dòng)詞為主極,少數(shù)以副詞開頭。但是,當(dāng)候選串是以動(dòng)詞開頭時(shí),若動(dòng)詞前面的修飾詞是副詞時(shí),該副詞和動(dòng)詞具有“發(fā)出動(dòng)作”的語義,不是術(shù)語的組成部分,因此一些被副詞修飾的動(dòng)詞不能作為專利術(shù)語上邊界,此時(shí)副詞將視為拒絕后驅(qū)詞(動(dòng)詞)作為術(shù)語上邊界的提示詞;一些緊跟介詞后面的動(dòng)詞也具有“發(fā)出動(dòng)作”的語義,同樣也不能作為術(shù)語的上邊界。如“以/p 保護(hù)/v 感測(cè)組件/n”“通過/p調(diào)節(jié)/v減壓閥/n”中“保護(hù)”“調(diào)節(jié)”都不能作為專利術(shù)語的組成部分。術(shù)語大多以名詞(/n)、動(dòng)詞(/v)、形容詞(/a)、助詞(/u)、后綴詞(/k)、量詞(/q)等作為結(jié)尾。因此,一些具有“發(fā)出動(dòng)作”的動(dòng)詞以及緊跟其后的介詞也都不能作為術(shù)語的構(gòu)成詞。部分統(tǒng)計(jì)的規(guī)則如表3和表4所示。

Table 3 The pre-boundary tag rules表3 上邊界拒取規(guī)則表

Table 4 The post-boundary tag rules表4 下邊界拒取規(guī)則表

4.2 統(tǒng)計(jì)量擴(kuò)展單字余串

在術(shù)語抽取過程中,常使用一些統(tǒng)計(jì)量來計(jì)算術(shù)語之間的結(jié)合程度。其中,張鋒等[15]使用互信息來計(jì)算術(shù)語之間結(jié)合的緊密程度,林磊等[16]通過似然比來計(jì)算。但是,一些結(jié)合緊密、頻度較高的候選串并不能構(gòu)成術(shù)語。例如:“操縱/v 送/v料/n 推桿/n”、“推動(dòng)/v送/v料/n 推桿/n”都不是術(shù)語,只是選術(shù)語“送/v 料/n 推桿/n”的兩個(gè)固定搭配。針對(duì)以上問題,本文綜合考慮了詞頻、構(gòu)成術(shù)語的詞串長(zhǎng)度和詞性搭配信息,提出了余串術(shù)語修飾度的計(jì)算方法來衡量單字余串和種子術(shù)語之間的粘合程度,以決定是否對(duì)種子術(shù)語擴(kuò)展。余串修飾度是對(duì)余串和種子術(shù)語之間緊密關(guān)系的度量,計(jì)算方法如公式(2)所示:

其中,Weight(Left)表示候選串中余串的修飾度;POSTTagging表示候選術(shù)語S所包含的種子術(shù)語的所有單字余串;POSTSet表示所有單字余串集合,在POSTSet中出現(xiàn)的單字詞都是實(shí)詞,因?yàn)榇蟛糠痔撛~已經(jīng)作為候選術(shù)語的邊界標(biāo)記;F(POSTTagging)為特征函數(shù),如果集合中POSTTagging的詞性與候選串S的單字余串相等 則 取1,否 則 取0;β為 調(diào) 節(jié) 因 子,若∑F(POSTTaging)值為1,β取1,否則β取0。當(dāng)∑F(POSTTaging)的取值大于1時(shí),表明修飾同一種子術(shù)語的同一詞性的實(shí)詞有多個(gè),該詞性余串和種子術(shù)語不具備修飾關(guān)系。Len(Left)表示候選術(shù)語S單字余串的長(zhǎng)度,F(xiàn)re(S)表示候選術(shù)語S的頻度。例如:候選串“制造/v 圖像/n 傳感器/n”中“圖像/n 傳感器/n”是種子術(shù)語,Contex={制造/v,觸發(fā)/v},則β取0,不對(duì)種子術(shù)語往前擴(kuò)展。因?yàn)槿绻揎棥皥D像/n傳感器/n”的動(dòng)詞有多個(gè),那么這些動(dòng)詞應(yīng)該都具有發(fā)出動(dòng)作的語義,而不應(yīng)作為種子術(shù)語的前綴,而對(duì)候選術(shù)語“透光/v樹脂/n 材料/n”中種子術(shù)語是“樹脂/n 材料/n”,Contex={透光/v},β取1,那么“透光/v”很有可能是術(shù)語的組成部分。

4.3 種子術(shù)語多字余串?dāng)U展

上述兩種方法只能處理種子術(shù)語前后的單字余串,在候選術(shù)語中存在余串為多字的候選術(shù)語。如候選術(shù)語“易/a受/v 腐蝕性/n 含氟/n 化合物/n 侵蝕/v”中包含種子術(shù)語“含氟/n 化合物/n”,其前余串為“易/a 受/v 腐蝕性/n”,后余串為“侵蝕/v”,后余串可以采用上述統(tǒng)計(jì)量擴(kuò)展單字余串的方法給予排除,而對(duì)于前余串主要使用詞性規(guī)則的方法處理。統(tǒng)計(jì)術(shù)語的詞性搭配規(guī)則,采用如下算法對(duì)多字余串進(jìn)行擴(kuò)展:

算法種子術(shù)語多字余串?dāng)U展算法

輸入:

包含種子術(shù)語和多字余串的種子候選術(shù)語集合Set:S為Set中的候選術(shù)語且候選串可以表示為preSeg+Seed+PostSeg形式,其中preSeg、PostSeg都為多字余串;

所有單字詞的詞性集合TagSet:TagSet中元素為〈Token,Tag〉,其中Token為單字詞性,Tag為單字詞性的詞性。

輸出:經(jīng)多字余串?dāng)U展后的術(shù)語。

算法描述:

邊界標(biāo)記集抽取出來的候選術(shù)語中有的不包含種子術(shù)語,對(duì)此,我們計(jì)算出候術(shù)語和其他候選術(shù)語的最長(zhǎng)公共字串作為種子術(shù)語,如果公共字串包含名詞,使用上述種子術(shù)語擴(kuò)展的方式進(jìn)行術(shù)語擴(kuò)展,否則丟棄該候選術(shù)語,這就彌補(bǔ)了部分候選術(shù)語中因?yàn)椴淮嬖诜N子術(shù)語而不能對(duì)種子術(shù)語進(jìn)行擴(kuò)展方法的不足,提高了術(shù)語抽取的召回率。

5 候選術(shù)語校驗(yàn)

實(shí)驗(yàn)中的候選術(shù)語,依然有部分類似于v+n型的名詞性短語作為候選術(shù)語,但該類的候選術(shù)語大多是一些固定的搭配,不能作為專利術(shù)語。通過統(tǒng)計(jì)發(fā)現(xiàn):在該類候選術(shù)語中存在一些詞很容易構(gòu)成搭配關(guān)系,即這類詞語與其它詞語搭配的靈活性非常大。針對(duì)術(shù)語抽取中的這種現(xiàn)象,劉里[17]提出了一種基于左右熵的短語過濾方法,本文借鑒上述方法,對(duì)活躍詞性候選術(shù)語進(jìn)行過濾。具體方法如公式(3)所示:

其中,l表示出現(xiàn)在種子術(shù)語w左側(cè)的詞匯的集合;r表示出現(xiàn)在種子術(shù)語w右側(cè)的詞匯集合;p(lw|w)表示詞l出現(xiàn)在w左側(cè)的概率;p(lw|w)表示詞r出現(xiàn)在w右側(cè)的概率。

根據(jù)上述公式,如果某個(gè)余串是易于搭配的活躍詞匯,那么這個(gè)詞的左右兩個(gè)熵應(yīng)該只是有一個(gè)比較大。如果一個(gè)單字詞作為詞首出現(xiàn),那么需計(jì)算該單字詞右側(cè)與其它詞匯搭配的熵的大小,如果該單字詞作為詞尾出現(xiàn),則需要計(jì)算該單字詞左側(cè)與其它詞匯搭配的熵的大小。例如,候選串“面對(duì)/v集成電路/n”“布置/v 傳感器/n 器件/n”“傳感器/n器件/n制造/v”都可以通過活躍詞匯的左右熵過濾后正確抽取出術(shù)語“集成電路”“傳感器器件”。

6 實(shí)驗(yàn)結(jié)果和分析

本文使用涉及紡織、機(jī)械、物理、電學(xué)四個(gè)領(lǐng)域每個(gè)領(lǐng)域1 000篇、共計(jì)4 000篇專利文獻(xiàn)作為實(shí)驗(yàn)語料,通過ICTCLAS[14]對(duì)專利文獻(xiàn)進(jìn)行專利分詞及詞性標(biāo)注,并基于此構(gòu)建邊界標(biāo)記集。評(píng)測(cè)采用準(zhǔn)確率(P)、召回率(R)和F值進(jìn)行評(píng)測(cè)。各指標(biāo)定義如下:

在評(píng)估實(shí)驗(yàn)結(jié)果正確率和準(zhǔn)確率時(shí),每個(gè)領(lǐng)域隨機(jī)抽取150篇、共600篇作為測(cè)試語料,在術(shù)語抽取過程中閾值設(shè)定的好壞將極大地影響實(shí)驗(yàn)的結(jié)果,閾值的最終確定需要通過大量的實(shí)驗(yàn)來實(shí)現(xiàn)。在本實(shí)驗(yàn)中,鑒于候選術(shù)語的前后邊界標(biāo)記在種子術(shù)語抽取過程中起到等同的作用,在公式(1)中人為設(shè)定α、β都為0.5,在選取閾值抽取候選術(shù)語時(shí)經(jīng)實(shí)驗(yàn)驗(yàn)證選取0.6作為候選術(shù)語閾值,公式(2)中使用統(tǒng)計(jì)量方法進(jìn)行余串?dāng)U展時(shí)設(shè)置權(quán)重Weight(Left)為3.0時(shí)具有較佳的識(shí)別效果。人工標(biāo)注選取文獻(xiàn)中出現(xiàn)的術(shù)語,將本文的方法和傳統(tǒng)的c-value[18]和文獻(xiàn)[15]中互信息抽取術(shù)語的方法在相同測(cè)試集下進(jìn)行對(duì)比,表5是在候選術(shù)語權(quán)重分別取0.55、0.60、0.65的實(shí)驗(yàn)結(jié)果。

從表5統(tǒng)計(jì)結(jié)果可以看出,本文提出的基于邊界標(biāo)記集的方法效果良好,正確率和召回率都明顯高于互信息方法和c-value方法。從本方法不同的weight(S)閾值設(shè)定可以看出,當(dāng)候選串weight(S)閾值設(shè)為0.55時(shí)本文方法具有較高的召回率,當(dāng)weight(S)閾值設(shè)為0.65時(shí)具有最高的準(zhǔn)確率,但weight(S)設(shè)為0.60時(shí)本文方法具有最高的F值,此時(shí)準(zhǔn)確率比c-value方法高出3個(gè)百分點(diǎn),比互信息方法高出6個(gè)百分點(diǎn),召回率比c-value方法高3個(gè)百分點(diǎn),與互信息方法相比,高11個(gè)百分點(diǎn)。

Table 5 Experiment results in contrast with other methods表5 本方法和其它方法結(jié)果對(duì)比

由此可見,本文方法相對(duì)對(duì)比實(shí)驗(yàn)中的其他方法具有良好的術(shù)語抽取準(zhǔn)確率和召回率。為當(dāng)weight(S)閾值設(shè)為0.60 時(shí),不同長(zhǎng)度術(shù)語抽取結(jié)果如表6所示。

從表6中可以看出,本文中將單字定義為分詞后的最小單詞形式,因此互信息的方法不能對(duì)單字術(shù)語起作用,然而本文的單字抽取召回率高于cvalue的方法。這是因?yàn)樵趹?yīng)用c-value方法來計(jì)算候選術(shù)語權(quán)重時(shí),不僅考慮了候選術(shù)語的詞頻,還需要考慮該候選串被包含更長(zhǎng)候選術(shù)語的次數(shù),即被包含的次數(shù)越多,對(duì)應(yīng)的術(shù)語的權(quán)重就會(huì)越低。專利文獻(xiàn)中的術(shù)語有很大一部分是被長(zhǎng)術(shù)語包含的,而本文中的方法不需要考慮這些因素。但是,互信息的方法對(duì)雙字詞的抽取效果最佳,高于本文中的方法,而本文中雙字詞的抽取效果略高于c-value的方法。

但是,通過對(duì)四字和四字以上的長(zhǎng)術(shù)語的對(duì)比效果可以看出,本文方法要明顯優(yōu)越于其它兩種方法,這是因?yàn)楸疚牡姆椒ㄖ械倪吔鐦?biāo)記集的多樣性,一些作為短術(shù)語的邊界標(biāo)記同樣可以對(duì)較長(zhǎng)的術(shù)語邊界標(biāo)記;同樣,術(shù)語部件庫(kù)對(duì)不同長(zhǎng)度的候選術(shù)語都能起到相同的過濾效果,即與候選術(shù)語長(zhǎng)度無關(guān)。另外,在專利文獻(xiàn)中存在一些詞頻為1的長(zhǎng)術(shù)語,例如“P/x-/n 型/k 金氧半/n 位/q 準(zhǔn)/a轉(zhuǎn)換/v電路/n”“堆棧式/n N/x-/n 型/k 金氧半/n 晶體管/n 形式/n”等也可以通過本文中的方法抽取出來。

7 結(jié)束語

本文通過構(gòu)建邊界標(biāo)記符集進(jìn)行術(shù)語抽取,過濾部分標(biāo)記之間的候選串作為種子術(shù)語,包含種子術(shù)語的候選串,采用規(guī)則和修飾度的方法來確定是否對(duì)種子術(shù)語進(jìn)行擴(kuò)展。對(duì)低頻候選串采用最長(zhǎng)公共字串?dāng)U展的方法抽取低頻術(shù)語,提高了低頻術(shù)語的召回率。實(shí)驗(yàn)表明,該方法能夠有效地識(shí)別出大部分高頻術(shù)語和部分低頻術(shù)語。但同時(shí),規(guī)則制定時(shí)難免會(huì)引入一部分噪音,同時(shí)對(duì)低頻術(shù)語抽取時(shí),擴(kuò)展模式過于單一,不能提取所有低頻術(shù)語。本文中邊界標(biāo)記集的構(gòu)建存在一些不足,邊界標(biāo)記集中存在一些單字詞是術(shù)語的組成部分,但錯(cuò)誤地判別為停用詞,如術(shù)語“電子/n-/n 空穴/n 對(duì)/p”中“對(duì)/p”錯(cuò)誤地判定為邊界標(biāo)記。

下一步工作中,我們將根據(jù)論文中邊界標(biāo)記集中出現(xiàn)的錯(cuò)誤,進(jìn)一步優(yōu)化邊界標(biāo)記集,提高邊界標(biāo)記集的正確性并制定出一些更加準(zhǔn)確的術(shù)語擴(kuò)展規(guī)則,以抽取出更多的術(shù)語。

Table 6 Accuracy comparison of different methods表6 不同方法正確率對(duì)比

[1] Feng Zhi-wei.A new scientific domain in terminology——computational terminology[J].Terminology Standardization&Information Technology,2008(4):4-9.(in Chinese)

[2] Zhang Wen-jing,Liang Ying-h(huán)ong.Study on the technology of term identification [J].Information Technology,2008(3):6-9.(in Chinese)

[3] Zhai Du-feng,Liu Bai-song.Automatic domain-specific term extraction in administrative-domain ontology[J].New Technology of Library and Information Service,2010,26(4):59-65.(in Chinese)

[4] Gu Jun,Wang Hao.Study on term extraction on the basis of Chinese domain texts[J].New Technology of Library and Information Service,2011,27(4):29-34.(in Chinese)

[5] Jia Mei-ying,Yang Bing-ru,Zheng De-quan,et al.Research on automatic military intelligence term extraction using CRF model[J].Computer Engineering and Applications,2009,45(32):126-129.(in Chinese)

[6] Tang Tao,Zhou Qiao-li,Zhang Gui-ping.Term extraction based on the combination of statistics and rules[J].Journal of Shenyang Aerospace University,2011,28(5):71-74.(in Chinese)

[7] Yue Jin-yuan,Xu Jin-an,Zhang Yu-jie.Chinese word segmentation for patent documents[J]Acta Scientiarum Naturalium Universitatis Pekinensis,2013,49(1)159-164.(in Chinese)

[8] Dai Cui,Zhou Qiao-li,Cai Dong-feng,et al.Automatic identification of Chinese maximum noun phrase based on statistics and rules[J].Journal of Chinese Information Processing,2008,22(6):110-115.(in Chinese)

[9] Zeng Wen,Xu Shuo,Zhang Yun-liang,et al.Automatic extraction technology research and analysis of scientific literature terminology[J].New Technology of Library and Information Service,2014:30(1):51-55.(in Chinese)

[10] W Yun-fang,Sui Zhi-fang,Qiu Li-kun,et al.The approaches and strategies to describe the term component in information science and technology[J].Applied Linguistics,2003(4):34-39.(in Chinese)

[11] He Yan,Sui Zhi-Fang,Duan Hui-ming,et al.Term mining combining term component bank[J].Computer Engineering and Applications,2006,42(33):4-7.(in Chinese)

[12] Peking University Institute of Computational Linguistics.January 1998 Daily segmentation,annotated corpus[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04-1.(in Chinese)

[13] Zhou Lang.Several research questions Chinese term extraction[D].Nangjin:Nangjin,Nanjing University of Science&Technology,2009.(in Chinese)

[14] Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing-Volume 17,2003:184-187.

[15] Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based on mutual information[J].Application Research of Computers,2005,22(5):72-73.(in Chinese)

[16] Lin Lei,Sun Cheng-jie,Zhang Er-yan,et al.A term extraction approach based on modified log-likelihood ratio[J].Journal of Guangxi Normal University(Natural Science),2010,28(1):153-156.(in Chinese)

[17] Zhou Long,F(xiàn)eng Chong,Huang He-yan,et al.Oriented terminology extraction phrase filtering technology [J].Computer Engineering and Applications,2006,45(19):9-11.(in Chinese)

[18] Frantzi K T,Ananiadou S,Tsujii J.The c-value/nc-value method of automatic recognition for multi-word terms[C]∥Proc of the 2nd Eruopean Conference,ECDL’98,1998:585-604.

附中文參考文獻(xiàn):

[1] 馮志偉.一個(gè)新興的術(shù)語學(xué)科——計(jì)算術(shù)語學(xué)[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2008(4):3.

[2] 張文靜,梁穎紅.術(shù)語抽取技術(shù)研究[J].信息技術(shù),2008(3):6-9.

[3] 翟篤風(fēng),劉柏嵩.政務(wù)領(lǐng)域本體術(shù)語的自動(dòng)抽取[J].現(xiàn)代圖書情報(bào)技術(shù),2010,26(4):59-65.

[4] 谷俊,王昊.基于領(lǐng)域中文文本的術(shù)語抽取方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011,27(4):29-34.

[5] 賈美英,楊炳儒,鄭德權(quán),等.采用CRF 技術(shù)的軍事情報(bào)術(shù)語自動(dòng)抽取研究[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(32):126-129.

[6] 唐濤,周俏麗,張桂平.統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語抽取[J].沈陽航空航天大學(xué)學(xué)報(bào),2011,28(5):71-74.

[7] 岳金媛,徐金安,張玉潔.面向?qū)@墨I(xiàn)的漢語分詞技術(shù)研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,49(1):159-164.

[8] 代翠,周俏麗,蔡?hào)|風(fēng),等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長(zhǎng)名詞短語自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2008,22(6):110-115.

[9] 曾文,徐碩,張運(yùn)良,等.科技文獻(xiàn)術(shù)語的自動(dòng)抽取技術(shù)研究與分析[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(1):51-55.

[10] 吳云芳,穗志方,邱利坤,等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語部件描述[J].語言文字應(yīng)用,2003(4):34-39.

[11] 何燕,穗志方,段慧明,等.一種結(jié)合術(shù)語部件庫(kù)的術(shù)語提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(33):4-7.

[12] 北京大學(xué)計(jì)算語言學(xué)研究所.1998年1月人民日?qǐng)?bào)切分、標(biāo)注語料庫(kù)[EB/OL].[2014-10-19].http://icl.pku.edu.cn/ic_groups/corpus/dwldform1.asp.2001-05-10/2004-04 一1.

[13] 周浪.中文術(shù)語抽取若干問題研究[D].南京,南京理工大學(xué),2009.

[15] 張鋒,許云,侯艷,等.基于互信息的中文術(shù)語抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5):72-73.

[16] 林磊,孫承杰,張二艷,等.一種基于改進(jìn)似然比的術(shù)語自動(dòng)抽取方法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,28(1):153-156.

[17] 周浪,馮沖,黃河燕.一種面向術(shù)語抽取的短語過濾技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(19):9-11.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡(jiǎn)單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 伊人久综合| 婷婷六月天激情| 高清色本在线www| 日本手机在线视频| 亚洲最大福利视频网| 久久成人国产精品免费软件| 亚洲成人动漫在线| 国产理论精品| 亚洲美女操| h视频在线播放| 干中文字幕| 国产精品网拍在线| 国产精品私拍99pans大尺度| 欧美另类视频一区二区三区| 国产午夜无码专区喷水| 97在线公开视频| 成年女人18毛片毛片免费| 狼友av永久网站免费观看| 麻豆精品在线| 国产亚洲欧美在线视频| 成人夜夜嗨| 欧美在线中文字幕| 欧美亚洲一区二区三区在线| 婷婷五月在线视频| 男女猛烈无遮挡午夜视频| 久久精品视频亚洲| 亚洲区欧美区| 亚洲日韩高清无码| 国产精品区网红主播在线观看| 欧美啪啪精品| 色悠久久综合| 日本黄网在线观看| 国产人成乱码视频免费观看| 激情无码字幕综合| 91亚洲精选| 亚洲九九视频| 亚洲欧美人成电影在线观看| 露脸一二三区国语对白| 99视频有精品视频免费观看| 中国成人在线视频| 日韩小视频在线播放| 啦啦啦网站在线观看a毛片| 久久男人资源站| 日韩精品亚洲人旧成在线| 国产精品第一区在线观看| 欧美啪啪一区| 激情综合网址| 亚洲成a人片| 日本手机在线视频| 久青草免费视频| 中文字幕有乳无码| 国产视频欧美| 欧美一级99在线观看国产| 亚洲六月丁香六月婷婷蜜芽| 日韩色图在线观看| 国产免费看久久久| 日韩一区二区在线电影| 99在线视频网站| 99视频在线观看免费| 国产91熟女高潮一区二区| 亚洲欧洲日韩久久狠狠爱 | 国产成人精品视频一区二区电影| 国产在线观看第二页| 中文字幕不卡免费高清视频| 在线播放国产99re| 免费一级毛片| 色呦呦手机在线精品| 亚洲日本一本dvd高清| 亚洲欧美自拍中文| 一本视频精品中文字幕| 欧美日一级片| 中文字幕中文字字幕码一二区| 亚洲精品无码高潮喷水A| 无码高潮喷水在线观看| 视频二区国产精品职场同事| 欧美日本在线观看| 精品国产自在在线在线观看| 91精品网站| 欧美精品高清| 中文精品久久久久国产网址| 91在线视频福利| 国产真实自在自线免费精品|