基于邊界標(biāo)記集的專利文獻(xiàn)術(shù)語抽取方法＊

2015-03-19 00:35:34呂學(xué)強(qiáng)劉克會(huì)

計(jì)算機(jī)工程與科學(xué) 2015年8期

關(guān)鍵詞：方法

丁杰，呂學(xué)強(qiáng)，劉克會(huì)

（1.北京信息科技大學(xué)網(wǎng)絡(luò)文化與數(shù)字傳播重點(diǎn)實(shí)驗(yàn)室，北京100101；2.北京城市系統(tǒng)工程研究中心，北京100035）

1 引言

專利文獻(xiàn)是當(dāng)今世界科學(xué)技術(shù)最大的信息源，快速有效地利用此信息源，能夠促進(jìn)人類新知識(shí)的傳播和科技成果的普及。術(shù)語是自然語言處理中的一種特殊的詞匯數(shù)據(jù)，與語言中一般的普通詞匯不同，術(shù)語大多數(shù)都是由多個(gè)單詞組成的詞組型術(shù)語，它們對(duì)于科學(xué)技術(shù)的發(fā)展特別敏感，隨著科學(xué)技術(shù)的發(fā)展而發(fā)展［1］。在中文專利信息處理過程中，專利術(shù)語識(shí)別是一個(gè)基礎(chǔ)環(huán)節(jié)，專利的檢索、專利翻譯等后續(xù)工作都離不開中文專利術(shù)語的識(shí)別。因此，專利術(shù)語識(shí)別質(zhì)量的高低直接影響到專利文獻(xiàn)的應(yīng)用和科學(xué)技術(shù)的普及。

現(xiàn)有的專利術(shù)語抽取方法主要有語言學(xué)方法、統(tǒng)計(jì)學(xué)方法及統(tǒng)計(jì)學(xué)和語言學(xué)相融合的方法［2］。目前，大部分的研究已經(jīng)從傳統(tǒng)的語言學(xué)方法逐步轉(zhuǎn)變?yōu)榻y(tǒng)計(jì)與語言學(xué)相結(jié)合的方法。利用統(tǒng)計(jì)的方法獲取候選術(shù)語，再結(jié)合規(guī)則的方法對(duì)候選術(shù)語進(jìn)行規(guī)則過濾。其中，文獻(xiàn)［3，4］通過改進(jìn)的TFIDF模型并經(jīng)權(quán)重計(jì)算和閾值篩選后得到專利術(shù)語集，但是其方法領(lǐng)域針對(duì)性較強(qiáng)，無法證明在大規(guī)模語料中的通用性。文獻(xiàn)［5～7］等使用條件隨機(jī)場(chǎng)模型CRF（Conditional Random Fields）機(jī)器學(xué)習(xí)方法結(jié)合過濾規(guī)則對(duì)術(shù)語進(jìn)行抽取，該方法能顯著提高未登錄術(shù)語的召回率，但是語料的標(biāo)注卻需要消耗大量的人力和時(shí)間。文獻(xiàn)［8，9］通過統(tǒng)計(jì)和規(guī)則相結(jié)合的方法，構(gòu)建相應(yīng)的規(guī)則庫(kù)并選擇有效的統(tǒng)計(jì)量或機(jī)器學(xué)習(xí)模型對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語抽取，但并未考慮上下文的信息。

本文在總結(jié)前人研究的基礎(chǔ)之上，針對(duì)前人研究方法在大規(guī)模語料中的通用性差、語料標(biāo)注費(fèi)時(shí)費(fèi)力的缺點(diǎn)，提出了邊界標(biāo)記集的概念，并應(yīng)用邊界標(biāo)記集的獲取無需人工標(biāo)注、領(lǐng)域獨(dú)立性的特點(diǎn)，提出基于邊界標(biāo)記集的術(shù)語抽取方法。該方法首先根據(jù)文中邊界標(biāo)記集的定義提出邊界標(biāo)記集的構(gòu)造方法；然后使用種子術(shù)語權(quán)重計(jì)算方法抽取候選術(shù)語并結(jié)合術(shù)語部件庫(kù)抽取術(shù)語；最后通過統(tǒng)計(jì)和規(guī)則的方法對(duì)抽取出的術(shù)語進(jìn)行過濾。該方法充分考慮了專利術(shù)語的上下文信息特點(diǎn)，對(duì)抽取長(zhǎng)術(shù)語和短術(shù)語都有較好的效果，可明顯提高術(shù)語抽取的準(zhǔn)確率和召回率。

2 基于邊界標(biāo)記集的專利術(shù)語抽取方法

2.1 邊界標(biāo)記集的概念

句子是由實(shí)詞和虛詞連接構(gòu)成的，對(duì)于句子中的每一個(gè)詞，與它直接相鄰的兩個(gè)詞稱之為它的前驅(qū)與后繼，本文根據(jù)專利文獻(xiàn)中術(shù)語和前后兩個(gè)詞的位置關(guān)系，定義術(shù)語邊界標(biāo)記集如下：

定義1術(shù)語邊界標(biāo)記集：在專利文獻(xiàn)中，由專利術(shù)語的前驅(qū)和后繼及對(duì)應(yīng)的詞性所構(gòu)成的集合稱為術(shù)語的邊界標(biāo)記集。

作為專利術(shù)語的邊界標(biāo)記是通用性較強(qiáng)、具有一般詞匯意義的詞，并且這些詞具有一定的領(lǐng)域獨(dú)立性。在專利文獻(xiàn)中，同一個(gè)術(shù)語的上下邊界標(biāo)記可能存在多個(gè)。例如：術(shù)語“光刻投影裝置”的上邊界標(biāo)記詞有“一種”、“用”、“的”等，下邊界標(biāo)記詞為“來”、“中”、“工作”等；不同專利術(shù)語可能存在相同的邊界標(biāo)記詞，例如“掩模臺(tái)”和“晶片步進(jìn)器”具有相同的上邊界標(biāo)記詞“在”。雖如此，但可以看出這些詞在詞性構(gòu)成上具有一定的相似性，如大部分是動(dòng)詞、助詞、標(biāo)點(diǎn)等。為能夠更直觀地展示出專利文獻(xiàn)中邊界標(biāo)記集元素的構(gòu)成，本文隨機(jī)抽取10篇不同領(lǐng)域?qū)＠墨I(xiàn)并統(tǒng)計(jì)術(shù)語邊界標(biāo)記集，文獻(xiàn)中術(shù)語的邊界標(biāo)記詞性構(gòu)成的統(tǒng)計(jì)結(jié)果如表1所示。

Table 1 Part of speech distribution of boundary tags in the term boundary tag set表1 術(shù)語邊界標(biāo)記集中邊界標(biāo)記詞性分布表

由表1可以看出：專利術(shù)語邊界標(biāo)記符的集合由一些沒有構(gòu)詞能力的實(shí)詞，如動(dòng)詞，一些標(biāo)點(diǎn)符號(hào)以及一些虛詞，如介詞、連詞、量詞等構(gòu)成。根據(jù)上述邊界集詞性特點(diǎn)并對(duì)邊界詞與術(shù)語在專利文獻(xiàn)中的共現(xiàn)信息統(tǒng)計(jì)分析，總結(jié)邊界標(biāo)記集的特點(diǎn)如下：

（1）完備性。邊界標(biāo)記集的完備性是指邊界標(biāo)記集合中的邊界標(biāo)記可將專利文獻(xiàn)完全切分為字符串長(zhǎng)度符合術(shù)語長(zhǎng)度的候選術(shù)語串的程度。一般來講，邊界標(biāo)記集的完備性越高，抽取專利術(shù)語的召回率越高。

（2）多樣性。邊界標(biāo)記集合的多樣性是指由于專利術(shù)語的上下文不同導(dǎo)致專利術(shù)語的邊界標(biāo)記也不相同，同時(shí)，不同術(shù)語的上下文標(biāo)記也不完全相同。

（3）重復(fù)性。邊界標(biāo)記集的重復(fù)性是指邊界標(biāo)記集中存在一些邊界標(biāo)記可以作為多個(gè)術(shù)語的邊界。例如，同一個(gè)介詞或其它一些常見的虛詞可能成為不同專利術(shù)語的上界標(biāo)記或下界標(biāo)記。例如“由/p扎/v模/n工藝制備/n”“由/n 傳感器裝置/n”中上邊界“由/p”可作為多個(gè)專利術(shù)語的邊界。

根據(jù)專利文獻(xiàn)中對(duì)發(fā)明專利陳述的特點(diǎn)，不同領(lǐng)域的專利文獻(xiàn)都可采用相同的邊界標(biāo)記集的構(gòu)建方法。首先，不同領(lǐng)域的專利文獻(xiàn)有很多相同的邊界標(biāo)記集，例如：“該發(fā)明”“利用”“使用”“提高”“以便于”都在不同領(lǐng)域的專利文獻(xiàn)中出現(xiàn)；另外，一些標(biāo)點(diǎn)等非文字特征的邊界標(biāo)記也是不同領(lǐng)域的專利文獻(xiàn)所共有的邊界標(biāo)記。因此，邊界標(biāo)記集具有一定的通用性，并根據(jù)不同領(lǐng)域?qū)＠墨I(xiàn)的擴(kuò)展而擴(kuò)展。

雖然中文專利文獻(xiàn)中的邊界標(biāo)記集提供了邊界詞之間詞串構(gòu)成術(shù)語的可能性，但不能完全保證前后邊界標(biāo)記詞之間的詞串就是術(shù)語。因此，需要根據(jù)邊界標(biāo)記集的特點(diǎn)，并結(jié)合一定的術(shù)語抽取規(guī)則和統(tǒng)計(jì)量來抽取術(shù)語。

2.2 基于邊界標(biāo)記集的術(shù)語抽取流程

根據(jù)術(shù)語邊界標(biāo)記集的特點(diǎn)，本文提出基于部件的本體術(shù)語抽取方法，如圖1所示，主要包括種子術(shù)語抽取、種子術(shù)語擴(kuò)展和候選術(shù)語校驗(yàn)三個(gè)部分。其中在種子術(shù)語抽取部分包括邊界標(biāo)記構(gòu)建和術(shù)語部件庫(kù)構(gòu)建；種子術(shù)語擴(kuò)展部分充分利用詞性規(guī)則和統(tǒng)計(jì)量對(duì)抽取出的種子術(shù)語進(jìn)行擴(kuò)展，最終根據(jù)術(shù)語左右熵的方法對(duì)搭配錯(cuò)誤的候選術(shù)語進(jìn)行過濾。

3 種子術(shù)語抽取

3.1 邊界標(biāo)記集構(gòu)建方法

從邊界標(biāo)記集的定義可以看出，每個(gè)術(shù)語都具有術(shù)語邊界標(biāo)記集，且專利術(shù)語的邊界標(biāo)記集就是專利術(shù)語的上下文信息。根據(jù)專利文獻(xiàn)術(shù)語上下文信息并結(jié)合邊界標(biāo)記集的特點(diǎn)，通過以下方法構(gòu)建術(shù)語邊界標(biāo)記集Set：

Figure 1 Chinese patent term extraction method圖1 中文專利術(shù)語抽取方法

（1）初始化術(shù)語邊界標(biāo)記集Set為空。

（2）利用統(tǒng)計(jì)量IDF構(gòu)造專利文獻(xiàn)通用詞表，將專利文獻(xiàn)中IDF值較高的無構(gòu)詞能力的詞作為專利文獻(xiàn)通用詞，并添加到標(biāo)記集Set中。

（3）將專利文獻(xiàn)中標(biāo)點(diǎn)、數(shù)詞、介詞、連詞、助詞等添加到標(biāo)記集Set中。

雖然介詞、連詞和副詞后面的動(dòng)詞是專利術(shù)語邊界標(biāo)記集的組成部分，但均不能作為專利術(shù)語的組成部分，將該類的動(dòng)詞也加入邊界標(biāo)記集Set中，例如，專利文獻(xiàn)中“還/d 包括/v”“所/u 述/v”“還/d 可以/v”中“還/d”、“所/u”都不是術(shù)語的組成部分。

3.2 術(shù)語部件庫(kù)構(gòu)建

術(shù)語是由一個(gè)或多個(gè)詞構(gòu)成的，其中有些詞生成術(shù)語的能力很強(qiáng)，有些詞生成術(shù)語的能力不強(qiáng)，這些構(gòu)成術(shù)語的一個(gè)個(gè)詞就叫做術(shù)語部件［10］。術(shù)語一般分為單詞型術(shù)語和多詞型術(shù)語兩類，單詞型術(shù)語由單個(gè)詞語組成，如“傳感器”“過濾器”等。單詞型術(shù)語本身就是部件，它可以生成新的短語型術(shù)語，如“溫度傳感器”“廢氣過濾器”，而構(gòu)成多詞型術(shù)語的每個(gè)詞都可以看作術(shù)語部件。

單詞型術(shù)語識(shí)別通常采用語料庫(kù)比較的方法，即選擇一個(gè)通用的平衡語料庫(kù)與領(lǐng)域語料庫(kù)相比較，比對(duì)兩個(gè)語料庫(kù)生成的詞表并按照與頻度相關(guān)的某個(gè)統(tǒng)計(jì)量進(jìn)行排序，刪除領(lǐng)域詞表中在通用詞表中統(tǒng)計(jì)量高的，剩下的詞被認(rèn)為是術(shù)語［11］。

單詞型術(shù)語的識(shí)別和部件庫(kù)的構(gòu)建在方法上是一致的，但部件庫(kù)中的每個(gè)詞未必都是術(shù)語。文中的術(shù)語部件僅從術(shù)語的領(lǐng)域性來考慮，如果一個(gè)詞具有較強(qiáng)的領(lǐng)域性，可以把這個(gè)詞看作術(shù)語部件，因此可以采用與上述抽取單詞型術(shù)語類似的方法來抽取領(lǐng)域部件。人民日?qǐng)?bào)中的詞匯大部分是人們生活中經(jīng)常使用的詞匯，領(lǐng)域性較弱，為此本文選用1998年1 月份人民日?qǐng)?bào)熟語料［12］作為專利文獻(xiàn)的對(duì)比語料，比較兩個(gè)語料庫(kù)生成的詞表，將只在專利詞表出現(xiàn)的詞匯抽取出來作為專利術(shù)語部件，所得的部分術(shù)語部件如表2所示。

Table 2 Term component library表2 術(shù)語部件庫(kù)

從表2的結(jié)果中可以看出，有些部件已經(jīng)是術(shù)語，如“暗電流”“光電二極管”等，或是術(shù)語的組成部分，如“設(shè)備、蝕刻、輸出”。通過觀察抽取出的術(shù)語部件庫(kù)發(fā)現(xiàn)：部件庫(kù)中存在一些詞不能作為術(shù)語的組成詞，如“范圍”，但這并不影響術(shù)語的抽取效果，因?yàn)槲闹械牟考?kù)僅用于對(duì)候選串進(jìn)行過濾，并不使用部件庫(kù)來生成術(shù)語，所以最終能夠提高候選術(shù)語的術(shù)語度，而不會(huì)在術(shù)語識(shí)別過程中引入噪音。

3.3 種子術(shù)語抽取

根據(jù)術(shù)語邊界標(biāo)記集完備性的特點(diǎn)，將專利文獻(xiàn)中相鄰的兩個(gè)邊界標(biāo)記之間的字符串抽取出來，并通過術(shù)語部件庫(kù)過濾以獲取候選術(shù)語。種子術(shù)語抽取的過濾規(guī)則如下：

規(guī)則1若抽取出的字符串為單字詞，則該單字詞必須在部件庫(kù)中出現(xiàn)，否則刪除該字符串；

規(guī)則2若抽取出的字符串為多字詞，經(jīng)分詞后的每個(gè)單字詞中應(yīng)該至少有一個(gè)在部件庫(kù)中出現(xiàn)，否則將該字符串刪除。

將上述規(guī)則過濾之后剩余的字符串作為術(shù)語候選串。專利術(shù)語在專利文獻(xiàn)中的存在具有相對(duì)穩(wěn)定的結(jié)構(gòu)，其內(nèi)部詞語可以看作一個(gè)完整的結(jié)構(gòu)，不可隨意拆分。目前，術(shù)語抽取研究中使用的大部份統(tǒng)計(jì)方法都是基于術(shù)語的結(jié)構(gòu)完整性特征，選擇有效的統(tǒng)計(jì)量和評(píng)估機(jī)制，來衡量術(shù)語中詞語之間的黏合度以及共現(xiàn)概率［13］。其方法可分為兩類：一類是通過統(tǒng)計(jì)量分析詞串內(nèi)部詞語之間的緊密關(guān)系，來確定該詞串是否是一個(gè)結(jié)構(gòu)穩(wěn)定的短語；另一類認(rèn)為：如果一個(gè)詞串多次在不同的上下文中出現(xiàn)，那么該詞串可以作為結(jié)構(gòu)上結(jié)合緊密的單元，并且很有可能是術(shù)語。

專利術(shù)語邊界標(biāo)記集具有多樣性，同一個(gè)術(shù)語上下文環(huán)境的不同，術(shù)語的上下邊界標(biāo)記也不相同，從而可證明該術(shù)語具有穩(wěn)定的結(jié)構(gòu)，這也符合上文中第二種評(píng)估字符串粘合度的方法。因此，可通過候選術(shù)語被不同的切分標(biāo)記切分的數(shù)量來衡量候選術(shù)語的緊密結(jié)合程度。實(shí)驗(yàn)中使用了改進(jìn)的TF－IDF方法，弱化了高詞頻對(duì)權(quán)重的影響，增加了通過多樣性切分標(biāo)記切分獲取的候選串的權(quán)重。本文根據(jù)邊界標(biāo)記集的特點(diǎn)提出種子術(shù)語的權(quán)重計(jì)算方法，具體計(jì)算方法如下：

其中，preSeg、postSeg分別為候選術(shù)語S前后邊界標(biāo)記集合；f（preSeg）為術(shù)語邊界標(biāo)記集合大小，因?yàn)閜reSeg、postSeg都表示集合，都已將重復(fù)的候選串刪除，弱化了同一術(shù)語相同上下文在術(shù)語抽取中的作用，增強(qiáng)了切分標(biāo)記集多樣性的影響；N表示所有專利文獻(xiàn)的篇數(shù)；df（S）表示候選術(shù)語串在所有專利文獻(xiàn)中出現(xiàn)的篇數(shù)；α、β為權(quán)重因子。將Weight（S）滿足某一個(gè)閾值的候選術(shù)語抽取出來作為種子術(shù)語。

4 種子術(shù)語余串?dāng)U展

為了便于對(duì)種子術(shù)語進(jìn)行擴(kuò)展，通過種子術(shù)語對(duì)包含種子術(shù)語的候選串進(jìn)行擴(kuò)展，并定義如下變量。

定義2種子術(shù)語余串：在候選術(shù)語串中，去除種子術(shù)語后剩余的部分，稱之為種子術(shù)語的余串。

定義3單字詞：本文將經(jīng)ICTCLAS［14］切分且具有獨(dú)立詞性標(biāo)注的最小語義單元稱作單字詞。如“形成/v”，“傳感器/n”“的/u”。

定義4最長(zhǎng)術(shù)語：本文將在專利文獻(xiàn)中出現(xiàn)的且不被更長(zhǎng)的術(shù)語包含的專利術(shù)語稱之為最長(zhǎng)術(shù)語。

在本文實(shí)驗(yàn)中，通過邊界標(biāo)記符集抽取的候選串都是“寬類型”的，這里的“寬類型”是指一個(gè)候選串是術(shù)語或者包含一個(gè)最長(zhǎng)的術(shù)語，而不會(huì)被其它更長(zhǎng)的專利術(shù)語包含。例如候選串“制造/v CMOS/x 圖像/n 傳感器/n”中包含最長(zhǎng)的術(shù)語“CMOS/x 圖像/n 傳感器/n”，而不會(huì)被其他更長(zhǎng)的術(shù)語包含，這是因?yàn)樵诤蜻x串中出現(xiàn)的詞未在邊界標(biāo)記集中出現(xiàn)。基于候選串的這個(gè)特點(diǎn)，可以在種子術(shù)語基礎(chǔ)之上，對(duì)候選串進(jìn)行左右種子術(shù)語余串?dāng)U展。例如，種子術(shù)語“傳感器/n”，如果“圖像/n 傳感器/n”不在種子術(shù)語中，可以通過種子術(shù)語左擴(kuò)展一個(gè)單字詞“圖像/n”，抽取出術(shù)語“圖像/n傳感器/n”。

4.1 詞性規(guī)則過濾單字余串

定義5上邊界拒取：設(shè)候選串S可以表示為S1S2，其中S2為種子術(shù)語，S1為單字詞，如果S1S2不符合術(shù)語詞性搭配規(guī)則，則將S1刪除，稱之為上邊界拒取。

定義6下邊界拒取：設(shè)候選串S可以表示為S1S2，其中S1為種子術(shù)語，S2為單字詞，如果S1S2不符合術(shù)語詞性搭配規(guī)則，則將S2刪除，稱之為上邊界拒取。

根據(jù)文獻(xiàn)［13］中統(tǒng)計(jì)結(jié)果并結(jié)合專利術(shù)語的特點(diǎn)發(fā)現(xiàn)，專利術(shù)語大多都是以名詞（/n）、動(dòng)詞（/v）、形容詞（/a）、副詞（/d）等四類詞開頭，且大多以名詞和動(dòng)詞為主極，少數(shù)以副詞開頭。但是，當(dāng)候選串是以動(dòng)詞開頭時(shí)，若動(dòng)詞前面的修飾詞是副詞時(shí)，該副詞和動(dòng)詞具有“發(fā)出動(dòng)作”的語義，不是術(shù)語的組成部分，因此一些被副詞修飾的動(dòng)詞不能作為專利術(shù)語上邊界，此時(shí)副詞將視為拒絕后驅(qū)詞（動(dòng)詞）作為術(shù)語上邊界的提示詞；一些緊跟介詞后面的動(dòng)詞也具有“發(fā)出動(dòng)作”的語義，同樣也不能作為術(shù)語的上邊界。如“以/p 保護(hù)/v 感測(cè)組件/n”“通過/p調(diào)節(jié)/v減壓閥/n”中“保護(hù)”“調(diào)節(jié)”都不能作為專利術(shù)語的組成部分。術(shù)語大多以名詞（/n）、動(dòng)詞（/v）、形容詞（/a）、助詞（/u）、后綴詞（/k）、量詞（/q）等作為結(jié)尾。因此，一些具有“發(fā)出動(dòng)作”的動(dòng)詞以及緊跟其后的介詞也都不能作為術(shù)語的構(gòu)成詞。部分統(tǒng)計(jì)的規(guī)則如表3和表4所示。

Table 3 The pre－boundary tag rules表3 上邊界拒取規(guī)則表

Table 4 The post－boundary tag rules表4 下邊界拒取規(guī)則表

4.2 統(tǒng)計(jì)量擴(kuò)展單字余串

在術(shù)語抽取過程中，常使用一些統(tǒng)計(jì)量來計(jì)算術(shù)語之間的結(jié)合程度。其中，張鋒等［15］使用互信息來計(jì)算術(shù)語之間結(jié)合的緊密程度，林磊等［16］通過似然比來計(jì)算。但是，一些結(jié)合緊密、頻度較高的候選串并不能構(gòu)成術(shù)語。例如：“操縱/v 送/v料/n 推桿/n”、“推動(dòng)/v送/v料/n 推桿/n”都不是術(shù)語，只是選術(shù)語“送/v 料/n 推桿/n”的兩個(gè)固定搭配。針對(duì)以上問題，本文綜合考慮了詞頻、構(gòu)成術(shù)語的詞串長(zhǎng)度和詞性搭配信息，提出了余串術(shù)語修飾度的計(jì)算方法來衡量單字余串和種子術(shù)語之間的粘合程度，以決定是否對(duì)種子術(shù)語擴(kuò)展。余串修飾度是對(duì)余串和種子術(shù)語之間緊密關(guān)系的度量，計(jì)算方法如公式（2）所示：

其中，Weight（Left）表示候選串中余串的修飾度；POSTTagging表示候選術(shù)語S所包含的種子術(shù)語的所有單字余串；POSTSet表示所有單字余串集合，在POSTSet中出現(xiàn)的單字詞都是實(shí)詞，因?yàn)榇蟛糠痔撛~已經(jīng)作為候選術(shù)語的邊界標(biāo)記；F（POSTTagging）為特征函數(shù)，如果集合中POSTTagging的詞性與候選串S的單字余串相等則取1，否則取0；β為調(diào) 節(jié) 因子，若∑F（POSTTaging）值為1，β取1，否則β取0。當(dāng)∑F（POSTTaging）的取值大于1時(shí)，表明修飾同一種子術(shù)語的同一詞性的實(shí)詞有多個(gè)，該詞性余串和種子術(shù)語不具備修飾關(guān)系。Len（Left）表示候選術(shù)語S單字余串的長(zhǎng)度，F(xiàn)re（S）表示候選術(shù)語S的頻度。例如：候選串“制造/v 圖像/n 傳感器/n”中“圖像/n 傳感器/n”是種子術(shù)語，Contex＝｛制造/v，觸發(fā)/v｝，則β取0，不對(duì)種子術(shù)語往前擴(kuò)展。因?yàn)槿绻揎棥皥D像/n傳感器/n”的動(dòng)詞有多個(gè)，那么這些動(dòng)詞應(yīng)該都具有發(fā)出動(dòng)作的語義，而不應(yīng)作為種子術(shù)語的前綴，而對(duì)候選術(shù)語“透光/v樹脂/n 材料/n”中種子術(shù)語是“樹脂/n 材料/n”，Contex＝｛透光/v｝，β取1，那么“透光/v”很有可能是術(shù)語的組成部分。

4.3 種子術(shù)語多字余串?dāng)U展

上述兩種方法只能處理種子術(shù)語前后的單字余串，在候選術(shù)語中存在余串為多字的候選術(shù)語。如候選術(shù)語“易/a受/v 腐蝕性/n 含氟/n 化合物/n 侵蝕/v”中包含種子術(shù)語“含氟/n 化合物/n”，其前余串為“易/a 受/v 腐蝕性/n”，后余串為“侵蝕/v”，后余串可以采用上述統(tǒng)計(jì)量擴(kuò)展單字余串的方法給予排除，而對(duì)于前余串主要使用詞性規(guī)則的方法處理。統(tǒng)計(jì)術(shù)語的詞性搭配規(guī)則，采用如下算法對(duì)多字余串進(jìn)行擴(kuò)展：

算法種子術(shù)語多字余串?dāng)U展算法

輸入：

包含種子術(shù)語和多字余串的種子候選術(shù)語集合Set：S為Set中的候選術(shù)語且候選串可以表示為preSeg＋Seed＋PostSeg形式，其中preSeg、PostSeg都為多字余串；

所有單字詞的詞性集合TagSet：TagSet中元素為〈Token，Tag〉，其中Token為單字詞性，Tag為單字詞性的詞性。

輸出：經(jīng)多字余串?dāng)U展后的術(shù)語。

算法描述：

邊界標(biāo)記集抽取出來的候選術(shù)語中有的不包含種子術(shù)語，對(duì)此，我們計(jì)算出候術(shù)語和其他候選術(shù)語的最長(zhǎng)公共字串作為種子術(shù)語，如果公共字串包含名詞，使用上述種子術(shù)語擴(kuò)展的方式進(jìn)行術(shù)語擴(kuò)展，否則丟棄該候選術(shù)語，這就彌補(bǔ)了部分候選術(shù)語中因?yàn)椴淮嬖诜N子術(shù)語而不能對(duì)種子術(shù)語進(jìn)行擴(kuò)展方法的不足，提高了術(shù)語抽取的召回率。

5 候選術(shù)語校驗(yàn)

實(shí)驗(yàn)中的候選術(shù)語，依然有部分類似于v＋n型的名詞性短語作為候選術(shù)語，但該類的候選術(shù)語大多是一些固定的搭配，不能作為專利術(shù)語。通過統(tǒng)計(jì)發(fā)現(xiàn)：在該類候選術(shù)語中存在一些詞很容易構(gòu)成搭配關(guān)系，即這類詞語與其它詞語搭配的靈活性非常大。針對(duì)術(shù)語抽取中的這種現(xiàn)象，劉里［17］提出了一種基于左右熵的短語過濾方法，本文借鑒上述方法，對(duì)活躍詞性候選術(shù)語進(jìn)行過濾。具體方法如公式（3）所示：

其中，l表示出現(xiàn)在種子術(shù)語w左側(cè)的詞匯的集合；r表示出現(xiàn)在種子術(shù)語w右側(cè)的詞匯集合；p（lw｜w）表示詞l出現(xiàn)在w左側(cè)的概率；p（lw｜w）表示詞r出現(xiàn)在w右側(cè)的概率。

根據(jù)上述公式，如果某個(gè)余串是易于搭配的活躍詞匯，那么這個(gè)詞的左右兩個(gè)熵應(yīng)該只是有一個(gè)比較大。如果一個(gè)單字詞作為詞首出現(xiàn)，那么需計(jì)算該單字詞右側(cè)與其它詞匯搭配的熵的大小，如果該單字詞作為詞尾出現(xiàn)，則需要計(jì)算該單字詞左側(cè)與其它詞匯搭配的熵的大小。例如，候選串“面對(duì)/v集成電路/n”“布置/v 傳感器/n 器件/n”“傳感器/n器件/n制造/v”都可以通過活躍詞匯的左右熵過濾后正確抽取出術(shù)語“集成電路”“傳感器器件”。

6 實(shí)驗(yàn)結(jié)果和分析

本文使用涉及紡織、機(jī)械、物理、電學(xué)四個(gè)領(lǐng)域每個(gè)領(lǐng)域1 000篇、共計(jì)4 000篇專利文獻(xiàn)作為實(shí)驗(yàn)語料，通過ICTCLAS［14］對(duì)專利文獻(xiàn)進(jìn)行專利分詞及詞性標(biāo)注，并基于此構(gòu)建邊界標(biāo)記集。評(píng)測(cè)采用準(zhǔn)確率（P）、召回率（R）和F值進(jìn)行評(píng)測(cè)。各指標(biāo)定義如下：

在評(píng)估實(shí)驗(yàn)結(jié)果正確率和準(zhǔn)確率時(shí)，每個(gè)領(lǐng)域隨機(jī)抽取150篇、共600篇作為測(cè)試語料，在術(shù)語抽取過程中閾值設(shè)定的好壞將極大地影響實(shí)驗(yàn)的結(jié)果，閾值的最終確定需要通過大量的實(shí)驗(yàn)來實(shí)現(xiàn)。在本實(shí)驗(yàn)中，鑒于候選術(shù)語的前后邊界標(biāo)記在種子術(shù)語抽取過程中起到等同的作用，在公式（1）中人為設(shè)定α、β都為0.5，在選取閾值抽取候選術(shù)語時(shí)經(jīng)實(shí)驗(yàn)驗(yàn)證選取0.6作為候選術(shù)語閾值，公式（2）中使用統(tǒng)計(jì)量方法進(jìn)行余串?dāng)U展時(shí)設(shè)置權(quán)重Weight（Left）為3.0時(shí)具有較佳的識(shí)別效果。人工標(biāo)注選取文獻(xiàn)中出現(xiàn)的術(shù)語，將本文的方法和傳統(tǒng)的c－value［18］和文獻(xiàn)［15］中互信息抽取術(shù)語的方法在相同測(cè)試集下進(jìn)行對(duì)比，表5是在候選術(shù)語權(quán)重分別取0.55、0.60、0.65的實(shí)驗(yàn)結(jié)果。

從表5統(tǒng)計(jì)結(jié)果可以看出，本文提出的基于邊界標(biāo)記集的方法效果良好，正確率和召回率都明顯高于互信息方法和c－value方法。從本方法不同的weight（S）閾值設(shè)定可以看出，當(dāng)候選串weight（S）閾值設(shè)為0.55時(shí)本文方法具有較高的召回率，當(dāng)weight（S）閾值設(shè)為0.65時(shí)具有最高的準(zhǔn)確率，但weight（S）設(shè)為0.60時(shí)本文方法具有最高的F值，此時(shí)準(zhǔn)確率比c－value方法高出3個(gè)百分點(diǎn)，比互信息方法高出6個(gè)百分點(diǎn)，召回率比c－value方法高3個(gè)百分點(diǎn)，與互信息方法相比，高11個(gè)百分點(diǎn)。

Table 5 Experiment results in contrast with other methods表5 本方法和其它方法結(jié)果對(duì)比

由此可見，本文方法相對(duì)對(duì)比實(shí)驗(yàn)中的其他方法具有良好的術(shù)語抽取準(zhǔn)確率和召回率。為當(dāng)weight（S）閾值設(shè)為0.60 時(shí)，不同長(zhǎng)度術(shù)語抽取結(jié)果如表6所示。

從表6中可以看出，本文中將單字定義為分詞后的最小單詞形式，因此互信息的方法不能對(duì)單字術(shù)語起作用，然而本文的單字抽取召回率高于cvalue的方法。這是因?yàn)樵趹?yīng)用c－value方法來計(jì)算候選術(shù)語權(quán)重時(shí)，不僅考慮了候選術(shù)語的詞頻，還需要考慮該候選串被包含更長(zhǎng)候選術(shù)語的次數(shù)，即被包含的次數(shù)越多，對(duì)應(yīng)的術(shù)語的權(quán)重就會(huì)越低。專利文獻(xiàn)中的術(shù)語有很大一部分是被長(zhǎng)術(shù)語包含的，而本文中的方法不需要考慮這些因素。但是，互信息的方法對(duì)雙字詞的抽取效果最佳，高于本文中的方法，而本文中雙字詞的抽取效果略高于c－value的方法。

但是，通過對(duì)四字和四字以上的長(zhǎng)術(shù)語的對(duì)比效果可以看出，本文方法要明顯優(yōu)越于其它兩種方法，這是因?yàn)楸疚牡姆椒ㄖ械倪吔鐦?biāo)記集的多樣性，一些作為短術(shù)語的邊界標(biāo)記同樣可以對(duì)較長(zhǎng)的術(shù)語邊界標(biāo)記；同樣，術(shù)語部件庫(kù)對(duì)不同長(zhǎng)度的候選術(shù)語都能起到相同的過濾效果，即與候選術(shù)語長(zhǎng)度無關(guān)。另外，在專利文獻(xiàn)中存在一些詞頻為1的長(zhǎng)術(shù)語，例如“P/x－/n 型/k 金氧半/n 位/q 準(zhǔn)/a轉(zhuǎn)換/v電路/n”“堆棧式/n N/x－/n 型/k 金氧半/n 晶體管/n 形式/n”等也可以通過本文中的方法抽取出來。

7 結(jié)束語

本文通過構(gòu)建邊界標(biāo)記符集進(jìn)行術(shù)語抽取，過濾部分標(biāo)記之間的候選串作為種子術(shù)語，包含種子術(shù)語的候選串，采用規(guī)則和修飾度的方法來確定是否對(duì)種子術(shù)語進(jìn)行擴(kuò)展。對(duì)低頻候選串采用最長(zhǎng)公共字串?dāng)U展的方法抽取低頻術(shù)語，提高了低頻術(shù)語的召回率。實(shí)驗(yàn)表明，該方法能夠有效地識(shí)別出大部分高頻術(shù)語和部分低頻術(shù)語。但同時(shí)，規(guī)則制定時(shí)難免會(huì)引入一部分噪音，同時(shí)對(duì)低頻術(shù)語抽取時(shí)，擴(kuò)展模式過于單一，不能提取所有低頻術(shù)語。本文中邊界標(biāo)記集的構(gòu)建存在一些不足，邊界標(biāo)記集中存在一些單字詞是術(shù)語的組成部分，但錯(cuò)誤地判別為停用詞，如術(shù)語“電子/n－/n 空穴/n 對(duì)/p”中“對(duì)/p”錯(cuò)誤地判定為邊界標(biāo)記。

下一步工作中，我們將根據(jù)論文中邊界標(biāo)記集中出現(xiàn)的錯(cuò)誤，進(jìn)一步優(yōu)化邊界標(biāo)記集，提高邊界標(biāo)記集的正確性并制定出一些更加準(zhǔn)確的術(shù)語擴(kuò)展規(guī)則，以抽取出更多的術(shù)語。

Table 6 Accuracy comparison of different methods表6 不同方法正確率對(duì)比

［1］ Feng Zhi－wei.A new scientific domain in terminology——computational terminology［J］.Terminology Standardization＆Information Technology，2008（4）：4－9.（in Chinese）

［2］ Zhang Wen－jing，Liang Ying－h(huán)ong.Study on the technology of term identification ［J］.Information Technology，2008（3）：6－9.（in Chinese）

［3］ Zhai Du－feng，Liu Bai－song.Automatic domain－specific term extraction in administrative－domain ontology［J］.New Technology of Library and Information Service，2010，26（4）：59－65.（in Chinese）

［4］ Gu Jun，Wang Hao.Study on term extraction on the basis of Chinese domain texts［J］.New Technology of Library and Information Service，2011，27（4）：29－34.（in Chinese）

［5］ Jia Mei－ying，Yang Bing－ru，Zheng De－quan，et al.Research on automatic military intelligence term extraction using CRF model［J］.Computer Engineering and Applications，2009，45（32）：126－129.（in Chinese）

［6］ Tang Tao，Zhou Qiao－li，Zhang Gui－ping.Term extraction based on the combination of statistics and rules［J］.Journal of Shenyang Aerospace University，2011，28（5）：71－74.（in Chinese）

［7］ Yue Jin－yuan，Xu Jin－an，Zhang Yu－jie.Chinese word segmentation for patent documents［J］Acta Scientiarum Naturalium Universitatis Pekinensis，2013，49（1）159－164.（in Chinese）

［8］ Dai Cui，Zhou Qiao－li，Cai Dong－feng，et al.Automatic identification of Chinese maximum noun phrase based on statistics and rules［J］.Journal of Chinese Information Processing，2008，22（6）：110－115.（in Chinese）

［9］ Zeng Wen，Xu Shuo，Zhang Yun－liang，et al.Automatic extraction technology research and analysis of scientific literature terminology［J］.New Technology of Library and Information Service，2014：30（1）：51－55.（in Chinese）

［10］ W Yun－fang，Sui Zhi－fang，Qiu Li－kun，et al.The approaches and strategies to describe the term component in information science and technology［J］.Applied Linguistics，2003（4）：34－39.（in Chinese）

［11］ He Yan，Sui Zhi－Fang，Duan Hui－ming，et al.Term mining combining term component bank［J］.Computer Engineering and Applications，2006，42（33）：4－7.（in Chinese）

［12］ Peking University Institute of Computational Linguistics.January 1998 Daily segmentation，annotated corpus［EB/OL］.［2014－10－19］.http：//icl.pku.edu.cn/ic＿groups/corpus/dwldform1.asp.2001－05－10/2004－04－1.（in Chinese）

［13］ Zhou Lang.Several research questions Chinese term extraction［D］.Nangjin：Nangjin，Nanjing University of Science＆Technology，2009.（in Chinese）

［14］ Zhang H P，Yu H K，Xiong D Y，et al.HHMM－based Chinese lexical analyzer ICTCLAS［C］∥Proc of the 2nd SIGHAN Workshop on Chinese Language Processing－Volume 17，2003：184－187.

［15］ Zhang Feng，Xu Yun，Hou Yan，et al.Chinese term extraction system based on mutual information［J］.Application Research of Computers，2005，22（5）：72－73.（in Chinese）

［16］ Lin Lei，Sun Cheng－jie，Zhang Er－yan，et al.A term extraction approach based on modified log－likelihood ratio［J］.Journal of Guangxi Normal University（Natural Science），2010，28（1）：153－156.（in Chinese）

［17］ Zhou Long，F(xiàn)eng Chong，Huang He－yan，et al.Oriented terminology extraction phrase filtering technology ［J］.Computer Engineering and Applications，2006，45（19）：9－11.（in Chinese）

［18］ Frantzi K T，Ananiadou S，Tsujii J.The c－value/nc－value method of automatic recognition for multi－word terms［C］∥Proc of the 2nd Eruopean Conference，ECDL’98，1998：585－604.

附中文參考文獻(xiàn)：

［1］馮志偉.一個(gè)新興的術(shù)語學(xué)科——計(jì)算術(shù)語學(xué)［J］.術(shù)語標(biāo)準(zhǔn)化與信息技術(shù)，2008（4）：3.

［2］張文靜，梁穎紅.術(shù)語抽取技術(shù)研究［J］.信息技術(shù)，2008（3）：6－9.

［3］翟篤風(fēng)，劉柏嵩.政務(wù)領(lǐng)域本體術(shù)語的自動(dòng)抽取［J］.現(xiàn)代圖書情報(bào)技術(shù)，2010，26（4）：59－65.

［4］谷俊，王昊.基于領(lǐng)域中文文本的術(shù)語抽取方法研究［J］.現(xiàn)代圖書情報(bào)技術(shù)，2011，27（4）：29－34.

［5］賈美英，楊炳儒，鄭德權(quán)，等.采用CRF 技術(shù)的軍事情報(bào)術(shù)語自動(dòng)抽取研究［J］.計(jì)算機(jī)工程與應(yīng)用，2009，45（32）：126－129.

［6］唐濤，周俏麗，張桂平.統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語抽取［J］.沈陽航空航天大學(xué)學(xué)報(bào)，2011，28（5）：71－74.

［7］岳金媛，徐金安，張玉潔.面向?qū)＠墨I(xiàn)的漢語分詞技術(shù)研究［J］.北京大學(xué)學(xué)報(bào)（自然科學(xué)版），2013，49（1）：159－164.

［8］代翠，周俏麗，蔡?hào)|風(fēng)，等.統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長(zhǎng)名詞短語自動(dòng)識(shí)別［J］.中文信息學(xué)報(bào)，2008，22（6）：110－115.

［9］曾文，徐碩，張運(yùn)良，等.科技文獻(xiàn)術(shù)語的自動(dòng)抽取技術(shù)研究與分析［J］.現(xiàn)代圖書情報(bào)技術(shù)，2014，30（1）：51－55.

［10］吳云芳，穗志方，邱利坤，等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語部件描述［J］.語言文字應(yīng)用，2003（4）：34－39.

［11］何燕，穗志方，段慧明，等.一種結(jié)合術(shù)語部件庫(kù)的術(shù)語提取方法［J］.計(jì)算機(jī)工程與應(yīng)用，2006，42（33）：4－7.

［12］北京大學(xué)計(jì)算語言學(xué)研究所.1998年1月人民日?qǐng)?bào)切分、標(biāo)注語料庫(kù)［EB/OL］.［2014－10－19］.http：//icl.pku.edu.cn/ic＿groups/corpus/dwldform1.asp.2001－05－10/2004－04 一1.

［13］周浪.中文術(shù)語抽取若干問題研究［D］.南京，南京理工大學(xué)，2009.

［15］張鋒，許云，侯艷，等.基于互信息的中文術(shù)語抽取系統(tǒng)［J］.計(jì)算機(jī)應(yīng)用研究，2005，22（5）：72－73.

［16］林磊，孫承杰，張二艷，等.一種基于改進(jìn)似然比的術(shù)語自動(dòng)抽取方法［J］.廣西師范大學(xué)學(xué)報(bào)（自然科學(xué)版），2010，28（1）：153－156.

［17］周浪，馮沖，黃河燕.一種面向術(shù)語抽取的短語過濾技術(shù)［J］.計(jì)算機(jī)工程與應(yīng)用，2009，45（19）：9－11.