張樂,唐亮,易綿竹
(信息工程大學洛陽校區,洛陽471003)
領域術語抽取是指從領域文本中抽取出體現本領域特征、代表本領域的詞匯的過程,是自然語言處理中的一個基礎而又重要的問題。領域術語的獲取可以為面向領域的文本分類、語言建模、詞義消歧、問答式信息檢索等提供有力的依據,并且對于自動文摘、機器翻譯、領域本體構建等也有重要的意義。目前國內很多學者在領域中文術語抽取方面展開了廣泛的研究,綜合來看,研究方法按照技術路線可以分為三種,即基于語言學知識的方法、基于統計的方法以及混合的方法。基于語言學知識的方法又分為基于詞典和基于規則兩種,通過與詞典中的已知術語相匹配或者制定術語的詞法、句法搭配模版來抽取新的術語,此方法簡潔直觀,可應用專家知識在先驗知識與文本匹配的情況下,準確率高。但它的適應性不強,不能應用于多個領域,不能識別未登陸詞,因此單純的基于語言學的研究很少。基于統計的方法計算術語的統計特征,此方法易于實現,較少需要人工干預,適應性強,可識別未登錄詞,但準確率受語料規模的影響,擴充語料庫也會使計算量增大。而多策略結合的方法能夠取長補短,充分利用各自的優點,抽取效果比單一方法更好,因此成為目前的研究熱點。
隨著大數據時代的到來,大規模以電子文本形式被收集的軍事信息紛繁冗雜,軍事術語的抽取是對軍事信息進行量化分析、研判的基礎工作。軍事術語是描述軍事概念的語詞,是一個特殊的群體,相比其他領域的術語而言有著更為關鍵的作用。術語識別及抽取的準確度直接影響到軍事信息檢索、軍事知識組織以及軍事指揮效能。在當今信息化時代背景下,傳統的依賴人力資源的抽取方法已不能滿足部隊實際工作的需要,我們需要借助計算機的計算能力和自然語言處理相關技術完成軍事術語自動識別,提高軍事信息抽取能力。
筆者面向實際軍事工作的需求,基于自然語言處理相關技術對軍事領域術語的自動抽取展開研究,以期為軍事學術的研究探索及軍事信息的處理工作添磚加瓦,從而進一步推進軍隊信息化建設。本文立足于領域術語自動抽取的已有研究成果,首先剖析了軍事術語的特點和識別難點,然后根據其特點,綜合現有幾種主流方法的不同優勢,提出一種融合多策略的軍事術語抽取方法。
領域術語,簡稱術語,是在特定的專業領域中用來表示或限定該領域的概念、特征的詞匯集合。作為某一領域核心知識的承載單位,術語分為簡單術語和復雜術語兩種,以中文來說,簡單術語就是由單個字或詞構成的、不能被拆分的完整語言單位,復雜術語則常以短語形式出現,由簡單術語通過復合、派生、轉化、拼綴等幾種方式構成或部份由簡單術語構成,簡單術語之間有一定的語義和語法關系。術語是特定領域中概念的語言指稱(GB/T 10112-1999),以軍事領域為例,是指稱軍事概念的特殊文本實體,例如“海軍”、“軍事基地”等。
不同領域的術語具有不同的語言特征,但是具有兩個共同的特性——單元性和領域性。單元性(Unit?hood)是術語在結構上最明顯和重要的特征,通常由術語邊界自由度和術語內部各部分之間的結合緊密度共同決定,它刻畫出術語作為一個有意義的獨立語言單元的結構穩固性。領域性(Termhood)表示一個語言單位與某一特定領域的概念相關聯的程度,術語是在本領域具有高流通度的詞語,而在其他領域及通用領域,則出現頻率較少,幾乎為零。舉個例子,在軍事領域大量使用的“戰局”、“制空權”、“軍事基地”等術語可能會較少地用在政治領域,通常不會在金融經濟、生物醫學等領域出現。綜上所述,單元性刻畫了術語作為一個完整單元的語言完備程度,領域性賦予術語在本領域區別于一般短語和其他領域術語的獨特程度,這兩個特性常作為衡量一個詞或短語是否是領域術語的標準。
術語識別和抽取作為自然語言處理的基礎任務,對于很多領域都有重要意義,越來越受到人們的重視。H.P.Luhn[1]被認為是英文術語抽取研究的先行者,到目前為止,國外對于英文術語抽取進行了大量研究工作,并取得了不錯的效果,推出了一些成熟的系統。相對于英文詞與詞之間有空格作為分隔符的天然優勢,中文文本的詞與詞之間是沒有邊界標志的,中文術語識別常常要以分詞為基礎。對自然語言處理任務來說,由于中文和英文的語言差異,適用于英文文本的方法不一定適用于中文文本,不能直接套用、按照國外的理論和技術進行。迄今為止,國內很多學者和研究機構在中文術語自動抽取方面做了不少研究,按照技術路線,常用的中文術語抽取方法主要分為基于語言學知識的方法、基于統計的方法以及多策略相結合的方法。
基于語言學知識的方法建立在語言學知識的研究之上,主要利用已有的術語詞典,對術語進行詞性或淺層句法分析,以及利用詞法、句法等語言特征構造規則模板,然后通過匹配模板對語料中的術語進行抽取。該類方法主要通過匹配來識別術語,對那些符合詞典和規則的術語能夠獲得很高的準確率,因此對低頻術語也能很好的識別。但該類方法的缺點也比較明顯,主要有:①不能保證較高的召回率和F 值。②詞典的構建和規則的制定有一定的難度。基于規則的抽取,抽取結果依賴于語言規則的精密和完備程度,規則由專家人為編寫,要求專家具有豐富的語言知識和領域知識背景。③規則不是適用于所有領域的,并且可移植性和兼容性不盡人意,往往需要專家的人為維護,工作量較大。
基于統計的方法分為基于統計量度和基于機器學習兩種。基于統計量度的方法將詞語的特征進行量化,計算詞語的統計特征來判斷其是否是術語。眾多研究者在統計學理論的基礎上提出了一系列有效的統計量度來計算術語的單元度和領域度,歸納起來,常用的統計量度包括詞語頻率(Term Frequency)、詞語頻率-逆文檔頻率[2](TFIDF/KFIDF)、領域相關性+領域一致性[3](DR+DC)、假設檢驗(似然比、T 檢驗、卡方檢驗)、C-Value[4-6]、信息熵[7]、互信息(MI)及其改進[8]等。基于統計量度的方法不需要外部資源和句法、語義上的信息,不受語言和某領域的局限,健壯性和可移植性較好。能有效識別未登錄詞,但是對于低頻詞的抽取效果不好,并且計算量大,有對于大規模語料的要求。
由于機器學習方法是建立在統計學原理基礎上的,因此也被納入到了統計方法的范疇。這類方法通常將術語抽取任務轉化為分類問題或是標注問題,圍繞隱馬爾可夫模型(HMM)、最大熵模型(MEM)、條件隨機場[9-12(CRFs)、支持向量機[13](SVM)、決策樹等自然語言處理領域常用的機器學習算法,選取術語的原子特征、復合特征等多種特征構造特征集,通過對訓練語料進行學習來完成術語識別。基于機器學習的方法無需語言知識和專家領域知識,結合術語的多種特征進行學習,在特征提取較完備的情況下,可以達到較高的準確率和召回率,但機器學習效果的好壞很大程度上依賴于所選特征的質量。
目前針對軍事領域術語的抽取大多是基于統計方法,文獻[14]探索了基于語料庫的軍事術語抽取,在構建的抽取系統框架下對比多種統計量度的抽取效果。文獻[15]利用CRFs 作為抽取模型,融合了詞本身、詞性、左右信息熵、互信息等六種有效特征,對高頻和低頻詞匯都有不錯的抽取效果。文獻[16]綜合考慮普通術語、未登錄詞和長字詞術語特征構建特征模板,在實驗中取得了比基于互信息結合T 評價的方法更好的效果。
基于語言學知識的方法和統計方法各有優劣,將兩種方法結合起來理論上能夠多種方法相結合能夠綜合優勢,彌補不足,形成互補。多策略融合抽取方法受到了越來越多的研究者的關注,研究者們將兩種方法以某種次序結合起來,在這方面的代表性工作有:張鋒(2005)等人[17]建立了一個基于互信息的中文術語抽取系統,該系統首先用互信息得到術語候選集,然后使用詞性構成規則進行判別,進而得到真正的術語。杜波(2005)等人[18]提出將基于互信息和似然比提取的候選術語用通用詞表進行過濾,在足球領域和金融領域的語料上開展了實驗,準確率較好但召回率低。劉豹(2008)等人[19]首先用CRFs 模型識別科技領域的候選術語,結合規則對候選術語進行過濾,該方法可以有效提高未登錄詞召回率。翟篤風(2010)等人[20]面向政務領域,在對文本進行分詞后合并單字得到候選術語,然后用C-Value 和TFIDF 算法進行后處理,該方法在不影響召回率的同時提高了術語抽取準確率。姜霖(2016)等人[21]提出使用連續詞袋模型完成術語的抽取,并實驗證明了方法的可靠性。隨著深度學習技術的發展,深度神經網絡模型在自然語言處理任務上被廣泛應用,未來也會更多的應用在術語抽取工作中。總的來說,多策略結合的術語自動抽取方法能夠取得比單一方法更好的結果,因而成為研究趨勢。
2011 年12 月發布的《中國人民解放軍軍語》[22](以下簡稱新版《軍語》)將軍事術語定義為狹義的軍語,綜合《軍語》以及其他專家學者的研究,本文將軍事術語的概念概括為:它是表達、揭示軍事概念的科學內涵的詞語,從軍事實踐中產生,并反過來指導軍事實踐。軍事術語是在軍事領域和軍事活動中經常使用的語詞,有著鮮明的軍事專業屬性。
(1)單義性。術語的首要特點是單義性,即一個術語應盡可能只對應一個概念,這決定了軍事術語也是以單義詞為主。但在實際情況中多義現象客觀存在于軍事術語的語義架構中,一個術語有可能包含兩個或多個義項。隨著軍事領域的發展以及人們對軍事事物的認識逐漸深化,軍事術語的意義不斷被更新和豐富,體現為軍事術語的義項會隨之發生增減和改變,有些單義術語會增加義項變成多義術語,有些多義術語則刪減義項成為單義術語。不過,從整體上看,單義術語占絕對優勢,軍事術語的語義還是簡單、清晰、基本符合術語單義性要求的。總體來說,軍事術語具有良好的指稱軍事概念的能力,并且在詞義上具有單義性、特指性和科學性。
(2)系統性。軍事術語作為軍事領域的基本單元,具有嚴密的上下位關系、層級關系,例如“艦載機”一詞的下級概念包括“殲擊機”、“強擊機”、“偵察機”等,在這點上軍事術語體現出鮮明的層級性和系統性。
(3)領域性。如前文1.1 小節所述,軍事術語是只在軍事領域流通的專業詞匯,離開軍事領域后流通度明顯降低。
(4)實用性。軍事術語的實用性表現在主要為作戰服務,以作戰及相關用語為中心,并且隨著軍事事物的發展,軍事術語也在不斷的發展和完善。例如,在當前信息化戰爭背景下,“信息作戰”“電子戰”“網絡戰”等一大批與軍事斗爭準備相關聯的術語應運而生。軍事術語另一個現實的功能是以規范的“稱名”來增強軍事交流。在全球日趨一體化的時代背景下,國際軍事關系突破人們一些習慣性認識,成為軍事領域中的重要關系,軍事外交成為重要活動。“非正規武裝部隊”“防務安全礎商”“軍事透明”“國際維和”“軍備控制”等頻繁地出現在各種場合,描繪了全方位、寬領域、多層次的軍事外交場景。軍事術語承載了軍事領域的核心知識,可以用來明晰軍事概念、處理軍事信息、暢通軍事交流、協調軍事行動,對于國防和軍隊建設都有重要的意義。
軍事術語的抽取必須建立在對軍事術語特點進行分析研究的基礎上。通過分析新版《軍語》中術語的組成特點,總結借鑒前人的研究成果和經驗,本節將從軍事術語的語言結構方面,對軍事術語抽取的幾個典型特征進行分析。與一般的命名實體識別相比,軍事術語抽取的特點可以總結為以下幾點:
(1)在語言結構上軍事術語可分為單詞型術語和多詞型術語,單詞型術語由單個詞組成,如戰略、戰線、攻擊、武器、陣地、戰斗、火力、常備軍、現役、軍籍、情報等;多詞型術語則是由多個詞語通過復合、派生、拼湊形成的固定短語,其中偏正型短語占大多數,如“戰斗群”、“野戰工事”、“武裝力量”、“毛澤東軍事思想”等。
(2)軍事術語的詞類種類較少,主要集中在名詞、動詞、量詞、形容詞這四類,其中名詞最多,其次是動詞。短語是由詞組成的,多是名詞性短語和動詞性短語[23]。
(3)軍事術語的中心構詞要素體現戰斗性。通過研究發現,在軍事領域,單詞型術語中的常用字往往與武器裝備、軍事力量、作戰行動密切相關,很好的體現軍事領域獨有的戰斗性特征,這些常用字包括戰、軍、空、兵、防、擊、炮等;而絕大部分多詞型復合術語是由如“軍事”、“作戰”、“信息”等基本術語作為構詞要素組成的名詞性結構或者謂詞性結構得到的,如“援外軍事專家”、“新型作戰力量”、“特種作戰目標”、“信息化裝備”“信息化條件下局部戰爭”。
(4)軍事術語的表達形式多樣。軍事術語常常含有阿拉伯數字、英文字母和標點符號(雙引號“”、連接符-、斜杠/),例如C4ISR(信息通訊指揮攻擊系統)、增強X 射線彈、“蜜蜂-1T”無人偵察機、JH-7A 殲擊轟炸機、垂直/短距起降飛機。這是由于軍事技術的更新進步,以及外來詞語的引入,使得組成軍事術語的要素更加多樣化,這類情況常出現在武器類的軍事術語中。另外,軍事術語在使用中常用縮略形式,如“我軍”、“美軍”,縮略語有助于通過簡潔的表達提高交流效率。
(5)軍事術語的組合方式多變。主要體現在術語長度、組成模式等方面。軍事術語的長度不一,既有只由一個字構成的短術語,也可以有包含20 個字的長術語。文獻[24]的研究指出軍事術語的長度以2-8 個字居多,其中出現最多的是4 字術語,短語型結構是其主要構詞方式。
(6)軍事術語間嵌套關系復雜。這一點與軍事術語的系統性密切相關,主要表現在對復雜術語的拆分,某些復雜術語是由簡單術語迭代組合而成,使得這些術語之間存在著嵌套關系。例如術語“聯合軍事演習”與其子串“軍事演習”、“演習”之間存在嵌套關系。
領域術語抽取包括三個步驟:一是收集合適的領域語料并進行預處理;二是選取候選術語;三是對候選術語集合中的詞語進行過濾,將不符合閾值條件的詞語去除,剩下的即為正確的術語。圖1 描述了本文在軍事領域術語抽取的整體過程。

圖1 術語抽取過程
步驟一:收集大量的領域語料并進行語料預處理。這一步是開展術語抽取的前提條件。本文使用的預處理工具是哈爾濱工業大學研發的LTP 語言技術平臺,對清洗過后的文本進行分句、分詞、詞性標注和依存句法分析的處理工作。需要說明的是,由于軍語是專業領域的詞匯,涉及一些分詞詞表外的未登錄詞,使用分詞工具切分可能會造成較多的誤差,因此本文在預處理階段引入自建的軍事術語詞典輔助分詞,詞典中包括個人收集并經過整理的軍事領域的專業術語共計15000 余條。
步驟二:對預處理過后的語料采用基于機器學習的方法從中識別和抽取候選術語。本文在傳統條件隨機場CRFs 模型的基礎上進行改進,用于候選術語的初步獲取。
步驟三:采取先規則后統計的策略對候選術語進行過濾。
下面對步驟二和步驟三的方法進行詳細介紹。
條件隨機場(Conditional Random Fields,CRFs)是目前較為常用的一種統計機器學習模型,本質上是一種判別式概率無向圖模型。圖2 展示了線性CRFs 判別式模型的基礎結構。

圖2 CRFs模型基礎結構
在給定一組輸入隨機變量的情況下,CRFs 計算另一組輸出隨機變量的條件概率分布,可以對上下文進行預測,常用于序列數據的標注和分析。CRFs 模型的形式化定義如下:

其中,X={x1,x2,...,xn} 為觀察序列,Y={y1,y2,...,yn}為標記過后的狀態序列,z0為歸一化因子,作用是使所有可能的狀態序列的條件概率之和為1。公式中的fk(yi-1,yi,x)是整個觀察序列和相應的標注序列中位置為i-1 和i 標記的特征函數,通常是一個二值表征函數。gk(yi,x)是在位置為i 的標記和觀察序列的狀態特征函數,λ和μ是從訓練語料中學習得到的對應特征函數fk(yi-1,yi,x)的參數。給定一個CRFs 模型,在已知觀察序列X 的條件下,可能性最大的標記序列為:

CRFs 的融合字、詞以及自定義特征(包括外部詞典特征、統計特征等)的能力較強,適用于解決序列標注的問題,同時能很好的解決長距離依賴問題。CRFs的模型特征和已有研究成果表明該模型能夠符合軍事術語識別的需要,適用于軍事術語的識別和抽取,因此本文嘗試建立CRFs 模型,將術語識別問題定義為一個序列標注問題。
本文對于軍事語料的標注模式采取常見的“BIO”模式,B 代表一個軍事術語的開頭,I 代表軍事術語中除開頭以外的其他部分,O 表示非軍事術語的詞。例如,對于經分詞標注后的句子,“多國/部隊/在/中國/邊境/舉行/了/聯合/軍事/演習/”,按照BIO 標注體系進行標注的結果為:“多國/B 部隊/I 在/O 中國/O 邊境/O 舉行/O 了/O 聯合/B 軍事/I 演習/I”,可以得到術語為“多國部隊”和“聯合軍事演習”。
對于機器學習算法來說,特征選取的質量如何在很大程度上影響著算法的性能。針對不同領域語料的特點,CRFs 模型選取的特征是不同的,例如字、詞、詞性等上下文信息,以及各種外部特征。為了利用這些信息,我們結合軍事領域術語的特點,選取了6 個特征,通過多次實驗,最終確定了用于軍事術語抽取的特征模板,包括原子特征和復合特征,滑動窗口大小設定為1。下面對這6 個特征做簡要介紹:
(1)詞本身Word
(2)詞長Length
在分詞過程中,如果長術語中含有未登錄詞則會被分詞工具切分為單個字,因此詞的長度可以作為特征。
(3)詞性POS
在上一章對軍事術語特點的分析中,我們發現詞性特征是軍事術語的一個重要特征,以詞性作為特征還可以將術語中中英文搭配的情況考慮在內,對術語的識別起到有效的作用。
(4)詞的出現頻率WordFreq
(5)是否在已知詞典中inDict
當前詞是否存在于本文整理的軍事術語詞典中,以及在詞典中的位置,如術語首詞、術語尾詞或單詞型術語。
(6)依存關系Rel
術語內部詞語與詞語之間的依存關系存在一定的規律,主要有定中關系、介賓關系、主謂關系、動賓關系,因此將依存關系作為一項特征加入特征模板中。
CRFs 候選術語抽取模型的框架如圖3 所示。

圖3 CRFs抽取框架
(1)語言學規則過濾
本小節的工作是構建軍事術語詞性構成規則,采取逆向的方法,對CRF 模型標注的結果,進行校正。語言學規則很難全面總結,本文在借鑒專家研究成果的基礎上采用以下四條規則進行過濾,如表1 所示。

表1 軍事術語詞性構成規則
(2)術語度計算
術語具有兩個重要的屬性——單元性和領域性,對候選術語的單元性和術語性進行正確的評價是進行候選術語過濾的關鍵步驟,直接決定著術語抽取的準確率和召回率。點間互信息PMI 在機器學習領域是衡量兩個詞之間相關性的指標,也可以作為衡量術語之間獨立性的一種很好的方法,它通過計算待識別字串的內部結合強度,進行術語抽取。C-Value 是Frantzi[5]于2000 年提出的術語抽取統計參數,具有語言無關性和領域無關性,在不同的語言和領域上都是可行的,其計算方法為:

具體的計算方法分為兩種情況:對于字符串a 來說,如果a 沒有被其它長字符串嵌套,則其C-Value 由它自身長度和出現的頻數決定;如果a 被其他字符串嵌套,Ta表示所有嵌套a 的字符串的集合,|Ta|為集合的大小。從公式可以看出,C-Value 對于詞頻的計算反映了術語的領域度,在衡量術語內部結合緊密度時將術語的長度因素考慮在內,無論對于單詞型術語或是多詞型術語均是有效的。同時,字符串是否被嵌套的判斷使得對于存在的稀疏的長術語和嵌套術語,C-Value參數能更精確地提取,這是C-Value 相比于其他統計參數的突出優勢。
NC-Value 在C-Value 的基礎上加入上下文的信息,將詞語共現的影響考慮在內。首先通過C-Value值對候選術語進行初步排序,選取前10%的候選術語。對于候選術語a,Ca表示所有與a 在上下文共現的詞語,fa(b)表示詞語b 與a 共現的頻數,weight(b)表示b的權重,其計算方法為:

其中,t(b)表示詞語b 與前10%候選的術語在文本中共現的頻數,n 為前10%候選術語的數量。
NC-Value 的計算公式如下:

考慮到NC-Value 和點間互信息PMI 各自的優勢,本文構造了結合參數NC-PMI 來衡量候選術語的單元性和領域性,該方法能夠將NC-value 參數和互信息的優勢結合在一起。我們選擇合適的閾值作為過濾條件,將滿足閾值條件的候選術語加入到最終的輸出結果集合中。下面我們對本文構造的NC-PMI 結合參數進行簡要介紹。
記候選術語集中的多字字符串為S,若S 為復雜術語,則S=S1S2S3...Sn為S 的一種分解;若S 為單詞術語,則S=S 為S 的分解。一個復雜的字符串可能有多種分解方式,構造NC-PMI 參數的目的就是從眾多的分解方式中選擇一種最合理的方式,并根據該方式來評估復雜術語的內部聯合強度。
對于字符串S 及S 的一種分解S=S1S2S3...Sn,其NC-PMI 參數的計算方式如下:

其中|S|表示字符串S 的長度。
對于一個復雜的候選術語S,它的字符串分解可能有很多種,如果S 的所有字符串共有n 種分解方式,則根據上式分別計算每一種字符串分解的NC-PMI 值,n種分解方式的n 個值分別表示為f1,f2,...,fn,則復雜候選術語S 的NC-PMI 值為:

即對復雜候選術語S 的每種解釋評估后,取最合理的一種解釋方式來代表其最終的NC-PMI 值,若該值小于給定的閾值,則將其從集合中刪除,剩下符合閾值要求的即為正確的術語。
本文面向軍事領域的中文信息處理工作,設計了一種融合多策略的軍事術語抽取方法,為了測試所提出術語抽取方法的效果,我們選擇軍事演習領域的語料進行測試。但是目前此領域尚無權威統一的語料,為此我們使用網頁爬取工具,從環球網、新浪網等主流新聞網站上爬取了5000 篇與之相關的中文新聞文本,將爬取的語料經過收集整理自建小型軍事演習語料庫(MEC)。首先利用文本清洗工具原始文本進行格式統一化,然后使用哈工大提供的自然語言處理工具LTP對文本進行分句、分詞、詞性標注和依存關系分析,對術語的標注采取遠程監督的方式并進行人工校對。CRFs 模型的訓練使用CRF++-0.58 工具完成,整體實驗在Python 環境中編程實現。
本文采用自然語言處理領域三個通用的評測指標、準確率(P),召回率(R)和F 值(F-Measure)。

為了避免語料稀疏對于實驗結果造成影響,我們將標注好的語料平均分為5 份,4 份作為訓練語料,一份作為測試語料,進行五倍交叉驗證,實驗結果中顯示的準確率、召回率和F 值均為五倍交叉驗證后獲得的平均值。
由于文獻[15]和文獻[16]的研究方向也是軍事領域術語抽取,且都使用了CRFs 模型,因此設置兩組對比實驗,三種不同方法在相同的語料上進行測試,以驗證本文提出方法的有效性。兩種對比方法分別記作方法一和方法二,實驗結果如表2 所示。

表2 三種方法的測試結果對比
方法一、二都是單純訓練了一個CRFs 模型進行抽取,本文則采取以CRFs 為核心,融合多策略的方法。從實驗結果可以看出,本文結合了多策略的方法獲得的準確率、召回率和F 值分別為:85.25%、79.68%和82.37。本文方法的抽取效果相比于另外兩篇文獻中使用的方法,其準確率、召回率和F 值都有所提高,這說明本文提出的方法是行之有效的。
分析此方法的優勢之處在于:
(1)基于CRFs 的機器學習模型綜合考慮了詞、詞性和上下文信息,無論是未登錄詞還是長字術語,其特征信息均會被包含在模型中,綜合這些特征信息能夠提高領域術語的抽取精度。
(2)在建模時增加了詞典特征和依存關系特征,使得系統對于非術語候選詞的過濾更為直接,對于“便攜式地空導彈武器系統”這種長度較長的復合術語抽取效果有所提升。
(3)在過濾階段先用詞性規則進行初步過濾,再通過NC-Value 結合互信息計算術語的邊界自由度和內部結合緊密度,對于復雜術語的邊界也能夠很好的判定。
盡管此方法在實驗效果上取得了一定的提升,但還是有一些不足之處,最明顯的一點就是標注語料的稀缺,大量訓練語料需要人工標注,費時費力,有監督的抽取方法在實際工作中的應用效率不高,接下來我們還會重點研究無監督的抽取方法。
本文提出了一種新的融合多策略的軍事領域術語自動抽取方法,在候選術語生成和過濾階段分別對現有方法進行了改進,實現優勢互補。通過實驗表明,該混合方法在軍事演習語料上取得了較好的效果。該方法基于CRFs 模型進行術語識別,需要對文本序列進行人工標注,分詞標注可能會產生錯誤,因此導致實際應用效果不夠理想。下一步的工作將擴充訓練語料的規模,通過實驗進一步優化特征的選取,同時,引入遷移學習來緩解數據稀疏的影響,應用深度學習的神經網絡模型[25]自學習文本特征,進一步提高軍事領域術語的抽取效果。在今后的研究工作中我們將結合軍事術語抽取的具體應用方向做針對性的研究,提高術語抽取的深度應用效果,以便能獲取更高質量的軍事領域術語,更好地為軍事領域術語抽取工作服務。