融合多類型特征的特定領(lǐng)域?qū)嶓w識別研究

2019-11-12 05:02:02雷樹杰邢富坤王聞慧

計算機(jī)應(yīng)用與軟件 2019年11期

雷樹杰邢富坤王聞慧

1(戰(zhàn)略支援部隊信息工程大學(xué)洛陽校區(qū) 河南洛陽 471003)2(青島大學(xué)外語學(xué)院山東青島 266000)

0 引言

命名實體識別(Named Entity Recognition，NER)是自然語言處理的一項基礎(chǔ)性任務(wù)，可以為關(guān)系抽取(Relation Extraction)、機(jī)器翻譯(Machine Translation)、自動文摘(Automatic Summarization)等更復(fù)雜的自然語言處理任務(wù)提供支持。在軍事領(lǐng)域的信息處理中，軍事類命名實體的識別同樣起著基礎(chǔ)性的作用，武器裝備名就是非常重要的軍事類命名實體。

對于傳統(tǒng)統(tǒng)計模型而言，命名實體識別任務(wù)的完成需要相應(yīng)的特征輸入，從詞形、詞性、句法特征等一般語言學(xué)特征到由領(lǐng)域?qū)＜铱偨Y(jié)出來的領(lǐng)域特征，都在命名實體識別任務(wù)中發(fā)揮著重大作用。隨著深度學(xué)習(xí)的出現(xiàn)，機(jī)器可以自己從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)到抽象特征并在該抽象特征的支持下完成命名實體識別任務(wù)，進(jìn)而可以一定程度上擺脫專家特征(通用特征+領(lǐng)域特征)，其中應(yīng)用最廣泛的就是詞向量[1]。在深度學(xué)習(xí)框架下，研究者的主要研究內(nèi)容也轉(zhuǎn)到對深度學(xué)習(xí)模型本身的研究和應(yīng)用上來，而對專家特征的研究和應(yīng)用不再是提升模型識別效果的主要方法。為此，本文主要探討在深度學(xué)習(xí)框架下不同專家特征的有效性、必要性以及在模型中呈現(xiàn)出的不同特點。

本文以英文武器裝備名識別為任務(wù)，對比模型在加入多類型專家特征前后的表現(xiàn)，探索了專家特征在深度學(xué)習(xí)框架下的效果。通過設(shè)計多種指標(biāo)對多類型特征在語料中的分布進(jìn)行定量統(tǒng)計并在不同語料規(guī)模下進(jìn)行實驗，揭示了多類型專家特征在分布上的異同點并分析了這些異同點對模型識別效果的影響。

1 相關(guān)工作

在研究領(lǐng)域上，命名實體識別任務(wù)主要受到了如CoNLL(Conference on Computational Natural Language Learning)等評測會議的影響，這使得現(xiàn)有的命名實體識別研究主要集中在對人名、地名、組織機(jī)構(gòu)名、時間表達(dá)式等通用命名實體的識別上，缺乏對領(lǐng)域?qū)嶓w的識別研究。

在研究內(nèi)容上，命名實體識別方法經(jīng)歷了從早期的規(guī)則識別方法，到后來傳統(tǒng)的統(tǒng)計識別方法，再到近些年的深度學(xué)習(xí)方法的轉(zhuǎn)變，而對命名實體識別的效果也得到了逐步提升。文獻(xiàn)[2]采用自助取樣方法(Bootstrapping Method)，通過對統(tǒng)計模型識別出的時間表達(dá)式進(jìn)行迭代、拓展和篩選，在識別準(zhǔn)確率和召回率上都取得很大的提升；文獻(xiàn)[3]利用支持向量機(jī)(Support Vector Machine，SVM)來對命名實體進(jìn)行識別，該方法將詞向量融入模型，獲得了很好的效果；文獻(xiàn)[4]采用長短時記憶網(wǎng)絡(luò)(Bidirectional Long-Short-Term Memory，Bi-LSTM)與條件隨機(jī)場(Conditional Random Fields，CRF)的聯(lián)合模型對社交媒體上的命名實體進(jìn)行識別，該模型采用預(yù)訓(xùn)練的詞向量、基于字符的詞向量和句法特征向量作為模型輸入，有效克服了社交媒體信息噪音多、句子過短的不利因素；文獻(xiàn)[5]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，Parallel RNN)的概念，該方法通過將一個LSTM單元分成多個更小的LSTM單元，使得網(wǎng)絡(luò)由全連接網(wǎng)絡(luò)為局部連接網(wǎng)絡(luò)，從而減少整個神經(jīng)網(wǎng)絡(luò)架構(gòu)的參數(shù)數(shù)目并提升訓(xùn)練效率。實驗結(jié)果表明，該方法能夠在減少模型規(guī)模的基礎(chǔ)上達(dá)到與目前最好的模型相當(dāng)?shù)淖R別效果。中文命名實體研究方面，文獻(xiàn)[6]在中文上訓(xùn)練了基于字的詞向量，并與基于上下文的詞向量一起作為神經(jīng)網(wǎng)絡(luò)模型的輸入，得到了優(yōu)于SVM模型和CRF模型的識別效果。

綜合分析，目前命名實體識別任務(wù)的開展主要采用深度學(xué)習(xí)的方法，研究重點也集中在對模型本身架構(gòu)的優(yōu)化和參數(shù)的調(diào)整上，對專家特征(通用特征+領(lǐng)域特征)所能起到的作用不足。為此，本文將多類型特征加入到了模型當(dāng)中，通過對多類型專家特征在語料中的分布特點進(jìn)行定量統(tǒng)計，以分析不同類型的專家特征對模型識別效果的影響，從而論證專家特征在深度學(xué)習(xí)框架下的有效性和必要性并揭示影響專家特征對模型支持效率的關(guān)鍵因素。

2 Bi-LSTM+CRF模型

Bi-LSTM+CRF模型在2015年被正式提出后[7]，廣泛應(yīng)用于線性序列標(biāo)注任務(wù)中。Bi-LSTM+CRF模型整體上由輸入層，雙向LSTM層，輸出層和CRF層組成，模型的整體架構(gòu)如圖1所示。

圖1 模型整體框架

LSTM是RNN的一種變體，其在RNN模型的基礎(chǔ)上增加了記憶單元和門限機(jī)制，從而可以一定程度上避免梯度彌散和梯度爆炸問題，并在處理長序依賴問題上有著出色的表現(xiàn)。一個LSTM單元的架構(gòu)如圖2所示。Bi-LSTM模型則采用了正序與反序兩個方向的LSTM網(wǎng)絡(luò)，從而可以將正反兩個序列方向上的信息考慮進(jìn)來，更好地處理線性序列標(biāo)注問題。

通過在Bi-LSTM模塊之上增加CRF層來接受Bi-LSTM模型的輸出，可以彌補Bi-LSTM模型在線性序列標(biāo)注任務(wù)上沒有考慮輸出值之間轉(zhuǎn)移概率的缺陷，以此來提高模型在命名實體識別任務(wù)中的性能。

3 多類型專家特征及對比

專家特征可以分為通用特征和領(lǐng)域特征。其中通用特征是指在任何領(lǐng)域都存在的特征，如詞性、句法特征等普通語言學(xué)特征，領(lǐng)域特征則是指某一領(lǐng)域特有的特征，如英文武器裝備名的構(gòu)造特征就是一種領(lǐng)域特征，其只存在于英文武器裝備名這一領(lǐng)域?qū)嶓w當(dāng)中。

3.1 英文武器裝備名構(gòu)造特征與獲取

英文武器裝備名內(nèi)部構(gòu)成成分類型有限，具有很強(qiáng)的領(lǐng)域特征。雷樹杰等[8]在2019年對英文武器裝備名的內(nèi)部構(gòu)造模式和特征做了專門研究。根據(jù)其研究成果，英文武器裝備名可以用兩層體系來描述：第一層是對武器裝備名的總體性描述；第二層是對各總體性描述要素的具體劃分。第一層分類將武器裝備名分為型號(A)、別稱(N)、描述(P)和縮寫(R)四類。第二層分類將第一層分類中的型號(A)做進(jìn)一步區(qū)分，區(qū)分為系列E和具體型號V；第二層分類對第一層分類中的描述(P)也做了具體區(qū)分，如表1所示。

依據(jù)英文武器裝備名內(nèi)部構(gòu)成成分的分類體系，本文對來自維基百科詞條的6 402條英文武器裝備名的內(nèi)部構(gòu)成進(jìn)行人工特征標(biāo)注，并構(gòu)造了規(guī)模為8 714的武器裝備名領(lǐng)域特征集，部分內(nèi)容如表2所示。表中第一列是武器裝備名構(gòu)成成分，第二列是該成分所屬構(gòu)成類型。該特征集作為領(lǐng)域知識參與到對武器裝備名的識別當(dāng)中。

表2 領(lǐng)域特征集

3.2 詞性、句法特征與獲取

詞性是一個語言學(xué)術(shù)語，其以句法特征為主要依據(jù)、兼顧詞匯意義對一種自然語言中的詞進(jìn)行分類，詞性能夠一定程度上反映一個詞在句子中的句法作用和含義。由此可見，與英文武器裝備名的構(gòu)造特征不同，詞性是一種通用特征，在一種自然語言中任何領(lǐng)域的文本中都會出現(xiàn)。本文使用賓州樹庫的詞性標(biāo)注集作為模型使用的詞性特征集。

句法以句子為研究單位，分析句子的組成成分及它們之間的排列順序。不同流派對句法有著不同的看法，本文則選擇了依存句法作為模型用句法特征。依存句法由法國語言學(xué)家L.Tesniere提出，其指出了句子各個詞匯之間的依存關(guān)系，從而將一個句子分析為一棵依存句法樹。與詞性一樣，依存句法特征也是一種普通語言學(xué)特征，是一種通用特征，存在于一種自然語言的各個領(lǐng)域當(dāng)中。本文使用賓州樹庫的依存句法標(biāo)注體系作為模型使用的依存句法特征集。

命名實體在文本中一般屬于名詞性成分，這使得命名實體內(nèi)部組成成分的詞性與承擔(dān)的句法成分較為有限。從理論上分析，詞性與句法特征可以為武器裝備名識別提供幫助，這是本文選擇詞性與句法特征作為模型所用通用特征的依據(jù)所在。

本文通過斯坦福大學(xué)的斯坦福詞性標(biāo)注器來獲取語料中每一個詞所對應(yīng)的詞性，并通過斯坦福句法分析器[9]獲取語料中每個詞匯相對應(yīng)的依存句法特征。

3.3 特征向量獲取與使用

本文采取預(yù)訓(xùn)練的詞向量和特征向量作為神經(jīng)網(wǎng)絡(luò)模型的輸入，并使用Python的開源工具包Gensim對詞向量和特征向量進(jìn)行訓(xùn)練。

word2vec[1]是神經(jīng)概率語言模型(Neural Probabilistic Language Model)的一種實現(xiàn)，其中包含了CBOW與Skip-gram兩種模型。word2vec可以在構(gòu)建神經(jīng)概率語言模型的同時得到詞的嵌入式表示(Word Embedding)。其中，CBOW模型是通過上下文來預(yù)測當(dāng)前詞，而Skip-gram則是通過當(dāng)前詞來預(yù)測上下文。來斯惟[9]在2016年證明：當(dāng)用于訓(xùn)練詞向量的語料規(guī)模達(dá)到百兆級時，CBOW模型要好于Skip-gram模型。本文用于訓(xùn)練詞向量的語料來自于維基百科，其規(guī)模超過了600 MB，為此，采取CBOW模型來訓(xùn)練詞向量。

特征向量方面，本文共選取了詞性、句法信息和英文武器裝備名的構(gòu)造特征共三種類型的特征。其中詞性特征通過Stanford POS Tagger獲取，句法特征通過Stanford Parser[10]獲取，英文武器裝備名的構(gòu)造特征則通過本文前期構(gòu)造的英文武器裝備名構(gòu)造特征集獲取。通過將訓(xùn)練詞向量的維基百科語料轉(zhuǎn)化為相對應(yīng)的詞性語料、句法特征語料、英文武器裝備名構(gòu)造特征語料，并使用word2vec來進(jìn)行訓(xùn)練，本文得到了詞性特征向量，句法特征向量與領(lǐng)域特征向量。

通過將預(yù)訓(xùn)練的詞向量與特征向量首尾相連，形成聯(lián)合向量作為神經(jīng)網(wǎng)絡(luò)的輸入。本文的輸入層結(jié)構(gòu)如圖3所示。

圖3 模型的輸入層：詞向量+特征向量

4 實驗設(shè)計與結(jié)果分析

4.1 實驗語料與標(biāo)注集

本文收集了美國國防部網(wǎng)站2017年度110篇新聞報道與美國2018年武器裝備采購書中的部分文本共120篇語料作為待標(biāo)注語料，并對其中的武器裝備名進(jìn)行了人工標(biāo)注與校對。本文選取其中90篇作為訓(xùn)練語料，30篇作為測試語料。

本文采用了BIO標(biāo)注集。其中，“B-MILEQP”表示一個英文武器裝備名的起始部分，“I-MILIQP”表示英文武器裝備名的非起始部分，“O”表示非英文武器裝備名成分。只有將一個武器裝備名的各部分全部識別出且邊界界定正確才視為模型成功識別該武器裝備名。

4.2 評測標(biāo)準(zhǔn)

為了全面評價模型在對多類型特征利用方面的異同點，本文設(shè)計了六個評價指標(biāo)來評價模型的識別效果，如表3所示。

表3 評價指標(biāo)

其中：整體標(biāo)注的正確率Pw用來評價模型對整體文本的標(biāo)注情況；武器裝備名識別的準(zhǔn)確率Pm與召回率Rm用來評價模型對武器裝備名的識別情況；F值則用來綜合評價模型對武器裝備名的識別情況；為了排除模型對某一特定武器裝備名多次識別成功或失敗所造成的對總體評價指標(biāo)的影響，本文設(shè)置了武器裝備名type識別的召回率Rtype這一指標(biāo)，在這一指標(biāo)下，對同一武器裝備名的多次識別成功只計算一次；而未登錄詞識別的召回率Ruk則用來評價模型對未登錄詞的泛化能力。

4.3 實驗設(shè)計

為了驗證專家特征(通用特征+領(lǐng)域特征)在深度學(xué)習(xí)框架下的有效性和必要性，本文分別將詞性特征、依存句法特征與領(lǐng)域特征加入到了神經(jīng)網(wǎng)絡(luò)當(dāng)中，對在各特征支持下英文武器裝備名的識別效果進(jìn)行了實驗。

為了探究語料規(guī)模對不同專家特征的影響，本文將訓(xùn)練語料依次減為80篇、70篇、60篇，并在同一測試集上進(jìn)行測試，從而更好地揭示不同專家特征對Bi-LSTM+CRF模型產(chǎn)生不同支持作用的背后原因。

4.4 實驗結(jié)果

在90篇訓(xùn)練語料上，Bi-LSTM+CRF模型分別在詞性特征、依存句法特征與領(lǐng)域特征支持下的實驗結(jié)果如表4所示。

表4 多類型特征加入Bi-LSTM+CRF模型中的識別結(jié)果(90篇訓(xùn)練語料)

從表4可以看出，在加入領(lǐng)域特征向量后，模型對武器裝備名的識別效果得到了很大的提升，其中在整體標(biāo)注準(zhǔn)確率上提升了0.85%，對武器裝備名的識別準(zhǔn)確率提升了9.1%，召回率提升了9.57%，從而在對武器裝備名識別的F值上提升了9.5%。隨著領(lǐng)域特征的加入，對未登錄武器裝備名的識別提升了8.19%，這表明領(lǐng)域特征增強(qiáng)了模型的泛化能力，使得通過詞向量識別不出的未登錄武器裝備名在領(lǐng)域特征的幫助下成功地被識別了出來。這樣的例子有“P-8A”,“Bradley fighting vehicles”等。同時，模型的約束能力也得到增強(qiáng)，僅使用詞向量會錯誤識別為武器裝備名的一些非武器裝備名也在領(lǐng)域特征向量的幫助下沒有被錯誤識別出，如“stealthy”等。這表明，在深度學(xué)習(xí)框架下，領(lǐng)域特征的作用依然非常突出，其依然具有不可替代的作用。

在加入詞性特征向量后，與只使用詞向量相比，模型對武器裝備名的識別效果得到了提升，其中整體識別準(zhǔn)確率提升了0.23%，武器裝備名識別的F值提升了0.97%，對武器裝備名類型的召回率提升了0.6%，對未登錄武器裝備名識別的召回率提升了1.79%。這些數(shù)據(jù)表明，在加入詞性特征后，模型的泛化能力得到增強(qiáng)，詞性特征在深度學(xué)習(xí)框架下仍有其價值。

在加入句法特征向量后，相對于只使用詞向量，模型的識別效果產(chǎn)生了下降，其中在整體識別準(zhǔn)確率上下降了0.5%。武器裝備名識別準(zhǔn)確率與召回率都產(chǎn)生了下降，使得武器裝備名識別的F值下降了9.9%。而武器裝備名類型的召回率與未登錄武器裝備名召回率分別下降了7.24%與9.27%。這表明，在加入句法特征后，模型對武器裝備名的識別效果產(chǎn)生了下降。然而，考慮到詞性特征、領(lǐng)域特征對模型識別效果的提升作用，不能就此否認(rèn)專家特征或通用特征在深度學(xué)習(xí)框架下的有效性和必要性，而應(yīng)該從特征本身的層面去分析導(dǎo)致詞性與句法特征在深度學(xué)習(xí)框架下產(chǎn)生不同效果的原因，以更好地指導(dǎo)模型和特征的使用。

為了探究造成上述結(jié)果的原因，本文將訓(xùn)練語料規(guī)模依次減少為80篇、70篇、60篇。在不同語料規(guī)模下，Bi-LSTM+CRF模型在不同特征支持下的識別結(jié)果分別如表5、表6、表7所示。

表5 多類型特征加入Bi-LSTM+CRF模型中的識別結(jié)果(80篇訓(xùn)練語料)

表6 多類型特征加入Bi-LSTM+CRF模型中的識別結(jié)果(70篇訓(xùn)練語料)

表7 多類型特征加入Bi-LSTM+CRF模型中的識別結(jié)果(60篇訓(xùn)練語料)

對比表5、表6、表7可以看出，隨著語料規(guī)模的減少，模型在不同特征支持下的識別效果逐步下降，這顯示了語料規(guī)模在Bi-LSTM+CRF模型中的重要性。此外，有一個非常值得注意的現(xiàn)象是，隨著訓(xùn)練語料規(guī)模減少至80篇、70篇、60篇，以詞向量加詞性向量為輸入的模型的識別效果開始低于以詞向量為輸入的模型的識別效果。這意味著，隨著語料規(guī)模的下降，詞性特征開始干擾模型對武器裝備名的識別，這一點與表4中句法特征表現(xiàn)出的識別效果相一致。但詞性特征與句法特征表現(xiàn)出的對模型識別效果的反向作用在領(lǐng)域特征上沒有出現(xiàn)，隨著語料規(guī)模的減少，領(lǐng)域特征仍然表現(xiàn)出對模型識別效果的正向作用。

綜上所述，要使專家特征對模型的識別產(chǎn)生正向作用，單靠相應(yīng)的特征向量還不夠，特征向量需要與之相對應(yīng)的語料規(guī)模才能對模型產(chǎn)生正向作用。

4.5 特征分布與實驗結(jié)果分析

隨著語料規(guī)模的減少，在加入不同類型專家特征后，Bi-LSTM+CRF模型表現(xiàn)出了不同的識別效果，在訓(xùn)練語料、測試語料、預(yù)訓(xùn)練詞向量與所用模型都相同的情況下，這只能是特征本身造成的。對于機(jī)器而言，不同的特征只是符號形式上的不同，對模型真正造成影響的是隱藏在特征符號形式背后的特征分布特點。因此，本文對詞形、詞性、句法特征與武器裝備名領(lǐng)域特征在測試與訓(xùn)練語料中的分布進(jìn)行了統(tǒng)計，并以此為依據(jù)分析造成4.4中識別結(jié)果的原因。

4.5.1評價指標(biāo)

詞性、依存句法特征與英文武器裝備名的構(gòu)造特征是三種類型的特征，其在語料中的分布特點也各不相同，而這種分布上的不同很大程度上影響了該特征對模型的支持效果。為了定量地描述多類型特征分布上的不同，本文設(shè)計了四個評價指標(biāo)，如表8所示。

表8 特征分布評價指標(biāo)

表中，特征覆蓋率Cf用于描述特征在語料中的稠密程度；特征準(zhǔn)確率Pf與特征召回率Rf用于評價語料中特征的領(lǐng)域性，即特征對武器裝備名的判斷能力，其中特征準(zhǔn)確率Pf可以評價特征內(nèi)武器裝備名的集中程度，特征召回率Rf可以評價語料中武器裝備名內(nèi)特征的集中程度；特征F值Ff則用于綜合評價語料中武器裝備名與該特征類型的關(guān)聯(lián)程度，即該特征的領(lǐng)域性。

4.5.2統(tǒng)計結(jié)果與分析

本文對訓(xùn)練語料與測試語料中三種類型的專家特征的分布情況進(jìn)行了統(tǒng)計調(diào)查，統(tǒng)計結(jié)果如表9所示。

表9 不同類型特征在語料中分布情況統(tǒng)計

從表9中可以看出，在特征覆蓋率Cf這一指標(biāo)上，詞性特征與句法特征的特征覆蓋率都為100%，而英文武器裝備名構(gòu)造特征的特征覆蓋率只有29.78%。這顯示領(lǐng)域特征在文本中的分布較為稀疏，并不是所有詞匯都有其對應(yīng)的領(lǐng)域特征，這是領(lǐng)域特征與通用特征的重要區(qū)別點。從特征分布的稠密程度上可以解釋領(lǐng)域特征對模型的提升效果要強(qiáng)于通用特征的現(xiàn)象，其分布更為稀疏，特征性更為明顯。

在特征準(zhǔn)確率Pf與特征召回率Rf兩個指標(biāo)上，詞性特征與句法特征的表現(xiàn)一致，都表現(xiàn)為在特征召回率Rf上達(dá)到了100%，即所有武器裝備名都擁有相應(yīng)的通用特征，而在特征準(zhǔn)確率Pf上的指標(biāo)卻很低，只有6.52%，即在擁有該特征的所有詞匯中，武器裝備名的占比很低，這是由于通用特征在語料中的全分布所導(dǎo)致的。而英文武器裝備名構(gòu)造特征在這兩個指標(biāo)上顯示出不同于詞性、句法特征的特點，其在特征召回率Rf上達(dá)到了93.32%，這表明，絕大部分武器裝備名都擁有相應(yīng)的領(lǐng)域特征，在特征準(zhǔn)確率Pf上的指標(biāo)也較高，達(dá)到了20.44%，即在擁有英文武器裝備名構(gòu)造特征的詞匯中，有20.44%的詞匯屬于武器裝備名稱。綜合兩個指標(biāo)，從特征F值Ff上看，英文武器裝備名構(gòu)造特征要高出詞性與句法特征21.29%。從上述統(tǒng)計指標(biāo)上看，相對于通用特征，英文武器裝備名構(gòu)造特征的領(lǐng)域性要強(qiáng)很多，其與武器裝備名這個領(lǐng)域?qū)嶓w的關(guān)聯(lián)程度也要較通用特征高很多，具體表現(xiàn)為有相應(yīng)領(lǐng)域特征的武器裝備名占比高，而在有相應(yīng)領(lǐng)域特征的詞匯內(nèi)，武器裝備名占比高。從這三個指標(biāo)上也可以解釋領(lǐng)域特征對模型的支持作用要高于通用特征的現(xiàn)象。

從特征類別覆蓋率Ct來看，詞性特征為54.84%，即54.84%的詞性類別在英文武器裝備名中出現(xiàn)過；句法特征為61.30%，即61.30%的句法特征類別在英文武器裝備名中出現(xiàn)過。而作為通用特征，有更多比例的句法特征類別在武器裝備名中出現(xiàn)，這表明句法特征比詞性特征在武器裝備名中的分布更為分散。

此外，特征的不同也反映在不同特征與詞形之間的具體組合類型數(shù)目上。對于神經(jīng)網(wǎng)絡(luò)而言，不同特征與詞形之間的具體組合類型數(shù)目決定了模型輸入向量的種類數(shù)。從模型的角度講，模型輸入向量的種類數(shù)越多，模型就需要越多的語料來進(jìn)行模型的參數(shù)訓(xùn)練。在模型輸入向量種類數(shù)增多，而語料規(guī)模不變的情況下，模型就有可能出現(xiàn)欠擬合現(xiàn)象。本文在不同特征組合下，具體組合類型的數(shù)目如表10所示。

表10 不同特征組合的具體組合類型數(shù)目

可以看出，在詞形特征與句法特征組合下，具體組合類型數(shù)目比詞形特征多出了87.86%；在詞形特征與詞性特征組合下，具體組合類型數(shù)目比詞形特征多出了26.27%；而在詞形特征與領(lǐng)域特征組合下，具體組合類型數(shù)目相較于詞形特征保持不變。這一方面反映了句法特征比詞性特征在語料中的分布更為分散，另一方面也可以驗證4.4中的實驗結(jié)果。

本文實驗是在小規(guī)模語料庫下進(jìn)行的，因此對于句法特征而言，隨著句法特征向量的加入，模型輸入向量的種類數(shù)也提升了87.86%，因此也需要更多的語料來進(jìn)行模型訓(xùn)練。受限于語料規(guī)模，在詞向量加句法特征向量的支持下，Bi-LSTM+CRF模型不能很好地收斂，從而使得句法特征向量產(chǎn)生了干擾模型識別效果的現(xiàn)象。對于詞性特征而言，隨著詞性特征的加入，模型輸入向量的種類增加了26.27%。由表4可知，在90篇語料上，詞性向量顯示出了對模型識別效果的正向作用，但隨著語料規(guī)模減少到80篇、70篇、60篇，詞向量加詞性向量的識別效果開始低于詞向量的識別效果，詞性向量對武器裝備名的識別產(chǎn)生反向作用。這是由于語料規(guī)模減少造成詞向量與詞性向量組成的聯(lián)合向量種類數(shù)的相對增加，從而使得Bi-LSTM+CRF模型不能很好的收斂，產(chǎn)生了干擾識別的情況。由于句法特征造成模型輸入向量種類的增加要遠(yuǎn)遠(yuǎn)大于詞性，因此句法特征對模型產(chǎn)生正向作用所需要的語料規(guī)模也要遠(yuǎn)遠(yuǎn)大于詞性特征。除此之外，造成句法特征向量對模型產(chǎn)生干擾的另一個重要原因是，目前句法分析的準(zhǔn)確率相對于詞性標(biāo)注而言要低很多，句法特征沒有得到正確分析也是造成即使在90篇語料下，句法特征對模型依然產(chǎn)生反向作用的重要原因。

不同于詞性特征與句法特征，本文的領(lǐng)域特征對模型輸入向量的種類數(shù)目沒有產(chǎn)生影響，因此即使語料規(guī)模在不斷減少，由于領(lǐng)域特征向量給模型帶來了詞向量不包含的新信息，模型的識別效果依然得到了提升。

5 結(jié) 語

本文以英文武器裝備名識別為任務(wù)，使用Bi-LSTM+CRF模型，在深度學(xué)習(xí)框架下對詞性、句法特征與英文武器裝備名構(gòu)造特征對模型的有效性和必要性進(jìn)行了實證研究。通過定量統(tǒng)計上述專家特征在語料中的分布并在不同語料規(guī)模下進(jìn)行實驗，比較了不同專家特征在語料中分布的異同點以及討論分析了這些異同點對深度學(xué)習(xí)框架下模型識別效果的影響。通過實驗，本文總結(jié)了幾點結(jié)論：(1) 在深度學(xué)習(xí)框架下，普通語言學(xué)特征與領(lǐng)域特征對提升模型識別效果有正向作用，其有存在的必要性與有效性。(2) 對于特定領(lǐng)域的任務(wù)而言，在深度學(xué)習(xí)框架下，領(lǐng)域特征對模型的提升作用強(qiáng)于普通語言學(xué)特征，領(lǐng)域特征研究仍然必不可少。(3) 詞性特征、句法特征與領(lǐng)域特征在語料中有著不同的分布特點，不同的分布特點決定了其對模型的作用效果不同。領(lǐng)域特征由于其分布上的集中性，對模型提升作用最大，而句法特征與詞性特征的分布則較為分散，且這兩種特征對模型產(chǎn)生正向作用對語料規(guī)模有要求。句法特征對語料規(guī)模的要求要高于詞性特征。

本文不僅有助于研究者更好地了解深度學(xué)習(xí)模型，而且對不同特征在深度學(xué)習(xí)框架下對模型支持效果的不同特點進(jìn)行了探索。此外，本文還可以為研究者如何根據(jù)任務(wù)的不同來評價特征與選擇特征提供參考，具有很強(qiáng)的實踐意義。