999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的簡歷信息實體抽取方法

2018-12-22 07:40:56勝,李偉,張
計算機工程與設(shè)計 2018年12期
關(guān)鍵詞:信息方法模型

黃 勝,李 偉,張 劍

(1.重慶郵電大學(xué) 光通信與網(wǎng)絡(luò)重點實驗室,重慶 400065;2.北京大學(xué)深圳研究院,廣東 深圳 518057)

0 引 言

簡歷是生活中常見的文本,按結(jié)構(gòu)通常可以劃分為結(jié)構(gòu)化文本、半結(jié)構(gòu)化文本、非結(jié)構(gòu)化文本。為了從財經(jīng)人物中挖掘關(guān)聯(lián)信息以便于監(jiān)管機構(gòu)維護市場,其中非常重要的一環(huán)就是從非結(jié)構(gòu)化的簡介文本中抽取相應(yīng)的信息實體,對其進行結(jié)構(gòu)化處理并建立人物信息數(shù)據(jù)庫,此外企業(yè)的人力資源部門同樣也需要對簡歷信息實體進行抽取。現(xiàn)有的信息實體抽取方法主要是通過規(guī)則匹配并結(jié)合相關(guān)的語言學(xué)特征定制模板來抽取,然而該方法泛化能力差,開發(fā)維護困難,難以應(yīng)對大數(shù)據(jù)量且格式自由的非結(jié)構(gòu)化自然語言文本。

為解決主要依賴于規(guī)則模板方法的弊端,首先可以將待解析文本處理待標(biāo)注詞序列,通過序列標(biāo)注算法為待解析的信息實體標(biāo)記上相應(yīng)的標(biāo)簽,再通過匹配標(biāo)簽進行解析。在深度學(xué)習(xí)還沒有滲透到各個應(yīng)用領(lǐng)域之前,傳統(tǒng)的最常用的序列標(biāo)注算法是基于條件隨機場(conditional random fields,CRF)[1]模型。CRF作為一種概率圖模型雖然其求解的是全局最優(yōu)序列,但其需要依賴于人工定制的特征抽取模板。深度學(xué)習(xí)則不同,其可以自主的學(xué)習(xí)到序列中的特征信息,特別是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[1]已經(jīng)顯示出其在混雜的文本數(shù)據(jù)中的信息識別能力,但其求解的是局部最優(yōu)解,并未將標(biāo)簽之間的約束信息引入。

基于以上的論述,本文提出基于長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)[2]與CRF聯(lián)合模型的簡歷信息實體解析方法。該方法首先通過Word2Vec[3]訓(xùn)練得到詞向量表對輸入的詞序列進行初始化,然后再由雙向LSTM層融合待標(biāo)注詞所處的語境信息,輸出所有可能標(biāo)簽序列的分值到CRF層,最后由其引入前后標(biāo)簽之間的約束求解最優(yōu)標(biāo)簽序列,并輔以Dropout[4]方法防止過擬合。

1 簡歷信息抽取

為構(gòu)建人物信息數(shù)據(jù)庫需要從人物簡介信息中抽取簡歷信息實體(姓名、性別、現(xiàn)任職位、曾任公司等)。該簡介是非結(jié)構(gòu)化的自然語言文本,如下段為簡歷示例。

北京遠特科技股份有限公司,陳**,男,1973年10月出生,中國國籍,無境外永久居留權(quán),研究生學(xué)歷。1997年至2000年,負責(zé)福耀玻璃集團的生產(chǎn)調(diào)度和戰(zhàn)略規(guī)劃工作;2000年至2003年在美國俄克拉荷馬大學(xué)就讀;2003年至2007年任美國CBK控股公司營銷副總;2007年至今在華瑞集團工作,現(xiàn)任華瑞集團副董事長;2014年4月至今任遠特科技董事長。

簡歷信息實體的標(biāo)注相較于其它序列標(biāo)注問題有很大的不同與挑戰(zhàn)。首先是簡介信息文本往往涉及多領(lǐng)域,多行業(yè),存在很多行業(yè)專有名詞與表述,而且人物簡介信息方面的訓(xùn)練語料也很少。該簡介的抽取的另外一個更大的挑戰(zhàn)就是需要對長序列依賴建模,有時一個人物可以在同一時間段內(nèi)在多家公司任職,而且在同一個公司也可以有多個職位頭銜,而為了區(qū)分相應(yīng)的現(xiàn)任與曾任相關(guān)標(biāo)簽,就需要考慮到整篇簡歷的信息。圖1展示的是利用序列標(biāo)注方法抽取簡歷信息的整體流程。

圖1 簡歷信息實體抽取流程

在圖1中,信息實體的標(biāo)注這一環(huán)節(jié)無疑是最為重要的,在以往的處理方式中,對于中文來說,一般是在分詞的過程中引入相關(guān)的實體標(biāo)記信息,但是一般分詞工具自帶的實體標(biāo)記功能是通用化的,所含有的標(biāo)記信息也比較的少。此前已有研究將深度學(xué)習(xí)應(yīng)用于自然語言處理中,比如Yao等[5]將循環(huán)神經(jīng)網(wǎng)絡(luò)與條件隨機場混合的循環(huán)條件隨機場(recurrent conditional random field,RCRF)模型應(yīng)用于語言理解;Chiu等[6]聯(lián)合長短期記憶網(wǎng)絡(luò)LSTM與卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于命名實體識別;而Ma和Hovy等[7]則在LSTM和CNN聯(lián)合的基礎(chǔ)上又嵌套了CRF,用于英文的詞性標(biāo)注問題;Jagannatha等[8]將RNN應(yīng)用于醫(yī)療文本的序列標(biāo)注問題中。為此提出深度學(xué)習(xí)方法應(yīng)用于簡歷信息文本的抽取中,將混合LSTM網(wǎng)絡(luò)和CRF概率圖模型的序列標(biāo)注模型應(yīng)用于簡歷信息實體的標(biāo)簽標(biāo)注環(huán)節(jié)。

在該混合模型中由LSTM神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)信息序列的特征,輸出相應(yīng)的備選標(biāo)簽概率給輸出層,利用CRF層代替LSTM神經(jīng)網(wǎng)絡(luò)的Softmax輸出層,將鄰近標(biāo)簽之間的約束引入最后的標(biāo)簽預(yù)測,從而為每個詞產(chǎn)生最終的預(yù)測標(biāo)簽,最后定制相應(yīng)的標(biāo)簽匹配規(guī)則將信息實體抽取出來。

2 模型及優(yōu)化

2.1 LSTM

利用多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù),已經(jīng)在包括自動語音處理到圖像處理中有強大的影響力,特別是近年RNN和CNN已經(jīng)被應(yīng)用到語音識別[9]、語言理解、機器翻譯、語言模型、人臉識別等任務(wù)中。長短期記憶網(wǎng)絡(luò)是一種特殊類型的RNN,通常也被簡稱為LSTM,與傳統(tǒng)RNN相比較,比如Elman-RNN和Jordan-RNN[1],LSTM已經(jīng)在序列數(shù)據(jù)上展示出更好的長距離依賴處理能力,其在本質(zhì)上和RNN沒有什么區(qū)別,唯一的不同之處在于LSTM用了一個具有線性激活功能的記憶單元(memory cell)去存儲歷史信息。這在一定的程度上避免了由于線性記憶單元在任意時間內(nèi)保留未縮放的激活和誤差導(dǎo)數(shù)而造成的梯度爆炸和梯度消失問題。圖2是一個LSTM記憶單元。

圖2 LSTM cell結(jié)構(gòu)

該LSTM記憶單元由式(1)實現(xiàn)

(1)

其中,σ是邏輯Sigmoid函數(shù),i、f、o還有C分別是輸入門(input gate)、遺忘門(forget gate)、輸出門(output gate)和記憶單元向量(cell vectors),這些向量的維度都與隱藏層向量h的維度是一致。Wi、Wf、Wo分別表示連接輸入門、遺忘門、輸出門的權(quán)重矩陣。

雖然LSTM能更好的處理長距離依賴問題,但是LSTM相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)也更加的復(fù)雜,相應(yīng)的權(quán)重參數(shù)也更多,其模型的訓(xùn)練將會消耗更多的時間和空間以及計算資源,同時也需要更多的訓(xùn)練數(shù)據(jù)支撐訓(xùn)練。盡管該模型在一些比較簡單的序列標(biāo)注問題上取得了比較良好的效果,但是當(dāng)輸出的標(biāo)簽之間存在很強的依賴關(guān)系時,其獨立的分類決策就有限制了。本文的簡歷信息實體的標(biāo)注解析就屬于這一類具有強標(biāo)簽依賴的,例如標(biāo)簽B-org.company后面不能直接就是標(biāo)簽I-gsp.company或者I-per.name,像這種情況就不能只根據(jù)待標(biāo)注序列的上下文信息孤立的判別標(biāo)簽,為此還應(yīng)該將整個序列中標(biāo)簽與標(biāo)簽之間的約束關(guān)系引入。

2.2 CRF(Baseline)

為了在預(yù)測當(dāng)前標(biāo)簽中利用到臨近標(biāo)簽信息有兩種不同的方法,第一種是像最大熵分類器(maximum entropy classifier)和最大熵馬爾科夫模型(maximum entropy markov model,MEMM)這樣的通過預(yù)測每個時間步長的標(biāo)簽分布,再使用相應(yīng)的解碼來尋找最優(yōu)標(biāo)簽序列;第二種就是像條件隨機場(CRF)這種是在整個句子層級的建模,求解全局最優(yōu)解。CRF和隱馬爾科夫模型(hidden markov model,HMM)作為在自然語言處理領(lǐng)域具有豐富應(yīng)用歷史的概率圖模型,其經(jīng)常被應(yīng)用在分詞,詞性標(biāo)記等任務(wù)中。尤其是CRF,其是一個非常簡單而又非常有效的概率圖模型,不同于HMM對P(x,y)聯(lián)合建模,CRF模型對后驗概率P(y|x)直接建模。已有研究結(jié)果表明,CRF模型通常有著更高的標(biāo)注精度,在深度學(xué)習(xí)沒有廣泛的滲透到各個應(yīng)用領(lǐng)域之前,其基本是最主流的方法。

2.3 BLSTM-CRF

根據(jù)以上的分析。提出將聯(lián)合了雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(bidirectional LSTM,BLSTM)與條件隨機場(CRF)的序列標(biāo)注模型應(yīng)用于簡歷信息實體中的標(biāo)注,該步驟是簡歷信息實體抽取的關(guān)鍵步驟。

在BLSTM-CRF聯(lián)合模型中,BLSTM不是直接的輸出備選標(biāo)簽,而是將待標(biāo)記對象與各標(biāo)簽序列對應(yīng)的分值輸出給CRF層,由CRF層引入標(biāo)簽之間的約束對標(biāo)簽序列進行綜合選取,與Ling等[10]中提出的模型類似。這個分值是與每個標(biāo)記對象被標(biāo)記的標(biāo)簽相對應(yīng)。該分值由BLSTM計算得到的包含待標(biāo)注詞上下文信息的詞向量的點乘得到。該結(jié)構(gòu)如圖3所示。為說明這個混合模型,下面將舉例。

圖3 BLSTM混合CRF序列標(biāo)注模型

(1)假定一條輸入詞序列為

X=(x1,x2,…,xn)

(2)

在實際的神經(jīng)網(wǎng)絡(luò)輸入中,其中xi指的是其對應(yīng)的d維詞向量,該向量可隨機初始化也可利用訓(xùn)練好的詞向量表初始化。

(2)再由BLSTM層中的前向LSTM將詞xi及其上文信息計算表征為向量li,同理后向LSTM將反向讀取該詞序列,且將詞xi及其下文信息計算表征為ri,然后再將ri和li兩個向量再連接為向量ci,ci= [ri;li]。其中前向LSTM和后向LSTM具有不同的網(wǎng)絡(luò)參數(shù)。該種方法有效的將詞以及其上下文信息用向量表征出來,已被應(yīng)用到多種自然語言處理任務(wù)。

(3)定義BLSTM層的輸出分值,假定整個網(wǎng)絡(luò)的輸出目標(biāo)序列(即所對應(yīng)的標(biāo)簽序列)為

y=(y1,y2,…,yn)

(3)

則分值由以下公式確定

(4)

其中,A是過渡分值矩陣,Ai,j表示的是從標(biāo)簽i過渡到標(biāo)簽j的分值。而其中的P代表的是大小為n×k,雙向LSTM的輸出分值矩陣,其中k與目標(biāo)標(biāo)簽分類數(shù)相同,Pi,j代表的是單詞i被神經(jīng)網(wǎng)絡(luò)標(biāo)注為j標(biāo)簽的分值。y0和yn是這個句子所對應(yīng)的起始和結(jié)束標(biāo)簽,因此A是維度為k+2的方陣。

在所有的標(biāo)簽序列上Softmax生成目標(biāo)序列y的概率為

(5)

在訓(xùn)練過程中,最大化正確標(biāo)簽序列的對數(shù)概率

(6)

其中,YX代表序列X對應(yīng)的所有可能的標(biāo)簽序列,從上面的表述可以看出訓(xùn)練網(wǎng)絡(luò)是為了盡量的輸出有效的標(biāo)簽序列。在解碼的時候,通過由以下公式

(7)

給出的最大分值用于預(yù)測最合適的標(biāo)簽序列。可以用動態(tài)規(guī)劃的方法計算方程(6)中的求和以及方程(7)中的最大后驗序列y*,因為是對輸出之間的相互作用進行建模[11]。

從前面的敘述中,可以得出該模型的參數(shù)分別是分?jǐn)?shù)矩陣A,以及雙向LSTM的參數(shù),即生成矩陣P的參數(shù),CRF層線性特征的權(quán)重和詞向量。其中xi表示的是輸入序列X中每個詞所對應(yīng)的詞向量表示,而其中的yi則是與每個詞所對應(yīng)的標(biāo)注標(biāo)簽相關(guān)聯(lián)的。使用之前所描述的CRF來引入相鄰標(biāo)簽之間的約束,代替此層使用的Softmax輸出層,從而得到每個詞所對應(yīng)的最終預(yù)測標(biāo)簽。模型訓(xùn)練最終目標(biāo)使得正確標(biāo)簽的所對應(yīng)的分值最大,為此對網(wǎng)絡(luò)進行以訓(xùn)練調(diào)整權(quán)重使得似然方程(6)所對應(yīng)的標(biāo)簽概率最大化。

2.4 預(yù)訓(xùn)練詞向量

在未利用預(yù)訓(xùn)練向量初始化向量查詢表時,將隨機初始化向量表,然后在后續(xù)訓(xùn)練中調(diào)整參數(shù)的同時,得到相應(yīng)的詞向量表。但是在標(biāo)記訓(xùn)練數(shù)據(jù)資源比較少的情況下,采用隨機初始化的向量表,容易收斂到局部最優(yōu)解,或者很難收斂。詞的向量化表示為每個詞提供了連續(xù)空間的表征,這些詞向量一般是利用大規(guī)模的語料庫,可以在包含從淺層神經(jīng)網(wǎng)絡(luò)到卷積神經(jīng)網(wǎng)絡(luò)再到循環(huán)神經(jīng)網(wǎng)絡(luò)等多種模型上訓(xùn)練生成。

為了訓(xùn)練詞向量,首先是需要相應(yīng)的訓(xùn)練語料庫,不同的語料庫訓(xùn)練出來的詞向量效果是不一樣的,為此在本文的實驗中選取了中文維基百科(Cnwiki)的語料庫和搜狗(Sogou)新聞的語料作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗分別得到兩個語料915 MB和1.70 GB的正文數(shù)據(jù)。其次就是訓(xùn)練工具的選擇,主流的有Google在2013年開源的Word2Vec以及斯坦福大學(xué)開源的GloVe。Word2vec可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進行高效的訓(xùn)練,其訓(xùn)練得到的詞向量,可以很好地度量詞與詞之間的相似性,且其簡單高效。Word2Vec主要包含兩個算法模型,即連續(xù)詞袋模型(continuous bag-of-words,CBOW)和Skip-gram[3]。CBOW利用詞語的上下文來預(yù)測詞語,而Skip-gram利用詞語來預(yù)測其上下文。

在本文的實驗中將利用Gensim工具包中的Word2Vec,在中文維基百科語料庫和搜狗新聞?wù)Z料庫上以Skip-gram模型分別得到565 MB和390 MB的100維詞向量,其中前者包含619 275個詞的向量,后者含425 957個詞的向量。

2.5 Dropout

深層神經(jīng)網(wǎng)絡(luò)包含多個非線性隱藏層,這使得它們成為非常具有表現(xiàn)力的模型,可以學(xué)習(xí)到輸入與輸出之間非常復(fù)雜的關(guān)系。然而,使用有限的訓(xùn)練數(shù)據(jù),這些復(fù)雜關(guān)系中許多都是采樣噪聲的結(jié)果,它們存在于訓(xùn)練集中但是并沒有出現(xiàn)在實際的測試集中,這樣將導(dǎo)致過擬合問題,使得訓(xùn)練出來的模型泛化能力降低。在本文的實驗中,將根據(jù)Hinton等[5]提出的Dropout訓(xùn)練方法,即在訓(xùn)練過程中隨機的使得雙向LSTM輸入之前的一些權(quán)重不更新(但依舊是連接的),這樣可以防止過擬合。

3 實驗與分析

3.1 數(shù)據(jù)集

本文所使用的數(shù)據(jù)集是從多家上市公司的公開招股書PDF中獲取的1000條非結(jié)構(gòu)化的高管簡介信息文本,共包含76780個待標(biāo)注項,其中一條為一個人的簡介信息,每條包含150~400個漢字。并根據(jù)嚴(yán)格制定的標(biāo)注規(guī)范由多人對其進行標(biāo)注,避免由于人主觀性差異帶來的影響。其中標(biāo)注規(guī)范中的13個基本標(biāo)簽見表1,加入IOB信息后則有27個標(biāo)簽。其中B表示的標(biāo)簽的開頭,I表示的是實體標(biāo)簽非開頭信息,比如“北京大學(xué)”對應(yīng)的標(biāo)簽分別為B-org.school、I-org.school。O指的是其它,即代表非所要抽取的其它信息實體。數(shù)據(jù)集按8∶1∶1的比例分割為訓(xùn)練集、開發(fā)集、測試集。

3.2 評價指標(biāo)

本文采用準(zhǔn)確率(Precision)、召回率(Recall)、F1-Score3種評價指標(biāo),其值越高表示標(biāo)注識別的效果越好,除此以外記錄F1-score隨著訓(xùn)練Epoch次數(shù)的變化曲線

(8)

其中,為了保證實驗結(jié)果的公平客觀,實驗結(jié)果采取10折交叉驗證。將數(shù)據(jù)集分成10等份,輪流將其中的1份作為測試集,其余9份作為訓(xùn)練數(shù)據(jù),并在訓(xùn)練數(shù)據(jù)中拿出1份作為驗證集,用于訓(xùn)練中的模型評估以及Early Stopping,Early Stopping可以防止過擬合和節(jié)省模型訓(xùn)練時間。

3.3 實驗步驟

本文方法的實驗基本流程如下:

(1)數(shù)據(jù)預(yù)處理:對數(shù)據(jù)集進行清洗,根據(jù)相應(yīng)的xml標(biāo)簽信息將其數(shù)據(jù)集中的處理標(biāo)注對象與其對應(yīng)的標(biāo)簽寫入兩個二維List(Python數(shù)據(jù)類型)中,兩條List的第一維索引對應(yīng)的簡歷的數(shù)字ID,第二維分別對應(yīng)簡歷對象內(nèi)容和對應(yīng)的標(biāo)簽信息,然后使用分詞工具對第一個含有簡歷信息內(nèi)容的List進行分詞,并引入IOB信息。

(2)模型訓(xùn)練:對于上述的神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型,以反向傳播(BP)算法來訓(xùn)練網(wǎng)絡(luò),用隨機梯度下降(SGD)算法在每個訓(xùn)練樣本時調(diào)整權(quán)重參數(shù),其中學(xué)習(xí)率的變動區(qū)間為0.001到0.06,學(xué)習(xí)率的選取對結(jié)果有重要的影響,如果學(xué)習(xí)率過大就會導(dǎo)致局部直線化嚴(yán)重,就會丟失很多的細節(jié)信息如果學(xué)習(xí)率過小為了盡量的擬合曲線,就需要更多的樣本,學(xué)習(xí)訓(xùn)練的時間會更長,也容易造成過擬合。在實驗過程中,通過多組實驗的對比后,學(xué)習(xí)率設(shè)置為0.01為宜。

表1 標(biāo)注標(biāo)簽以及相關(guān)說明

在本文的BLSTM與CRF混合模型中前向和后向LSTM的維度都設(shè)置為100,對其進行微調(diào)并實驗對比發(fā)現(xiàn)隱藏層維度對性能并沒有明顯的影響。詞向量表征的維度大小選取與語料庫的大小相關(guān),如果維度過大將會導(dǎo)致訓(xùn)練的時間加長,復(fù)雜度增加;維度過小將不能完全表征詞豐富的語義信息,為此綜合多方面考慮以及小組實驗的對比,默認設(shè)定詞向量維度為100。Dropout參數(shù)rate設(shè)定為0.5,參數(shù)設(shè)定過小將會導(dǎo)致更長的訓(xùn)練時間,而且也防止過擬合的效果也會降低;然而參數(shù)設(shè)定過高將會導(dǎo)致非線性擬合不夠,降低性能,影響標(biāo)注效果。

表3中Dr是指Dropout,Pre(S)指使用Sogou語料訓(xùn)練的詞向量表,Pre(W)指使用Cnwiki語料訓(xùn)練的詞向量表。

實驗結(jié)果表明,聯(lián)合了神經(jīng)網(wǎng)絡(luò)和條件隨機場模型的簡歷信息實體抽取方法要明顯的優(yōu)于傳統(tǒng)的簡歷抽取方法。首先單純從表2的實驗結(jié)果來看,其實傳統(tǒng)RNN,比如Elman-RNN、Jordan-RNN并不見得在標(biāo)注效果上要優(yōu)于基于CRF的標(biāo)注方法,因為CRF求解的是全局最優(yōu)解,而RNN實質(zhì)上求解的是局部最優(yōu)解,RNN相對于CRF的優(yōu)勢在于無需人工定制的特征模板,而是由神經(jīng)網(wǎng)絡(luò)自動的學(xué)習(xí)序列內(nèi)在的特征。而其中LSTM和BLSTM的標(biāo)注效果要好于RNN,這是由于LSTM在一定程度上緩解了序列的長距離依賴問題,特別是對于簡歷信息元抽取,需要一次性對整篇的簡歷文本進行標(biāo)注識別,但是BLSTM的效果仍比CRF差一些。但是BLSTM與CRF聯(lián)合方法要明顯優(yōu)于兩者單獨作為標(biāo)注模型的方法。

表2 各模型實驗結(jié)果對比

從表3和圖4中可以看出,在該聯(lián)合模型中添加相關(guān)優(yōu)化方法Dropout和預(yù)訓(xùn)練向量,由表2和表3的數(shù)據(jù)對比可以看出,加入Dropout方法后F1值提升了近2%,原因在于LSTM由于其網(wǎng)絡(luò)的復(fù)雜性增加,權(quán)重參數(shù)也更多,表征能力也更強,也更加容易出現(xiàn)過擬合,Dropout的防過擬合效果明顯。在表3的數(shù)據(jù)中可以看出在加入Sogou語料庫訓(xùn)練的預(yù)向量之后,標(biāo)注的效果反而比隨機初始化向量的效果變差了,由于搜狗新聞?wù)Z料庫更加的偏重于新聞類的表述,使得訓(xùn)練的向量帶有傾向性,進一步的導(dǎo)致梯度下降時的路徑并非最優(yōu)路徑。對于中文維基百科語料訓(xùn)練所得向量的加入提升也比較明顯。從圖4中的曲線可以看出,預(yù)訓(xùn)練向量的加入可以使得訓(xùn)練的提前達到收斂,曲線更加平滑,混合的簡歷標(biāo)注抽取模型在訓(xùn)練了大概20 Epoch就可得到最優(yōu)模型參數(shù),極大降低了模型訓(xùn)練的時間,而且本文提出的方法也比以往的模型方法得到的標(biāo)注性能F1值提升了近8%的絕對百分比。表4中展現(xiàn)的是利用BLSTM-CRF模型結(jié)合了中文維基預(yù)訓(xùn)練向量初始化以及Dropout方法的各標(biāo)簽標(biāo)注性能及占比。

表3 模型優(yōu)化方法對比

圖4 各方法F1值與隨Epoch次數(shù)的變化曲線

標(biāo)簽PrecisionRecallF1-score占有比pers.name99.48%96.95%98.2011.69%pers.male96.88%96.88%96.883.90%pers.female100.00%100.00%100.001.77%pers.birth100.00%98.80%99.395.00%pers.country100.00%100.00%100.004.75%pers.edu91.03%92.21%91.614.75%pers.school71.05%84.38%77.142.31%org.time82.89%95.45%88.734.63%org.company90.30%97.72%93.8614.43%org.pos87.01%95.65%91.1210.78%gsp.time93.06%88.74%90.858.77%gsp.company82.25%81.90%82.0714.07%gsp.pos85.66%82.61%84.1014.86%

4 結(jié)束語

本文提出了一種簡歷信息實體標(biāo)注抽取的方法,該方法利用深度學(xué)習(xí)強大的特征學(xué)習(xí)能力,特別是LSTM的序列建模能力,由機器自動的獲取詞序列的特征,并以融合了詞所在語境信息的向量來表征詞,且由CRF層引入標(biāo)簽之間的約束作全局最優(yōu)標(biāo)簽預(yù)測,并輔以預(yù)訓(xùn)練詞向量初始化詞向量表。實驗結(jié)果表明,該方法相較于傳統(tǒng)的簡歷實體抽取方法,不僅在標(biāo)注性能上得到整體的提升,而且可有效避免人工定制特征抽取規(guī)則的麻煩、降低實際開發(fā)的難度與成本。在當(dāng)前的大數(shù)據(jù)環(huán)境下,將該方法與云計算平臺相結(jié)合并引入基于深層神經(jīng)網(wǎng)絡(luò)的分詞技術(shù),研究出能夠高速處理大數(shù)據(jù)量多領(lǐng)域文本的端到端系統(tǒng),是下一步的研究方向。

猜你喜歡
信息方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久久久久久蜜桃| 波多野结衣亚洲一区| 孕妇高潮太爽了在线观看免费| 性色一区| 无码精品国产dvd在线观看9久| 精品国产黑色丝袜高跟鞋| 亚洲最猛黑人xxxx黑人猛交| 国产亚洲视频免费播放| 亚洲国产精品一区二区高清无码久久| 色综合狠狠操| 91久久天天躁狠狠躁夜夜| 18禁高潮出水呻吟娇喘蜜芽| 极品国产在线| 亚洲精品视频免费看| 香蕉网久久| 亚洲第一成网站| 欧美a在线看| 99伊人精品| 国产成人综合网| 一级看片免费视频| 国产一区二区三区在线精品专区| 中文字幕无码制服中字| 伊人久久久久久久久久| 亚洲男人在线| 午夜性爽视频男人的天堂| 免费国产无遮挡又黄又爽| 日韩a在线观看免费观看| www.亚洲天堂| 日韩欧美中文在线| 五月婷婷精品| 欧美在线视频不卡第一页| 国产91精品最新在线播放| 婷婷午夜影院| 国产高清在线观看91精品| 69综合网| 国产精品私拍在线爆乳| 欧美区一区| 经典三级久久| 在线网站18禁| 99久视频| 欧美成人综合视频| 日韩成人午夜| 91精品日韩人妻无码久久| 午夜激情福利视频| 蜜桃臀无码内射一区二区三区| 亚洲人成影视在线观看| 最新精品久久精品| 久久久受www免费人成| 亚洲青涩在线| 亚洲日韩久久综合中文字幕| 免费激情网址| 91丝袜在线观看| 第一页亚洲| 亚洲婷婷丁香| 999国产精品永久免费视频精品久久| 国产最爽的乱婬视频国语对白| 自拍亚洲欧美精品| 巨熟乳波霸若妻中文观看免费 | 亚洲午夜综合网| 国产美女在线免费观看| 国产精品林美惠子在线播放| 青青草国产在线视频| 99久久精品免费视频| 在线视频亚洲欧美| 欧美亚洲一二三区| 91成人在线观看| 亚洲品质国产精品无码| 99激情网| 欧美yw精品日本国产精品| 国产亚洲成AⅤ人片在线观看| 国产白丝av| 亚洲日本韩在线观看| 亚洲国产精品不卡在线| 国产男女免费完整版视频| 天堂网亚洲综合在线| 亚洲视频一区| 国产va在线| 亚洲三级视频在线观看| 亚洲精品日产AⅤ| 毛片网站免费在线观看| 综合网久久| 国产精品永久在线|