999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Bi-LSTM-CRF的商業領域命名實體識別

2020-03-05 09:47:53丁晟春方振王楠
現代情報 2020年3期
關鍵詞:深度學習

丁晟春 方振 王楠

摘?要:[目的/意義]為解決目前網絡公開平臺的多源異構的企業數據的散亂、無序、碎片化問題,提出Bi-LSTM-CRF深度學習模型進行商業領域中的命名實體識別工作。[方法/過程]該方法包括對企業全稱實體、企業簡稱實體與人名實體3類命名實體識別。[結果/結論]實驗結果顯示對企業全稱實體、企業簡稱實體與人名實體3類命名實體識別的識別率平均F值為90.85%,驗證了所提方法的有效性,證明了本研究有效地改善了商業領域中的命名實體識別效率。

關鍵詞:商業領域;命名實體識別;深度學習;Bi-LSTM-CRF

DOI:10.3969/j.issn.1008-0821.2020.03.010

〔中圖分類號〕TP391?〔文獻標識碼〕A?〔文章編號〕1008-0821(2020)03-0103-08

Abstract:[Purpose/Significance]In order to solve the problem of scattered,disordered and fragmented multi-source heterogeneous enterprise data of the current network open platform,the Bi-LSTM-CRF deep learning model was proposed for the named entities recognition in the business field.[Method/Process]This method included three kinds of named entities:enterprise full name entity,enterprise short name entity and personal name entity.[Result/Conclusion]The experimental results showed that the average F value of the recognition rate of the three types of named entities,namely enterprise full entity,enterprise abbreviation entity and person name entity,was 90.85%,which verified the effectiveness of the proposed method.It was proved that this study effectively improved the efficiency of named entity recognition in the commercial field.

Key words:business domain;named entity recognition;deep learning;Bi-LSTM-CRF

隨著國民經濟的穩定發展,中國正步入改革開放的關鍵時期,經濟全球化的發展和國家政策的支持正給國內企業發展帶來新的機遇與挑戰。企業信息作為企業決定自身發展、企業間合作及政府監管的一項重要依據,對推動經濟社會的發展有著重大影響。基于企業產生的大量數據,具有重要的研究價值和實踐意義[1]。

然而,大數據時代的到來引發的“信息爆炸”使得人在輕松獲取大量信息的同時,也帶來了信息來源繁雜、數據散亂無序、質量真偽難辨等諸多問題,這些問題使得全面了解一個企業變得困難。用戶所需的企業相關知識通常是穩定和行業通用的,但這些知識往往以圖形、文檔等不同形式存在,存儲地點零散,分布平臺廣泛,查找費時費力又難以保證準確性。這樣的信息難以獲取更加難以讓用戶進行閱讀和理解,因此深入關聯地挖掘企業各種信息之間潛在的關系,挖掘互聯網上實時的財經公告和新聞信息等非結構化文本信息,對相關信息進行識別整合,有助于改善用戶的閱讀體驗和效率。

在此前提下,本研究以商業領域信息為研究對象,針對命名實體識別任務提出Bi-LSTM-CRF命名實體識別算法,幫助用戶挖掘和組織商業領域的信息。

1?相關工作

實體識別,就是指從文本中識別出有意義的命名性實體,并將其劃分到指定類別的過程,主要包括人名、地名、機構名、專有名詞的識別等。實體識別最早在上世紀90年代的MUC任務中被提出,自此一直是信息抽取和自然語言處理領域研究的熱點課題[2]。

早期的命名實體識別(Named Entity Recognition,NER)主要使用基于規則的方法,通過分析實體的構成特點和上下文特征,人工構造有限的特定規則,再從文本中識別滿足這些規則的實體。如Ralph G N[3]針對不同類型的實體編寫不同的抽取規則,周昆等[4-5]構建了命名實體識別的規則庫。此類方法中規則的制定編寫通常需要眾多領域專家來參與,對語言參與者的知識水平的要求很高,難度大,可移植性低。

到20世紀90年代后期,基于統計的方法開始成為處理命名實體識別問題的主流。HMM[6-7]、ME[8]、CRF[9]和SVM[10]等常見的統計機器學習模型都被成功應用于命名實體的序列標注問題上,且取得了較好的結果。其中,條件隨機場(CRF)方法是最為常見的一類模型,它是Lafferty J D等在2001年提出的一種典型的判別式模型(Discirminative Model)[11],既擁有判別式模型的優點,又兼具生成式模型考慮生成標簽的轉移特征的特性,因此在命名實體識別任務中得到了廣泛地研究與應用。

近年來,基于深度學習的方法能夠從數據中自主的學習特征,而不需要人為的去設定特征,成為研究的熱點,也有越來越多的學者把深度學習模型應用到命名實體的識別之中。如王國昱[12]基于棧式自編碼的深度神經網絡模型(DNN),在人民日報語料集上的地名、機構名的識別,Dong X等[13]基于卷積神經網絡(CNN)模型,提出一種兩階段的電子病歷的命名實體識別方法,朱丹浩等[14]基于詞向量的雙向長短時記憶神經網絡模型(BI-LSTM)等。

綜上所述,本文在分析了商業領域企業名稱、人物名稱的構成特點之后,將結合LSTM[15]模型和CRF模型進行商業領域企業名、人名的命名實體識別研究。

2?商業領域實體識別

實體信息除了可以在各種相應的網站的結構化或半結構化的數據之中抽取,例如政府監管機構公布的企業信息,企業公布的年報等等,還有更多豐富的信息蘊藏在大量的、動態的財經資訊、商業公告這類非結構化數據之中。

2.1?模型框架

本文提出一種綜合多特征的Bi-LSTM-CRF深度學習模型進行商業領域中企業全稱、企業簡稱與人名的命名實體識別工作,模型整體架構如圖1所示。該模型為基于字符的序列標注模型,主要可分為3部分:輸入特征層、Bi-LSTM中間層、CRF輸出層。首先將文本分割成一個一個字,每個字使用拼接的特征向量表示,作為模型的輸入;中間層使用包含前向和后向兩個方向的LSTM神經網絡層對輸入的文本序列建模;最后采用CRF層作為模型的輸出層生成對應的類別標簽序列。

1)Input:Input為模型的輸入特征層。將訓練集文本看成是字的聚合,每個字在模型的輸入由字向量(Char Embedding)和額外的特征向量(Additional Features)聯結而成。其中字向量為Word2Vec訓練出的詞向量,額外的特征向量為不同特征組合(分詞特征、詞性特征及實體邊界特征)下拼接形成的特征向量。

2)Bi-LSTM:利用雙向的具有LSTM單元的循環神經網絡對輸入序列信息進行特征提取,最終將兩個方向的LSTM結果進行聯結,輸入到CRF層。

3)CRF Layer:CRF作為模型的輸出層,生成文本的序列標注結果。

其中,在Input和Bi-LSTM層之間,還使用了一個Dropout參數進行正則化。Dropout通過在前向計算過程使一定比例的單元隨機失活來防止隱藏單元的共同調整,使得網絡對于噪聲更具魯棒性。

2.2?輸入特征層

首先,在對語料進行分詞后,使用分布式表示將每個詞映射到一個較短的詞向量上,解決One-hot向量維度過大的問題。同時考慮到傳統模型輸入只考慮字級別的詞向量,可能會丟失詞語層面的語義信息,因此本文在此基礎上,從百科網站、企業黃頁、搜狗詞庫等語料庫中搜集大量相關語料信息,研究分析商業領域中企業名稱、人名的構成特點,得到了商業領域中關于企業名稱、人名獨特的分詞特征、詞性特征和實體邊界特征,定義了額外的特征向量作為模型的輸入補充,以提高模型識別的效果。

2.3?Bi-LSTM-CRF層

本文采用雙向長短時記憶神經網絡和條件隨機場相結合(Bi-LSTM-CRF)的方法,構建神經網絡模型進行3類實體的識別。該方法相較于傳統的機器學習的優勢在于,神經網絡可以自行學習數據的特征,無需人工構建復雜的特征工程,可以獲得不錯的效果。由于神經網絡具備自主學習特征的特性,使得我們可以將多個不同類別的命名實體任務結合到一個模型中,將不同類型的命名實體識別任務轉化為有監督的多類別的序列標注問題,提升識別任務的工作效率。

2.3.1?LSTM

LSTM(Long Short-Term Memory,長短期記憶網絡),是近年來較為火熱用來進行命名實體識別的深度學習模型。LSTM是RNN(Recurrent Neural Network,循環神經網絡)的基礎上改進而來的一個模型,本質是具備長短時記憶單元的循環神經網絡,其緩解了傳統RNN訓練時產生的梯度消失問題,且能建模詞之間的長期依賴關系,被廣泛地應用于文本序列建模任務中。LSTM計算過程如圖2所示。

LSTM計算過程包括以下步驟:

1)遺忘門的計算。選擇需要丟棄的信息。其

2.3.2?BI-LSTM

單向的LSTM神經網絡模型,只能獲取句子的上文信息,對于句子的下文信息無法獲取。為了彌補這一不足,本文采用雙向長短時期神經網絡(BI-LSTM)模型。BI-LSTM神經網絡模型,分別從前向和后向對句子進行分析,這樣既能保存前面的上下文信息,也能同時考慮到句子未來的上下文信息,使其在命名實體識別任務中可以取得更好的效果。

2.3.3?條件隨機場

LSTM模型,對于每個輸入詞而言,其輸出是獨立的,無法學習到輸出標簽之間的轉移特征,而CRF能夠很好地解決這個問題。

在BI-LSTM-CRF模型中,首先定義了句子X輸出標簽序列y的分值s(X,y)的計算公式[16]:

3?實驗設置與結果分析

3.1?數據采集及預處理

1)數據集來源

本文數據集主要來源于財經網站。目前,國內較有影響力的財經網站有東方財富網、財經網、和訊網、新浪財經、網易財經等,如表1所示,通過對比百度搜索指數提供的多個網站的整體搜索指數和移動搜索指數,本文最終選擇關注度最高、最受用戶歡迎的東方財富網作為本文的實驗信息來源。具體數據采集方式為人工編寫相應的爬蟲框架,通過分析網頁數據的分布特征,針對性地采集東方財富網上的財經公告板塊。

按照既定的規則模板爬取頁面上的數據信息時,由于模板的覆蓋面終究有限,解析出的文本內容往往存在一些“雜質”,如一些HTML標簽〈br〉、〈em〉,無法識別的特殊字符,多余的空白占位符等,這些都會對后續的信息抽取產生不良影響。針對這些殘留的HTML標簽和特殊字符,本文統一借助正則表達式實現相應的過濾和替換操作,以獲取高質量、無雜質的網頁文本數據集。

2)數據集

本實驗數據來源于爬取的東方財富網財經公告數據。其中,人工標注了1 200篇文本數據作為實驗的數據集,如表2所示,涉及企業全稱實體2 985個,企業簡稱實體3 095個,人名實體1 139個,合計實體7 219個。處理完的數據集格式部分如圖5所示,采用BIO標注模式,文本中的每一個字及相應的標注即為一行,其中ORG表示企業全稱實體,ABR_ORG表示企業簡稱實體,PERSON表示人名實體,O表示非實體。即在該圖中,“長沙海格”表示一個企業簡稱實體,“易燦”、“徐建軍”分別表示一個人名實體,“湖南高新創業投資集團有限公司”表示一個企業全稱實體。最終將數據集按7/3的比例劃分訓練集和測試集,進行命名實體模型的訓練。

3.2?實驗設計

為了尋找模型的最佳參數配置,本文進行了參數搜索試驗。搜索過程中,將詞向量的維度定在[50,100,150]之間,每層LSTM的單元數定在[64,128]之間,Dropout定在[0.4,0.5,0.6]之間。最終定下模型最佳的訓練參數設置如表3所示,即:字向量維度為100,分詞特征、詞性特征、邊界特征向量維度為20,每層LSTM維度為128,Dropout值為0.5,Batch Size大小為20,學習率為0.001,優化算法為Adam。

為了驗證文本提出的Bi-LSTM-CRF神經網絡模型和添加的特征組合的有效性,在該部分設計了兩類任務:1)比較傳統CRF模型和Bi-LSTM-CRF神經網絡模型在本文命名實體識別任務中的實體識別效果。2)探究在Bi-LSTM-CRF神經網絡模型下,針對3類實體識別效果最好的輸入特征組合。

最終定義了10個模型進行對比:

模型1:只考慮輸入單詞本身特征的CRF模型。

模型2:考慮輸入單詞本身及詞性特征以及上下文單詞及詞性特征的CRF模型。

模型3:只考慮字向量輸入的Bi-LSTM-CRF模型。

模型4:考慮字向量、分詞特征的Bi-LSTM-CRF神經網絡模型。

模型5:考慮字向量、詞性特征的Bi-LSTM-CRF神經網絡模型。

模型6:考慮字向量、實體邊界特征的Bi-LSTM-CRF神經網絡模型。

模型7:考慮字向量、分詞特征、詞性特征的Bi-LSTM-CRF神經網絡模型。

模型8:考慮字向量、分詞特征、實體邊界特征的Bi-LSTM-CRF神經網絡模型。

模型9:考慮字向量、實體邊界特征、詞性特征的Bi-LSTM-CRF神經網絡模型。

模型10:考慮字向量、分詞特征、詞性特征、實體邊界特征的Bi-LSTM-CRF神經網絡模型。

具體實驗中,為方便書寫,將分詞特征簡寫為Word,詞性特征簡寫為Pos,邊界特征簡寫為Boundary。

3.3?任務一實驗結果分析

任務一的實驗結果如表4所示,從中可以發現:

1)對比模型1與模型3,在僅考慮字向量輸入的情況下,模型3的命名實體識別F值達到了87.82%,明顯高于模型1的F值82.89%,且在企業全稱實體、企業簡稱實體、綜合識別效果上都達到了最佳,而人名實體識別比模型1略低但差距不大。綜合來看,Bi-LSTM-CRF神經網絡模型的實體識別效果明顯優于傳統的CRF模型。

2)對比模型2與模型3,模型2為考慮了詞本身單詞特征、詞本身詞性特征、上下文詞特征、上下文詞性特征等多種特征組合的CRF模型,其實體識別的F值為85.66%,比模型1的F值高2.77%,但仍比模型3的F值低2.16%。這表明考慮特征組合的CRF模型的實體識別效果與傳統CRF模型相比有明顯提升,但仍低于無特征的Bi-LSTM-CRF模型的識別效果。

3.4?任務二實驗結果分析

任務二的實驗結果如表5所示,從中可以看出:

1)無論是分詞特征、詞性特征還是實體邊界特征,都有助于模型識別效果的提升,尤其是詞性特征,添加后模型整體F值比基準模型高出了2個百分點。

2)實體邊界特征的添加對企業全稱的識別有顯著的提升,企業全稱的識別F值直接從89.77%上升到了93.27%。詞性特征的添加對企業簡稱的識別F值有小幅度的提升,從86.05%提升到了87.60%。分詞特征和詞性特征的組合添加對人名識別有著顯著的提升,人名識別的F值從87.52%上升到了92.17%。這說明本文結合實體自身的特點,提出的額外特征是有效的,這些特征在不同程度上都提高了命名實體的識別質量。

3)最好的模型是綜合考慮3種特征組合的模型,即模型10,其在企業全稱識別的F值上達到了93.95%,企業簡稱識別的F值上達到了87.09%,人名識別的F值達到了93.62%,綜合F值達到90.85%,超出基準模型3個百分點,超出傳統CRF模型8個百分點。這再一次驗證了本文提出的特征的有效性,綜合使用這3種特征能顯著提升神經網絡模型對于企業全稱、企業簡稱及人名命名實體的識別效果。

以上模型中企業簡稱的識別率相對較低,提升幅度也最小,究其原因可能是:企業簡稱構詞復雜、形式多變,神經網絡難以捕捉到其特征;模型訓練依賴于標注語料,可能存在人工標注的部分錯誤和遺漏,導致模型識別出的簡稱被判斷錯誤;且標注語料中,企業簡稱的標注數量也相對較少,導致模型訓練不充分;另外人工添加的特征中,詞性特征和詞典特征對企業簡稱的覆蓋也較少,實體邊界特征更是只考慮人名和企業全稱的構成規則,沒有考慮企業簡稱的自身特點,因此額外添加的特征對企業簡稱的識別提升較小。但總體來說,采用添加分詞特征、詞性特征和實體邊界特征的Bi-LSTM-CRF神經網絡模型對企業全稱和人名的識別率都在93%之上,3類實體的識別率在90%之上,這對于在商業領域的文本中抽取相關實體是非常有助益的。

4?總結及展望

本文從商業領域中企業名稱、人名的構成特點考慮,提出一種綜合分詞特征、詞性特征和實體邊界特征的Bi-LSTM-CRF深度學習模型,實現對商業領域中3類實體的命名實體識別工作,實驗驗證了本文提出方法的有效性。在未來的研究中,還將考慮企業間實體的開放性抽取,并對抽取的實體關系進行聚類研究,進一步探索使用更為復雜的神經網絡模型來實現商業領域的命名實體識別。

參考文獻

[1]田娟,朱定局,楊文翰.基于大數據平臺的企業畫像研究綜述[J].計算機科學,2018,45(S2):58-62.

[2]孫鎮,王惠臨.命名實體識別研究進展綜述[J].現代圖書情報技術,2010,(6):42-47.

[3]Ralph G N.The NYU System for MUC-6 or Wheres the Syntax?[C]//Message Understanding Conference,1995.

[4]周昆.基于規則的命名實體識別研究[D].合肥:合肥工業大學,2010.

[5]鄭家恒,李鑫,譚紅葉.語料庫的中文姓名識別方法研究[J].中文信息學報,2000,(1):7-12.

[6]Bikel D M,Miller S,Schwartz R,et al.Nymble:A High-performance Learning Name-finder[C]//Conference on Applied Natural Language Processing,1997.

[7]Bikel D M,Schwartz R,Weischedel R M.An Algorithm that Learns Whats in a Name[J].Machine Learning,1999,34(1-3):211-231.

[8]Borthwick A E.A Maximum Entropy Approach to Named Entity Recognition[M].New York University,1999.

[9]Mccallum A,Li W.Early Results for Named Entity Recognition with Conditional Random Fields,Feature Induction and Web-Enhanced Lexicons[C]//Conference on Natural Language Learning at Hlt-naacl.Association for Computational Linguistics,2003.

[10]Isozaki H,Kazawa H.Efficient Support Vector Classifiers for Named Entity Recognition[C]//International Conference on Computational Linguistics,2002.

[11]Lafferty J D,Mccallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[J].Proceedings of Icml,2001,3(2):282-289.

[12]王國昱.基于深度學習的中文命名實體識別研究[D].北京:北京工業大學,2015.

[13]Dong X,Qian L,Guan Y,et al.A Multiclass Classification Method Based on Deep Learning for Named Entity Recognition in Electronic Medical Records[C]//Scientific Data Summit.IEEE,2016.

[14]朱丹浩,楊蕾,王東波.基于深度學習的中文機構名識別研究——一種漢字級別的循環神經網絡方法[J].現代圖書情報技術,2016,(12):36-43.

[15]Hochreiter S,Schmidhuber J.Long Short-term Memory[J].Neural Computation,1997,9(8):1735-1780.

[16]李明浩,劉忠,姚遠哲.基于LSTM-CRF的中醫醫案癥狀術語識別[J].計算機應用,2018,38(S2):42-46.

(責任編輯:孫國雷)

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 久久semm亚洲国产| 国产91精品调教在线播放| 亚洲综合第一区| 欧美成人A视频| 久久青草精品一区二区三区 | 99精品免费欧美成人小视频| 蜜芽国产尤物av尤物在线看| 亚洲美女视频一区| 亚洲欧美另类久久久精品播放的| 9966国产精品视频| 国产成人凹凸视频在线| 久久伊人操| 亚洲一区二区在线无码| 国产精品yjizz视频网一二区| 人妻丝袜无码视频| 日韩激情成人| 精品视频第一页| 欧美成人二区| 天天干伊人| 18禁高潮出水呻吟娇喘蜜芽| 尤物午夜福利视频| 精品国产www| 亚洲精品在线观看91| 中国精品自拍| 97成人在线观看| 免费观看成人久久网免费观看| 亚洲精品第一页不卡| 精品無碼一區在線觀看 | 国产精品视频免费网站| 欧美高清日韩| 在线综合亚洲欧美网站| 亚洲电影天堂在线国语对白| 午夜福利网址| 午夜福利视频一区| 久久九九热视频| 91九色最新地址| 亚洲不卡网| 97成人在线视频| 精品少妇人妻无码久久| 东京热av无码电影一区二区| 午夜日本永久乱码免费播放片| 国产亚洲精品va在线| 国产精品xxx| 欧美日韩一区二区在线免费观看 | 麻豆精品在线播放| 亚洲综合18p| 精品久久久久久久久久久| 曰AV在线无码| a亚洲视频| 全部免费毛片免费播放| 亚洲无码精品在线播放| 国产www网站| 高清免费毛片| 成人午夜精品一级毛片| 国产精品亚欧美一区二区| 人妻夜夜爽天天爽| 国产在线97| 婷婷99视频精品全部在线观看| 性欧美久久| 一本大道在线一本久道| 亚洲无码视频喷水| 免费观看成人久久网免费观看| 狠狠色噜噜狠狠狠狠奇米777| 一本色道久久88| 久久久久青草线综合超碰| 久久精品只有这里有| 中文字幕亚洲综久久2021| 亚洲日本在线免费观看| 色亚洲激情综合精品无码视频 | 亚洲最大综合网| 日韩av在线直播| 欧美亚洲国产精品久久蜜芽| 日韩小视频在线播放| 欧美在线观看不卡| 九九精品在线观看| av天堂最新版在线| 精品夜恋影院亚洲欧洲| 激情综合网激情综合| 欧美中出一区二区| 天天躁夜夜躁狠狠躁躁88| 亚洲日韩图片专区第1页| 国内精品久久九九国产精品|