999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的命名實體識別研究綜述

2024-09-14 00:00:00張繼元錢育蓉冷洪勇侯樹祥陳嘉穎
現代電子技術 2024年6期
關鍵詞:深度學習

摘 要: 命名實體識別是自然語言處理領域的一項關鍵任務,其目的在于從自然語言文本中識別出具有特定含義的實體,如人名、地名、機構名和專有名詞等。在命名實體識別任務中,研究人員提出過多種方法,包括基于知識和有監督的機器學習方法。近年來,隨著互聯網文本數據規模的快速擴大和深度學習技術的快速發展,深度學習模型已成為命名實體識別的研究熱點,并在該領域取得顯著進展。文中全面回顧現有的命名實體識別深度學習技術,主要分為四類:基于卷積神經網絡模型、基于循環神經網絡模型、基于Transformer模型和基于圖神經網絡模型的命名實體識別。此外,對深度學習的命名實體識別架構進行了介紹。最后,探討命名實體識別所面臨的挑戰以及未來可能的研究方向,以期推動命名實體識別領域的進一步發展。

關鍵詞: 命名實體識別; 深度學習; 自然語言處理; 卷積神經網絡; 循環神經網絡; Transformer; 圖神經網絡

中圖分類號: TN919?34 " " " " " " " " " " " " " " "文獻標識碼: A " " " " " " " " " " 文章編號: 1004?373X(2024)06?0032?11

Survey of named entity recognition research based on deep learning

ZHANG Jiyuan1, 2, 3, QIAN Yurong1, 2, 3, LENG Hongyong2, 3, 5, HOU Shuxiang2, 3, 4, CHEN Jiaying1, 2, 3

(1. School of Software, Xinjiang University, Urumqi 830000, China;

2. Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China;

3. Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830000, China;

4. School of Information science and Engineering, Xinjiang University, Urumqi 830000, China;

5. School of computer science, Beijing Institute of Technology, Beijing 100081, China)

Abstract: Named entity recognition is a crucial task in the field of Natural Language Processing, which aims to identify entities with specific meanings from natural language texts, such as person names, place names, institution names, and proper nouns. In the task of named entity recognition, researchers have proposed various methods, including those based on domain knowledge and supervised machine learning approaches. In recent years, with the rapid expansion ofinternet text data and the rapid development of deep learning techniques, deep learning models have become aresearch hotspot in named entity recognition and have made significant progress in this field. A comprehensive review of existing deep learning techniques for named entity recognition is provided, categorizing them into four main categories: models based on convolutional neural networks (CNN), recurrent neural networks (RNN), Transformer models, and graph neural networks (GNN) for NER. An overview of deep learning architectures for named entity recognition is presented. The challenges faced by named entity recognition and potential research directions in the future are explored to promote further development in the field of named entity recognition.

Keywords: named entity recognition; deep learning; natural language processing; convolutional neural networks; recurrent neural network; Transformer; graph neural network

0 "引 "言

自然語言處理(Natural Language Processing, NLP)是計算機科學和人工智能領域的重要研究方向,主要研究人與計算機之間用自然語言進行有效交流的理論和方法。信息提?。↖nformation Extraction, IE)是NLP的一個重要子領域,通常涉及命名實體的提取、命名實體之間的關系以及實體所涉及的事件等方面的處理。其中,命名實體識別(Named Entity Recognition, NER)是IE的子任務之一,它將自然語言文本中的專有名稱劃分為個人、地點、組織名稱等。NER任務的準確性對進一步的IE任務,如關系和事件的提取[1],有著重要影響。此外,在各種NLP應用中,如文本理解[2?3]、信息檢索[4?5]、自動文本摘要[6]、問答[7]、機器翻譯[8]和知識庫構建[9]等方面,NER也發揮著重要作用。

命名實體(Name Entity, NE)最初是在1995年的第六屆消息理解會議(MUC)上提出的,主要指文本中具有特定名稱的單詞或短語。它通常包括三大類(實體類、時間類和數字類)和七個子類(人名、地名、機構名、時間、日期、貨幣和百分比)[10]。NER旨在識別文本中的專有名詞,并將其正確分類。自MUC 6會議以來,NER已成為NLP領域的研究熱點。許多科學事件,如CoNLL03[11]、ACE[12]、IREX[13]和TREC實體軌道[14],都對NER進行了深入研究。NER實例圖如圖1所示。

目前,NER任務主要分為三類方法:基于規則和字典的方法、基于統計學習的方法和基于深度學習的方法。在早期的NER任務中,通常使用基于規則和字典的方法。這些方法依賴于手動開發的基于實體特征分析的規則、詞典、正字特征和本體,而無需標注數據。規則模板依賴于知識庫和字典的建立,是一個簡單而有效的處理文本中眾多實體的方法。例如,1991年Rau在IEEE人工智能應用大會上發表一篇關于“提取和識別公司名稱”的論文,主要使用啟發式算法和手動規則編寫[15]。1997年,張小衡和王玲玲使用基于規則的方法來識別中國的大學名稱[16],準確率和召回率分別為97.3%和96.9%。另外,D. Farmakiotou等人在2000年提出一種基于規則的希臘金融文本命名實體識別方法[17],而香港理工大學的王寧等人在2002年使用基于規則的方法實現有效的名稱識別[18]。然而,基于規則和字典的方法通常依賴于特定的語言、領域和知識庫,這限制了它們的適用性,并且維護成本很高。因此,近年來,這些方法逐漸被基于統計學習的方法所取代。

基于統計學習的方法主要包括有監督和無監督的學習方法。近年來,基于特征的有監督學習方法逐漸成為NER任務的主流方法。這種方法將NER任務視為多類分類問題,并使用特定的特征集來提取與實體相關的特征。這些特征用于訓練機器學習模型,例如隱馬爾可夫模型和支持向量機等。

這些方法通常需要大量標記數據來訓練模型,但在一些特定任務和領域中,它們已經取得相當不錯的性能。例如,D. M. Bikel等人提出一種基于手工特征工程的監督式命名實體識別系統,對名稱、時間表達式、日期和數值表達式進行分類[19]。然而,傳統的基于機器學習的實體提取方法存在嚴重問題,即嚴重依賴專家的特征工程,模型的泛化能力較差。

基于無監督學習的實體識別方法通常采用聚類或利用實體與術語之間的相似性對語料庫中的詞匯特征進行統計分析,來實現實體識別。例如,D. Nadeau等人提出一種基于無監督學習的NER系統,采用簡單的啟發式方法對給定文本中的實體進行分類[20]。然而,由于無監督學習方法的模型訓練依賴于數據本身,因此需要使用數量更大、質量更高的數據來提高模型性能。同時,由于缺乏領域專業知識,其實體識別準確率也難以保證。近年來,隨著互聯網文本數據的快速增長和深度學習技術的進步,出現大量基于深度神經網絡的命名實體識別方法。這些方法無需依賴專家特征工程,采用端到端的方式就可以直接從原始輸入中學習特征表示,能更好地提高識別準確率和效率。

近年來,基于深度神經網絡的方法不僅在自然語言處理領域取得顯著進展,而且在計算機視覺(Computer Vision, CV)、圖像處理等領域也獲得重要成果。在NER任務中,基于深度神經網絡的方法具有顯著優勢。深度神經網絡往往具備多層神經網絡,經過在訓練集上的訓練,能更好地從原始輸入數據中提取復雜特征,最后利用非線性激活函數來實現預測任務。

例如,R. Collobert等人提出一種基于卷積神經網絡的NER方法[21];而Huang等人則提出一種基于雙向長短時記憶網絡的序列標注方法[22]。這些方法基于深度神經網絡強大的特征提取能力,獲得更高的識別準確率??傮w而言,基于深度學習的NER方法為解決實際應用中的復雜問題提供了一種有效的途徑,并且在實踐中已經得到廣泛應用與認可。

1 "常用命名實體識別數據集和評價指標

1.1 "數據集

自1996年Grishman和Sundheim首次提出NER任務以來,已經為命名實體識別創建了許多共享任務和數據集。例如,CoNLL 2002(Tjong Kim Sang,2002)和CoNLL 2003(Tjong?Kim Sang和De Meulder)是根據西班牙語、荷蘭語、英語和德語的新聞通信文章創建的,CoNLL重點關注4個實體——個人PER、地點LOC、組織ORG和其他MISC。本文總結出目前廣泛使用的中英文NER數據集,如表1所示。

表1總結一些廣泛使用的數據集,并列出它們的數據源以及實體類型(也稱為標簽類型)的數量。如表1所示,在2005年之前,數據集主要是通過對新聞文章標注少量的實體類型來構造的,適用于粗粒度的NER任務。后來,基于各種文本源開發更多的數據集,包括維基百科的文章、對話和用戶生成的文本(如推特、YouTube評論和W?NUT中的StackExchange帖子)。標簽類型的數量也在明顯增加,例如NCBIDisase中就有790個標簽。而像OntoNotes的目標是注釋大量不同文本類型的語料庫,包括網絡日志、新聞文章、脫口秀、廣播、Usenet新聞組和對話式電話語音,其中包含語法和謂詞論證結構等結構信息,以及本體和共指等淺層語義信息。從1.0~5.0版本,OntoNotes目前擁有18類命名實體。此外,本文還列出一些特定領域的數據集,比如在PubMed和MEDLINE文本上開發的數據集。

1.2 "評價指標

NER系統的評估通常與人工注釋進行比較,以確定系統是否能正確地標記文本中的實體。這種比較可以通過兩種方式來量化,即寬松匹配和精確匹配。

在寬松匹配中,它允許系統標記的實體與人工注釋的實體在一定程度上不完全匹配,但仍然可以被視為正確。具體來說,寬松匹配可以分為部分匹配和類型匹配兩種方式。部分匹配是指系統標記的實體與人工注釋的實體在部分單詞上匹配;類型匹配是指系統標記的實體類型與人工注釋的實體類型匹配,但實體的具體單詞可能不同。在實際的評測中,往往是以精確匹配為主。在精確匹配評估中,系統需要同時正確識別實體的邊界和類型,否則將被視為錯誤。具體而言,系統的輸出與標注數據進行比較,以計算誤判(False Positive, FP)、漏判(False Negative, FN)和正確判定(True Positive, TP)實例的數量,從而計算精確度、召回率和F1分數等評價指標。

[Precision=TPTP+FP] (1)

[Recall=TPTP+FN] (2)

[F1=2Precision·RecallPrecision+Recall] (3)

式中:精確度(Precision)指的是系統正確標記的實體數量與系統總標記數量之比;召回率(Recall)指的是系統正確標記的實體數量與標注中所有實體數量之比;F1分數是精確度和召回率的加權平均數,它是評估NER系統性能最常用的指標之一。

此外,宏觀平均F1分數(Macro?F1)和微觀平均F1分數(Micro?F1)都考慮多種實體類型的性能。其中Macro?F1分別計算每個實體類型的F1分數,然后取F1分數的平均值:

[Precisioni=TPiTPi+FPi] (4)

[Recalli=TPiTPi+FNi] (5)

式中:[Precisioni]和[Recalli]表示第i類標簽的精確率和召回率。

[Precisionmicro=i=1nTPii=1nTPi+i=1nFPi] (6)

[Recallmicro=i=1nTPii=1nTPi+i=1nFNi] (7)

[F1micro=2Precisionmicro·RecallmicroPrecisionmicro+Recallmicro] (8)

式中n是標簽總數。

微平均F?score聚合所有實體類型的個體FN、FP和TP,并用它們來獲得統計數據。

[Precisionmacro=1ni=1nPrecisioni] (9)

[Recallmacro=1ni=1nRecalli] (10)

[F1macro=2Precisionmacro·RecallmacroPrecisionmacro+Recallmacro] (11)

由于Macro?F1對各類別的精確度和召回率求平均值,因此并沒有考慮數據數量的問題。這種情況下,Precision和Recall值較高的類別會對F1值的影響較大。

2 "基于深度學習的命名實體識別研究現狀

目前,用于NER任務的深度學習模型包括卷積神經網絡模型(Convolutional Neural Network, CNN)[23]、循環神經網絡模型(Recurrent Neural Network, RNN)[24]、長短期記憶網絡模型(Long?Short Term Memory, LSTM)[25]、雙向LSTM模型(Bi?directional LSTM, Bi?LSTM)、基于Transformer的預訓練模型[26]和圖神經網絡模型。在這些模型中,基于條件隨機場(Conditional Random Field, CRF)[27]的Bi?LSTM是NER任務中最常用的模型之一。它使用Bi?LSTM提取句子特征,并使用CRF對標簽之間的依賴關系進行建模。這些模型具有利用大量數據進行訓練、自動提取文本中的重要特征、實現更高識別準確率等顯著優勢。特別是Bi?LSTM在處理長文本序列和捕獲句子中的雙向信息方面非常有效,使其非常適合實體本地化[28?29]。

2.1 "基于卷積神經網絡的命名實體識別方法

盡管CNN更多被應用于CV領域,但是其強大的局部特征捕捉能力也讓它被廣泛應用于文本序列的特征提取。如R. Collobert等人提出一種句子級的模型,通過卷積層提取每個單詞周圍的局部特征[21]。模型將卷積層提取的局部特征向量組合構成全局特征向量,再利用池化操作對每個特征進行降維操作,獲取更具代表性的文本特征。在這個過程中,R. Collobert等人使用多通道CNN方法,即利用多個卷積核提取文本序列的不同特征,將提取出的特征拼接成多個通道的特征圖,并將這些特征圖輸入到后續的分類器中進行NER任務[21]。相較于單通道CNN,多通道CNN能更好地捕捉文本序列中的予以信息,進而提高模型性能,提升NER的準確性和魯棒性。

Ma和Hovy同時采用CNN來提取詞語的特征表示[30]。首先,他們使用CNN在字符級別上捕捉詞法特征;然后,將字符級表示和嵌入式詞語連接起來,再輸入RNN上下文編碼器中進行處理。G. Aguilar等人提出一種多任務的NER方法。該方法利用CNN在字符級別上捕捉正字法特征和單詞形狀[31]。Wu等人使用卷積層來生成由多個全局隱節點表示的全局特征[32]。然后將局部特征和全局特征輸入到標準仿射網絡中,以識別臨床文本中的命名實體。

2.2 "基于循環神經網絡的命名實體識別方法

相較于全連接神經網絡(Fully Connected Neural Network, FNN)需要固定輸入長度的問題,RNN由循環單元構成,能夠處理變長的輸入數據,更適合類似于文本數據這樣的時序輸入。RNN在計算時根據前一個時間步的隱藏狀態和當前輸入向量計算當前時間步的隱藏狀態。通過雙向模型的疊加,可以利用前后文信息進行預測。RNN對時間維度特征的強大捕捉能力在NLP的各類任務中都是最為適用的模型之一。

2.2.1 "長短時記憶網絡

在應對長序列時,傳統的RNN往往會出現梯度消失或梯度爆炸的問題,而這些問題會嚴重影響模型的訓練效果。為此,研究人員提出一種特殊類型的RNN,即LSTM。在LSTM中,內存單元替換隱藏層更新。記憶單元由輸入門、遺忘門、具有自回路連接的神經元和輸出門組成。自回路連接確保存儲單元的狀態在一個時間步驟到另一個時間步驟之間保持不變。輸入門決定輸入信號對存儲單元狀態的影響,輸出門決定存儲單元狀態對其他神經元的影響。最后,遺忘門通過控制記憶單元的自回路連接,允許每個單元保留或遺忘其最后的狀態。LSTM通過引入門結構來控制信息的流動,可以對冗余信息進行遺忘,并加強對有效信息的記憶,從而在一定程度上緩解梯度問題,更適用于長序列場景。

得益于長距離依賴能力,LSTM在NER任務中能夠有效提取上下文的語義信息,并更好地理解文本內容,從而提高模型的識別準確率。如O. Kuru等人提出一種基于LSTM的字符級NER方法,即CharNER[33]。CharNER將句子視為字符序列,利用LSTM提取字符級別的表示。它為每個字符而不是每個單詞輸出標記分布,然后從字符級別標記獲取單詞級別標記。實驗結果表明,以字母為主要表示單位的輸入方式優于以單詞為基本輸入單位的方式。CharNER的方法還可以解決一些NLP任務中單詞分割和詞性標注的挑戰。

2.2.2 "雙向長短時記憶網絡

Bi?LSTM作為一種能夠對序列中的上下文信息進行建模的神經網絡模型,可以通過前向和后向兩個方向的處理,有效地捕捉到序列中每個位置的上下文信息。目前在NER領域中較為流行的模型包括Bi?LSTM和Bi?LSTM?CRF。相較于O. Kuru等人的工作,Wan等人使用Bi?LSTM替換單向的LSTM,能更好地獲取字符特征。再通過softmax層,可將數據特征轉換為標注結果,進而實現序列標注任務,并應用在NER任務中[34]。Ma和Hovy提出一種結合Bi?LSTM、CNN和CRF的神經網絡模型[30],利用GloVe[35]預訓練的維度為100的詞嵌入以自動提取單詞及字符級特征,利用CRF對標簽序列進行全局建模,避免Bi?LSTM在處理長序列時可能存在的信息遺漏問題,從而提高序列標注的性能。Bi?LSTM編碼示意圖如圖2所示。

2.2.3 "門控循環單元

門控循環單元(Gated Recurrent Unit, GRU)[36]是一種常用的循環神經網絡結構。GRU的基本結構包括重置門、更新門和隱藏狀態。重置門控制忘記歷史信息的程度,而更新門控制合并新信息的程度。兩個門都取決于當前輸入和前一個時間步的隱藏狀態。更新后的隱藏狀態會同時考慮當前輸入和以前的隱藏狀態。通過逐步重置和更新輸入數據的歷史信息,GRU可以有效地對順序數據進行建模,特別是在長序列中,同時避免梯度消失和爆炸的問題。相較于傳統的RNN模型,GRU擁有更好的長期記憶能力;與LSTM對比,GRU又擁有更少的參數,易于訓練。

Rei等人利用門機制將字符級表示與詞嵌入相結合[37]。Yang等人使用深度GRU模型在字符和單詞級別編碼形態和上下文信息[38]。他們的模型能動態地決定從字符或單詞級表示中使用多少信息。總體而言,GRU已成為近年來NER等序列建模任務的主流模型之一。

2.3 "基于Transformer的命名實體識別方法

Transformer是一種利用自注意力機制來建模序列的神經網絡結構,它會對自然語言處理任務產生革命性的影響。在NER任務中,也有許多基于轉換器的方法被提出。無論是生成式預訓練Transformer(Generative Pre?trained Transformer, GPT)[39]還是BERT(Bidirectional Encoder Representation from Transformer)[40]都是基于Transformer模型的預訓練模型,相較于傳統的Word2Vec[41]和GloVe[35],這些預訓練模型能根據上下文獲得更加準確的表示,對于諸如NER之類的下游任務也有著明顯的提升效果,如圖3所示。盡管BERT作為早期的預訓練模型還存在著一定的局限性,如靜態掩碼策略,后期的一些工作,如RoBERTa[42]、Albert[43]、XLNet[44]等都對BERT類模型進行改善,但是利用基于Transformer模型的預訓練模型進行NER任務也已然成為一種新的范式。

2.4 "基于GNN的命名實體識別方法

與傳統的神經網絡模型不同,圖神經網絡(Graph Neural Network, GNN)是一種用于處理圖結構數據的網絡結構,通過迭代地傳遞和聚合節點間的信息來學習節點的表示,以推斷其狀態或標簽。GNN的核心思想在于將節點的表示視為其鄰居節點表示的函數,并通過多輪迭代更新節點表示,從而融合局部和全局的圖結構信息。在命名實體識別任務中,GNN將NER任務轉化為在圖結構上的節點分類問題,其中每個節點表示一個單詞或字符,節點的標簽表示其是否屬于命名實體。GNN通過建模節點之間的關系和上下文信息學習到更為準確的節點表示。常見的GNN方法包括基于圖卷積網絡(Graph Convolutional Network, GCN)的NER模型和基于圖注意力網絡(Graph Attention Network, GAT)的NER模型?;贕CN的模型利用卷積操作來聚合鄰居節點的信息,通過多層GCN網絡來學習節點的表示。而基于GAT的模型則通過自注意力機制,根據節點之間的重要性動態地聚合鄰居節點的特征。

2.4.1 "基于GCN的命名實體識別方法

對于NER任務,GCN能夠有效地捕捉節點之間的上下文關系和信息傳遞能力。傳統的NER方法主要基于局部上下文和序列信息,但在處理實體之間的關聯性和上下文語境時存在一定的局限性,盡管可以用上下文特征表示,但這些模型往往對全局關系進行了錯誤的表示。GCN通過結合圖結構和節點特征,能夠更好地利用實體之間的關聯信息。

基于GCN的NER模型利用卷積操作來聚合鄰居節點的信息。具體而言,GCN通過迭代地傳遞和聚合節點特征,使得節點能夠融合其直接鄰居節點的信息。這種信息傳遞和聚合的過程能夠捕捉實體之間的上下文信息,有助于提取實體的特征表示。通過多層GCN網絡的堆疊,模型可以逐步學習到更抽象和語義豐富的節點表示。

T. T. H. Hanh等人提出結合上下文特征和圖卷積網絡的全局特征來提高NER性能,并通過廣泛的實驗進行驗證[45]。Tang等人使用交叉GCN來同時處理兩個方向的字符有向無環圖,引入了全局注意力GCN塊來學習以全局上下文為條件的節點表示[46]。

2.4.2 "基于GAT的命名實體識別方法

GAT與GCN的核心思想相似,都是通過節點之間的信息傳遞和聚合來學習節點的表示,基于圖卷積操作對節點之間的關聯性進行建模。然而,在聚合方式和權重分配方面,它們有明顯的差異。GCN采用固定的鄰居聚合策略,通過對鄰居節點的特征進行均值或加權求和來更新節點的表示。這種聚合方式無法自適應地分配權重,對所有鄰居節點采用相同的權重,未能精細建模節點之間的重要性。相比之下,GAT引入了自注意力機制,通過計算節點之間的注意力系數來靈活地分配權重。它通過加權聚合鄰居節點的特征表示來更新每個節點的表示,權重由注意力系數決定。GAT能夠根據節點之間的相關性自適應地學習節點的重要性,并更好地捕捉實體之間的上下文信息和語境。Chen等人在研究中通過引入額外的圖注意力網絡層來增強短語內部依賴性的表示[47]。Wang等人提出一種多態圖注意力網絡,從多個維度上動態調節匹配字符與匹配詞之間的細粒度相關性,以增強字符表征[48]。Tian提出一種有助于詞匯增強型漢語NER且選詞簡單有效的多任務學習方法[49]。該方法中的一項任務是對匹配的單詞進行評分,并從中選擇前K個更有幫助的單詞;另一項任務是通過多頭注意力網絡對所選單詞進行整合,并通過字符級序列標記進一步實現中文NER。GAT通過注意力權重的優化能夠強化與實體相關的鄰居節點的特征表示,從而提升命名實體識別的準確性。

GAT和GCN在模型結構上也存在差異。GAT具有更高的靈活性,能夠為每個節點計算獨立的注意力權重,從而學習到不同節點之間的關聯模式。相反,GCN采用固定的鄰居聚合策略,在信息傳遞過程中使用相同的權重分配。常用基于深度學習的方法總結如表2所示。

3 "命名實體識別的深度學習架構

在深度學習環境下,NER通常被視為一個序列標注問題。在序列標注中,針對輸入序列(通常是文本句子),模型需要為每個輸入元素(通常是單詞或字符)預測一個標簽,這個標簽可以是命名實體類別,也可以是其他類型的標記,如詞性標注、情感分析等。在NER中,模型的目標是預測輸入句子中每個單詞的命名實體標簽,例如人名、地名、組織名等。因此,NER問題也可以被視為多類分類問題的一種,其中每個輸入元素需要被分類為多個標簽中的一個或多個。

如本文在第2節中所述,在解決NER問題時,常見的深度學習網絡,如CNN、RNN、LSTM通常被用于學習輸入序列中的上下文信息,并對每個輸入元素進行分類。相較于傳統的神經網絡,近些年來出現的一些基于預訓練模型的NER方法如BERT、RoBERTa等,和結合圖神經網絡的方法,往往具備更好的性能。

深度神經網絡用于NER是由CNN?CRF模型[21]開創的,其中CNN用于獲取輸入文本的特征,可以理解為編碼器,而CRF層則作為解碼器,用于生成對應的標簽。通過應用固定大小的上下文窗口,該模型在NER任務中F1值高達89.59%。

J. P. C. Chiu等也提出一種使用CNN從字符嵌入中提取字符特征和每個單詞的字符類型特征的方法[50]。這些字符向量與單詞嵌入和額外的單詞級特征連接在一起,然后將級聯的輸入提供給多層LSTM,其中每一層依次彼此連接。在每個時間步,線性層和log?softmax層都通過解碼每個前向層和后向層的輸出來分別計算每個標簽類別的對數概率(向量)。最后,將這兩個向量求和以產生最終輸出。除此之外,DBpedia中已知命名實體的列表也被用作外部知識源。

迭代擴張卷積神經網絡(Iterated Dilated CNN, ID?CNN)是一種基于CNN的模型,與傳統的CNN不同之處在于,它可以對輸入進行多次迭代。在NER任務中,E. Strubell等人使用ID?CNN和CRF混合模型進行序列標記,其中ID?CNN被用于提取單詞級別的特征,而CRF則用于對整個序列進行結構化的預測[51]。相比于其他前沿模型,ID?CNN允許固定長度的卷積在輸入中并行運行,具有更好的處理較大上下文和結構化預測的能力,并且可以充分利用GPU的并行機會,實現更快的序列標記過程。相較于CNN,Huang等人提出一系列基于RNN的NER任務模型[22],這些模型包括LSTM、Bi?LSTM、LSTM?CRF和Bi?LSTM?CRF。在Bi?LSTM?CRF中,詞嵌入和額外的單詞特征(如拼寫和上下文特征)被輸入到Bi?LSTM網絡中,以產生單詞級別的表示。然后,該單詞級別表示被傳遞到CRF層,以預測輸出標簽。相較于CNN?CRF模型,Bi?LSTM?CRF模型對詞嵌入的依賴性較小,F1值也達到90.10%。

除前文提到的Lample、Ma和Hovy等人在Bi?LSTM上的工作外,Yao等人也通過提出一個輕量級架構“CNN?CNN?LSTM模型”,為NER任務引入深度主動學習算法,該模型由卷積字符、單詞編碼器以及LSTM標簽解碼器組成[52]。在這項工作中,他們證明通過深度主動學習可以大幅減少標記數據的數量。該模型通過Word2Vec訓練的潛在詞嵌入進行初始化,并且在訓練期間對這些詞嵌入進行微調?;谏疃葘W習的NER模型總結如表3所示。

4 "研究趨勢

從谷歌Word2Vec到最近的BERT模型,NER從深度學習的進步中受益匪淺。預訓練的詞嵌入允許開發不需要復雜特征工程的深度學習模型。這些進步不僅為NER帶來新的挑戰,同時也為潛在的未來研究方向提供機會。

4.1 "中文NER

相對于英文,中文的標注數據較少,這給深度學習模型的訓練帶來了一定的困難。缺乏大規模高質量的標注數據限制了深度學習在中文NER任務中的性能表現。此外,中文擁有豐富的詞匯和復雜的語法結構,給深度學習模型的訓練帶來了一定的困難。在中文NER任務中,需要解決命名實體的邊界識別、實體類型多樣性和歧義性等問題,這進一步提高了任務的難度[53]。另外,中文命名實體通常由多個字符組成,而字符級別的特征表示相對較弱。由于缺乏準確建模上下文信息,可能導致對命名實體的識別和分類產生誤判。

同時,中文文本中經常出現多個實體嵌套的情況,即一個實體包含另一個實體。如何準確識別和處理這種嵌套實體關系,以捕捉更準確的實體邊界和層次結構,是中文NER中的一個關鍵問題。

隨著語言建模技術的不斷改進和現實世界的應用對更復雜的自然語言處理的需求,NER將越來越受到研究人員的關注。然而,NER通常被視為下游應用程序的預處理組件和特定NER任務的要求,如實體類型和嵌套實體的檢測,都由這些應用程序的需求決定。此外,由于數據注釋的固有挑戰,包括質量、一致性和復雜性問題,開發更高效的注釋方法對于推進NER研究至關重要?;谶@項調查的結果,本文列出以下NER研究的進一步探索方向。

4.2 "細粒度NER和邊界檢測

對現實世界應用的需求使得細粒度的NER和邊界檢測成為研究人員關注的領域。盡管現有的許多文獻都集中在一般領域的粗粒度NER[31?32,54],但本文認為有必要在特定領域對細粒度NER進行更多研究,以支持各種實際的單詞應用。細粒度NER面臨的挑戰是,當命名實體具有多個實體類型時,實體類型的數量和復雜性會顯著增加。這需要重新評估常見的NER方法,這些方法通常使用B?I?e?S(實體類型)和O等解碼標簽同時檢測實體邊界和類型。其中,一種方法是將實體邊界檢測定義為一種專門任務,用于檢測實體的邊界,同時忽略實體類型。邊界檢測和實體類型分類的解耦是實現邊界檢測的更通用和穩健的解決方案。該解決方案可以在不同的領域之間共享,并為實體類型分類提供專門的領域特定方法。準確的實體邊界也有效地減少了實體鏈接到知識庫中錯誤的傳播。盡管一些研究將實體邊界檢測作為NER[55?56]的一個中間步驟(即子任務),但目前還沒有專門關注實體邊界檢測以提供魯棒識別器的現有工作。

4.3 "多模態NER

實際應用場景中的數據通常是多樣化的,實體識別不僅僅取決于文本本身,還與其他模態的信息,如圖像、音頻和視頻等相關聯。引入多模態數據可以更好地捕捉這些信息,并且提高NER的性能。例如:在醫療領域,醫學圖像和臨床報告都可以提供對疾病和治療的關鍵信息;在社交媒體分析中,文本和圖像可以相互補充,幫助確定實體的邊界和類型。多模態NER結合多種類型的數據,以便更全面地描述實體,并提高識別的準確性。

4.4 "時空圖

時空圖是一種用于序列數據處理的圖形結構,其中節點表示時間步長,邊表示時間步長之間的依賴關系。在深度學習中,時空圖常用于語音處理、自然語言處理、圖像處理等領域中的序列數據。在NER任務中,時空圖可以用于識別文本中的命名實體,如人名、地名、組織機構等。通過將文本表示為時空圖,可以更好地理解文本中實體之間的關系,并提高實體識別的準確性和效率。

5 "結 "語

本文主要介紹基于深度學習的NER技術的研究背景、研究現狀以及NER的深度學習架構,并介紹基于卷積神經網絡、循環神經網絡、Transformer模型和圖神經網絡模型的命名實體識別方法。最后,本文討論基于深度學習的命名實體識別技術未來可能會面臨的研究趨勢。隨著深度學習技術的不斷發展和應用,基于深度學習的NER技術已經取得令人矚目的進展和很好的效果。未來可以繼續探索更加有效的編碼器、解碼器和特征提取方法,同時結合領域知識和先驗信息,進一步提高NER任務的性能。此外,也可以將基于深度學習的NER技術應用到更多的場景中,為信息處理和人機交互等領域提供更加優質的服務。

注:本文通訊作者為錢育蓉。

參考文獻

[1] 劉源,劉勝全,常超義,等.基于依存圖卷積的實體關系抽取模型[J].現代電子技術,2022,45(13):111?117.

[2] 馮宇航,邵劍飛,張小為,等.基于特征融合的中文新聞文本情感分類方法研究[J].現代電子技術,2023,46(3):62?68.

[3] 鄭文麗,熊貝貝,林燕奎,等.基于上下文感知自適應卷積網絡的實驗室文本分類[J].現代電子技術,2023,46(13):85?90.

[4] 王藝皓,丁洪偉,王麗清,等.基于BERT的情感分析研究[J].現代電子技術,2021,44(9):110?114.

[5] 帥訓波,石文昌,馮梅,等.面向用戶體驗增強的信息檢索評估模型研究[J].電子技術應用,2023,49(8):88?92.

[6] 張少迪,艾山·吾買爾,鄭炅,等.高并發漢英信息抽取系統的設計與實現[J].現代電子技術,2019,42(16):104?107.

[7] LIU A T, XIAO W, ZHU H, et al. QaNER: prompting question answering models for few?shot named entity recognition [EB/OL]. [2022?01?11]. https://arxiv.org/pdf/2203.01543.pdf.

[8] MOTA P, CABARR?O V, FARAH E. Fast?paced improvements to named entity handling for neural machine translation [C]// Proceedings of the 23rd Annual Conference of the European Association for Machine Translation. Ghent, Belgium: ACM, 2022: 141?149.

[9] VEENA G, KANJIRANGAT V, GUPTA D. AGRONER: An unsupervised agriculture named entity recognition using weighted distributional semantic model [J]. Expert systems with applications, 2023, 229: 120440.

[10] 高翔,王石,朱俊武,等.命名實體識別任務綜述[J].計算機科學,2023,50(z1):26?33.

[11] SANG E F T K, DE MEULDER F. Introduction to the CoNLL?2003 shared task: language?independent named entity recognition [J]. Development, 1837, 922: 1341.

[12] DODDINGTON G R, MITCHELL A, PRZYBOCKI M, et al. The automatic content extraction (ACE) program–tasks, data, and evaluation [EB/OL]. [2023?02?14]. http://www.lrec?conf.org/proceedings/lrec2004/pdf/5.pdf.

[13] DEMARTINI G, IOFCIU T, DE VRIES A P. Overview of the INEX 2009 entity ranking track [C]// Focused Retrieval and Evaluation: 8th International Workshop of the Initiative for the Evaluation of XML Retrieval. Schloss Dagstuhl: Springer, 2010: 254?264.

[14] BALOG K, SERDYUKOV P, VRIES A P. Overview of the TREC 2010 entity track [EB/OL]. [2022?07?14]. https://www.xueshufan.com/publication/3013426078.

[15] RAU L F. Extracting company names from text [C]// 1991 Proceedings. The Seventh IEEE Conference on Artificial Intelligence Application. [S.l.]: IEEE, 1991: 29?32.

[16] 張小衡,王玲玲.中文機構名稱的識別與分析[J].中文信息學報,1997(4):22?33.

[17] FARMAKIOTOU D, KARKALETSIS V, KOUTSIAS J, et al. Rule?based named entity recognition for Greek financial texts [C]// Proceedings of the Workshop on Computational Lexicography and Multimedia Dictionaries. Greece: University of Patras, 2000: 75?78.

[18] 王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002(2):1?6.

[19] BIKEL D M, MILLER S, SCHWARTZ R, et al. Nymble: a high?performance learning name?finder [C]// 5th Applied Natural Language Processing Conference. Washington, USA: ACL, 1997: 194?201.

[20] NADEAU D, TURNEY P D, MATWIN S. Unsupervised named?entity recognition: Generating gazetteers and resolving ambiguity [C]// Advances in Artificial Intelligence: 19th Conference of the Canadian Society for Computational Studies of Intelligence. Québec, Canada: Springer, 2006: 266?277.

[21] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch [J]. Journal of machine learning research, 2011, 12: 2493?2537.

[22] HUANG Z, XU W, YU K. Bidirectional LSTM?CRF models for sequence tagging [C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York: ACM, 2018: 1049?1058.

[23] LE CUN Y, BOSER B, DENKER J, et al. Handwritten digit recognition with a back?propagation network [C]// Proceedings of the 2nd International Conference on Neural Information Processing Systems. Cambridge: ACM, 1989: 396?404.

[24] MEDSKER L R, JAIN L C. Recurrent neural networks [J]. Design and applications, 2001, 5: 64?67.

[25] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 1997, 9(8): 1735?1780.

[26] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 6000?6010.

[27] WALLACH H M. Conditional random fields: an introduction [J]. Technical reports, 2004, 53(2): 267?272.

[28] MIKOLOV T, DEORAS A, POVEY D, et al. Strategies for training large scale neural network language models [C]// 2011 IEEE Workshop on Automatic Speech Recognition amp; Understanding. Waikoloa: IEEE, 2011: 196?201.

[29] LEE H Y, TSENG B H, WEN T H, et al. Personalizing recurrent?neural?network?based language model by social network [J]. IEEE/ACM transactions on audio, speech, and language processing, 2016, 25(3): 519?530.

[30] MA X, HOVY E. End?to?end Sequence Labeling via Bi?directional LSTM?CNNs?CRF [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: ACM, 2016: 1064?1074.

[31] AGUILAR G, MAHARJAN S, LóPEZ?MONROY A P, et al. A multi?task approach for named entity recognition in social media data [J]. W?NUT, 2017, 2017: 148.

[32] WU Y, JIANG M, LEI J, et al. Named entity recognition in Chinese clinical text using deep neural network [J]. Studies in health technology and informatics, 2015, 216: 624.

[33] KURU O, CAN O A, YURET D. Charner: Character?level named entity recognition [C]// COLING 2016, 26th International Conference on Computational Linguistics, Proceedings of the Conference. Osaka, Japan: ACL, 2016: 911?921.

[34] WAN Q, LIU J, WEI L, et al. A self?attention based neural architecture for Chinese medical named entity recognition [J]. Mathematical biosciences and engineering, 2020, 17(4): 3498?3511.

[35] PENNINGTON J, SOCHER R, MANNING C D. Glove: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014: 1532?1543.

[36] CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder?decoder for statistical machine translation [EB/OL]. [2023?02?25]. http://www.arxiv.org/pdf/1406.1078.pdf.

[37] REI M, CRICHTON G K O, PYYSALO S. Attending to characters in neural sequence labeling models [EB/OL]. [2023?01?12]. http://arxiv.org/pdf/1611.04361.

[38] YANG Z, SALAKHUTDINOV R, COHEN W. Multi?task cross?lingual sequence tagging from scratch [EB/OL]. [2023?11?05]. http://arxiv.org/pdf/1603.06270.

[39] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre?training [EB/OL]. [2022?12?07]. https://www.docin.com/p?2176538517.html.

[40] KENTON J D M W C, TOUTANOVA L K. BERT: pre?training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, MN, USA: Association for Computational Linguistics, 2019: 4171?4186.

[41] RONG X. Word2vec parameter learning explained [EB/OL]. [2022?11?09]. http://www.arxiv.org/pdf/1411.2738.pdf.

[42] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach [EB/OL]. [2022?11?20]. https://www.xueshufan.com/publication/2965373594.

[43] LAN Z, CHEN M, GOODMAN S, et al. Albert: A lite bert for self?supervised learning of language representations [C]// International Conference on Learning Representations. Addis Ababa: ICLR, 2020: 102?108.

[44] YANG Z, DAI Z, YANG Y, et al. XLNet: Generalized autoregressive pretraining for language understanding [C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, BC, Canada: 5753?5763.

[45] HANH T T H, DOUCET A, SIDERE N, et al. Named entity recognition architecture combining contextual and global features [C]// Towards Open and Trustworthy Digital Societies: 23rd International Conference on Asia?Pacific Digital Libraries. Cham: Springer, 2021: 264?276.

[46] TANG Z, WAN B, YANG L. Word?character graph convolution network for chinese named entity recognition [J]. IEEE/ACM transactions on audio, speech, and language processing, 2020, 28: 1520?1532.

[47] CHEN C, KONG F. Enhancing entity boundary detection for better chinese named entity recognition [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]: Springer, 2021: 20?25.

[48] WANG Y, LU L, WU Y, et al. Polymorphic graph attention network for Chinese NER [J]. Expert systems with applications, 2022(11): 117467.

[49] TIAN X, BU X, HE L. Multi?task learning with helpful word selection for lexicon?enhanced Chinese NER [J]. Applied intelligence: the international journal of artificial intelligence, neural networks, and complex problem?solving technologies, 2023(16): 53.

[50] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM?CNNs [J]. Transactions of the association for computational linguistics, 2016, 4: 357?370.

[51] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate sequence labeling with iterated dilated convolutions [EB/OL]. [2023?04?01]. https://arxiv.org/abs/1702.02098v1.

[52] YAO L, LIU H, LIU Y, et al. Biomedical named entity recognition based on deep neutral network [J]. International journal of hybrid information technology, 2015, 8(8): 279?288.

[53] 趙繼貴,錢育蓉,王魁,等.中文命名實體識別研究綜述[J].計算機工程與應用,2024,60(1):15?27.

[54] ROJAS M, BRAVO?MARQUEZ F, DUNSTAN J. Simple yet powerful: an overlooked architecture for nested named entity recognition [C]// Proceedings of the 29th International Conference on Computational Linguistics. Gyeongju, Republic of Korea: International Committee on Computational Linguistics. 2022: 2108?2117.

[55] GHADDAR A, LANGLAIS P. Robust lexical features for improved neural network named?entity recognition [EB/OL]. [2023?01?27]. http://arxiv.org/abs/1806.03489.

[56] ZHAI F, POTDAR S, XIANG B, et al. Neural models for sequence chunking [C]// Proceedings of the Thirty?First AAAI Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017: 3365?3371.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 久久青青草原亚洲av无码| 婷婷成人综合| 亚洲第一色网站| 久热中文字幕在线| 亚洲有无码中文网| 亚洲无码高清一区二区| 无码综合天天久久综合网| 国产精品19p| a级毛片免费网站| 一级全免费视频播放| 欧美亚洲日韩不卡在线在线观看| 少妇露出福利视频| 欧美视频免费一区二区三区| 精品综合久久久久久97| 乱系列中文字幕在线视频| 人妻无码AⅤ中文字| 精品乱码久久久久久久| 99热这里只有精品免费| 日韩a级毛片| 国产精品无码影视久久久久久久| 国产成人1024精品| 人妻免费无码不卡视频| 免费人成在线观看成人片| 毛片在线播放a| 国产成人精品高清不卡在线| 97色婷婷成人综合在线观看| 久久综合结合久久狠狠狠97色| 国产精品部在线观看| 中国一级特黄视频| 丰满人妻久久中文字幕| 亚洲丝袜中文字幕| 国产福利在线免费| 亚洲精品国产精品乱码不卞 | 免费jjzz在在线播放国产| 国产精品久久久久久影院| 成年片色大黄全免费网站久久| 成人国产精品网站在线看| 免费看一级毛片波多结衣| 亚洲无码电影| 一级福利视频| 国产成a人片在线播放| 91精品国产自产在线观看| 欧美成人影院亚洲综合图| 国产女人在线观看| 99re这里只有国产中文精品国产精品 | 国产乱子伦一区二区=| 国产成人高清精品免费| 超级碰免费视频91| 一区二区理伦视频| 综合色在线| 国产亚洲精品97在线观看 | 欧美国产综合视频| 欧美综合成人| 无码精品福利一区二区三区| 亚洲国产日韩一区| 亚洲无码37.| 伊人91视频| 亚洲欧美自拍中文| 日本免费高清一区| a在线观看免费| 国产免费观看av大片的网站| 国产区福利小视频在线观看尤物| 国产91特黄特色A级毛片| 日韩欧美高清视频| 国产精品天干天干在线观看 | 91青青草视频在线观看的| aa级毛片毛片免费观看久| 日韩天堂在线观看| 国产午夜小视频| 国产白浆一区二区三区视频在线| 中文字幕 日韩 欧美| 午夜精品福利影院| 国产成人精品三级| 欧美第一页在线| 亚洲日韩国产精品综合在线观看| 欧美中文字幕一区二区三区| 国产玖玖玖精品视频| a级毛片免费播放| 四虎国产成人免费观看| 亚洲成a人片77777在线播放| 欧美亚洲一区二区三区导航| 性喷潮久久久久久久久|