中圖分類號:TP391.1 文件標識碼:A 文章編號:2096-4706(2025)16-0063-07
Abstract: Chinese financial Named Entity Recognition (NER)aims to extract entities from unstructured financial texts. Firstly,toaddress thelack offinancial domaindatasets,adatasetcontainingseven categoriessuchaspersonnames,titles, companies isconstructedSecondly,totackleissuessuchassingle featureusageandambiguous boundaries inChinesetext, an entityrecognition model that integrates dictionary features and Chinese character structural features is proposed.This modelicorpratesdictionaryiformationintocharacterrepresentatiostoenhanceentityboundariesandusesaual-stream Transformer architecture to fuse Chinese character shapes andradical features tofurther improve model performance.Finalythe experimentalresults show that the modelperforms wellonboth various datasets and theself-constructed financial dataset.
Keywords:Named Entity Recognition; feature fusion;dual-stream Transformer;financial entityrecognition
0 引言
命名實體識別旨在從非結構化文本中識別有價值的實體,如人名、地名、組織機構名等,作為自然語言處理領域一項基本任務,它在信息檢索、智能問答、自動摘要、知識圖譜等下游子任務中具有重要研究意義[1]。目前,命名實體識別在通用領域已取得較大進展,在生物醫學領域也有所應用和突破。本次研究將目光聚焦在金融領域。面向金融領域的中文命名實體識別旨在從金融領域文本中識別出公司名、組織機構、產品名等具有特定意義的實體名稱。金融領域命名實體識別模型的改進與優化對數字金融、智慧金融的建設具有非常重要的現實意義。
目前,金融領域中文命名實體識別存在以下問題1)金融文本中專有名詞較多,且普遍存在縮寫現象。2)存在較多嵌套實體。3)以往命名實體識別模型側重于利用單個字符嵌入或上下文嵌入提升模型預測準確率,較少關注中文文本特征。4)當前金融領域缺少公開的命名實體識別標注數據集。
因此,針對上述問題,本研究提出了一種基于雙流Transformer結構且融合中文多層級特征的命名實體識別模型。該模型首先通過卷積神經網絡和全連接層分別提取每個漢字的結構特征。其次,模型通過一種高效的方式引入詞典信息,豐富語義表示并增強邊界信息。然后,Transformer雙流結構將多粒度字形以及結構表征進行融合,與經由雙向LSTM編碼的詞典表征一同送入全連接層進行線性融合,最后將其輸入CRF層進行實體預測。在各數據集上的實驗結果表明,本研究提出的模型具有較好的識別效果。
1 相關工作
目前已有的關于中文命名實體識別研究大概可歸納為三類:基于規則的方法、基于機器學習的方法以及基于深度學習的方法。
1.1 基于規則的方法
基于規則的方法是根據所處的專業領域,人工構建領域規則和領域詞典,然后通過模式匹配的方法進行命名實體識別。在金融領域,王寧等人[通過對大量中文文本進行分析,創建了6個知識庫用于識別中文機構名,該模型在中文金融語料上取得了非常不錯的結果。Burdick等人[3]則借助基于規則的文本抽取平臺SystemT開發了兩款識別金融機構實體的工具:Org-NER和Dict-NER。
雖然基于規則的命名實體識別取得了不錯的效果,但是依然存在兩個缺點:一是該方法受限于特定領域,可移植性差;二是構建一套完備的規則體系耗費大量人力與時間,成本高昂。因此,基于機器學習的命名實體識別開始興起。
1.2基于機器學習的方法
基于機器學習方法的核心是特征工程,其思想是基于算法統計特征和參數來構建命名實體識別模型,如支持向量機[4](SupportVector Machine,SVM)、條件隨機場[5](Conditional RandomField,CRF)、決策樹[(Decision Trees,DT)等機器學習算法常用于命名實體識別。在金融領域,Wang等人[提出了一種基于CRF的方法,首先將語料內部特征融入CRF線性分類器用于識別全稱形式的金融命名實體,其次引入邊界熵、互信息和上下文特征來識別縮寫形式的金融命名實體,該模型在兩種類型的金融命名實體識別上均取得了不錯的效果。
然而,基于機器學習的方法仍然存在一定的局限性,該方法依賴于人工設計的特征模板,特征的選擇與處理費時費力。因此研究者開始將目光轉向深度學習。
1.3基于深度學習的方法
近年來,深度學習的蓬勃發展使得自然語言處理領域也獲得了飛躍式發展。尤其在Transformer和Bert提出后,語言模型的效果更是得到了顯著提升。在命名實體識別領域,許多學者在此基礎上提出各種模型結構,取得了非常豐富的研究成果。Li等人通過為實體引入位置索引將Lattice結構轉變為Flat結構,并計算相對位置編碼,有效地增強了中文實體邊界。Liu等人提出LEBERT,該模型借助LexiconAdapter將詞典信息融入Bert的Transformer塊中,結果表明在越底層融入詞典信息,模型越能捕獲到更復雜的語義信息。在金融領域,命名實體識別也取得了豐富的成果。Zhao等人[]提出基于一種Bert對在線金融文本進行情感分析和關鍵實體識別的方法,該方法首先運用預訓練模型Bert進行情感分析,并根據不同的句子粒度將命名實體識別視作句子匹配或機器閱讀理解任務,實驗表明,該方法性能普遍優于傳統機器學習方法。劉宇瀚等人[1]基于BiLSTM-CRF模型提出結合字形特征和迭代學習改善模型性能的方法,并在金融領域命名實體識別任務上驗證了該模型的有效性。
2 數據集構建
2.1 數據獲取
本文的語料來自銳思數據庫[12],該數據庫收集了證券時報、21世紀經濟報道、第一財經等各大平臺發布的金融資訊。一共爬取了3125條文本數據,經過數據預處理后,最終得到2850條有效文本數據用于構建金融領域命名實體識別語料庫。
2.2金融領域命名實體標注體系構建
本研究的語料來自金融領域,主要內容為各大金融機構與財經媒體發布的金融資訊,其中包含大量與金融相關的實體名稱,如公司名稱、金融機構、行業領域等。本文參照金融領域BosonNLP_NER_6C數據集,主要識別以下七類命名實體:人名(Person)、職稱(Title)、地名(Location)、公司名(Company)、機構名(Organization)、行業(Industry)、常見金融工具(Term)。具體如表1所示。本文采用BMES標注體系,如表2所示。其中, B 表示命名實體的開始字符, M 表示命名實體的中間字符, E 表示命名實體的結束字符, s 表示表單個字符的命名實體。
表1金融實體類型定義

表2BMES方法標注序列示例

3命名實體識別模型
3.1模型整體結構
中文命名實體識別存在實體邊界模糊問題。針對該問題,本文構造詞典,對每個字符與詞典中的詞組進行匹配,得到詞組表征,將其與字符級向量特征進行融合,從而達到實體邊界增強的目的。其次,漢字由象形文字發展而來,每個漢字的字形及其結構有著其獨特的含義,可以在一定程度上增強語義信息,用于指示命名實體識別。因此,本文引入三種不同類型字體:行楷、隸書、仿宋,增強漢字的象形特征,同時對漢字進行拆分,獲得漢字的偏旁部首表征,從多個維度豐富漢字的語義表征。具體來說,本文將字形以及每個漢字的偏旁部首映射成向量表示,并分別通過全連接層和卷積神經網絡進行特征抽取,然后將獲得的字形特征和字形組件特征進行拼接和融合得到綜合字形特征嵌入,與富含豐富語義知識的詞組表征分別作為雙流Transformer編碼器的輸入,然后將兩個Transformer的編碼結果進行融合送入CRF層,獲得最終的序列預測結果。模型整體結構如圖1所示。
圖1模型整體結構

3.2漢字偏旁部首表征
漢字是由象形文字發展而來,其偏旁部首有著特定的含義,并且在一定程度上可以反映中文字符的含義,比如“湖”“河”“海”皆有“”,代表其含義與水有關。“榆”“桂”“槐”皆有“木”,代表其含義與樹木相關。因此本研究對漢字進行拆分,從更細的層級上學習漢字的表征。示意圖如圖2所示。
圖2漢字偏旁部首特征提取

首先,將漢字拆分為 k 部分, k 的值由數據中漢字部件組成數目最大的字符決定。然后,將漢字偏旁部首嵌入輸入卷積神經網絡來學習和提取漢字的結構表征,最后通過最大池化操作和全連接層獲得漢字的部件結構表征。具體如下,對于一段文本序列 S={w1 w2 ,…, |wn} ,將每個漢字拆分為粒度更小的偏旁部首表示 wi={wi1,wi2,…,wik} ,其中字符成分不足 k 的空缺位置由[pad]進行填充,然后通過轉換函數將該序列的偏旁部首輸入進行轉換得到對應的向量矩陣 C 接下來,將偏旁部首向量送入卷積核大小為3的卷積神經網絡,得到每個字符的隱向量序列 hil ,并通過最大池化操作保留最顯著特征,最后送入一個全連接層fc 獲得漢字最終的偏旁部首嵌入。

xiw=fc(hil)
3.3 漢字字形表征
象形文字是指利用圖形來表示文字,文字的含義與圖形所代表事物的形狀非常相似。如今使用的中文簡體雖在一定程度上保留了象形文字的特征,但也損失了許多信息,因此引入其他字體來補充漢字的象形信息,從視覺維度上增強漢字的象形表征。
參照 Meng[1]的研究,本文將仿宋、行楷、隸書三種類型的字體視為 24×24 二維圖像,并將其變換為24×24×3 的一維向量,然后全連接層對其進行線性轉換,將三種字體的向量表示進行融合,獲得漢字的圖形特征,如圖3所示。
圖3漢字字形特征提取

3.4 詞匯表征
專業領域存在更多難以識別或罕見的專有實體。其次,中文并不像英文一樣,每個字符之間存在間隔,容易造成實體邊界模糊問題。傳統方法一般借助分詞獲得詞級表征,但是不正確的分詞結果會極大地損害模型的效果。因此本文通過構造詞典,融合詞匯特征,增強詞級表征,提升模型對于實體邊界以及實體類別的識別準確率,如圖4所示。具體來說,主要通過以下幾步完成。
3.4.1 對匹配到的詞匯進行分類
將每個字符匹配到的所有詞匯分為四類:B、M、E、S。其中,B表示所有以實體的第一個字符匹配到的詞組,M表示實體的中間字符匹配到的所有詞組,E表示所有以實體最后一個字符匹配到的詞組,S表示未匹配到詞匯的單個字符。若未在詞典中匹配到相應的詞組,則該字符的詞集為None。
3.4.2對匹配到的詞匯詞集進行壓縮和映射
獲得每個字符的BMES后,將其表示為固定維度的向量,為了提升計算效率,本研究將詞組在訓練數據中出現的頻率作為權重 z(w) 。

3.4.3將詞組表征與字級向量表征融合
如圖4所示,首先,將BMES四類詞向量相加,然后采用拼接的方式將獲得的詞組表征與Bert的字級向量表征融合,同時為了豐富不同字詞層級的語義表征,融入了字符二元組表示向量。
xic=concat[ec(ci),ec(ci,ci+1)]
xc=concat[xic,es(B,M,E,S)]
其中 ec(ci) ,
分別表示單個字符嵌入和二元字符嵌入, es(B,M,E,S) 表示包含詞典信息的詞嵌入。Concat表示拼接操作。
圖4詞典信息融合

通過該方法融合詞典信息,可以極大地增強中文語義和邊界信息的表征,從而解決中文命名實體識別邊界模糊以及專業領域詞匯較難識別的問題。
3.5字形結構特征融合與雙流Transformer編碼層
雙向LSTM同時考慮了時間步前后兩個方向的信息,在序列任務上具有優秀的上下文信息捕捉能力。因此,首先采用雙向LSTM對獲得的詞典特征進行編碼,提取補充的上下文信息并在一定程度上解決潛在單詞之間的沖突。然后,通過一個雙流Transformer分別對漢字字形以及結構特征進行編碼,獲取漢字的深層語義信息,如圖5所示。Transformer是基于自注意力機制的深度學習模型,可以捕獲長文本中序列內部的依賴關系,并且避免了梯度爆炸和梯度消失問題。同時,命名實體識別是一個連續的序列標記任務,上下文信息至關重要,而Transformer可以在學習到更深層的漢字層級特征的同時有效地學習到句子的序列表征。
Ai(Q,K)=QiKT

其中,輸入 Q 、 K 、 V 表示漢字象形特征以及偏旁部首特征,經過線性變換分別映射到不同的特征子空間,生成多組查詢、鍵、值而獲得。 Ai 表示查詢值向量與鍵值向量的注意力分數, dk 表示每個注意力頭的維度,由輸入 K 的維度除以注意力頭的個數得到。
圖5雙流Transformer結構

通過拼接操作得到綜合的漢字字形與結構特征h。然后,通過一個線性層將經由雙向LSTM編碼得到的詞典特征和漢字聯合嵌入向量進行融合, σ 表示線性變換函數,獲得多細粒度中文層級特征,最后將其輸入條件隨機場模型進行標簽預測。
h=[Attentionw,Attentionf]


CRF作為解碼器,可以根據概率分布對標簽之間的依賴關系進行建模,并基于維特比算法搜索給定觀測序列下最有可能的隱藏狀態序列,從而提高標簽預測的準確性和效率。
4實驗與分析
4.1 數據集
首先,選擇4個經典的中文命名實體識別數據集作為評估數據集:Weibo NER[14]、MSRA[15]、ResumeNER[1、OntoNotes,驗證模型在通用領域的識別效果。WeiboNER由新浪微博評論文本構成,OntoNotes和MSRA來自新聞領域。其次,構建一個金融領域命名實體識別數據集,驗證模型在專業領域的識別效果,主要識別人名、職稱、地名、公司、組織機構、行業領域、常見金融工具術語這七大類實體類別。該數據集包含2850條文本內容,包含12398個實體。最后,該數據集按照8:1:1進行劃分,訓練集文本數量為2280條,有10066個實體。驗證集和測試集文本數量皆為285條,分別包含1075個和1257個實體。表3是各數據集的統計信息。
表3數據集統計信息

(續表)

4.2 實驗設置
本實驗基于PyTorch框架,采用Adam優化算法,初始學習率為0.005,dropout設置為0.5,batch_size設置為1,迭代次數設置為30。實驗參照Ma等人實驗參數,對于Weibo、Resume以及自己所構建的金融領域數據集等小型數據集,隱藏層維度設置為200,對于OntoNotes、MSRA等大型數據集,隱藏層維度設置為300。實驗采用的評估標準為精確率(P)、召回率(R)和F1值。
4.3 結果分析
實驗選取LR-CNN、LGN、Lattice+BiLSTM、LEBERT、Flat作為基線模型。
LR-CNN[17]:利用多層CNN結構融合詞典信息,并采用重新思考機制添加反饋層來細化嵌入單詞的權重,從而解決字符以及句子匹配到的潛在詞組之間的沖突。
LGN[18]:利用網絡融入詞典信息,引入一個全局的中繼節點捕捉長距離語義以及高層次特征信息,同時結合迭代聚合機制,將多層節點與邊所蘊含的信息進行迭代更新,有效地解決了中文詞語邊界模糊的問題。
Lattice+LSTM[:設計了一種Lattice結構將匹配到的詞匯信息融入基于字符的模型之中,有效地增強了命名實體邊界,提升了模型性能。
LEBERT:在Bert的Transformer底層中融入詞典信息特征,從而更有效地學習到更復雜的語義信息。
Flat8]:利用Transformer對Lattice進行編碼,為每個字詞分配位置索引,轉化為相對位置編碼,無損地融入詞匯信息。
由表4可以看出,提出的模型在5個數據集上都取得了較為優越的表現。從整體上看,在所構造的金融數據集上,模型獲得了最優性能,F1值相比基線模型LR-CNN、LGN、Lattic+BiLSTM、LEBERT、Flat等基線模型分別提升了 8.18% 、16.74% 、 6.45% 、 4.06% 、 1.91% 。同時,相比LRCNN、Lattice+BiLSTM等模型,本文的模型也取得了最好的F1值,本文推測這可能是因為雙流Transformer可以更好地學習全局語義特征。而且,
LGN在金融數據集上取得了最差的結果,說明采用網絡策略融入詞典信息并不適合專有名詞以及罕見實體較多的金融領域數據集。對于LEBERT,Flat,本文的模型在金融數據集上也取得了更好的表現,這說明在模型中融入漢字字形以及偏旁部首等中文文本特征可以有效增強模型表現。
表4不同模型性能對比
單位: %

4.4 消融實驗
為了驗證模型各部分的有效性,本文進行了消融實驗。實驗結果如表5所示。從表中有如下發現:1)二元字符嵌入會導致精確率和召回率下降,尤其召回率嚴重下降,從而導致模型的整體表現下降。本文推測這可能是因為二元字符嵌入與一元字符嵌入重合,導致特征冗余,從而影響了模型的整體表現。2)將詞頻替換為隨機權重后,雖然精確率上升了 0.48% 但召回率下降了 2.19% ,導致模型整體的識別效果變差,這說明了采用詞頻作為權重的有效性。3)分別去掉字形特征和字形偏旁部首特征對模型的精確率影響較小,但召回率分別下降了 1.53% 、 1.64% ,說明增加漢字層級特征可以提升模型將實際正例預測正確的能力,從而提升模型整體性能。同時,本文注意到去掉字形特征對模型的影響更大,本文推測這可能是因為字形包含了漢字的空間結構信息,同時不同字體使得模型能夠學習到相似漢字的字形特征,從而模型準確率更高。
表5在金融數據集上消融實驗結果 單位: %

4.5不同序列建模層對模型表現的影響
實驗在金融數據集上對比了不同序列建模方法對模型整體性能的影響,如表6所示。從表中可以觀察到:1)相比雙流LSTM和雙流CNN架構,雙流Transformer架構獲得了更高的F1值。這說明Transformer架構可以更好地學習到漢字字形以及結構的深層特征,使得模型整體表現優于其他兩種架構。2)相比基于Transformer架構的模型,基于LSTM架構模型的精確率和召回率分別下降了 1.66% , 2.72% ,導致模型整體表現不如Transformer模型,說明相比LSTM,Transformer的自注意力機制更能有效捕獲漢字的語義特征,提升模型的實體識別性能。3)基于CNN架構的模型取得了最低的 P 值,導致模型的F1值最低。本文推測這可能是因為CNN更加關注局部語義特征,而Transformer和LSTM更加關注全局語義特征以及上下文信息,可以更有效地整合漢字字形以及部首信息。
表6不同序列層建模結果 單位: %

5結論
在本文中,首先,為了解決金融領域數據集缺乏的問題,構建了一個包含人名、職稱、機構組織、公司名、地名、行業領域、金融工具術語七個類別的金融數據集。其次,針對中文文本特征利用單一的問題,提出了一種融合詞典特征和漢字字形、結構特征進行中文命名實體識別的模型。該模型采用了一種簡單高效的方法將詞典信息融入字符表示之中,增強實體邊界,同時利用雙流Transform架構融合漢字字形、偏旁部首特征進一步提升模型性能。最后,實驗結果表明,在四個基準數據集以及構建的金融數據集上,本文提出的模型皆取得了不錯的結果。
參考文獻:
[1] LIJ,SUNA,HANJ,et al.A Survey on DeepLearningforNamed Entity Recognition[J].IEEE Transactions onKnowledgeandDataEngineering,2020,34(1):50-70.
[2]王寧,葛瑞芳,苑春法,等.中文金融新聞中公司名的識別[J].中文信息學報,2002(2):1-6.
[3]BURDICKD,DES,RASCHIDL,etal.resMBS:Constructinga Financial Supply Chain fromProspectus [C]//Proceedingsof the Second International Workshop onData ScienceforMacro-Modeling.SanFrancisco:ACM,2016:1-6.
[13]MENGY,WUW,WANGF,etal.Glyce: Glyph-Vectors for Chinese CharacterRepresentations[J/OL]. arXiv:1901.10125[cs.CL]. (2019-01-29).https://arxiv.org/ abs/1901.10125.
[14]PENGN,DREDZEMNamedEntityRecognition forChinese Social Mediawith Jointly Trained Embeddings [C]// Proceedingsofthe 2015Conferenceon EmpiricalMethods in Natural Language Processing.Lisbon:Association for ComputationalLinguistics,2015:548-554.
[6]ABADIM,BARHAMP,CHENJ,etal.TensorFlow: ASystem forLarge-Scale MachineLearning[C]//12th USENIX Symposium on Operating Systems Design and Implementation (OSDI16).Berkeley:USENIXAssociation,2016:265-283.
[7]WANGS,XUR,LIUB,etal.FinancialNamedEntity RecognitionBasedonConditionalRandomFieldsandInformation Entropy [C]//2O14 International Conference on Machine Learning andCybernetics.Lanzhou:IEEE,2014:838-843.
[8]LIXN,YANH,QIUXP,etal.FLAT:Chinese NERUsingFlat-Lattice Transformer[J/OL].arXiv:2004.11795[cs. CL].(2020-04-24) .https://arxiv.0rg/abs/2004.11795.
[9]LIUW,FUXY,ZHANGY,etal.LexiconEnhanced Chinese Sequence Labeling Using BERT Adapter [J/OL]. arXiv:2105.07148[cs.CL]. (2021-05-15) .https://arxiv.org/ abs/2105.07148.
[10] ZHAOLY,LIL,ZHENGXH,etal.ABERTBased SentimentAnalysisand Key EntityDetectionApproach for Online FinancialTexts[C]//2021IEEE24thInternationalConference onComputerSupported Cooperative WorkinDesign (CSCWD). Dalian:IEEE,2021:1233-1238.
[11]劉宇瀚,劉常健,徐睿峰,等.結合字形特征與迭代學習的金融領域命名實體識別[J].中文信息學報,2020,34(11):74-83.
[12]RESSET金融研究數據庫[EB/OL].(2023-09-27) [2025-02-25].https://db.resset.com/db/download/dataDictionary. jsp?tableName=SECUMKTNEWS_EXT.
[15]LEVOWG A.The Third International Chinese Language Processing Bakeoff:Word Segmentation and Named Entity Recognition [C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.Sydney:Association for Computational Linguistics,2006:108-117.
[16]ZHANGY,YANGJ.ChineseNERUsingLattice LSTM [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Melbourne: Association forComputationalLinguistics,2018:1554-1564.
[17]GUIT,MART,ZHANGQ,etal.CNN-Based Chinese NER with Lexicon Rethinking[C]//Proceedingsof theTwenty-EighthInternational JointConferenceonArtificial Intelligence.Aomen:IJCAI,2019:4982-4988.
[18]GUIT,ZOUY,ZHANGQ,etal.ALexiconBased Graph Neural Network for Chinese NER [C]// Proceedings of the 2o19 Conference on Empirical Methodsin Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Xianggang:Association for Computational Linguistics, 2019:1040-1050.
作者簡介:李梓萱(2000一),女,漢族,湖南湘潭人,碩士在讀,研究方向:數據挖掘與深度學習;通信作者:艾丹祥(1978一),女,漢族,湖北武漢人,副教授,博士,研究方向:大數據、深度學習與知識工程;楊靜雯(2005一),女,漢族,廣東廣州人,本科在讀,研究方向:數據分析、信息管理與信息系統。