999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于增強數據生成的新聞文本實體識別

2025-03-02 00:00:00劉瑜
電腦知識與技術 2025年1期
關鍵詞:選擇

摘要:近年來,預訓練語言模型的出現極大地推動了新聞文本實體識別領域的發展。然而,高質量、大規模標注數據的匱乏仍然是制約模型性能提升的關鍵因素。文章針對此問題設計了一種增強數據生成框架,該框架基于預訓練語言模型,利用關鍵詞選擇和動態遮蓋的方法構建損壞文本,再通過文本重構和數據選擇生成多樣化且連貫的增強數據。將增強數據與原有標準數據結合,用于實體識別模型的微調。實驗結果表明,相比于未使用數據增強的基線模型和詞匯替換增強模型,文章提出的DRS增強數據生成框架在精確率和召回率上分別取得了3%~7%和2%~9%的提升。

關鍵詞:預訓練語言模型;增強數據生成;關鍵詞選擇;動態遮蓋;微調

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2025)01-0023-04 開放科學(資源服務) 標識碼(OSID) :

1 概述

命名實體識別(Named Entity Recognition,NER) 作為自然語言處理(NLP) 領域中的重要組成部分,其目標是從文本中識別出具有特定意義的實體,如人名、地名、組織機構等,并將其分類到預定義的類別中。NER是眾多高級NLP應用(例如信息抽取、情感分析、自動標注和問答系統等) 的基礎。近年來,深度學習技術,尤其是Transformer架構的出現,為NER領域帶來了突破性進展。

丁建平等人[1]對NER研究進行了綜述,指出基于深度學習和Transformer模型的NER表現良好,這類模型能夠通過大規模的預訓練來學習語言結構,再通過針對具體任務的微調來進一步優化模型性能。基于深度學習的NER模型最近在多個領域具有廣泛的研究,如利用BERT-BiGRU-CRF模型對網絡文本中的地理信息實體進行識別[2]、利用一種交融式的Trans?former神經網絡模型對司法文本實體進行識別[3]、利用一種基于遷移語料庫訓練的BERT-BiGRU-CRF模型對金融新聞數據集中的實體進行識別[4]等,并均取得了較好的性能結果。Malmasi等人[5]構建了一種用于NER任務研究的數據集,并指出目前方法在低上下文場景和復雜NER場景下的表現并不理想。盡管有監督的學習方法能顯著提升NER的性能,但構建大批量的高質量標注數據仍然是一項巨大的挑戰。Liu等人[6]和Zhou 等人[7]指出數據增強是數據稀疏條件下NER的有效解決方案,并在常見NER的基準數據集上表現良好且能生成連貫的增強樣本。然而,數據增強也存在一些局限性,在某些情況下,生成的增強樣本可能不夠連貫或不符合事實,這會導致模型學習到錯誤的信息,從而影響最終的識別性能。

為了解決這個問題,本文提出了一種新的數據增強框架,旨在解決數據稀疏性問題的同時,生成高質量的增強樣本。該增強數據生成框架主要分為構建損壞文本、文本重構和數據選擇三個步驟,稱為DRS(Damage-Refactoring-Selection) 增強數據框架。現有方法通過同類實體替換等方式生成增強樣本,都是在常見基準數據集上設計的,未能為含有語義模糊和復雜實體的復雜NER生成有效的增強樣本。本文提出的框架在數據稀疏情況下能夠生成用于復雜NER的增強數據,并且通過在增強樣本中保留語義模糊命名實體的真實含義,有效緩解上下文與實體不匹配的問題,從而生成多樣、連貫、事實準確和高質量的增強樣本,提升NER模型的性能。

2 框架

本文設計的DRS增強數據框架的應用流程如圖1 所示。

首先將原始的訓練數據輸入DRS增強數據框架后,進入構建損壞文本流程,通過微調的NER模型提取關鍵詞,再利用選擇性遮蓋和在實體詞匯前后添加標簽構建損壞樣本。然后通過微調的預訓練語言模型進行文本重構,生成一系列增強樣本,最后通過數據選擇得到高質量且多樣化的增強數據。通過上述過程產生的增強數據與原始訓練數據合并,用于后續NER模型的訓練。

2.1 構建損壞文本

第一步構建損壞文本基于Facebook AI Research 團隊開發的XLM-RoBERTa 模型[8],經過一定的微調使其適應本文針對命名實體識別任務的需求。對于訓練所輸入的句子,通過微調的XLM-RoBERTa模型生成注意力圖,從而獲得一組與句子中實體最相關的非命名實體詞匯,這里稱之為關鍵詞。該模型旨在識別與命名實體具有顯著依賴關系的非命名實體詞匯,并通過參數設置選取排名靠前的詞作為關鍵詞。

完成關鍵詞選擇后,對句子進行選擇性遮蓋操作。具體而言,將除關鍵詞和實體詞匯外的其他非實體詞匯用遮蓋標記[M]替換,表示被遮蓋(Masked) 的詞元(token) 。為避免冗余,連續的遮蓋標記將被合并為一個。此外,為提高后續文本重構的質量,在每個實體詞匯前后添加標簽標記,將其視為句子中的正常上下文。圖2展示了完整的損壞樣本構建流程。

以這個句子為例,從句子中提取了5個非實體關鍵詞和1個實體詞“人工智能”,然后將其他詞匯進行遮蓋,并在實體詞前后添加標簽,這里的實體詞被標記為實體類型之一的lt;術語gt;。

為了能夠生成更加多樣化的文本,在迭代生成過程中添加動態遮蓋步驟,應用統計方法從非實體關鍵詞中隨機采樣,進行動態的選擇性遮蓋。具體而言,在每次迭代過程中,首先從一個正態分布N ( μ,σ2 )中采樣一個動態的遮蓋率ε,該遮蓋率被控制在[0,1]之間。通過遮蓋率ε 和非實體關鍵詞數量n,確定需要遮蓋的非實體關鍵詞數量,再隨機選擇出對應數量的非實體關鍵詞進行遮蓋。這樣操作的目的是在每次迭代過程中不全部保留非實體關鍵詞,通過隨機采樣能夠產生不同的遮蓋情況,如圖3所示。

當采樣的遮蓋率ε = 0時,5個非實體關鍵詞均會保留;當采樣的遮蓋率ε = 0.2時,5個非實體關鍵詞會被任意遮蓋掉1個(圖中展示了遮蓋“會議”和遮蓋“發展”兩種情況) ,從而能夠生成更多結構不同的損壞文本。總之,通過迭代完成包含關鍵詞選擇和動態遮蓋這兩個核心步驟的構建損壞文本流程,即可批量生成所設計的損壞文本。

2.2 文本重構

文本重構是DRS框架的第二步,旨在將損壞文本恢復為原始文本。為此,本文采用微調后的BART預訓練語言模型[9]來完成該任務。BART是一種序列到序列(seq2seq) 的模型,能夠處理自然語言處理任務中的各種問題,并且通過調整輸入和輸出的格式即可應用于不同的場景。

在編碼階段,BART使用雙向Transformer來構建其編碼器。雙向Transformer允許模型對于給定位置的詞,考慮這個詞前后的上下文信息。對于輸入序列x = [ x1,x2,...,xn ],位置i的輸出為:

hi = Bi - Transformer(x1,x2,...,xn ) (1)

式中,Bi - Transformer表示雙向Transformer的內部操作,包括多頭注意力機制和前饋神經網絡層。多頭注意力模塊允許模型在每個位置關注輸入序列中的所有位置,從而捕捉長距離依賴關系;前饋網絡用于進一步提取特征,并增強模型的學習能力。每個編碼器層包含殘差連接和層歸一化,以幫助梯度傳播和加速訓練過程。通過多層Transformer編碼器層的堆疊構成BART的編碼器。

在解碼階段,BART使用自回歸Transformer解碼器,這是基于GPT系列模型的設計。自回歸的解碼器在生成序列中的每個位置時,僅依賴于序列中之前的位置。對于生成的序列y = [ y1,y2,...,ym ],解碼器的輸出dj(對于位置j) 僅依賴于y1,y2,...,yj - 1:

dj = AutoRegressive - Transformer(y1,y2,...,yj - 1 )j (2)

式中,AutoRegressive - Transformer 表示自回歸Transformer的內部操作,同樣包括多頭注意力機制和前饋神經網絡層。但注意力機制被設計成掩碼形式,在生成輸出序列時會遮蓋掉未來的位置,以確保在預測當前位置時不會利用到未來的信息。通過這種方法,解碼器每次只考慮之前已經生成的部分,逐步生成序列。

BART的預訓練包含兩步:首先利用任意一種噪聲函數破壞文本,然后學習一個模型來重構回原來的文本,目標是得到一個基于序列到序列的去噪自編碼器。在訓練期間,BART使用隨機遮掩策略,即隨機選擇輸入序列的一部分并將其遮掩。遮掩操作包括完全刪除某些片段、替換為[MASK]標記或替換成隨機單詞。這與本文提出的DRS框架中的文本重構任務高度吻合,二者均致力于從受損文本中恢復原始內容。同時,BART模型因采用雙向編碼器及自回歸解碼器的設計,能夠有效利用上下文信息并生成連貫的序列,因此特別適用于此類文本重構任務。在本文的文本重構任務中,文本的破壞在第一步已經完成,這里BART的輸入就是之前構建的損壞文本,輸出是原始未受損壞的文本。確定輸入和輸出后即可對BART預訓練語言模型進行訓練和微調,得到最終表現良好的文本重構模型。

2.3 數據選擇

數據選擇是DRS框架的最后一步,旨在從生成的候選數據中篩選出高質量的增強數據。通過選擇性遮蔽產生不同的損壞文本,輸入文本重構模型后,會生成額外的訓練數據,以此增強數據集的大小和多樣性。但這樣迭代產生的數據有些會與原始訓練數據過于相似,所以在使用這些迭代產生的數據之前需要進行數據選擇的過程。

首先需要移除和原始句子過于相似的增強樣本,使用多語言Sentence-BERT模型[10]為每個句子提取嵌入向量e,然后通過下面公式計算兩個句子間的語義相似度:

式中,sim(?)表示兩個句子嵌入向量的余弦相似度,i,j 屬于N,i ≠ j,N 是數據集的大小。通過設定一個相似度閾值t,當生成句子和原始句子的語義相似度sim gt; t時,就移除生成的句子。

在創建損壞文本時,在每個實體詞的前后都加入了特殊的標簽標記。這些符號在之后的實體識別過程中是不需要的,所以在保留下來的生成句子中,需要把這些標簽移除。通過這樣的數據選擇和處理過程,可以確保增強數據的質量和可用性。最后,將處理過的增強數據與原始數據集合并,一同作為訓練數據,用于NER模型的進一步訓練,這樣可以讓模型從更多樣化的數據變體中學習到更為廣泛的實體識別規律。

3 實驗

本文使用的數據集基于新聞傳媒平臺積累的中文新聞數據,通過人工標注獲得可用于命名實體識別的標準數據集。在標注規范方面,提供了詳細的示例文檔和標注結果來幫助理解標注規則,其中包括實體類別明確定義、實體邊界確定、特殊情況處理等內容。標注一致性檢驗包括雙人獨立標注對比、隨機抽樣第三方審查、定期培訓標注員熟悉標注規范等方法。

標準數據集的樣本數量為20 000條,標記的實體分為7種不同類型:人物、地點、機構、時間、產品、設施、術語。按照實體類別進行分層采樣,分別設置了三種訓練集數量:2 000、4 000和7 000。

本文設置訓練集與測試集樣本數量比例為1∶9、1∶4和1∶2左右,這樣設置的目的是模擬大規模標注訓練數據難以獲得的實際情況,觀測本文提出的方法在少量訓練集上對NER模型性能的影響。實驗選擇XLM-RoBERTa-large 作為基礎NER 模型,并添加一個簡單的線性層將XLM-RoBERTa-large的輸出轉換為NER任務所需的輸出。模型使用Adam優化器[11]進行優化,學習率設置為0.01,批次大小為16,訓練輪次為100,并使用在訓練集上表現最佳的模型對測試集進行測試。

對比實驗設置3種方法:一是基線模型(僅使用訓練集數據) ;二是詞匯替換增強模型(詞匯用相同實體類別的其他詞匯替換生成增強數據) [12];三是本文提出的DRS增強模型。性能指標采用精準率(Precision) 和召回率(Recall) :精準率表示最終模型識別出的命名實體中真正正確的比例,召回率表示所有命中實體中最終模型成功識別的比例。通過精準率關注模型預測的準確性,通過召回率關注模型是否能夠盡可能多地找出所有實體,從而全面評估模型的準確性和魯棒性。實驗結果如圖4所示。

分析實驗結果可以發現,隨著訓練數據規模的增加,三種考察方法的精準率和召回率均有所提升,這表明增加高質量訓練樣本的數量確實有助于改善NER模型的表現。在相同規模的訓練數據下,本文提出的DRS 增強模型相較于其他兩種方法表現更為優異。

具體而言,在訓練集與測試集比例為1∶9時,DRS 框架相較于僅使用原始訓練集的方法在精準率上提升了約7%,相較于采用詞匯替換策略的數據增強方法則提高了約3%;當比例調整至1∶4時,相應的精確度提升分別約為4%和3%;比例為1∶2時,精準率分別提高了3%和4%。從整體來看,DRS框架在精準率方面帶來了3%~7%的提升,在召回率方面則帶來了2%~9%的改善。與僅利用原始訓練集的方法相比,這些結果證實了數據增強技術的有效性;而與Dai和Adel提出的詞匯替換增強技術相比,則進一步證明了DRS框架能夠產生更加優質且多樣的增強數據,從而更有效地提升模型性能。為了評估動態遮蓋機制對模型性能的影響,本文進行了消融實驗,其結果如圖5 所示。

實驗結果表明,在不改變其他條件的情況下,引入動態遮蓋機制后,模型在精準率上獲得了1%~2% 的提升,在召回率上實現了2%~3%的改進,這證明了動態遮蓋機制的有效性和重要性。

4 結論

本文介紹了一種基于DRS增強數據框架的數據增強技術,旨在解決訓練樣本量不足的問題,并提高新聞文本中的NER模型性能。該框架包括文本損壞、文本重構以及數據篩選三個主要步驟,能夠從原始訓練數據中生成高質量且多樣化的增強數據。通過一系列對比實驗證明,DRS增強數據框架能夠顯著提升NER模型的性能。本文所提出的文本重構方法不涉及新實體的生成或替換,未來計劃探索如何利用知識圖譜或記憶網絡等方法,結合外部知識來生成含有新實體的增強數據,從而進一步提高模型的泛化能力。

本研究的創新之處在于提出了一個系統性的數據增強流程,該流程不僅能夠有效地擴大訓練數據集的規模,還能保證增強數據的質量。此外,該方法具有較高的實用價值,可以應用于多種場景下的NER任務。尤其是在資源受限的情況下,該方法有助于改善模型性能并促進其實際應用。綜上所述,DRS增強數據框架是一種有效提升NER模型性能的方法,具有廣泛的應用前景。

參考文獻:

[1] 丁建平,李衛軍,劉雪洋,等.命名實體識別研究綜述[J].計算機工程與科學,2024,46(7):1296-1310.

[2] 王立,嚴霞,王斌,等.基于BERT模型的網絡文本地理信息命名實體識別[J].制造業自動化,2024,46(5):145-150.

[3] 王穎潔,張程燁,白鳳波,等.基于Transformer的司法文書命名實體識別方法[J].計算機科學,2024,51(S1):125-133.

[4] 李淦.面向金融新聞的命名實體識別方法[J].電腦知識與技術,2024,20(18):4-6.

[5] MALMASI S, FANG A, FETAHU B, et al. MultiCoNER: Alarge-scale multilingual dataset for complex named entity rec?ognition[C]//Proceedings of the 29th International Conferenceon Computational Linguistics (COLING 2022), 2022: 6559-6574.

[6] LIU L, DING B, BING L, et al. MulDA: A multilingual dataaugmentation framework for low-resource cross-lingual NER[C]//Proceedings of the 59th Annual Meeting of the Associationfor Computational Linguistics (ACL 2021), 2021: 5486-5497.

[7] ZHOU R, LI X, HE R, et al. MELM: Data augmentation withmasked entity language modeling for low-resource NER[C]//Proceedings of the 59th Annual Meeting of the Association forComputational Linguistics (ACL 2021), 2021:5649-5654.

[8] CONNEAU A, KHANDELWAL K, GOYAL N, et al. Unsuper?vised cross-lingual representation learning at scale[C]//Pro?ceedings of the 58th Annual Meeting of the Association forComputational Linguistics (ACL 2020), 2020: 8440-8451.

[9] LEWIS M, LIU Y, GOYAL N, et al. BART: Denoisingsequence-to-sequence pre-training for natural language gen?eration, translation, and comprehension[C]//Proceedings of the58th Annual Meeting of the Association for Computational Lin?guistics (ACL 2020), 2020: 7871-7880.

[10] REIMERS N, GUREVYCH I. Sentence-BERT: Sentence em?beddings using siamese BERT-networks[C]//Proceedings ofthe 2019 Conference on Empirical Methods in Natural Lan?guage Processing (EMNLP 2019), 2019: 3982-3992.

[11] KINGMA D P, BA J. Adam: A method for stochastic optimiza?tion[EB/OL]. arXiv preprint arXiv:1412.6980, 2014[2024-05-23].https://arxiv.org/abs/1412.6980.

[12] DAI X, ADEL H. An analysis of simple data augmentation fornamed entity recognition[C]//Proceedings of the 28th Interna?tional Conference on Computational Linguistics (COLING2020), 2020: 3861-3867.

【通聯編輯:唐一東】

猜你喜歡
選擇
合理選用實驗材料提升自主探究實效
中小型企業投資方向選擇
商情(2016年40期)2016-11-28 10:26:18
高中歷史教學中史料的選擇運用
探索“五選四變”對中職教育改革的創新與實踐
職業(2016年11期)2016-11-23 20:30:37
“悔”而行之
淺談選擇投資基金的方法策略和途徑
聽《師說》公開課之我見
南北橋(2016年10期)2016-11-10 16:43:01
農機深松整地技術的應用推廣探析
我國新材料產業技術創新方向的選擇探討
“互聯網+”時代新聞采訪教學的困境與出路
新聞前哨(2016年10期)2016-10-31 17:41:16
主站蜘蛛池模板: 一区二区午夜| 国内精品久久人妻无码大片高| 极品国产在线| 亚洲婷婷在线视频| 高清精品美女在线播放| 欧美日韩国产高清一区二区三区| 欧美a在线看| 首页亚洲国产丝袜长腿综合| 国产一区二区网站| 亚洲AV无码乱码在线观看代蜜桃 | 天堂成人在线| 欧美在线黄| 在线欧美日韩国产| 國產尤物AV尤物在線觀看| 久久人人妻人人爽人人卡片av| 国产成人亚洲欧美激情| 99热这里只有精品5| 国产精品无码久久久久AV| 91精品专区| 99re经典视频在线| 亚洲天堂在线免费| 在线精品亚洲国产| 伊人久久婷婷| 久久青草热| 亚洲欧美在线综合一区二区三区| 欧美一区日韩一区中文字幕页| 亚洲男人的天堂在线观看| 日韩精品毛片| 97av视频在线观看| 国产午夜福利片在线观看| 国产在线专区| 色香蕉网站| 国产日韩AV高潮在线| 中文字幕2区| 一区二区理伦视频| a毛片在线| 亚洲成人免费在线| 尤物午夜福利视频| 欧美一级高清视频在线播放| 午夜成人在线视频| 亚洲欧美国产视频| 亚洲国产成人久久精品软件| 一级毛片免费播放视频| 久久国产拍爱| 欧美国产日韩在线| A级毛片高清免费视频就| 99热这里只有精品免费| 日韩一区精品视频一区二区| 亚洲AV永久无码精品古装片| 欧美日韩精品在线播放| 色欲色欲久久综合网| 欧美在线一级片| 久久大香伊蕉在人线观看热2 | 国产精品久久久免费视频| 精品视频在线一区| 欧美在线三级| 国内精自线i品一区202| 韩日无码在线不卡| 日韩人妻精品一区| 露脸国产精品自产在线播| 久久五月天国产自| 国产成人亚洲精品无码电影| 欧美成人精品一区二区| 国产一区二区精品高清在线观看| 一区二区午夜| 夜精品a一区二区三区| 91麻豆国产视频| 亚洲欧美另类日本| 亚洲男人的天堂在线| 亚洲五月激情网| 色噜噜久久| 不卡无码网| 2021亚洲精品不卡a| 99久久精品美女高潮喷水| 亚洲日产2021三区在线| 一本久道热中字伊人| 国产欧美日韩专区发布| 亚洲精品无码AⅤ片青青在线观看| 激情网址在线观看| 国产尤物视频在线| 精品国产成人高清在线| 成人日韩精品|