999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電話內容文本的數據增強模型研究

2025-03-05 00:00:00曾孟佳陽子聰黃旭
電腦知識與技術 2025年3期

關鍵詞:來電文本;數據增強;文本分類;ERNIE

中圖分類號:TP3 文獻標識碼:A

文章編號:1009-3044(2025)03-0009-03 開放科學(資源服務) 標識碼(OSID) :

0引言

公共群眾熱線的發展有利于提高工作人員的服務效率,便于培養部門咨詢中心的專業性;來電服務的專業化有利于分門別類地梳理群眾問題,細化各個流程服務標準,經過部門的匯總,最終成為政府公共監督部門的重點追蹤對象[1]。當前,群眾來電內容一般由人工記錄并分類至相應部門,此種分類方式,一方面分類速度跟不上數據量增加速度,另一方面受處理人員業務熟悉程度、認知差異等因素影響,導致錯分概率較大。此外,由于文本內容長短不一、語言邏輯復雜和群眾訪問部門過度集中而造成的數據分布不均等問題,導致目前流行的中文文本分類模型分類效果普遍較差。基于上述問題,本文利用數據增強模型,從不同角度和層次進行變換,從而構造出更多能滿足電話文本分類場景的數據,以提高分類模型效率。本文將ERNIE文本分類模型[2]與RoFormer-Sim[3]數據增強模型相結合,用于來電文本分類任務,主要貢獻在于:針對群眾來電文本數據集的樣本分布不均問題,采用基于UniLM[4]思想的RoFormer-Sim技術,通過改進訓練,使其能夠生成與輸入語義相似的句子得到增強樣本,并驗證對比得出最佳的樣本增強比例,解決因數據集種類分布不平衡造成分類器效果差的問題。

1模型設計與整體框架

文本增強技術分別采用基于規則數據增強的EDA簡單數據增強模型[5],SimBERT文本增強模型和RoFormer-Sim文本增強模型,文本分類器選取近年來適用于文本分類任務的BERT-base模型[6],ERINE模型和BERT的網絡模型作為集成對比實驗,通過字符集粒度嵌入文本特征向量完成文本分類任務。文本分類模型設計如圖1所示。

1.2文本分類器

在文本分類任務中,BERT通過使用雙向Trans?former架構來動態調整詞向量,從而將詞語的上下文信息融入其中,進而更好地理解語義信息。和獨熱編碼、word2vec不同的是,BERT可以較好地解決一詞多義問題[9]。ERNIE是百度提出的一種基于知識增強的持續學習語義理解框架,它通過結合大數據預訓練和多源知識,不斷吸收海量文本數據中詞匯、結構、語義等方面的知識,提升模型效果。與BERT相比,ERNIE在預訓練過程中使用了不同的MASK策略、語料庫和知識圖譜信息,并在預訓練階段增加了外部的知識,且由三種等級的MASK組成。

2實驗過程與結果分析

2.1數據來源與預處理

數據集包含12685條由政府部門人工記錄的群眾來電文本。本文在預處理階段,刪除了重復和錯誤數據,并對敏感詞匯進行了脫敏處理。部分數據如表1所示。

2.2實驗設置

實驗按7:1:2比例劃分數據集為訓練集、測試集和驗證集。本文選取BERT_base,ERNIE_chinese,BERT_RNN和BERT-CNN文本分類模型作為對比實驗,其中BERT_base,BERT_RNN和BERT-CNN的學習率設為5e-5,輸入句子長度為128,批量訓練大小為128,隱藏層為768層。數據增強算法采用EDA,句中每個單詞被替換的概率alpha為0.3,生成數據條數根據每個類別條數而定。SimBERT和RoFormer-Sim參數相同,生成總樣本數量n為100,k值與EDA生成數相同,用于生成n條數據并返回最相似的k條數據。

2.3實驗結果分析與討論

本文采用分類任務常用的評估指標精確率(P)、召回率(R)以及F1值進行結果的有效性驗證。在本文設計的來電文本分類對比模型上,通過比較不同文本增強技術和預訓練語言模型來驗證其在群眾來電文本分類任務上的效果。首先在訓練集上進行訓練,然后通過驗證集優化,最終在測試集上評估模型效果。由于樣本數據本身不平衡,原始樣本在模型上實驗結果較差。所以,本實驗選擇數據條數在500條以下的22個小樣本類作為增強類進行數據增強,實驗結果如表2所示。

如表2所示,ERNIE模型在原始樣本群眾來電文本分類任務上表現最佳,F1值為92.21%,比BERTbase模型高0.64%。這是因為ERNIE使用了細粒度的MASK策略,能更好地處理中文文本的復雜結構和語義信息。

采用EDA、SimBERT和RoFormer-Sim增強模型進行了文本增強后,擴充了訓練集數據量。與未增強前進行比較,結果如表3所示。

各數據增強技術特點可歸納為:EDA基于規則,可對詞語進行調序和替換。SimBERT和RoFormer-Sim在生成疑問句上相似,但RoFormer-Sim在陳述句方面效果更優。RoFormer-Sim和SimBERT的F1值均大于EDA,原因在于它們能在文本的句級別操作,保留更多語義信息和上下文關系,且利用預訓練語言模型能生成豐富的相似句。

3結束語

傳統網絡模型主要依賴于詞袋或詞嵌入方法,只能捕捉到局部語義信息。而BERT模型通過多頭自注意力機制和預訓練任務,能夠學習到更深層次的語法和語義知識,從而提高對復雜邏輯關系的理解能力。為解決樣本不平衡問題,本文采用了RoFormer-Sim數據增強模型,其生成的樣本質量優于EDA和Sim?BERT技術。在實驗中,使用了BERT預訓練語言模型及其改進版本結合數據增強模型,以探究不同模型的優缺點和適用場景,并對各模型效果差異的原因進行了解釋。

主站蜘蛛池模板: 日本不卡在线视频| 亚洲精选无码久久久| 露脸真实国语乱在线观看| 精品国产免费人成在线观看| 日本一区高清| 欧洲日本亚洲中文字幕| 亚洲男女天堂| 亚洲青涩在线| 色悠久久综合| 久草网视频在线| 国产乱视频网站| 国产精品永久久久久| 999精品在线视频| 亚洲精品福利视频| 色综合久久综合网| 国产成人亚洲无吗淙合青草| 精品精品国产高清A毛片| 国产毛片高清一级国语| 色噜噜狠狠狠综合曰曰曰| 日本成人在线不卡视频| 成人午夜视频在线| 午夜不卡福利| 波多野结衣亚洲一区| 色综合中文综合网| a色毛片免费视频| 亚洲日韩精品伊甸| 在线国产毛片| 国产福利拍拍拍| AⅤ色综合久久天堂AV色综合| 日韩成人在线视频| 中文字幕亚洲第一| 四虎影视国产精品| 免费国产黄线在线观看| 丁香婷婷激情综合激情| 国产成人亚洲精品蜜芽影院| 国产经典免费播放视频| 色综合手机在线| 国产内射一区亚洲| 国产亚洲欧美在线视频| 久久综合亚洲色一区二区三区| 91精品最新国内在线播放| 国产va在线观看免费| 午夜欧美理论2019理论| 亚洲精品色AV无码看| 国产免费高清无需播放器| 国产精品护士| 欧洲日本亚洲中文字幕| 免费a级毛片18以上观看精品| 国产精品久久久久久久久久久久| 日韩欧美国产中文| 成人国产一区二区三区| 国产成人毛片| 97在线国产视频| 啪啪国产视频| 五月天婷婷网亚洲综合在线| 999精品色在线观看| 美女国产在线| 亚洲成年人网| 欧美午夜在线播放| 国产丝袜无码一区二区视频| 日本精品视频| 国产欧美网站| 美女无遮挡免费网站| 国产欧美日韩一区二区视频在线| 亚洲一区二区无码视频| 国产一区亚洲一区| 国产精品成| 久久婷婷五月综合97色| 精品三级网站| 9久久伊人精品综合| 亚洲六月丁香六月婷婷蜜芽| 丁香五月婷婷激情基地| 亚洲有无码中文网| 97影院午夜在线观看视频| 欧美乱妇高清无乱码免费| 亚洲精品爱草草视频在线| 五月天天天色| 九九九九热精品视频| 9cao视频精品| 日韩专区第一页| 国产a在视频线精品视频下载| 97精品久久久大香线焦|