999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于電話內容文本的數據增強模型研究

2025-03-05 00:00:00曾孟佳陽子聰黃旭
電腦知識與技術 2025年3期

關鍵詞:來電文本;數據增強;文本分類;ERNIE

中圖分類號:TP3 文獻標識碼:A

文章編號:1009-3044(2025)03-0009-03 開放科學(資源服務) 標識碼(OSID) :

0引言

公共群眾熱線的發展有利于提高工作人員的服務效率,便于培養部門咨詢中心的專業性;來電服務的專業化有利于分門別類地梳理群眾問題,細化各個流程服務標準,經過部門的匯總,最終成為政府公共監督部門的重點追蹤對象[1]。當前,群眾來電內容一般由人工記錄并分類至相應部門,此種分類方式,一方面分類速度跟不上數據量增加速度,另一方面受處理人員業務熟悉程度、認知差異等因素影響,導致錯分概率較大。此外,由于文本內容長短不一、語言邏輯復雜和群眾訪問部門過度集中而造成的數據分布不均等問題,導致目前流行的中文文本分類模型分類效果普遍較差。基于上述問題,本文利用數據增強模型,從不同角度和層次進行變換,從而構造出更多能滿足電話文本分類場景的數據,以提高分類模型效率。本文將ERNIE文本分類模型[2]與RoFormer-Sim[3]數據增強模型相結合,用于來電文本分類任務,主要貢獻在于:針對群眾來電文本數據集的樣本分布不均問題,采用基于UniLM[4]思想的RoFormer-Sim技術,通過改進訓練,使其能夠生成與輸入語義相似的句子得到增強樣本,并驗證對比得出最佳的樣本增強比例,解決因數據集種類分布不平衡造成分類器效果差的問題。

1模型設計與整體框架

文本增強技術分別采用基于規則數據增強的EDA簡單數據增強模型[5],SimBERT文本增強模型和RoFormer-Sim文本增強模型,文本分類器選取近年來適用于文本分類任務的BERT-base模型[6],ERINE模型和BERT的網絡模型作為集成對比實驗,通過字符集粒度嵌入文本特征向量完成文本分類任務。文本分類模型設計如圖1所示。

1.2文本分類器

在文本分類任務中,BERT通過使用雙向Trans?former架構來動態調整詞向量,從而將詞語的上下文信息融入其中,進而更好地理解語義信息。和獨熱編碼、word2vec不同的是,BERT可以較好地解決一詞多義問題[9]。ERNIE是百度提出的一種基于知識增強的持續學習語義理解框架,它通過結合大數據預訓練和多源知識,不斷吸收海量文本數據中詞匯、結構、語義等方面的知識,提升模型效果。與BERT相比,ERNIE在預訓練過程中使用了不同的MASK策略、語料庫和知識圖譜信息,并在預訓練階段增加了外部的知識,且由三種等級的MASK組成。

2實驗過程與結果分析

2.1數據來源與預處理

數據集包含12685條由政府部門人工記錄的群眾來電文本。本文在預處理階段,刪除了重復和錯誤數據,并對敏感詞匯進行了脫敏處理。部分數據如表1所示。

2.2實驗設置

實驗按7:1:2比例劃分數據集為訓練集、測試集和驗證集。本文選取BERT_base,ERNIE_chinese,BERT_RNN和BERT-CNN文本分類模型作為對比實驗,其中BERT_base,BERT_RNN和BERT-CNN的學習率設為5e-5,輸入句子長度為128,批量訓練大小為128,隱藏層為768層。數據增強算法采用EDA,句中每個單詞被替換的概率alpha為0.3,生成數據條數根據每個類別條數而定。SimBERT和RoFormer-Sim參數相同,生成總樣本數量n為100,k值與EDA生成數相同,用于生成n條數據并返回最相似的k條數據。

2.3實驗結果分析與討論

本文采用分類任務常用的評估指標精確率(P)、召回率(R)以及F1值進行結果的有效性驗證。在本文設計的來電文本分類對比模型上,通過比較不同文本增強技術和預訓練語言模型來驗證其在群眾來電文本分類任務上的效果。首先在訓練集上進行訓練,然后通過驗證集優化,最終在測試集上評估模型效果。由于樣本數據本身不平衡,原始樣本在模型上實驗結果較差。所以,本實驗選擇數據條數在500條以下的22個小樣本類作為增強類進行數據增強,實驗結果如表2所示。

如表2所示,ERNIE模型在原始樣本群眾來電文本分類任務上表現最佳,F1值為92.21%,比BERTbase模型高0.64%。這是因為ERNIE使用了細粒度的MASK策略,能更好地處理中文文本的復雜結構和語義信息。

采用EDA、SimBERT和RoFormer-Sim增強模型進行了文本增強后,擴充了訓練集數據量。與未增強前進行比較,結果如表3所示。

各數據增強技術特點可歸納為:EDA基于規則,可對詞語進行調序和替換。SimBERT和RoFormer-Sim在生成疑問句上相似,但RoFormer-Sim在陳述句方面效果更優。RoFormer-Sim和SimBERT的F1值均大于EDA,原因在于它們能在文本的句級別操作,保留更多語義信息和上下文關系,且利用預訓練語言模型能生成豐富的相似句。

3結束語

傳統網絡模型主要依賴于詞袋或詞嵌入方法,只能捕捉到局部語義信息。而BERT模型通過多頭自注意力機制和預訓練任務,能夠學習到更深層次的語法和語義知識,從而提高對復雜邏輯關系的理解能力。為解決樣本不平衡問題,本文采用了RoFormer-Sim數據增強模型,其生成的樣本質量優于EDA和Sim?BERT技術。在實驗中,使用了BERT預訓練語言模型及其改進版本結合數據增強模型,以探究不同模型的優缺點和適用場景,并對各模型效果差異的原因進行了解釋。

主站蜘蛛池模板: 久草网视频在线| 国产亚洲欧美日韩在线一区二区三区| 国产成人久久777777| 黄色网址免费在线| 99视频在线精品免费观看6| 国产福利在线观看精品| 国产一区二区三区在线精品专区| 久久婷婷色综合老司机| a国产精品| 日韩乱码免费一区二区三区| 一级毛片免费不卡在线视频| 亚洲高清免费在线观看| 国产午夜精品一区二区三| 制服丝袜一区二区三区在线| 亚洲综合18p| 极品私人尤物在线精品首页| 曰AV在线无码| 国产丝袜无码一区二区视频| 色爽网免费视频| 亚洲成人在线播放 | AV片亚洲国产男人的天堂| 在线99视频| 国产白浆一区二区三区视频在线| Aⅴ无码专区在线观看| 亚洲第一av网站| 亚洲日韩精品无码专区97| 麻豆精选在线| 四虎永久在线精品影院| 97国内精品久久久久不卡| 国产在线欧美| 亚洲精品老司机| 区国产精品搜索视频| 青草视频在线观看国产| 国产精品无码AV中文| 91精品国产一区| 99re视频在线| 香蕉网久久| 日韩精品一区二区三区大桥未久| 国产另类乱子伦精品免费女| 91欧美亚洲国产五月天| 制服丝袜在线视频香蕉| 久久人人妻人人爽人人卡片av| 亚洲国产精品日韩欧美一区| 国产91小视频在线观看| 国产精品va免费视频| 98精品全国免费观看视频| 久久永久精品免费视频| 欧美97色| 国产成人乱码一区二区三区在线| AV网站中文| 亚洲精品成人福利在线电影| 91视频精品| 成人午夜视频网站| 中文字幕 日韩 欧美| 熟妇无码人妻| 欧美亚洲国产精品第一页| a亚洲视频| 丁香六月综合网| 久久精品波多野结衣| 欧美专区在线观看| 一本大道在线一本久道| 77777亚洲午夜久久多人| 久久香蕉国产线看观看式| 热re99久久精品国99热| 日本a级免费| 亚洲人成网站在线播放2019| 色精品视频| 亚洲第一成网站| 中文字幕亚洲专区第19页| 亚洲精品天堂自在久久77| 国产精品极品美女自在线看免费一区二区 | 2020最新国产精品视频| 毛片视频网| 国产免费一级精品视频| 福利一区在线| 欧美天天干| 免费不卡视频| 亚洲精品成人7777在线观看| 伦精品一区二区三区视频| 精品福利视频导航| 久久久久亚洲Av片无码观看| 久久国产精品影院|