關鍵詞:來電文本;數據增強;文本分類;ERNIE
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2025)03-0009-03 開放科學(資源服務) 標識碼(OSID) :
0引言
公共群眾熱線的發展有利于提高工作人員的服務效率,便于培養部門咨詢中心的專業性;來電服務的專業化有利于分門別類地梳理群眾問題,細化各個流程服務標準,經過部門的匯總,最終成為政府公共監督部門的重點追蹤對象[1]。當前,群眾來電內容一般由人工記錄并分類至相應部門,此種分類方式,一方面分類速度跟不上數據量增加速度,另一方面受處理人員業務熟悉程度、認知差異等因素影響,導致錯分概率較大。此外,由于文本內容長短不一、語言邏輯復雜和群眾訪問部門過度集中而造成的數據分布不均等問題,導致目前流行的中文文本分類模型分類效果普遍較差。基于上述問題,本文利用數據增強模型,從不同角度和層次進行變換,從而構造出更多能滿足電話文本分類場景的數據,以提高分類模型效率。本文將ERNIE文本分類模型[2]與RoFormer-Sim[3]數據增強模型相結合,用于來電文本分類任務,主要貢獻在于:針對群眾來電文本數據集的樣本分布不均問題,采用基于UniLM[4]思想的RoFormer-Sim技術,通過改進訓練,使其能夠生成與輸入語義相似的句子得到增強樣本,并驗證對比得出最佳的樣本增強比例,解決因數據集種類分布不平衡造成分類器效果差的問題。
1模型設計與整體框架
文本增強技術分別采用基于規則數據增強的EDA簡單數據增強模型[5],SimBERT文本增強模型和RoFormer-Sim文本增強模型,文本分類器選取近年來適用于文本分類任務的BERT-base模型[6],ERINE模型和BERT的網絡模型作為集成對比實驗,通過字符集粒度嵌入文本特征向量完成文本分類任務。文本分類模型設計如圖1所示。
1.2文本分類器
在文本分類任務中,BERT通過使用雙向Trans?former架構來動態調整詞向量,從而將詞語的上下文信息融入其中,進而更好地理解語義信息。和獨熱編碼、word2vec不同的是,BERT可以較好地解決一詞多義問題[9]。ERNIE是百度提出的一種基于知識增強的持續學習語義理解框架,它通過結合大數據預訓練和多源知識,不斷吸收海量文本數據中詞匯、結構、語義等方面的知識,提升模型效果。與BERT相比,ERNIE在預訓練過程中使用了不同的MASK策略、語料庫和知識圖譜信息,并在預訓練階段增加了外部的知識,且由三種等級的MASK組成。
2實驗過程與結果分析
2.1數據來源與預處理
數據集包含12685條由政府部門人工記錄的群眾來電文本。本文在預處理階段,刪除了重復和錯誤數據,并對敏感詞匯進行了脫敏處理。部分數據如表1所示。
2.2實驗設置
實驗按7:1:2比例劃分數據集為訓練集、測試集和驗證集。本文選取BERT_base,ERNIE_chinese,BERT_RNN和BERT-CNN文本分類模型作為對比實驗,其中BERT_base,BERT_RNN和BERT-CNN的學習率設為5e-5,輸入句子長度為128,批量訓練大小為128,隱藏層為768層。數據增強算法采用EDA,句中每個單詞被替換的概率alpha為0.3,生成數據條數根據每個類別條數而定。SimBERT和RoFormer-Sim參數相同,生成總樣本數量n為100,k值與EDA生成數相同,用于生成n條數據并返回最相似的k條數據。
2.3實驗結果分析與討論
本文采用分類任務常用的評估指標精確率(P)、召回率(R)以及F1值進行結果的有效性驗證。在本文設計的來電文本分類對比模型上,通過比較不同文本增強技術和預訓練語言模型來驗證其在群眾來電文本分類任務上的效果。首先在訓練集上進行訓練,然后通過驗證集優化,最終在測試集上評估模型效果。由于樣本數據本身不平衡,原始樣本在模型上實驗結果較差。所以,本實驗選擇數據條數在500條以下的22個小樣本類作為增強類進行數據增強,實驗結果如表2所示。
如表2所示,ERNIE模型在原始樣本群眾來電文本分類任務上表現最佳,F1值為92.21%,比BERTbase模型高0.64%。這是因為ERNIE使用了細粒度的MASK策略,能更好地處理中文文本的復雜結構和語義信息。
采用EDA、SimBERT和RoFormer-Sim增強模型進行了文本增強后,擴充了訓練集數據量。與未增強前進行比較,結果如表3所示。
各數據增強技術特點可歸納為:EDA基于規則,可對詞語進行調序和替換。SimBERT和RoFormer-Sim在生成疑問句上相似,但RoFormer-Sim在陳述句方面效果更優。RoFormer-Sim和SimBERT的F1值均大于EDA,原因在于它們能在文本的句級別操作,保留更多語義信息和上下文關系,且利用預訓練語言模型能生成豐富的相似句。
3結束語
傳統網絡模型主要依賴于詞袋或詞嵌入方法,只能捕捉到局部語義信息。而BERT模型通過多頭自注意力機制和預訓練任務,能夠學習到更深層次的語法和語義知識,從而提高對復雜邏輯關系的理解能力。為解決樣本不平衡問題,本文采用了RoFormer-Sim數據增強模型,其生成的樣本質量優于EDA和Sim?BERT技術。在實驗中,使用了BERT預訓練語言模型及其改進版本結合數據增強模型,以探究不同模型的優缺點和適用場景,并對各模型效果差異的原因進行了解釋。