結合ERNIE2.0 和多尺度網絡的數字圖書館文本分類研究

2023-10-05 08:10:14陳麗春

電子設計工程 2023年19期

陳麗春

（西安音樂學院圖書館，陜西西安 710061）

隨著圖書數量的急劇增加，人工分類效率低，易錯分類[1]。快速且準確地區分圖書類別有助于館方管理和方便讀者查閱[2]。

機器學習方法[3-4]無法確保獲取特征的準確性。文獻[5]提出了基于CNN 網絡的分類模型，Word2vec無法表示多義詞。文獻[6]提出了BERT-BiLSTM 混合方法，BiLSTM 模塊僅能捕捉文本序列信息。文獻[7]提出了ALBERT-CRNN 模型，提升了文本分類性能。文獻[8]提出了BERT-BiGRU-AT 模型，軟注意力能關注到重點詞語。

該文采用ERNIE2.0 提取動態文本特征矩陣；構建多尺度網絡以捕獲不同層次的情感語義；軟注意力負責識別關鍵情感特征。

1 數字圖書館文本分類模型

1.1 模型架構

通過結合預訓練模型ERNIE2.0、多尺度網絡和軟注意力機制三者的特點，從文本特征表示和特征學習等方面提升模型整體性能表現，最后由線性層輸出圖書類別。分類模型整體結構如圖1 所示。

1.2 ERNIE2.0預訓練模型

預訓練模型ERNIE2.0[9]采用持續性多任務的增量學習策略，結合詞的上下文語境學習到動態語言表征，有效捕捉詞匯、句法和語義信息，增強模型語義理解能力。模型結構如圖2 所示。

圖2 ERNIE2.0模型結構

其中，Trans 表示Transformer 編碼器，主要由自注意力機制[10]和前饋神經網絡構成。輸入向量E=(E1,E2,E,…,En)由字向量、位置向量和分句向量相加而成，Et表示第t個詞的向量表示，起始位置為句字整體語義向量[CLS]。字向量為句子中每個詞通過查詢詞匯表對應序列表示得到，不存在的則用[UNK]替代；位置向量的加入是為了彌補Transformer編碼器無法捕捉時序信息；該文圖書類型識別為單句分類任務，因此分句向量全為0，表示第一句。輸入向量E經多層編碼器捕捉每個詞在具體上下文語境的動態含義，生成特定的語義表征向量T=(T1,T2,Tt,…,Tn)，Tt表示第t個詞的動態詞向量表征，作為多尺度網絡的輸入。

1.3 多尺度網絡

多尺度網絡由有序神經元長短時記憶ONLSTM[11]和多尺度卷積神經網絡MCNN 構成。ONLSTM 負責捕捉文本中上下文序列信息和層級結構特征。MCNN 模塊通過不同大小的卷積核對文本特征矩陣進行卷積操作，獲取詞和短語級別的局部語義特征。

傳統的循環模型如LSTM[12]只能學習到文本的語義特征，無法提取句子內部的層級結構信息，ONLSTM 模型將神經元經過特定排序后，利用神經元的順序和層級差異特點以提取句子的語法結構信息。主要計算過程如式（1）-（4）所示。

其中，σ代表sigmoid 函數；ft、it和ot分別表示遺忘門、輸入門和輸出門；xt為當前輸入信息。W和U為可學習的權重參數矩陣，b為偏置項。權重參數矩陣中存放著每個要素關聯的實際值，是神經網絡的主要優化目標。權重參數矩陣W和U采用Xavier均勻化方式進行隨機初始化，通過保持輸入和輸出的方差一致以避免梯度消失和爆炸問題[13]。

MCNN 模塊負責提取不同尺度下的文本局部語義。設置不同大小的卷積核心進行局部信息抽取，采用最大池化策略選取重點特征，得到多尺度局部語義特征C。計算過程如式（10）、（11）所示。

其中，w表示卷積核；m代表滑動窗口大小；?為卷積操作；Ti:i+m-1表示T中第i到i+m-1 行故障文本向量。該文設置卷積核為(2,3,4),得到局部語義特征c2、c3和c4。卷積操作過程如圖3 所示。

圖3 卷積操作過程

1.4 軟注意力機制和線性輸出層

軟注意力層負責計算多尺度卷積操作輸出特征向量Ci的相應權重大小ai，加權求和后得到整體的注意力特征V。其計算過程如式（12）-（14）所示。

分類層通過全連接神經網絡將注意力特征V映射到實例分類空間，得到分類概率P，Top 函數取每行最大概率對應標簽為圖書類型結果Result，過程如式（15）、（16）所示。

2 實驗

2.1 數據集和評價指標

為驗證模型在圖書館文本分類任務上的有效性，采用清華大學提供的文本分類數據集[14]以及構建了新的圖書館文本分類數據集，將兩者合并得到更全面的圖書館文本數據集。實驗數據集共有20個類別，樣本訓練標簽為當前樣本類型，由人工進行逐條標記。訓練內容為圖書名稱和摘要描述，采用符號“ ”與標簽隔開。按照8∶1∶1 劃分訓練集、測試集和驗證集。數據集詳情如表1 所示。

表1 數據集詳情

實驗采用評價指標準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 分數，具體計算過程如式（17）-（20）所示。

其中，TP 表示預測正確的正面樣本數量，TN 表示預測正確的負面樣本數量，FP 表示預測錯誤的正面樣本數量，FN 表示預測錯誤的負面樣本數量。

2.2 實驗環境與參數設定

模型訓練參數會影響分類性能，經多次實驗調整參數后得到最優參數設定如下：ONLSTM 隱藏層單元數為256 個，層數為2；為防止訓練過擬合，設置隨機失活系數為0.4；軟注意力維度為512。MCNN模塊卷積核大小為(2,3,4)，特征圖數量為100。該文實驗軟硬件環境如表2 所示。

表2 實驗環境

采用結合RAdam[15]和LookAhead[16]策略的優化器Ranger 自動調整學習率大小，通過預熱操作抵消過度方差問題，提升模型訓練效果。綜合訓練參數設置如表3 所示。

表3 綜合訓練參數

2.3 實驗結果分析

為全方位驗證該文模型的有效性，分別從詞向量效果對比、消融實驗和與近期表現優秀模型對比3 個方面開展實驗，并對比不同優化器的性能以及卷積核大小對分類準確率的影響。固定隨機數種子，避免隨機誤差對結果產生影響，采用10 次冷啟動實驗結果的平均值作為最終結果。模型實驗結果對比如表4 所示。

表4 模型實驗結果

由表4 結果可知，該文模型ERNIE2.0-MSNAT 準確率達到97.85%，高于實驗對比的優秀模型，較BERT-BiLSTM、ALBERT-CRNN 和BERTBiGRU-AT 準確率分別提升了2.48%、2.43%和1.53%，證明了ERNIE2.0、多尺度網絡和軟注意力模塊三者結合的有效性，能夠提升圖書館文本分類性能。

為驗證ERNIE2.0 模型提取文本動態特征向量的有效性，采用Word2vec[17]和BERT[18]詞向量模型作為對比實驗，結果表明，ERNIE2.0 用作詞嵌入層效果更佳，較Word2vec-MSN 和BERT-MSN 模型準確率分別提升了2.29%和0.73%，表明ERNIE2.0 通過持續增量多任務學習策略能夠學習到語義表示更為準確的詞向量表征，解決一詞多義問題。

設置消融實驗以驗證每個模塊對整體性能的貢獻程度，與單一特征抽取模型ERNIE2.0-ONLSTM 和ERNIE2.0-MCNN相比，多尺度模型準確率分別提高了0.93%和0.79%，證明了ONLSTM 和MCNN 模塊通過捕捉不同層次的語義特征，增強模型特征捕捉的完整性。

為驗證不同優化器的訓練效果，分別采用Adam、RAdam、LookAhead 與Ranger 進行實驗對比。各個優化器在驗證集上的準確率變化如圖4 所示。

圖4 優化器性能對比圖

由圖4 結果得知，優化器Ranger 訓練過程準確率穩定上升，模型分類性能表現最佳，優于對比的其他優化策略。RAadm 作為Adam 的增強版，能夠自動調整學習率大小并加入了預熱策略，訓練效果優于Adam。

卷積核數目過多會增加模型參數量，但對性能提高無明顯幫助。設置MCNN 模塊卷積核數量為3，分別采用(2,3,4)、(2,3,5)、(2,4,5)和(3,4,5)卷積核組合進行實驗。實驗結果如圖5 所示。

圖5 卷積核大小性能對比圖

由圖5 可知，當卷積組合為(2,3,4)時，模型準確率最高，參數設定需要根據不同任務進行相應調整[19-21]。

3 結論

針對圖書館文本分類任務，提出了結合ERNIE2.0和多尺度網絡的數字圖書館文本分類模型。ERNIE2.0模型結合當前詞的具體上下文獲取動態向量表征，提升了詞向量語義表達的準確性，應用效果優于BERT 和Word2vec；多尺度網絡通過整合局部語義和全局序列特征，增強模型捕捉特征的全面性，通過消融實驗證明多尺度網絡優于單一網絡，軟注意力機制作為通用模塊能有效提升模型分類性能。通過實驗證明了ERNIE2.0-MSN-AT 模型的優異性能，能準確區分圖書文本類別。