劉景霞
(河南省駐馬店市上蔡縣衛生計生監督所,河南駐馬店 463800)
傳統電子檔案依靠人工分類,存在效率較低、易出錯等缺點[1-2],如何快速且準確地區分檔案類型,是檔案管理急需解決的重要難題。
機器學習方法[3]無法確保提取特征的準確性。文獻[4]采用FastText 模型對檔案進行分類,文獻[5]提出了BERT-BiLSTM 模型,BiLSTM 缺乏對局部語義的學習。文獻[6]提出了BERT-CNN 模型,CNN 提取文本局部特征。文獻[7]提出了ERNIE2.0-BiLSTMAtt 模型,注意力[8]能有效提升分類性能。以上模型無法完整地捕捉檔案語義特征。
該文采用ALBERT 提取檔案文本動態詞向量、多通道特征網絡捕捉局部語義和序列特征,軟注意力負責識別關鍵特征。
融合ALBERT 與多通道特征網絡的檔案數據分類模型主要由ALBERT 預訓練語言模型、多通道特征網絡二次語義提取、軟注意力機制和線性分類層構成。模型整體結構如圖1 所示。

圖1 模型整體結構
對檔案數據文本進行字符級別的分詞操作,由大規模語言模型ALBERT 提取檔案文本的動態詞向量表示,多通道特征網絡捕捉不同尺度下字、詞和短語級別的全局上下文特征,軟注意力計算每個特征對檔案分類結果的貢獻程度,識別出關鍵特征,線性分類層調整特征維度,由分類概率分布得出當前批檔案樣本的標簽。
預訓練模型ALBERT[9]提出了多種降低參數量的策略和增強模型語義理解能力的預訓練任務。采用段落連續性預訓練任務替代下一句預測任務,顯著提升下游多句子編碼任務的性能,提升模型對語料的建模能力。ALBERT 模型結構如圖2 所示。

圖2 ALBERT模型結構
E1,E2,…,Em為輸入向量,由字向量、位置向量和分割向量相加而成,相關計算過程如圖3 所示。

圖3 輸入向量構成
經多層Transform 編碼器動態語義學習后,得到文本特征矩陣T1,T2,…,Tm,Ti表示文檔案文本中第i個詞的向量表示。
多通道特征網絡由時間卷積網絡[10]模塊和多尺度卷積網絡構成。多尺度卷積網絡通過設置不同尺寸的卷積核,捕獲字、詞和短語級別的局部語義特征。對ALBERT 模型輸出的動態特征表示T進行卷積操作,為降低語義損失,不加入池化操作,得到新的特征表示ci。計算過程如式(1)-(2)所示。
其中,w為卷積核;b為偏置值;m為滑動窗口大??;*為卷積操作;f為非線性激活函數Relu();Ti:i+m-1表示T中第i到i+m-1 行詞向量。設置卷積核心為(2,3,4),卷積得到特征c2、c3和c4。
時間卷積網絡(TCN)相較于傳統循環網絡BiGRU[11]和BiLSTM[12],能避免循環依賴機制導致訓練速度慢的問題,計算效率更高。TCN 由多個殘差塊連接而成,單個殘差塊則由膨脹因果卷積層、歸一化權重、激活函數ReLU 和Dropout 層構成。膨脹因果卷積層確保從未來到過去沒有出現信息泄漏并構建非常長的有效歷史大小。殘差連接是搭建TCN 深度網絡的關鍵前提,避免網絡隨深度增加產生退化現象。歸一化權重能夠加快收斂速度,降低模型訓練成本。TCN 模型結構如圖4 所示。

圖4 時間卷積模塊結構
將卷積網絡得到的局部特征c2、c3、c4和原始文本語義向量T分別輸入到TCN 網絡,經上下文序列特征提取后得到多通道特征H,如式(3)所示。
將多通道時間卷積網絡TCN 輸出H送入軟注意力層計算每個特征注意力得分ai,加權求和后得到注意力特征A。相關計算過程如式(4)-(6)所示。
將注意力特征A通過線性層轉換到具體分類空間,Softmax 函數計算得到檔案類別概率分布Ps,取行最大值對應的檔案類別標簽作為分類結果。其過程如式(7)-(8)所示。
為驗證該文模型在檔案數據文本自動分類任務上的有效性,采用復旦大學檔案文檔數據集作為實驗數據。由于數據存在類別不平衡現象,選取其中數量較多的五個類別檔案文本進行實驗。其中,檔案文本內容作為訓練內容,分類標簽用分隔符 進行區分。采用五折交叉驗證方法劃分訓練集和測試集,將平均值作為最終實驗結果,降低隨機誤差對結果造成影響。具體檔案各類別數量如表1 所示。

表1 檔案樣本數量
為客觀評價模型性能表現,實驗采用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 值作為評價指標,相關計算過程如式(9)-(12)所示。
其中,TP 代表樣本為正例且預測為正例,TN 代表樣本為負例且預測為負例,FN 代表樣本為正例但預測為負例,FP 代表樣本為負例但預測為正例。
深度學習模型訓練需要耗費大量的計算資源,因此需要配置高性能計算服務器。該文實驗采用的軟硬件環境設置如表2 所示。

表2 軟硬件配置
模型綜合訓練參數如表3 所示。Ranger 優化器通過結合優化策略RAdam[13]和LookAhead[14]兩者的優勢,自適應調整學習率的大小,并加快模型收斂速度,提升訓練效果。

表3 綜合訓練參數
模型訓練參數設定的好壞影響著分類性能表現,通過多次實驗調整參數后得到最優參數設定如下:ALBERT 預訓練模型采用中文基礎版本,參數量大小為4 MByte,詞向量維度為768;TCN 膨脹系數為1,層數為2;注意力機制維度為256,全連接層神經元數量為128個;多尺度卷積網絡卷積核數量為3個,特征圖數量為128 幅。
各模型實驗結果如表4 所示。由表4 結果可知,該文模型ALBERT-MCFN-Att 檔案文本分類準確率達到了97.51%,優于實驗對比的優秀模型BERTBiLSTM、BERT-TextCNN 和ERNIE2.0-BiLSTM-Att,準確率分別提高了2.98%、2.84%和1.41%,證明了結合ALBERT 與-MCFN-Att 模塊能準確地識別出檔案文本類別,實現快速分類。

表4 模型實驗結果
為驗證語言模型ALBERT 提取檔案文本特征向量的有效性,采用Word2vec[15]和BERT[16]作為詞嵌入實驗對比。由結果可知,ALBERT準確率較Word2vec和BERT分別提升了4.61%和2.23%,說明了ALBERT能夠通過結合詞的上下文動態學習向量表征,得到更為準確的語義表示。
為驗證模型各個模塊對整體性能的貢獻程度,設置消融實驗。與ALBERT-TCN 和ALBERT-MCNN模型相比較,ALBERT-MCFN 模型準確率分別提升了1.17%和1.31%,說明了單一特征提取模塊性能較差,將兩者整合為多通道特征網絡后能有效提升分類性能。ALBERT-MCFN 模型在加入注意力模塊后準確率提高了1.07%,注意力能夠為整體模型提供聚焦于關鍵特征的能力,降低噪聲詞對結果的影響。
各模型在每個類別上的F1值如圖5所示。由圖5可得,該文模型在各類別上的F1 值均高于實驗對比模型,平均值達到了97.59%。

圖5 在各個類別上的F1值
各個模型準確率和損失值隨訓練輪次的變化趨勢如圖6、7 所示。

圖6 準確率變化趨勢圖

圖7 損失值變化趨勢圖
由圖6、7 可知,該文模型ALBERT-MCFN-Att 訓練過程穩定性更好,在較少輪次便達到較高的準確率和較低的損失值,隨后趨于穩定,而其他模型則存在一定幅度的波動[17-18]。
針對檔案數據文本自動分類任務,提出了結合ALBERT 與多通道特征網絡的檔案數據分類模型。采用ALBERT 雙向動態語言模型提取檔案文本特征向量表示,解決傳統詞向量無法結合上下文學習當前詞語義的問題,在檔案數據文本分類任務上的應用性能更好;多通道特征網絡全面地捕捉檔案文本多尺度局部語義和上下文序列特征,增強了模型整體的特征學習能力;軟注意力機制賦予模型關注重點特征的能力,有效提升模型性能,在公開數據上的實驗驗證了該文模型的有效性。接下來的研究將進一步增強模型特征捕捉的全面性以及降低模型參數量。