徐慧超 徐海文 劉麗娜



摘要:隨著Transformer模型的改進與發展,模型的參數數量顯著增加,使得Transformer模型及其衍生模型需要消耗大量的計算資源和存儲資源。文章提出一種基于知識蒸餾的新的Transformer模型輕量化方法:使用預訓練好的BERT模型(Bidirectional Encoder Representation from Transformers) 作為教師模型,設計學生模型卷積神經網絡(Convolutional NeuralNetwork,CNN) ,加入注意力機制的循環神經網絡(Recurrent Neural Network,RNN) 和全連接神經網絡(Full Connect Neu?ral Network,DNN) ,并采用logits和matching logits兩種蒸餾方法,實現模型的輕量化。實驗結果表明,當將BERT模型蒸餾給CNN時,參數數量減少93.46%,運行速度提升30余倍,在小規模數據集上準確率僅下降0.70%;當將BERT蒸餾給加入注意力機制的RNN時,參數數量減少了93.38%,速度提升100余倍,模型準確率輕微下降;當將DNN作為學生模型時,參數數量減少了93.77%,速度提升了200余倍,在大規模數據集上,準確率僅下降0.02%。
關鍵詞:深度學習;Transformer模型;注意力機制;輕量化方法;知識蒸餾
中圖分類號:TP301 文獻標識碼:A
文章編號:1009-3044(2024)04-0025-04