陳浩淼 陳軍華



摘??要:?對上海中小學教材德目教育文本分類進行研究,提出了基于轉換器的雙向編碼表征(BERT)預訓練模型、雙向長短期記憶(BiLSTM)網絡和注意力機制的模型IoMET_BBA. 通過合成少數類過采樣技術(SMOTE)與探索性數據分析(EDA)技術進行數據增強,使用BERT模型生成富含語境信息的語義向量,通過BiLSTM提取特征,并結合注意力機制來獲得詞語權重信息,通過全連接層進行分類. 對比實驗的結果表明,IoMET_BBA的F1度量值達到了86.14%,優于其他模型,可以精確地評估教材德目教育文本.
關鍵詞:?德目指標;?中文文本分類;?基于轉換器的雙向編碼表征(BERT)模型;?雙向長短期記憶(BiLSTM)網絡;?注意力機制
中圖分類號:?TP 391.1 ???文獻標志碼:?A ???文章編號:?1000-5137(2024)02-0172-09
Text classification method for textbook moral education based on deep learning
CHEN Haomiao,?CHEN Junhua*
(College of Information,Mechanical and Electrical Engineering,Shanghai Normal University,Shanghai 201418,China)
Abstract:?The classification of moral education texts in Shanghai primary and secondary school textbooks was studied and an IoMET_BBA(Indicators of moral education target based on BERT,?BiLSTM and attention)?model was proposed based on bidirectional encoder representations from transformer(BERT)?pre-training model,?bidirectional long short-term memory (BiLSTM)?network,?and attention mechanism. Firstly,?data augmentation was performed using synthetic minority oversampling technique(SMOTE)and exploratory data analysis (EDA). Secondly,?BERT was used to generate semantic vectors with rich contextual information. Thirdly,?BiLSTM was adopted to extract features,?and attention mechanism was combined to obtain word weight information. Finally,?classification was performed through a fully connected layer. The comparative experimental results indicated that F1?measurement value of IoMET_BBA reached 86.14%,?which was higher than other models and could accurately evaluate the moral education texts of textbooks.
Key words:?moral education index;?chinese text classification;?bidirectional encoder representations from transformer(BERT)?model;?bidirectional long short-term memory (BiLSTM)?network;?attention mechanism
德目教育是指將道德或品格的條目通過一定方式傳授給學生的教育活動[1]. 德目教育的目標是幫助個體形成正確的道德判斷,培養個人的道德觀念、價值觀和道德行為,進而推動整個社會形成道德共識.近年來,國內對德目教育的研究已經有了很多成熟的理論與實踐模式,但對于教材文本的德目指標評估大部分是依靠人工完成的,結論較為主觀,且效率較低[2].
文本分類是自然語言處理(NLP)領域中的一項關鍵任務,它把文本數據歸入不同的預先定義類別,在數字化圖書館、新聞推薦、社交網絡等領域起到重要的作用. JOACHIMS[3]首次采用支持向量機方法將文本轉化成向量,將文本分類任務轉變成多個二元分類任務. KIM[4]提出了基于卷積神經網絡(CNN)的TextCNN方法,在多個任務中取得了良好的效果. 徐軍等[5]運用樸素貝葉斯和最大熵等算法,實現了中文新聞和評論文本的自動分類. 馮多等[6]提出了基于CNN的中文微博情感分類模型,并運用于社交場景.
由于教材文本數據具有稀疏性,使用傳統的分類算法進行建模時很難考慮上下文和順序信息,并且數據集不平衡,不同指標的文本條數差異較大. 之前的相關研究[7-8]主要基于靜態詞向量(GloVe,Word2Vec)與CNN進行建模,所獲得的詞向量表示與上下文無關,也不能解決一詞多義問題,且CNN只能提取局部空間特征,無法捕捉長距離的位置信息. 本文作者采用深度學習方法,對教材短文本數據進行分類,首先采用合成少數類過采樣技術(SMOTE)和easy data augmentation(EDA)技術獲得更平衡、更充分的文本數據集,提出基于深度學習的教材德目教育文本分類模型(IoMET_BBA),使用基于轉換器的雙向編碼表征(BERT)預訓練模型來生成富含語境信息的語義向量,然后使用雙向長短期記憶網絡(BiLSTM)和注意力機制來進一步進行特征提取,充分考慮上下文和位置信息,從而提高分類任務的準確性. 實驗證明:相比于傳統模型,IoMET_BBA模型的準確率與F1值提升明顯,可高效準確地完成大規模的教材德目教育文本分類任務.
1 ?相關技術
1.1 深度學習分類模型
文本分類需要使用已標注的訓練數據來構建分類模型. 常見的文本分類流程如圖1所示. 在進行文本分類之前,通常需要對原始數據進行預處理,包括分詞、去除停用詞、詞干提取等.
文本分類可以使用多種算法進行建模. 傳統的機器學習分類模型,如樸素貝葉斯[9]、Kmeans[10]、支持向量機[3]、決策樹[11]等,通常需要依靠人工來獲取樣本特征,忽略了文本數據的上下文信息和自然順序. 近年來,基于神經網絡的深度學習方法成為研究的熱點. 這種方法主要包含兩個關鍵任務:通過構建詞向量來表示文本、使用一定的模型來提取特征并進行分類.
計算機不能理解人類的語言,因此在NLP任務中,首先要將單詞或詞語表示成向量. 獨熱編碼將詞轉化為長向量,向量維度與詞數量相同,每個向量中某一維度的值是1,其余值都是0. 獨熱編碼雖然簡單,但不能體現出詞與詞之間的關系,并且當詞量過大時,會出現維度災難及向量十分稀疏的情況. 分布式的表示方法則可以將詞表示為固定長度、稠密、互相存在語義關系的向量,這類方法也稱為詞嵌入. MIKOLOV等[12]提出了Word2Vec框架,包含Skip-Gram和Cbow算法,分別用單詞來預測上下文和用上下文來預測單詞. PENNINGTON 等[13]提出的GloVe方法,同時考慮到了局部信息和全局統計信息,根據詞與詞之間的共現矩陣來表示詞向量.
深度學習方法已經成為文本分類的主流方法. KIM等[4]使用包含卷積結構的CNN來分類文本,將文本映射成向量,并將向量輸入到模型,通過卷積層提取特征、池化層對特征采樣,但CNN沒有時序性,忽略了局部信息之間的依賴關系. 循環神經網絡(RNN)則從左到右瀏覽每個詞向量,保留每個詞的數據,可以為模型提供整個文本的上下文信息,但RNN計算速度較慢,且存在梯度消失等問題. 作為RNN的一種變體,長短期記憶網絡(LSTM)通過過濾無效信息,有效緩解了梯度消失問題,更好地捕獲長距離的依賴關系. 而BiLSTM由一個前向的LSTM和一個后向的LSTM組成,能夠捕獲雙向語義依賴.
1.2 BERT預訓練模型
同一個詞在不同環境中可能蘊含不同的意義,而使用Word2Vec,GloVe等方法獲得的詞向量都是靜態的,即這類模型對于同一個詞的表示始終相同,因此無法準確應對一詞多義的情況. 為了解決這一問題,基于語言模型的動態詞向量表示方法應運而生.
預訓練語言模型在大規模未標注數據上進行預訓練,通過微調的方式在特定任務上進行訓練.DEVLIN 等[14]提出了BERT模型,它擁有極強的泛化能力和穩健性,在多類NLP問題中表現優異.
BERT模型本質是一種語言表示模型,通過在大規模無標注語料上的自監督學習,為詞學習到良好的特征表示,并且可以通過微調,適應不同任務的需求. BERT模型采用多層雙向Transformer結構,在建模時,Transformer結構使用了自注意力機制,取代傳統深度學習中的CNN和RNN,有效地解決了長距離依賴問題,并通過并行計算提高計算效率. 通過計算每一個單詞與句中其他單詞之間的關聯程度來調整其權重. BERT模型的結構如圖2所示.
圖2中,
,
,
,
表示文本中的字符;
表示Transformer編碼器;
,
,
,
是字符通過多層雙向Transformer編碼后得到的詞向量. 在面對具體任務時,可以將BERT模型獲得的特征表示進行微調來作為詞嵌入. 在文本分類任務中,BERT模型既可以作為訓練分類器模型的直接工具,又可以與其他模型相結合,充當詞嵌入層.
2 ?IoMET_BBA建模
針對上海中小學教材德目教育文本分類任務,本文作者提出IoMET_BBA模型,主要由BERT層、BiLSTM層、Attention層及分類輸出層構成,如圖3所示. 教材文本進入模型前先進行文本預處理,通過數據增強來獲得一個平衡的新數據集,將增強后的文本輸入BERT模型層獲得詞向量,通過BiLSTM層提取特征,通過Attention層分配特征權重,將每條文本經過全連接層分類輸出.
2.1 文本預處理
文本數據在進入模型前通常要進行一些預處理操作,才能符合后續訓練模型時所需要的文本格式. 文本預處理主要包含數據清洗、分詞、去停用詞等環節. 教材短文本中包含一些語氣助詞、特殊符號等對分類沒有意義的信息,需要去掉這些影響分類效率的噪聲信息. BERT模型在處理中文時,按字將文本用空格分割,不需要人工去除停用詞,避免了丟失上下文語義的情況. 因此,對教材文本進行簡單的數據清洗,使之符合BERT模型輸入的要求即可. 在對照實驗組中,使用Jieba中文分詞工具來分詞,通過自建停用詞表來去除停用詞.
2.2 文本數據增強
數據增強的目標是在盡可能保持標簽語義不變的情況下,使用部分有標注的數據來生成更多有標注的數據. 本研究所處理的原始教材文本數據集具有數據不平衡、數據量較少的問題,因此需使用數據增強技術來生成一個更平衡、更多樣的數據集,以提升模型的泛化能力.
為了解決數據不均衡的問題,可以使用過采樣、欠采樣、類別加權等方法. SMOTE算法是一種過采樣技術,其核心是合成產生更多的少數類樣本. 對每個少數類中的樣本
,計算其到其他少數類樣本的歐氏距離,獲得
個近鄰樣本,依據樣本的不平衡率來確定采樣的比例,在樣本
的
近鄰中隨機選取若干個近鄰樣本,對于每個近鄰樣本
,構造新的少數類樣本
. (1)
文本數據擴充的方法有EDA、回譯、文本語境增強等. EDA是一種簡單通用的數據增強技術,包含?4 種簡單的操作:同義詞替換(SR)、隨機插入(RI)、隨機交換(RS)、隨機刪除(RD). 通過生成與原數據相似但添加了噪聲的增強數據,EDA可以防止模型出現過擬合的情況.
對于所使用的教材文本數據集不均衡、數據量不足的問題,本文作者使用SMOTE算法實現少數類別過采樣操作,使用EDA擴充文本數據來獲得更平衡的數據集,從而提升模型的泛化能力.
2.3 BERT詞嵌入層
BERT模型的輸入由三個部分構成:標記嵌入、片段嵌入、位置嵌入. 標記嵌入是將文本序列中的每個標記表示為向量,在中文文本分類場景中,BERT模型首先將文本按字用空格分割,然后通過查詢字向量表,將每一個字轉變成一個一維向量;片段嵌入是為了區分字所在的句子,用于捕捉所在片段的語義信息;位置嵌入是將字所處的位置信息表示為向量,可彌補Transformer編碼器不能捕獲順序信息的缺陷.
如圖4所示,在教材文本分類任務中,BERT模型的輸入是教材文本中每個字初始的詞向量,其中[CLS]標簽表示用于文本分類任務,[SEP]標簽表示兩個句子的分隔邊界. 最終輸出教材文本中融合了語義信息的向量.
2.4 BiLSTM層
教材短文本數據在經過BERT預訓練模型后,已經被表示為包含豐富語義信息的動態詞向量,要想獲得良好的文本分類結果,還需要充分考慮上下文信息. LSTM是一種特殊的循環神經網絡,它引入了記憶細胞、輸入門、輸出門、遺忘門等概念,可以有效捕獲序列中的長時間依賴性. 在LSTM中,輸入序列經過神經網絡,每一個單元被映射到一個隱藏狀態向量,然后由另一個神經網絡層對向量進行解碼輸出,但這種方法無法編碼從后到前的信息. 使用BERT模型生成的詞向量作為嵌入層,通過BiLSTM網絡與注意力機制進行教材文本的上下文特征提取.
如圖5所示,BiLSTM有兩個獨立的LSTM層,分別按照時間順序和倒序處理輸入. 正向LSTM層中,每個時間步的隱藏狀態
和單元狀態分別如下:
, (2)
, (3)
, (4)
, (5)
, (6)
, (7)
其中,
,
,
,
分別為時刻
的輸入門、遺忘門、輸出門及記憶細胞的激活向量;
表示時刻
的輸入;
為權重矩陣;
為偏置向量;
為Sigmoid函數. 類似地,反向LSTM按時間倒序處理序列,可計算出每個時間步的隱藏狀態
和單元狀態
. 最后輸出層對兩個方向的狀態進行拼接,得到最終輸出:
. (8)
2.5 Attention層
在教材文本數據中,并非所有詞語都用于文本的語義表達,某些關鍵詞往往更能體現語義的類別傾向,因此,采用注意力機制(attention mechanism)來提取重要信息,從而進行準確的分類. 注意力機制早期由圖像領域的研究者提出,通過模仿人類的視覺注意力來給不同區域分配權重. 引入注意力機制可以讓神經網絡具備選擇關注輸入關鍵信息的能力,從而提高模型的性能. MNIH等[15]在RNN的基礎上,添加了注意力機制來改進圖像分類效果,BAHDANAU等[16]首次將注意力機制運用到NLP任務中.
注意力機制算法可以分成:先計算查詢Q和鍵K之間的相似性,獲得權重系數
,經過Softmax函數歸一化處理后,再將
與對應的值V加權求和,
, (9)
其中,
表示詞向量的維度;
表示Softmax層運算.
2.6 分類輸出層
本模型的分類輸出層由全連接層和Softmax層組成. 原始數據經過BERT詞嵌入層、BiLSTM層、注意力機制層后,輸出的向量包含多樣化語義、上下文信息和詞語權重信息. 將Attention層輸出的特征向量作為全連接層的輸入,通過多個神經元和ReLU激活函數的運算,產生新的輸出,通過Softmax層將其映射為各個類別的分布概率
, (10)
其中,
是輸入的特征向量;
是權重矩陣;
是偏置項.
模型的訓練采用收斂較快的交叉熵損失函數作為目標函數,某一類別的損失函數
, (11)
其中,
為樣本的標簽;
為預測標簽. 對一個批次(batch),損失函數為:
, (12)
其中,
為batch的大小;
為類別數;
為樣本標簽;
為預測標簽.
3 ?實驗
3.1 實驗數據集
本實驗原始數據集選取自上海中小學教材,分為16個類別(表1),包含33 360條文本數據. 原始數據集存在數據不平衡的問題,使用2.2節所述方法對教材文本數據進行增強,新的均衡數據集包含109 754 條短文本. 根據8∶2的比例隨機劃分成訓練集和測試集.
3.2 實驗環境
所用設備的操作系統為Windows10,CPU為AMD Ryzen7,5 800 Hz,?GPU為NVIDIA GeForce RTX3060,編程語言為?Python,框架為Pytorch.
3.3 模型參數設置
本實驗中所用BERT模型的具體參數如下:注意力機制頭數為12,Transformer 編碼器層數為12,隱藏層單元數為?768. BiLSTM模型訓練參數如表2所示.
3.4 評價指標
通過準確率A以及度量值F1對模型表現進行評估,
, (13)
, (14)
, (15)
, (16)
其中,
為召回率;
為精確率;
,
,
和
分別為真陽性、真陰性、假陽性和假陰性的數量.
3.5 實驗結果與分析
為了探究本模型的有效性,把增強之后的數據集和原數據集分別輸入IoMET_BBA模型中,計算F1來對比分類效果,如圖6所示.
圖6證明了數據增強后,訓練效果在每個分類上都有了明顯提升,模型整體的F1提升了約22%,驗證了數據增強方法的有效性.
為了探究BERT模型作為詞向量嵌入層在教材德目教育文本分類任務的有效性,運用Word2Vec,GloVe,BERT三種模型方法來表示詞向量,并分別結合CNN與BiLSTM兩種模型進行實驗,結果如表3所示.
從表3中能夠看出,在結合CNN進行特征提取時,使用BERT模型訓練詞向量比使用GloVe模型的F1提升了7.01%;在結合BiLSTM進行特征提取時,使用BERT模型訓練詞向量比使用GloVe模型的F1提升了4.22%. 因此,使用BERT模型作為教材德目文本分類任務的詞向量表示,可以獲得更豐富的語義信息,取得更好的訓練效果,從而提高分類的準確性. 另外,由表3可知,BiLSTM的特征提取效果優于CNN.
為了驗證所提出的IoMET_BBA模型在進行教材德目文本分類時的整體有效性,選取了表現較好的BERT_CNN與BERT_BiLSTM進行比較,并且使用單純的BERT模型和加入注意力機制的BERT_CNN_ATT模型相對比,實驗結果如表4所示.
從表4可知,雖然單純BERT模型可以獲得較好的分類結果,但結合CNN或BiLSTM后,模型可以取得更好的效果. 另外,在添加注意力機制后,各種模型的分類效果均有所提升,表明引入注意力機制可以使文本分類模型關注重要信息,從而提升模型性能. 綜合來看,IoMET_BBA模型在教材德目教育文本分類任務中表現更好.
4 ?結論
本文作者提出了IoMET_BBA模型,在16個分類上進行數據增強的驗證實驗,并對比了不同分類模型的性能,以探究IoMET_BBA模型的有效性. 實驗結果顯示:
(1)?模型的數據增強方法有效解決了數據不均衡的問題;
(2)?使用包含自注意力機制的BERT模型來獲取上下文語義,可以避開靜態詞向量模型無法表示一詞多義、不能體現上下文語境的缺點;
(3)?結合CNN或BiLSTM模型,BERT模型能取得更好的結果,通過Attention層獲得詞語權重信息,可以進一步改進模型性能.
實驗結果顯示,所提出的IoMET_BBA模型在性能上表現更好,在教材文本分類任務中取得良好的結果,對于教材德目教育的評估具有一定意義. 未來的研究方向包括改進模型的數據預處理與數據增強方法,通過更多對比實驗,進一步優化詞向量的表示及神經網絡的結構,以進一步提升模型性能.
參考文獻:
[1] 陳菊戀. 德目教育存在的問題與超越:以勇敢教育為例?[J]. 基礎教育研究,?2011(23):11-12.
[2] 姜獻輝,?劉兵. 基礎德目教育研究綜述?[J]. 成功(教育),?2010(1):116-117.
[3] JOACHIMS T. Text Categorization with Support Vector Machines:?Learning with Many Relevant Features [M]. Heidelberg:?Springer,?1998.
[4] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha:?ACL,?2014:1-6.
[5] 徐軍,?丁宇新,?王曉龍. 使用機器學習方法進行新聞的情感自動分類?[J]. 中文信息學報,?2007(6):95-100.
XU J,?DING Y X,?WANG X L. Sentiment classification for Chinese news using machine learning methods [J]. Journal of Chinese Information Processing,?2007(6):95-100.
[6] 馮多,?林政,?付鵬,?等. 基于卷積神經網絡的中文微博情感分類?[J]. 計算機應用與軟件,?2017,34(4):157-164.
FENG D,?LIN Z,?FU P,?et al. Chinese micro-blog emotion classification based on CNN [J]. Computer Applications and Software,?2017,34(4):157-164.
[7] 郭書武,?陳軍華. 基于深度學習的教材德目分類方法?[J]. 計算機與現代化,?2021(9):106-112.
GUO S W,?CHEN J H. Textbook classification method of index of moral education based on deep learning [J].Computer and Modernization,?2021(9):106-112.
[8] 張雨婷,?陳軍華. 基于深度學習的教材德目分類評測方法?[J]. 計算機應用與軟件,?2021,?38(10):209-215.
ZHANG Y T,?CHEN J H. Research on indicators of moral education target in textbooks based on deep learning [J]. Computer Applications and Software,?2021,?38(10):209-215.
[9] MARON M E. Automatic indexing:?an experimental inquiry [J]. Journal of the ACM,?1961,8(3):404-417.
[10] COVER T,?HART P. Nearest neighbor pattern classification [J]. IEEE Transactions on Information Theory,?1967,13(1):?21-27.
[11] BREIMAN L,?FRIEDMAN J,?OLSHEN R A,?et al. Classification and Regression Trees [M]. New York:?Routledge,?1984.
[12] MIKOLOV T,?CHEN K,?CORRADO G,?et al. Efficient estimation of word representations in vector space [J/OL]. arXiv:1301.3781,?2013[2023-10-10]. https:// arxiv.org/abs/1301.3781v1.
[13] PENNINGTON J,?SOCHER R,?MANNING C D. GloVe:?global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha:?ACL,?2014:1532-1543.
[14] DEVLIN J,?CHANG M,?LEE K,?et al. Bert:?pre-training of deep bidirectional transformers for language understanding [J/OL]. arXiv:1810.04805,?2018 [2023-10-10]. https:// arxiv.org/abs/1810.04805v2.
[15] MNIH V,?HEESS N,?GRAVES A. Recurrent models of visual attention [C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal:?ACM,?2014:2204-2212.
[16] BAHDANAU D,?CHO K,?BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. arXiv:1409.0473,?2014 [2023-10-10]. https:// arxiv.org/abs/1409.0473.
(責任編輯:包震宇,顧浩然)
DOI:?10.3969/J.ISSN.1000-5137.2024.02.005
收稿日期:?2023-12-23
基金項目:?國家社會科學基金(13JZD046)
作者簡介:?陳浩淼(1997—),?男,?碩士研究生,?主要從事數據處理、自然語言處理方面的研究. E-mail:?1000513338@smail.shnu.edu.cn
* 通信作者:?陳軍華(1968—),?男,?副教授,?主要從事數據信息處理技術及數據庫信息系統等方面的研究. E-mail:?chenjh@shnu.edu.cn
引用格式:?陳浩淼,?陳軍華. 基于深度學習的教材德目教育文本分類方法?[J]. 上海師范大學學報?(自然科學版中英文),?2024,53(2):172?180.
Citation format:?CHEN H M,?CHEN J H. Text classification method for textbook moral education based on deep learning [J]. Journal of Shanghai Normal University (Natural Sciences),?2024,53(2):172?180.