謝劍輝



摘 要:BERT、ULMFiT等模型均采用了預訓練聯(lián)合微調的架構,能夠更深刻的解讀語句內涵,其在微調整階段表現(xiàn)出快捷、有效等特征,且模型的泛化性進一步增強,逐漸演變成自然語言處理領域中的最強、最新穎模型。文章在介紹BERT模型的基礎上,基于簡易的遷徙學習策略,將該模型用于中文輿情文本分類領域中,在比較中證實BERT模型的優(yōu)越性。
關鍵詞:文本分類;BERT;網(wǎng)絡輿情
在很長的一段時間內,自然語言處理(NLP)為人工智能領域中研究的重點、熱點,其面對的是繁雜多變的自然語言,希望基于精致的數(shù)學模型深度解讀語句內涵,進而實現(xiàn)人和機器之間的自然交互。2018年年末,谷歌團隊對外發(fā)布了以雙向Transformer預訓練語言模型(BERT),通過查閱相關文獻資料后發(fā)現(xiàn)[1],BERT用于中文NLP的研究處于早期探索階段,輿情數(shù)據(jù)類別劃分是該領域研究的熱點之一,若能利用一種較科學、完善模型,微調現(xiàn)存模型,則可早短期能提升對任務運作需求的適用度,優(yōu)化研究工作質量。本文主要探究BERT模型在輿情文本分類任務執(zhí)行中的訓練成效。
1、 BERT模型介紹
從本質上分析,BERT語言模型就是 Transformer 模型的編碼器部分。于在BERT的論文內,科研人員共計訓練了兩個BERT模型,即BERTBASE和BERTLARGE,參數(shù)量不同是以上兩個模型的主要區(qū)別,前者持有12個多頭自注意力層(L=12),各層均分布12個頭(A=12)中間向量維度768(H =768);參數(shù)量有110M。BERTLARGE有24個多頭自注意力層(L=24)各層有16個頭(A= 16),中間向量維度是1024(H = 1024),參數(shù)量340M。既往在諸多測試中,BERTLARGE的結果均優(yōu)于BERTBASE,這提示在預訓練任務和模型結構等同時,參數(shù)提高取得的成效是極為顯著的。
1.1輸入處理
BERT作為語言模型需面對眾多任務,督促要謹慎采用BERT進行輸入處理,基于詞向量增設位置向量,還需添加段落向量以應對一些和句子對相關的問題。圖1 為該過程的可視化圖[2]。
可以觀察到,一個特別表示被加入到序列首位,針對部分句子或句子對分類任務,該標識的最后輸出即是整個句子或句子對的表象特征。針對其他類型的任務,該標識盡管參與了序列編碼過程,但最后輸出情況不被重視。BERT能夠依照圖1所示的形式對句子對行“打包”處理,形成單一句子再做處置,且使用特殊標識[SEP]分隔句子、整合段向量,進而使模型精確區(qū)分兩個不同的句子。
1.2預訓練
(1)預測遮蔽詞
BERT模型采用的是雙向編碼器,綜合考慮前文以及后文詞,且在多層注意力機制的作用下,促使從第二個層面開始,各此的編碼均能捕獲到所有詞的信息。為更嚴格的訓練語言模型,創(chuàng)設新的預訓練法——遮蔽詞語言模型訓練。在該訓練內,特殊標識[MASK]會隨機取代輸入序列內的元素,借此方式屏蔽某一詞于層次編碼階段的所有信息。
(2)判斷下一句
很重關鍵的下游任務運作階段均需深度解讀不同句子對之間的關聯(lián)性,比如語義類似度、翻譯質量測評等。若只應用遮蔽詞訓練形式,則難以保證模型能精確捕獲句子對的關系,故而需基于另一種預訓練任務去強化模型在該方面的能力。預測一個句子是不是銜接另一個句子的下一句,實質上便是下一句判斷任務。該任務的達成過程較為簡易:經(jīng)語料庫內提取任一語句A,并捕獲其下一句B,基于50%的概率用B將語料庫內無關聯(lián)的句子C取代。
1.3微調
基于BERT模型能夠有效落實多樣化的NLP任務。而在面對不同NLP任務的處理需求時,無需調整BERT模型的內部結構,其只需要將指定的網(wǎng)絡層添加至最后編碼層上即可滿足任務處理要求,這在很大程度上也為BERT模型在處理眾多任務階段遷徙學習創(chuàng)造便利條件。
在處理不同的下游任務時,BERT模型會作出微調整。比如,針對句子對分類任務而言,可以將這兩個句子拼接成一個長句,而后依照上文闡述的方法處理后進行輸入,也可以對句子開頭部位的特別標識[CLS]作出編碼處理后,將獲得的向量設為語句表征。而若面對的是類似于智能問答任務時,要可以忽視特別標識[CLS]產(chǎn)出的編碼結果,也可以采用和單詞相配套的編碼結果去判斷準確答案的起始、終止位置[3]。
綜合如上論述的內容,我們發(fā)現(xiàn)BERT模型應用過程表現(xiàn)出較高的靈活度,可以結余不同的任務需求整頓差異性的輸出策略。盡管全部參數(shù)需要參與到微調整過程,但事實上其于預測訓練環(huán)節(jié)成熟度就已抵達較高水平了,可以較精準的捕獲語句的抽象特征,故而微調操作等同提升BERT模型應對不同人物的速度與準確度。
2、 BERT模型的訓練
筆者在研究階段,將全銜接網(wǎng)絡添加至BERT模型的輸出結果上,并且聯(lián)合使用softma作為分類器。選定的訓練數(shù)據(jù)是微博輿情數(shù)據(jù),數(shù)據(jù)集共計有10大類,涵蓋民生、文化、娛樂、體育、財經(jīng)、房地產(chǎn)、汽車、教育、科技、軍事。對應的樣本數(shù)依次為2116、、2258、6043、6192、4640、2102、5935、4505、5740、2780。
本模型的Fine-turning于Tesla K80 GPU內完成訓練,一輪訓練活動歷史大概為6min。表1是BERT模型后的記錄情況[4]。
筆者針對本次研究中模型訓練結果和楊艷等[5]提出的文本分類模型進行比較分析,采用雙向LSTM銜接卷尺神經(jīng)網(wǎng)絡(CNN),設定CNN的一維卷積核長為3,卷積核數(shù)是64,最大值池化層與softmax 銜接并作為分類器。表2是模型訓練期間數(shù)據(jù)的記錄情況[5]。
對比表1、2內數(shù)據(jù)信息整體分析后,發(fā)現(xiàn)BERT模型訓練時在準確率、召回率指標上均優(yōu)于基于LSTM銜接CNN模型的訓練結果,這可能是因為BERT對句子長距離特征持有更強的捕獲能力,且確保了被捕獲語言特征的相對完整性與多樣性。
3、 結束語
BERT模型基于特有的雙向編碼,在各層內部均形成了雙向邏輯關系,能夠完成十余個語言處理領域的任務,利用BooksCorps、英文維基百科量大語料庫,靈活的遷徙到下游各個任務內,接受以字作為embedding的輸入結果,單難以完全規(guī)避部分語義信息遺失的問題。這提示在后續(xù)研究中,應加大BERT 的 Transformer構思的參考力度,訓練出對詞語有強大動態(tài)編碼能力的模型,進而最大限度的強化語義闡述與特征提取能力。
參考文獻:
[1]龔韶,劉興均.網(wǎng)絡輿情安全監(jiān)測語義識別研究綜述[J].網(wǎng)絡安全技術與應用,2019,14(07):52-57.
[2]顧凌云.基于多注意力的中文命名實體識別[J].信息與電腦(理論版),2019,41(09):41-44+48.
[3]朱昶勝,孫欣,馮文芳.基于R語言的網(wǎng)絡輿情對股市影響研究[J].蘭州理工大學學報,2018,44(04):103-108.
[4]王璟琦,李銳,吳華意.基于空間自相關的網(wǎng)絡輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(02):64-73.
[5]楊艷,徐冰,楊沐昀,等.一種基于聯(lián)合深度學習模型的情感分類方法[J].山東大學學報(理學版),2017,52(09):19-25.