基于BERT模型的中文輿情文本分類應用

2020-07-04 15:34:50謝劍輝

科學與財富 2020年14期

謝劍輝

摘要：BERT、ULMFiT等模型均采用了預訓練聯(lián)合微調的架構，能夠更深刻的解讀語句內涵，其在微調整階段表現(xiàn)出快捷、有效等特征，且模型的泛化性進一步增強，逐漸演變成自然語言處理領域中的最強、最新穎模型。文章在介紹BERT模型的基礎上，基于簡易的遷徙學習策略，將該模型用于中文輿情文本分類領域中，在比較中證實BERT模型的優(yōu)越性。

關鍵詞：文本分類;BERT;網(wǎng)絡輿情

在很長的一段時間內，自然語言處理（NLP）為人工智能領域中研究的重點、熱點，其面對的是繁雜多變的自然語言，希望基于精致的數(shù)學模型深度解讀語句內涵，進而實現(xiàn)人和機器之間的自然交互。2018年年末，谷歌團隊對外發(fā)布了以雙向Transformer預訓練語言模型（BERT），通過查閱相關文獻資料后發(fā)現(xiàn)[1]，BERT用于中文NLP的研究處于早期探索階段，輿情數(shù)據(jù)類別劃分是該領域研究的熱點之一，若能利用一種較科學、完善模型，微調現(xiàn)存模型，則可早短期能提升對任務運作需求的適用度，優(yōu)化研究工作質量。本文主要探究BERT模型在輿情文本分類任務執(zhí)行中的訓練成效。

1、 BERT模型介紹

從本質上分析，BERT語言模型就是 Transformer 模型的編碼器部分。于在BERT的論文內，科研人員共計訓練了兩個BERT模型，即BERTBASE和BERTLARGE，參數(shù)量不同是以上兩個模型的主要區(qū)別，前者持有12個多頭自注意力層（L=12），各層均分布12個頭（A=12）中間向量維度768（H =768）;參數(shù)量有110M。BERTLARGE有24個多頭自注意力層（L=24）各層有16個頭（A= 16），中間向量維度是1024（H = 1024），參數(shù)量340M。既往在諸多測試中，BERTLARGE的結果均優(yōu)于BERTBASE，這提示在預訓練任務和模型結構等同時，參數(shù)提高取得的成效是極為顯著的。

1.1輸入處理

BERT作為語言模型需面對眾多任務，督促要謹慎采用BERT進行輸入處理，基于詞向量增設位置向量，還需添加段落向量以應對一些和句子對相關的問題。圖1 為該過程的可視化圖[2]。

可以觀察到，一個特別表示被加入到序列首位，針對部分句子或句子對分類任務，該標識的最后輸出即是整個句子或句子對的表象特征。針對其他類型的任務，該標識盡管參與了序列編碼過程，但最后輸出情況不被重視。BERT能夠依照圖1所示的形式對句子對行“打包”處理，形成單一句子再做處置，且使用特殊標識[SEP]分隔句子、整合段向量，進而使模型精確區(qū)分兩個不同的句子。

1.2預訓練

（1）預測遮蔽詞

BERT模型采用的是雙向編碼器，綜合考慮前文以及后文詞，且在多層注意力機制的作用下，促使從第二個層面開始，各此的編碼均能捕獲到所有詞的信息。為更嚴格的訓練語言模型，創(chuàng)設新的預訓練法——遮蔽詞語言模型訓練。在該訓練內，特殊標識[MASK]會隨機取代輸入序列內的元素，借此方式屏蔽某一詞于層次編碼階段的所有信息。

（2）判斷下一句

很重關鍵的下游任務運作階段均需深度解讀不同句子對之間的關聯(lián)性，比如語義類似度、翻譯質量測評等。若只應用遮蔽詞訓練形式，則難以保證模型能精確捕獲句子對的關系，故而需基于另一種預訓練任務去強化模型在該方面的能力。預測一個句子是不是銜接另一個句子的下一句，實質上便是下一句判斷任務。該任務的達成過程較為簡易：經(jīng)語料庫內提取任一語句A，并捕獲其下一句B，基于50%的概率用B將語料庫內無關聯(lián)的句子C取代。

1.3微調

基于BERT模型能夠有效落實多樣化的NLP任務。而在面對不同NLP任務的處理需求時，無需調整BERT模型的內部結構，其只需要將指定的網(wǎng)絡層添加至最后編碼層上即可滿足任務處理要求，這在很大程度上也為BERT模型在處理眾多任務階段遷徙學習創(chuàng)造便利條件。

在處理不同的下游任務時，BERT模型會作出微調整。比如，針對句子對分類任務而言，可以將這兩個句子拼接成一個長句，而后依照上文闡述的方法處理后進行輸入，也可以對句子開頭部位的特別標識[CLS]作出編碼處理后，將獲得的向量設為語句表征。而若面對的是類似于智能問答任務時，要可以忽視特別標識[CLS]產(chǎn)出的編碼結果，也可以采用和單詞相配套的編碼結果去判斷準確答案的起始、終止位置[3]。

綜合如上論述的內容，我們發(fā)現(xiàn)BERT模型應用過程表現(xiàn)出較高的靈活度，可以結余不同的任務需求整頓差異性的輸出策略。盡管全部參數(shù)需要參與到微調整過程，但事實上其于預測訓練環(huán)節(jié)成熟度就已抵達較高水平了，可以較精準的捕獲語句的抽象特征，故而微調操作等同提升BERT模型應對不同人物的速度與準確度。

2、 BERT模型的訓練

筆者在研究階段，將全銜接網(wǎng)絡添加至BERT模型的輸出結果上，并且聯(lián)合使用softma作為分類器。選定的訓練數(shù)據(jù)是微博輿情數(shù)據(jù)，數(shù)據(jù)集共計有10大類，涵蓋民生、文化、娛樂、體育、財經(jīng)、房地產(chǎn)、汽車、教育、科技、軍事。對應的樣本數(shù)依次為2116、、2258、6043、6192、4640、2102、5935、4505、5740、2780。

本模型的Fine-turning于Tesla K80 GPU內完成訓練，一輪訓練活動歷史大概為6min。表1是BERT模型后的記錄情況[4]。

筆者針對本次研究中模型訓練結果和楊艷等[5]提出的文本分類模型進行比較分析，采用雙向LSTM銜接卷尺神經(jīng)網(wǎng)絡（CNN），設定CNN的一維卷積核長為3，卷積核數(shù)是64，最大值池化層與softmax 銜接并作為分類器。表2是模型訓練期間數(shù)據(jù)的記錄情況[5]。

對比表1、2內數(shù)據(jù)信息整體分析后，發(fā)現(xiàn)BERT模型訓練時在準確率、召回率指標上均優(yōu)于基于LSTM銜接CNN模型的訓練結果，這可能是因為BERT對句子長距離特征持有更強的捕獲能力，且確保了被捕獲語言特征的相對完整性與多樣性。

3、結束語

BERT模型基于特有的雙向編碼，在各層內部均形成了雙向邏輯關系，能夠完成十余個語言處理領域的任務，利用BooksCorps、英文維基百科量大語料庫，靈活的遷徙到下游各個任務內，接受以字作為embedding的輸入結果，單難以完全規(guī)避部分語義信息遺失的問題。這提示在后續(xù)研究中，應加大BERT 的 Transformer構思的參考力度，訓練出對詞語有強大動態(tài)編碼能力的模型，進而最大限度的強化語義闡述與特征提取能力。

參考文獻：

[1]龔韶，劉興均.網(wǎng)絡輿情安全監(jiān)測語義識別研究綜述[J].網(wǎng)絡安全技術與應用，2019，14（07）：52-57.

[2]顧凌云.基于多注意力的中文命名實體識別[J].信息與電腦（理論版），2019，41（09）：41-44+48.

[3]朱昶勝，孫欣，馮文芳.基于R語言的網(wǎng)絡輿情對股市影響研究[J].蘭州理工大學學報，2018，44（04）：103-108.

[4]王璟琦，李銳，吳華意.基于空間自相關的網(wǎng)絡輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn)，2018，2（02）：64-73.

[5]楊艷，徐冰，楊沐昀，等.一種基于聯(lián)合深度學習模型的情感分類方法[J].山東大學學報（理學版），2017，52（09）：19-25.

科學與財富2020年14期

科學與財富的其它文章: 試論管理會計在企業(yè)管理應用中存在的問題及對策; 新形勢下如何發(fā)揮企業(yè)政工工作在人力資源管理中的作用; 卷煙工業(yè)企業(yè)高技能人才培養(yǎng)方式探索; 高速公路生態(tài)綠化問題與改進; 新形勢下如何加強企業(yè)基層黨支部工作; 談上蔡縣農村水利建設存在的問題與對策