999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的中文輿情文本分類應用

2020-07-04 15:34:50謝劍輝
科學與財富 2020年14期

謝劍輝

摘 要:BERT、ULMFiT等模型均采用了預訓練聯(lián)合微調的架構,能夠更深刻的解讀語句內涵,其在微調整階段表現(xiàn)出快捷、有效等特征,且模型的泛化性進一步增強,逐漸演變成自然語言處理領域中的最強、最新穎模型。文章在介紹BERT模型的基礎上,基于簡易的遷徙學習策略,將該模型用于中文輿情文本分類領域中,在比較中證實BERT模型的優(yōu)越性。

關鍵詞:文本分類;BERT;網(wǎng)絡輿情

在很長的一段時間內,自然語言處理(NLP)為人工智能領域中研究的重點、熱點,其面對的是繁雜多變的自然語言,希望基于精致的數(shù)學模型深度解讀語句內涵,進而實現(xiàn)人和機器之間的自然交互。2018年年末,谷歌團隊對外發(fā)布了以雙向Transformer預訓練語言模型(BERT),通過查閱相關文獻資料后發(fā)現(xiàn)[1],BERT用于中文NLP的研究處于早期探索階段,輿情數(shù)據(jù)類別劃分是該領域研究的熱點之一,若能利用一種較科學、完善模型,微調現(xiàn)存模型,則可早短期能提升對任務運作需求的適用度,優(yōu)化研究工作質量。本文主要探究BERT模型在輿情文本分類任務執(zhí)行中的訓練成效。

1、 BERT模型介紹

從本質上分析,BERT語言模型就是 Transformer 模型的編碼器部分。于在BERT的論文內,科研人員共計訓練了兩個BERT模型,即BERTBASE和BERTLARGE,參數(shù)量不同是以上兩個模型的主要區(qū)別,前者持有12個多頭自注意力層(L=12),各層均分布12個頭(A=12)中間向量維度768(H =768);參數(shù)量有110M。BERTLARGE有24個多頭自注意力層(L=24)各層有16個頭(A= 16),中間向量維度是1024(H = 1024),參數(shù)量340M。既往在諸多測試中,BERTLARGE的結果均優(yōu)于BERTBASE,這提示在預訓練任務和模型結構等同時,參數(shù)提高取得的成效是極為顯著的。

1.1輸入處理

BERT作為語言模型需面對眾多任務,督促要謹慎采用BERT進行輸入處理,基于詞向量增設位置向量,還需添加段落向量以應對一些和句子對相關的問題。圖1 為該過程的可視化圖[2]。

可以觀察到,一個特別表示被加入到序列首位,針對部分句子或句子對分類任務,該標識的最后輸出即是整個句子或句子對的表象特征。針對其他類型的任務,該標識盡管參與了序列編碼過程,但最后輸出情況不被重視。BERT能夠依照圖1所示的形式對句子對行“打包”處理,形成單一句子再做處置,且使用特殊標識[SEP]分隔句子、整合段向量,進而使模型精確區(qū)分兩個不同的句子。

1.2預訓練

(1)預測遮蔽詞

BERT模型采用的是雙向編碼器,綜合考慮前文以及后文詞,且在多層注意力機制的作用下,促使從第二個層面開始,各此的編碼均能捕獲到所有詞的信息。為更嚴格的訓練語言模型,創(chuàng)設新的預訓練法——遮蔽詞語言模型訓練。在該訓練內,特殊標識[MASK]會隨機取代輸入序列內的元素,借此方式屏蔽某一詞于層次編碼階段的所有信息。

(2)判斷下一句

很重關鍵的下游任務運作階段均需深度解讀不同句子對之間的關聯(lián)性,比如語義類似度、翻譯質量測評等。若只應用遮蔽詞訓練形式,則難以保證模型能精確捕獲句子對的關系,故而需基于另一種預訓練任務去強化模型在該方面的能力。預測一個句子是不是銜接另一個句子的下一句,實質上便是下一句判斷任務。該任務的達成過程較為簡易:經(jīng)語料庫內提取任一語句A,并捕獲其下一句B,基于50%的概率用B將語料庫內無關聯(lián)的句子C取代。

1.3微調

基于BERT模型能夠有效落實多樣化的NLP任務。而在面對不同NLP任務的處理需求時,無需調整BERT模型的內部結構,其只需要將指定的網(wǎng)絡層添加至最后編碼層上即可滿足任務處理要求,這在很大程度上也為BERT模型在處理眾多任務階段遷徙學習創(chuàng)造便利條件。

在處理不同的下游任務時,BERT模型會作出微調整。比如,針對句子對分類任務而言,可以將這兩個句子拼接成一個長句,而后依照上文闡述的方法處理后進行輸入,也可以對句子開頭部位的特別標識[CLS]作出編碼處理后,將獲得的向量設為語句表征。而若面對的是類似于智能問答任務時,要可以忽視特別標識[CLS]產(chǎn)出的編碼結果,也可以采用和單詞相配套的編碼結果去判斷準確答案的起始、終止位置[3]。

綜合如上論述的內容,我們發(fā)現(xiàn)BERT模型應用過程表現(xiàn)出較高的靈活度,可以結余不同的任務需求整頓差異性的輸出策略。盡管全部參數(shù)需要參與到微調整過程,但事實上其于預測訓練環(huán)節(jié)成熟度就已抵達較高水平了,可以較精準的捕獲語句的抽象特征,故而微調操作等同提升BERT模型應對不同人物的速度與準確度。

2、 BERT模型的訓練

筆者在研究階段,將全銜接網(wǎng)絡添加至BERT模型的輸出結果上,并且聯(lián)合使用softma作為分類器。選定的訓練數(shù)據(jù)是微博輿情數(shù)據(jù),數(shù)據(jù)集共計有10大類,涵蓋民生、文化、娛樂、體育、財經(jīng)、房地產(chǎn)、汽車、教育、科技、軍事。對應的樣本數(shù)依次為2116、、2258、6043、6192、4640、2102、5935、4505、5740、2780。

本模型的Fine-turning于Tesla K80 GPU內完成訓練,一輪訓練活動歷史大概為6min。表1是BERT模型后的記錄情況[4]。

筆者針對本次研究中模型訓練結果和楊艷等[5]提出的文本分類模型進行比較分析,采用雙向LSTM銜接卷尺神經(jīng)網(wǎng)絡(CNN),設定CNN的一維卷積核長為3,卷積核數(shù)是64,最大值池化層與softmax 銜接并作為分類器。表2是模型訓練期間數(shù)據(jù)的記錄情況[5]。

對比表1、2內數(shù)據(jù)信息整體分析后,發(fā)現(xiàn)BERT模型訓練時在準確率、召回率指標上均優(yōu)于基于LSTM銜接CNN模型的訓練結果,這可能是因為BERT對句子長距離特征持有更強的捕獲能力,且確保了被捕獲語言特征的相對完整性與多樣性。

3、 結束語

BERT模型基于特有的雙向編碼,在各層內部均形成了雙向邏輯關系,能夠完成十余個語言處理領域的任務,利用BooksCorps、英文維基百科量大語料庫,靈活的遷徙到下游各個任務內,接受以字作為embedding的輸入結果,單難以完全規(guī)避部分語義信息遺失的問題。這提示在后續(xù)研究中,應加大BERT 的 Transformer構思的參考力度,訓練出對詞語有強大動態(tài)編碼能力的模型,進而最大限度的強化語義闡述與特征提取能力。

參考文獻:

[1]龔韶,劉興均.網(wǎng)絡輿情安全監(jiān)測語義識別研究綜述[J].網(wǎng)絡安全技術與應用,2019,14(07):52-57.

[2]顧凌云.基于多注意力的中文命名實體識別[J].信息與電腦(理論版),2019,41(09):41-44+48.

[3]朱昶勝,孫欣,馮文芳.基于R語言的網(wǎng)絡輿情對股市影響研究[J].蘭州理工大學學報,2018,44(04):103-108.

[4]王璟琦,李銳,吳華意.基于空間自相關的網(wǎng)絡輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(02):64-73.

[5]楊艷,徐冰,楊沐昀,等.一種基于聯(lián)合深度學習模型的情感分類方法[J].山東大學學報(理學版),2017,52(09):19-25.

主站蜘蛛池模板: 91精品国产丝袜| 日韩毛片免费观看| 亚洲精品人成网线在线| 一本色道久久88| 免费看一级毛片波多结衣| 国产欧美高清| 日本午夜精品一本在线观看 | 五月婷婷亚洲综合| 91美女视频在线| 99福利视频导航| 潮喷在线无码白浆| 久久久久夜色精品波多野结衣| 精品国产中文一级毛片在线看| 国产成本人片免费a∨短片| 国产成人高清在线精品| 久青草网站| 不卡无码h在线观看| 国产AV无码专区亚洲精品网站| 在线无码九区| 国产经典三级在线| 亚洲码在线中文在线观看| 小说 亚洲 无码 精品| 国产麻豆91网在线看| 91青青视频| 成人欧美日韩| 少妇露出福利视频| 伊人久久福利中文字幕| 在线观看免费黄色网址| 成人午夜视频免费看欧美| 成人免费视频一区二区三区 | 毛片网站在线播放| 久99久热只有精品国产15| 素人激情视频福利| 国产极品美女在线观看| 18禁影院亚洲专区| 老色鬼欧美精品| 青青草国产免费国产| AV网站中文| 六月婷婷激情综合| 超碰色了色| 99热国产这里只有精品无卡顿" | 国产在线自揄拍揄视频网站| 中文字幕免费播放| 国产欧美日韩精品第二区| 亚洲h视频在线| 婷婷亚洲视频| 97无码免费人妻超级碰碰碰| 91成人在线免费观看| 亚洲高清国产拍精品26u| 国产成人超碰无码| 成人午夜在线播放| 在线毛片免费| 欧美成人精品在线| 国产在线视频二区| 亚洲国产日韩一区| 波多野结衣爽到高潮漏水大喷| 精品在线免费播放| 天天色天天操综合网| 国产大片喷水在线在线视频| 久久精品中文字幕免费| 免费国产高清视频| 国产欧美在线| 欧美a级在线| 中国毛片网| 亚洲国产欧美目韩成人综合| 国产精品开放后亚洲| 婷婷色中文| 日韩经典精品无码一区二区| 欧美日韩高清在线| 欧美色伊人| 国产欧美日韩另类| 99激情网| 午夜丁香婷婷| 自慰网址在线观看| 久久久久九九精品影院| 亚洲综合片| 久久久精品无码一区二区三区| 亚洲三级a| 日本欧美视频在线观看| 无码中文字幕精品推荐| 在线网站18禁| 国产亚洲欧美在线中文bt天堂 |