999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT預訓練模型的災害推文分類方法

2022-07-03 04:28:38林佳瑞程志剛尹云鵬
圖學學報 2022年3期
關鍵詞:分類文本模型

林佳瑞,程志剛,韓 宇,尹云鵬

基于BERT預訓練模型的災害推文分類方法

林佳瑞,程志剛,韓 宇,尹云鵬

(清華大學土木工程系,北京 100084)

社交媒體已成為當前發布和傳播突發災害信息的重要媒介,有效識別并利用其中的真實信息對災害應急管理具有重要意義。針對傳統文本分類模型的不足,提出一種基于BERT預訓練模型的災害推文分類方法。經數據清洗、預處理及算法對比分析,在BERT預訓練模型基礎上,研究構建了基于長短期記憶-卷積神經網絡(LSTM-CNN)的文本分類模型。在Kaggle競賽平臺的推文數據集上的實驗表明,相比傳統的樸素貝葉斯分類模型和常見的微調模型,該分類模型性能表現優異,識別率可達85%,可以更好地應對小樣本分類問題。有關工作對精準識別真實災害信息、提高災害應急響應與溝通效率具有重要意義。

文本分類;深度學習;BERT;預訓練模型;微調;災害;應急管理

1 研究背景

突發災害是目前全球面臨的重大問題之一,嚴重威脅人民的生命財產安全和社會發展。據應急管理部發布的2020全國自然災害基本情況報告,中國全年各種自然災害共造成1.38億人次受災,直接經濟損失3 701.6億元。在災害發生時,能夠有效地開展應急管理工作至關重要。應急管理的核心之一是有效的信息溝通和傳遞,及時準確的信息共享能夠輔助管理部門精準高效決策,降低突發災害的損失[1-2]。

近年來,推特等社交網絡的高速發展,為公眾利用社交媒體自主發布和傳播應急信息、提出應急響應建議帶來了新的機會[3]。豐富而龐雜的社交信息也為細粒度下城市韌性的研究提供了重要數據支撐[4]。

然而,社交媒體信息發布的便捷性也為謠言的產生和傳播提供了條件。由于政府等權威機構信息發布的滯后性與個人信息發布的隨意性,社交媒體數據真假混雜、往往難以有效利用。某些不實謠言的傳播甚至可能導致巨大的資源浪費和社會恐慌。因此,對災害推文的有效識別與分類為及時甄別謠言信息、維護社會穩定[5]、提升應急管理效率具有重要意義。

針對該問題,本文旨在利用深度學習技術提出一種災害推文自動分類方法,實現災害相關推文的準確分類和識別,對控制災害謠言傳播、提升真實災害信息傳播效率并輔助應急決策具有重要價值。

2 研究現狀

2.1 文本分類

文本分類是自然語言處理的一個分支,目前常用的文本分類經典算法包括樸素貝葉斯、決策樹、支持向量機(support vector machine,SVM)等,但往往存在分類精度較低、適應性與魯棒性不足等問題[6-8]。對這些傳統方法進行適當地改變與整合,可改善其性能。例如,李蓉等[9]通過研究SVM分類器的錯誤樣本點分布,將SVM與K-近鄰方法結合,提高了分類器的分類精度。近年來,隨著深度學習的興起與大規模語料庫構建,基于深度學習的文本分類算法飛速發展。陳翠平[10]將深度信念網絡應用于文本分類領域,證明了深度信念網絡相較于傳統BP神經網絡的優越性。DEVLIN等[11]于2018年提出了新的自然語言表示模型(bidirectional encoder representations from transformers,BERT),該模型基于雙向Transformer進行大規模預訓練,用戶可在其基礎上通過遷移學習微調應對不同文本處理任務,被廣泛應用和關注。

2.2 BERT模型

BERT模型是以雙向Transformer為基礎,面向掩碼模型(masked language model)和下一句判斷(next sentence prediction)任務構建的深度學習模型。當前,采用大量文本作為數據集,預訓練而成的BERT模型已成為處理多項自然語言處理 (natural language processing,NLP)任務的通用架構。該模型具有以下典型特征:

(1) Attention機制。相比傳統的卷積神經網絡(convolutional neural networks,CNN)和循環神經網絡(recurrent neural network,RNN)語言模型,BERT引入了注意力(Attention)機制,能更直接地處理詞間關系[12]。該機制由MNIH等[13]于2014年首次提出并運用至圖像處理任務,效果良好。此后,注意力機制又被BAHDANAU等[14]引入NLP領域,并逐漸在NLP領域的Seq2Seq (sequence to sequence)任務中得到廣泛應用。

如圖1所示,在Seq2Seq模型中,該機制不但將Encoder生成的單個向量提供給Decoder,而且將其文本處理過程中的每個狀態向量都輸入Decoder,令后續步驟自行提取信息。

圖1 機器翻譯中Seq2Seq示意圖

傳統的Encoder和Decoder都是基于RNN實現的,難以有效進行并行運算。為了提高計算效率實現并行運算,谷歌團隊在2017年將注意力機制運用到Encoder和Decoder中,提出了自注意力機制(self-attention mechanism)[15]。

如圖2所示,自注意層中首先對輸入序列進行編碼得到1,2,3,···,a,再對每個a做3次線性變換得到矢量,分別計算和整條文本中每個矢量的相似度,經過運算后得到權重,分別與對應的相乘得

其中,計算矢量相似度Similarity的函數有多種形式,該機制中通常采用向量點積。

(2) Transformer模型。以自注意層替換Seq2Seq模型中的RNN層來構建Encoder和Decoder,從而形成Transformer模型。在運算過程中,由于沒有先后順序,可以進行高效運算。同時,需要引入位置編碼(Positioning Encoding)表示順序信息。

(3) BERT整體架構。基于Transformer,BERT模型主要由BERTLARGE和BERTBASE 2個參數大小不同的模型組成。BERTLARGE由每個包含16個頭的24個自注意力層組成,中間向量維度是1 024;BERTBASE則有12個自注意力層,每層有12個頭,輸出的向量維度是768。此外,Facebook還提出了改進的RoBERTa模型,由于改進了訓練方法,此模型能更好地表示語義特征[16]。

3 研究方法

3.1 整體框架

考慮到BERT模型的優越性,針對災害推文分類問題,本文提出如圖3所示的研究框架,主要包括以下4個步驟:

(1) 數據清洗。由于數據集中除了文本之外,還包含大量其他信息,如標點符號、表情包、停詞(指沒有實際含義的代詞、冠詞、數詞、感嘆詞等,使用停詞越多,文本越口語化)和網址鏈接等,因此首先需要對無關文本信息進行清理,刪除停詞、表情符號等對文本意義無明顯貢獻的符號。

圖3 整體框架

(2) 經典方法基準構建。針對推文特點,提取網址鏈接、hashtag標簽等文本參數特征,并通過文本向量化表示和卡方特征優化,構建經典的樸素貝葉斯分類模型,作為文本分類的經典方法對照基準模型。

樸素貝葉斯分類法的基礎是貝葉斯定理及條件獨立假設。設訓練樣本中的每一個實例由個屬性值及1個類標簽構成,即{1,2,···,x},其中類標簽取值自有限集{1,2,···,c},模型旨在計算某個測試樣本=的最可能的類標簽。貝葉斯公式是一種由先驗概率、似然概率得到后驗概率的方法。

(3) BERT模型遷移學習。BERT預訓練采用的語料庫主要是BooksCorpus (800 M words),English Wikipedia (2 500 M words),另外,訓練過程只提取了Wikipedia的文本段落,忽略列表、表格和標題,為了提取長連續序列,語料庫主要使用文檔級語料庫,而不是無序的句子級語料庫[11]。這些語料庫數據量大且較全面,一般包括了所有的日常生活用語,雖然不是專門的災害相關語料庫,但由于其適用性較廣也適合災害場景。

以基于大規模語料庫預訓練的BERT模型為基礎,通過遷移學習優化參數,并引入不同的后續分類器,建立一系列基于BERT的深度學習模型。具體而言,后續分類器主要采用線性分類器、CNN網絡、LSTM網絡以及LSTM+CNN組合等4種形式。

(4) 模型性能評估對比。引入正確率、AUC和F1值等評價指標對不同模型進行性能評估,選擇最優模型。其中,正確率衡量了模型分類的正確性;AUC是接收者操作特征(receiver operating characteristic,ROC)曲線包圍的面積,能有效評價不同類別樣本數目不均衡時的分類性能[17];F1值則通過統計召回率和精確率來綜合評估模型性能,作用與AUC相似。考慮到本文采用的數據集中正負樣本數量相近,用正確率作為模型性能主要評價指標。

3.2 文本特征提取與表示

文本表示是將文字表示為向量作為模型輸入數據的方法,典型的文本表示方法包括不考慮詞序、語法的詞袋模型[18]、詞頻-逆文檔頻度(term frequency-inverse document frequency,TF-IDF)[19]以及基于無監督學習的Word2vec (word to vector)模型[20]等。不同分類模型采用的Tokenization方法并不完全一致,樸素貝葉斯分類模型主要采用詞袋法和TF-IDF方法,神經網絡分類模型采用keras的embedding層進行詞嵌入,在含有BERT預處理的分類模型中,主要依靠BERT模型的基于WordPiece的詞嵌入方法。

對于樸素貝葉斯模型的輸入向量,本文主要采用詞袋模型和TF-IDF算法進行特征提取,其 2種方法提取到的向量矩陣為稀疏矩陣,需要利用卡方特征提取合適的特征數量以提高樸素貝葉斯模型的性能。

而在基于BERT微調的分類方法中,可直接采用BERT模型的輸出作為文本的向量表達,隨后結合后端深度神經網絡模型訓練分類器。BERT模型主要由transform層構成,如圖2所示,在自注意力計算過程中,每個單詞創建3個不同的向量,和,輸出的是根據和處理后的向量[15]。

3.3 基于BERT的遷移學習

在對輸入數據進行預處理的過程中,除了需要對文本詞語、位置進行編碼外,還需要加入段落向量表征句子對信息。序列首位一般需要添加特殊標記[CLS],表示一條文本或一對句子,且句子中的分隔處也要加上分隔符[SEP]。

使用者可以針對不同任務自行對BERT模型進行微調,即采用不同結構和參數的深度神經網絡進行訓練。本模型整體是一個encoder,沒有decoder部分,因為模型需要輸出一個固定長度的向量,依此向量與label之間的關系對文本進行分類,整個模型包含BERT和神經網絡(由CNN、LSTM、池化層、全連接層組成),每個單詞編碼之后的向量維度為768。

由于本文的分類對象是文本序列,而處理序列的2種基本的深度學習算法分別是RNN和一維CNN[21],且長短時記憶網絡(long short-term memory-convolutional neural network,LSTM)能有效地避免梯度消失和梯度爆炸,有更好的適用性。因此,對于微調模型,本實驗采用了線性分類層、CNN和LSTM以及CNN+LSTM相結合的深度神經網絡進行訓練。線性分類層結構比較簡單,可用于初步分類;由于輸入的數據是單通道的向量,所以CNN模型采用一維卷積結構,由5層卷積核為4的卷積層和3層池化層組成;而LSTM分類器則是由12層隱藏層神經元個數為240的LSTM層構成,后續接RELU激活層和線性輸出層;LSTM和CNN結合的網絡層則由4層LSTM層和4層卷積層組成。

4 結果分析

4.1 數據集概況

本文選擇了Kaggle提供的數據集,共包括10 872條數據,其中,正負樣本數分別為6 530和4 342,每條數據包含有keyword、location、text (推文文本)、target (1表示災難,0表示非災難)等信息。部分數據見表1。訓練集和測試集數量分別為6 090和1 523,比例約為4﹕1,句子最大長度為84,平均長度為15.27。本實驗環境包括:CPU為32核Intel(R) Xeon(R) Silver 4215R,顯卡為Tesla T4,操作系統為:Ubuntu 18.04,采用的框架是Tensorflow,PyTorch和Keras。

表1 示例文本

4.2 模型影響因素分析

在基于BERT預訓練模型的微調過程中,對學習率、預訓練模型種類、batchsize、dropout層、輸入特征和分類算法進行分析,實驗結果如下:

(1) 學習率和預訓練模型種類。為探究學習率對模型訓練效果的影響,為模型設置了從0.000 04到0.000 15的共計12個學習率數值,對照組的預訓練模型是“bert-base-uncased”,另外3組的模型分別是“bert-base-cased”,“bert-large-uncased”和“RoBERTa”,前2個是基于BERTBASE預訓練的模型,且第1個模型將所有字母轉化為小寫,而第2個則保留了大小寫;最后2個分別是基于BERTLARGE和RoBERTa預訓練的模型。模型的批量尺寸均為32,dropout層參數為0.5,加入的隱藏層第二維大小均為50。

每個模型訓練4個epoch,將模型在每個epoch的訓練集和驗證集的正確率和損失值平均后可得到訓練集損失值、驗證集損失值和驗證集正確率隨學習率變化的圖像(圖4)。

圖4 不同預訓練模型在驗證集和訓練集上的性能((a)“bert-base-uncased”預訓練模型;(b)“bert-base-cased”預訓練模型;(c)“bert-large-uncased”預訓練模型;(d)“RoBERTa”預訓練模型)

由圖4可以看出,基于BERTBASE預訓練的微調模型受學習率變化影響較小;而基于BERTLARGE預訓練的微調模型則受學習率數值影響較大,且學習率數值較小的模型效果更優。從驗證集正確率角度,性能排序為RoBERTa,BERTLARGE和BERTBASE,且保留大小寫對模型性能影響較小。另外,這幾種方法的訓練集損失值和驗證集的損失值相近,說明經過BERT預處理后,模型基本不會出現過擬合。由表2可知,較于普通的傳統模型(樸素貝葉斯模型的最優識別正確率為82.96%),基于BERT預訓練加微調后的模型正確率提升了1%以上。

(2) 批量尺寸。模型微調過程中的批量大小也會對模型訓練產生影響,本次實驗對基于“bert- base-uncased”預訓練的模型分別設置了3種批量,即16,32和64,測試集結果見表3。

測試結果表明,批量尺寸越大,模型的預測正確率越高。

表2 不同預訓練模型的測試效果

注:加粗數據表示同一個預訓練模型在不同學習率下的最優值

表3 不同批量尺寸的測試結果(學習率0.000 04)

注:加粗數據表示不同批量尺寸的測試最大值

(3) dropout層。在微調過程中是否加入dropout層也會影響模型性能,本實驗對基于“bert-base- uncased”預訓練的模型進行了探討,測試結果見表4。

表4 dropout層對測試結果的影響(學習率0.000 04)

注:加粗數據表示測試最大值

測試結果表明:在微調過程中,用戶設計的網絡層中加入dropout層會對模型性能造成不利影響。

(4) 文本輸入特征。一般情況下的文本分類多使用BERT詞向量化后的第一個token[CLS]作為后續模型的輸入,為了比較不同輸入的識別效果,本文比較了第一個和最后一個token及句子整體向量3種不同輸入的模型性能(批量尺寸為32)。

表5在本任務中,將最后一個token向量和句子整體向量作為輸入的識別效果更好。這可能是由于本任務中,句子的整體含義更具代表性。

表5 不同輸入向量的測試結果(學習率0.000 04)

注:加粗數據表示測試最大值

(5) 不同模型的識別效果對比。研究對比了不同模型后端的分類算法的識別效果,除簡單的線性分類層,還引入了CNN和LSTM網絡以及LSTM+CNN的串聯網絡(LSCN)進行分類。

通常情況下,樸素貝葉斯分類器正確率一般在78%左右。通過衡量特征詞與分類標簽的關聯程度,經過卡方特征篩選文本數據特征可以對模型進行優化。優化后,當卡方特征數量保留在5 000左右時,樸素貝葉斯模型的分類效果達到最佳,識別正確率可達83%。而只利用LSTM和CNN,沒有BERT預處理的神經網絡分類模型,測試準確率只能達到80% (此模型采用的embedding詞匯表大小為5 000,對每條文本的前55個單詞編碼,batchsize為96,學習率為0.001,CNN卷積層和池化層與微調模型結構基本一致)。

以該模型為基準,表6為各模型的分類結果。由表6可知,基于BERT微調的分類器精度較高,性能與基準NB模型相當;當結合LSTM和CNN后,其識別效果則顯著優于最佳NB模型。實驗表明:將LSTM+CNN的串聯網絡“LSCN”模型作為微調分類器,學習率設為0.000 02,不設dropout層的分類識別模型最優,正確率近85%,且由于數據集較小,采用更大的batchsize不會顯著提升模型性能,不同BERT模型預處理后的準確率差別不大。

表6 不同分類模型的測試結果

注:加粗數據表示測試最大值

此外,BERT預訓練過程涉及Masked Language Modeling和Next Sentence Prediction 2個主要任務。其中,前者類似于完形填空,利用全文的所有詞句信息進行預測,這也體現了BERT模型的雙向性;而后者則類似于語義推理,用來推測上下文的邏輯關系,適用于長文序列。針對本文災害信息分類問題,前者更有價值,可以挖掘深層信息,而后者則適用性較低。因此,未來針對本文的分類場景,可在訓練過程中進一步提高掩碼的隨機性,提升預訓練模型的專業性。

5 結束語

針對災害推文分類問題,本文提出了基于BERT預訓練模型和“LSTM+CNN”的分類模型,并以Kaggle競賽中的災難推文數據進行了實驗分析與性能對比。由于訓練所用數據規模較小,數據有限,這也是解決小樣本文本分類的一種有效方法。結果表明:

(1) 相比經典的樸素貝葉斯分類方法和神經網絡模型,基于BERT預訓練模型的深度學習方法性能更加優異,將正確率提升了1.6%。

(2) 在微調和遷移學習過程中,是否加入dropout層及批量大小對本任務的模型性能有一定影響。針對BERT輸出的詞向量種類進行實驗,結果表明用代表整個句子的詞向量作為后續分類算法的輸入效果最優。

(3) 本文還對比了CNN和LSTM等不同網絡與BERT預處理模塊結合的分類模型,結果表明兩者均優于經典線性分類器,且兩者相結合的LSTM+CNN模型最優。

綜上所述,基于BERT預訓練模型的深度文本分類方法可以有效解決小樣本分類問題,可快速識別災害相關推文、減少謠言傳播,對提升災害應急響應與溝通效率、建設韌性城市具有重要意義。盡管本文過程中采用了英文文本數據集,但基本方法流程同樣適用于中文災害文本分類問題,只需針對性更換中文的預訓練BERT模型即可。未來可以進一步引入跨語言分類算法[22-23],構建統一的算法模型。

[1] PLOTNICK L, TUROFF M, WHITE C. Partially distributed emergency teams: considerations of decision support for virtual communities of practice[M]//Supporting Real Time Decision-Making. Boston: Springer, 2010: 203-220.

[2] CHEN Y D, WANG Q, JI W Y. Rapid assessment of disaster impacts on highways using social media[J]. Journal of Management in Engineering, 2020, 36(5): 04020068.

[3] ACAR A, MURAKI Y. Twitter for crisis communication: lessons learned from Japan's tsunami disaster[J]. International Journal of Web Based Communities, 2011, 7(3): 392-402.

[4] WANG Y, TAYLOR J E, GARVIN M J. Measuring resilience of human–spatial systems to disasters: framework combining spatial-network analysis and fisher information[J]. Journal of Management in Engineering, 2020, 36(4): 04020019.

[5] 夏志杰, 吳忠, 欒東慶. 基于社會化媒體的突發事件應急信息共享研究綜述[J]. 情報雜志, 2013, 32(10): 122-126, 121.

XIA Z J, WU Z, LUAN D Q. The literature review of information sharing research for emergency respond based on social media[J]. Journal of Intelligence, 2013, 32(10): 122-126, 121 (in Chinese).

[6] 何鎧. 基于自然語言處理的文本分類研究與應用[D]. 南京: 南京郵電大學, 2020.

HE K. Research and application of text classification based on natural language processing[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2020 (in Chinese).

[7] YANG Y M, LIU X. A re-examination of text categorization methods[C]//The 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999: 42-49.

[8] 張華偉, 王明文, 甘麗新. 基于隨機森林的文本分類模型研究[J]. 山東大學學報: 理學版, 2006, 41(3): 139-143.

ZHANG H W, WANG M W, GAN L X. Automatic text classification model based on random forest[J]. Journal of Shandong University: Natural Science, 2006, 41(3): 139-143 (in Chinese).

[9] 李蓉, 葉世偉, 史忠植. SVM-KNN分類器: 一種提高SVM分類精度的新方法[J]. 電子學報, 2002, 30(5): 745-748.

LI R, YE S W, SHI Z Z. SVM-KNN classifier—A new method of improving the accuracy of SVM classifier[J]. Acta Electronica Sinica, 2002, 30(5): 745-748 (in Chinese).

[10] 陳翠平. 基于深度信念網絡的文本分類算法[J]. 計算機系統應用, 2015, 24(2): 121-126.

CHEN C P. Text categorization based on deep belief network[J]. Computer Systems & Applications, 2015, 24(2): 121-126 (in Chinese).

[11] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language uUnderstanding[EB/OL]. [2021-09-08]. https://arxiv.org/abs/ 1810.04805v1.

[12] 王楠禔. 基于BERT改進的文本表示模型研究[D]. 重慶: 西南大學, 2019.

WANG N (T/Z). Research on improved text representation model based on BERT[D]. Chongqing: Southwest University, 2019 (in Chinese).

[13] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//The 27th International Conference on Neural Information Processing Systems. New York: ACM Press, 2014: 2204-2212.

[14] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2021-08-12]. https://arxiv.org/abs/1409.0473.

[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2021-08-10]. https://arxiv.org/abs/1706. 03762v5.

[16] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. [2021-07-22]. https://arxiv.org/abs/1907.11692 .

[17] 陳慧靈. 面向智能決策問題的機器學習方法研究[D]. 長春: 吉林大學, 2012.

CHEN H L. Research on machine learning methods for intelligent decision-making[D]. Changchun: Jilin University, 2012 (in Chinese).

[18] 黃春梅, 王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程, 2020, 23(3): 1-3.

HUANG C M, WANG S L. Research on short text classification based on bag of words and TF-IDF[J]. Software Engineering, 2020, 23(3): 1-3 (in Chinese).

[19] 施聰鶯, 徐朝軍, 楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009, 29(S1): 167-170, 180.

SHI C Y, XU C J, YANG X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(S1): 167-170, 180 (in Chinese).

[20] 江大鵬. 基于詞向量的短文本分類方法研究[D]. 杭州: 浙江大學, 2015.

JIANG D P. Research on short text classification based on word distributed representation[D]. Hangzhou: Zhejiang University, 2015 (in Chinese).

[21] 弗朗索瓦·肖萊. Python深度學習[M]. 張亮, 譯.北京: 人民郵電出版社, 2018: 147.

CHOLLET F. Deep learning with Python[M]. ZHANG L, translate. Beijing: Posts & Telecom Press, 2018: 147 (in Cjinese).

[22] 劉星佐. 跨語言文本分類技術研究[D]. 長沙: 國防科學技術大學, 2016.

LIU X Z. Research on cross-language text classification technology[D]. Changsha: National University of Defense Technology, 2016 (in Chinese).

[23] 高影繁, 王惠臨, 徐紅姣. 跨語言文本分類技術研究進展[J]. 情報理論與實踐, 2010, 33(11): 126-128, 104.

GAO Y F, WANG H L, XU H J. Progress in research on cross-language text categorization technology[J]. Information Studies: Theory & Application, 2010, 33(11): 126-128, 104 (in Chinese).

Disaster tweets classification method based on pretrained BERT model

LIN Jia-rui, CHENG Zhi-gang, HAN Yu, YIN Yun-peng

(Department of Civil Engineering, Tsinghua University, Beijing 100084, China)

Social media has become an important medium for the release and dissemination of disaster information, the effective identification and utilization of which is of great significance to disaster emergency management. Given the shortcomings of the traditional text classification model, a disaster tweet classification method was proposed based on the pre-trained model of bidirectional encoder representations from transformers (BERT). After data cleaning and preprocessing, this study constructed a text classification model based on long short-term memory-convolutional neural network (LSTM-CNN) through comparative analysis, based on BERT. Experiments on the tweet datasets of the Kaggle competition platform showed that the proposed classification model outperforms the traditional Naive Bayesian classification model and the common fine-tuning model, with the recognition rate up to 85%. This study could shed significant light on enhancing the identification accuracy of real disaster information and the efficiency of disaster emergency response.

text classification; deep learning; BERT; pre-trained model; fine-tuning; disaster; emergency management

X43

10.11996/JG.j.2095-302X.2022030530

A

2095-302X(2022)03-0530-07

2021-10-10;

2021-11-22

10 October,2021;

22 November,2021

國家自然科學基金項目(72091512,51908323)

National Natural Science Foundation of China (72091512, 51908323)

林佳瑞(1987-),男,助理研究員,博士。主要研究方向為智能建造、韌性城市,E-mail:lin611@tsinghua.edu.cn

LIN Jia-rui (1987-), research assistant professor, Ph.D. His main research interests cover intelligent construction and resilient city. E-mail:lin611@tsinghua.edu.cn

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 91青青视频| 国产又粗又猛又爽视频| 第一页亚洲| 欧美亚洲国产一区| 欧美高清国产| 高清亚洲欧美在线看| 国产欧美日韩综合在线第一| 黄色网站不卡无码| 亚洲一区二区成人| 日韩欧美视频第一区在线观看 | 美美女高清毛片视频免费观看| 国产精品九九视频| 亚洲美女操| 亚洲成人网在线观看| 婷婷综合在线观看丁香| 毛片久久网站小视频| 亚洲综合专区| 激情六月丁香婷婷| 国产成人精品三级| 伊人成人在线视频| 国产丝袜91| 九九久久99精品| 欧美人与性动交a欧美精品| 欧美另类图片视频无弹跳第一页| 五月天丁香婷婷综合久久| 亚洲国产系列| 99久久精品免费观看国产| 青青国产视频| 精品三级网站| 久久久久国产一区二区| 亚洲 欧美 偷自乱 图片| 精品国产www| 亚洲高清中文字幕在线看不卡| 全色黄大色大片免费久久老太| 久久久久久高潮白浆| 国产成人综合亚洲网址| 在线观看的黄网| 情侣午夜国产在线一区无码| 欧美综合在线观看| 国产精品综合久久久| 国产综合日韩另类一区二区| 72种姿势欧美久久久大黄蕉| 国产91精品调教在线播放| 欧美精品1区| 91福利片| 免费女人18毛片a级毛片视频| 丰满的少妇人妻无码区| 四虎成人免费毛片| 久久精品这里只有国产中文精品| 亚洲成人网在线观看| 精品一区二区三区无码视频无码| 99久久国产精品无码| 波多野结衣一区二区三区四区视频| 亚洲精品欧美重口| 毛片免费在线| 久久鸭综合久久国产| 欧美综合区自拍亚洲综合绿色 | 天天色天天综合网| 国产精品播放| 亚洲高清在线天堂精品| 精品欧美视频| 亚洲无码不卡网| 在线观看亚洲精品福利片| 最近最新中文字幕在线第一页| 国产精品jizz在线观看软件| 午夜啪啪福利| 亚洲无码高清视频在线观看| 亚洲视频二| 国产视频自拍一区| 熟女成人国产精品视频| 亚洲最大福利网站| 青青青伊人色综合久久| 香蕉久人久人青草青草| 久久久久亚洲av成人网人人软件| 免费AV在线播放观看18禁强制| 91精品国产丝袜| 精品国产美女福到在线不卡f| 2021最新国产精品网站| 欧美日韩国产精品综合| 亚洲国产精品美女| 伊人激情综合网| 精品国产91爱|