基于BERT預訓練模型的災害推文分類方法

2022-07-03 04:28:38林佳瑞程志剛尹云鵬

圖學學報 2022年3期

林佳瑞，程志剛，韓宇，尹云鵬

林佳瑞，程志剛，韓宇，尹云鵬

(清華大學土木工程系，北京 100084)

社交媒體已成為當前發布和傳播突發災害信息的重要媒介，有效識別并利用其中的真實信息對災害應急管理具有重要意義。針對傳統文本分類模型的不足，提出一種基于BERT預訓練模型的災害推文分類方法。經數據清洗、預處理及算法對比分析，在BERT預訓練模型基礎上，研究構建了基于長短期記憶-卷積神經網絡(LSTM-CNN)的文本分類模型。在Kaggle競賽平臺的推文數據集上的實驗表明，相比傳統的樸素貝葉斯分類模型和常見的微調模型，該分類模型性能表現優異，識別率可達85%，可以更好地應對小樣本分類問題。有關工作對精準識別真實災害信息、提高災害應急響應與溝通效率具有重要意義。

文本分類；深度學習；BERT；預訓練模型；微調；災害；應急管理

1 研究背景

突發災害是目前全球面臨的重大問題之一，嚴重威脅人民的生命財產安全和社會發展。據應急管理部發布的2020全國自然災害基本情況報告，中國全年各種自然災害共造成1.38億人次受災，直接經濟損失3 701.6億元。在災害發生時，能夠有效地開展應急管理工作至關重要。應急管理的核心之一是有效的信息溝通和傳遞，及時準確的信息共享能夠輔助管理部門精準高效決策，降低突發災害的損失[1-2]。

近年來，推特等社交網絡的高速發展，為公眾利用社交媒體自主發布和傳播應急信息、提出應急響應建議帶來了新的機會[3]。豐富而龐雜的社交信息也為細粒度下城市韌性的研究提供了重要數據支撐[4]。

然而，社交媒體信息發布的便捷性也為謠言的產生和傳播提供了條件。由于政府等權威機構信息發布的滯后性與個人信息發布的隨意性，社交媒體數據真假混雜、往往難以有效利用。某些不實謠言的傳播甚至可能導致巨大的資源浪費和社會恐慌。因此，對災害推文的有效識別與分類為及時甄別謠言信息、維護社會穩定[5]、提升應急管理效率具有重要意義。

針對該問題，本文旨在利用深度學習技術提出一種災害推文自動分類方法，實現災害相關推文的準確分類和識別，對控制災害謠言傳播、提升真實災害信息傳播效率并輔助應急決策具有重要價值。

2 研究現狀

2.1 文本分類

文本分類是自然語言處理的一個分支，目前常用的文本分類經典算法包括樸素貝葉斯、決策樹、支持向量機(support vector machine，SVM)等，但往往存在分類精度較低、適應性與魯棒性不足等問題[6-8]。對這些傳統方法進行適當地改變與整合，可改善其性能。例如，李蓉等[9]通過研究SVM分類器的錯誤樣本點分布，將SVM與K-近鄰方法結合，提高了分類器的分類精度。近年來，隨著深度學習的興起與大規模語料庫構建，基于深度學習的文本分類算法飛速發展。陳翠平[10]將深度信念網絡應用于文本分類領域，證明了深度信念網絡相較于傳統BP神經網絡的優越性。DEVLIN等[11]于2018年提出了新的自然語言表示模型(bidirectional encoder representations from transformers，BERT)，該模型基于雙向Transformer進行大規模預訓練，用戶可在其基礎上通過遷移學習微調應對不同文本處理任務，被廣泛應用和關注。

2.2 BERT模型

BERT模型是以雙向Transformer為基礎，面向掩碼模型(masked language model)和下一句判斷(next sentence prediction)任務構建的深度學習模型。當前，采用大量文本作為數據集，預訓練而成的BERT模型已成為處理多項自然語言處理 (natural language processing，NLP)任務的通用架構。該模型具有以下典型特征：

(1) Attention機制。相比傳統的卷積神經網絡(convolutional neural networks，CNN)和循環神經網絡(recurrent neural network，RNN)語言模型，BERT引入了注意力(Attention)機制，能更直接地處理詞間關系[12]。該機制由MNIH等[13]于2014年首次提出并運用至圖像處理任務，效果良好。此后，注意力機制又被BAHDANAU等[14]引入NLP領域，并逐漸在NLP領域的Seq2Seq (sequence to sequence)任務中得到廣泛應用。

如圖1所示，在Seq2Seq模型中，該機制不但將Encoder生成的單個向量提供給Decoder，而且將其文本處理過程中的每個狀態向量都輸入Decoder，令后續步驟自行提取信息。

圖1 機器翻譯中Seq2Seq示意圖

傳統的Encoder和Decoder都是基于RNN實現的，難以有效進行并行運算。為了提高計算效率實現并行運算，谷歌團隊在2017年將注意力機制運用到Encoder和Decoder中，提出了自注意力機制(self-attention mechanism)[15]。

如圖2所示，自注意層中首先對輸入序列進行編碼得到1,2,3,···,a，再對每個a做3次線性變換得到矢量，，，分別計算和整條文本中每個矢量的相似度，經過運算后得到權重，分別與對應的相乘得

其中，計算矢量相似度Similarity的函數有多種形式，該機制中通常采用向量點積。

(2) Transformer模型。以自注意層替換Seq2Seq模型中的RNN層來構建Encoder和Decoder，從而形成Transformer模型。在運算過程中，由于沒有先后順序，可以進行高效運算。同時，需要引入位置編碼(Positioning Encoding)表示順序信息。

(3) BERT整體架構。基于Transformer，BERT模型主要由BERTLARGE和BERTBASE 2個參數大小不同的模型組成。BERTLARGE由每個包含16個頭的24個自注意力層組成，中間向量維度是1 024；BERTBASE則有12個自注意力層，每層有12個頭，輸出的向量維度是768。此外，Facebook還提出了改進的RoBERTa模型，由于改進了訓練方法，此模型能更好地表示語義特征[16]。

3 研究方法

3.1 整體框架

考慮到BERT模型的優越性，針對災害推文分類問題，本文提出如圖3所示的研究框架，主要包括以下4個步驟：

(1) 數據清洗。由于數據集中除了文本之外，還包含大量其他信息，如標點符號、表情包、停詞(指沒有實際含義的代詞、冠詞、數詞、感嘆詞等，使用停詞越多，文本越口語化)和網址鏈接等，因此首先需要對無關文本信息進行清理，刪除停詞、表情符號等對文本意義無明顯貢獻的符號。

圖3 整體框架

(2) 經典方法基準構建。針對推文特點，提取網址鏈接、hashtag標簽等文本參數特征，并通過文本向量化表示和卡方特征優化，構建經典的樸素貝葉斯分類模型，作為文本分類的經典方法對照基準模型。

樸素貝葉斯分類法的基礎是貝葉斯定理及條件獨立假設。設訓練樣本中的每一個實例由個屬性值及1個類標簽構成，即{1,2,···,x}，其中類標簽取值自有限集{1,2,···,c}，模型旨在計算某個測試樣本=的最可能的類標簽。貝葉斯公式是一種由先驗概率、似然概率得到后驗概率的方法。

(3) BERT模型遷移學習。BERT預訓練采用的語料庫主要是BooksCorpus (800 M words)，English Wikipedia (2 500 M words)，另外，訓練過程只提取了Wikipedia的文本段落，忽略列表、表格和標題，為了提取長連續序列，語料庫主要使用文檔級語料庫，而不是無序的句子級語料庫[11]。這些語料庫數據量大且較全面，一般包括了所有的日常生活用語，雖然不是專門的災害相關語料庫，但由于其適用性較廣也適合災害場景。

以基于大規模語料庫預訓練的BERT模型為基礎，通過遷移學習優化參數，并引入不同的后續分類器，建立一系列基于BERT的深度學習模型。具體而言，后續分類器主要采用線性分類器、CNN網絡、LSTM網絡以及LSTM+CNN組合等4種形式。

(4) 模型性能評估對比。引入正確率、AUC和F1值等評價指標對不同模型進行性能評估，選擇最優模型。其中，正確率衡量了模型分類的正確性；AUC是接收者操作特征(receiver operating characteristic，ROC)曲線包圍的面積，能有效評價不同類別樣本數目不均衡時的分類性能[17]；F1值則通過統計召回率和精確率來綜合評估模型性能，作用與AUC相似。考慮到本文采用的數據集中正負樣本數量相近，用正確率作為模型性能主要評價指標。

3.2 文本特征提取與表示

文本表示是將文字表示為向量作為模型輸入數據的方法，典型的文本表示方法包括不考慮詞序、語法的詞袋模型[18]、詞頻-逆文檔頻度(term frequency-inverse document frequency，TF-IDF)[19]以及基于無監督學習的Word2vec (word to vector)模型[20]等。不同分類模型采用的Tokenization方法并不完全一致，樸素貝葉斯分類模型主要采用詞袋法和TF-IDF方法，神經網絡分類模型采用keras的embedding層進行詞嵌入，在含有BERT預處理的分類模型中，主要依靠BERT模型的基于WordPiece的詞嵌入方法。

對于樸素貝葉斯模型的輸入向量，本文主要采用詞袋模型和TF-IDF算法進行特征提取，其 2種方法提取到的向量矩陣為稀疏矩陣，需要利用卡方特征提取合適的特征數量以提高樸素貝葉斯模型的性能。

而在基于BERT微調的分類方法中，可直接采用BERT模型的輸出作為文本的向量表達，隨后結合后端深度神經網絡模型訓練分類器。BERT模型主要由transform層構成，如圖2所示，在自注意力計算過程中，每個單詞創建3個不同的向量，和，輸出的是根據和處理后的向量[15]。

3.3 基于BERT的遷移學習

在對輸入數據進行預處理的過程中，除了需要對文本詞語、位置進行編碼外，還需要加入段落向量表征句子對信息。序列首位一般需要添加特殊標記[CLS]，表示一條文本或一對句子，且句子中的分隔處也要加上分隔符[SEP]。

使用者可以針對不同任務自行對BERT模型進行微調，即采用不同結構和參數的深度神經網絡進行訓練。本模型整體是一個encoder，沒有decoder部分，因為模型需要輸出一個固定長度的向量，依此向量與label之間的關系對文本進行分類，整個模型包含BERT和神經網絡(由CNN、LSTM、池化層、全連接層組成)，每個單詞編碼之后的向量維度為768。

由于本文的分類對象是文本序列，而處理序列的2種基本的深度學習算法分別是RNN和一維CNN[21]，且長短時記憶網絡(long short-term memory-convolutional neural network，LSTM)能有效地避免梯度消失和梯度爆炸，有更好的適用性。因此，對于微調模型，本實驗采用了線性分類層、CNN和LSTM以及CNN+LSTM相結合的深度神經網絡進行訓練。線性分類層結構比較簡單，可用于初步分類；由于輸入的數據是單通道的向量，所以CNN模型采用一維卷積結構，由5層卷積核為4的卷積層和3層池化層組成；而LSTM分類器則是由12層隱藏層神經元個數為240的LSTM層構成，后續接RELU激活層和線性輸出層；LSTM和CNN結合的網絡層則由4層LSTM層和4層卷積層組成。

4 結果分析

4.1 數據集概況

本文選擇了Kaggle提供的數據集，共包括10 872條數據，其中，正負樣本數分別為6 530和4 342，每條數據包含有keyword、location、text (推文文本)、target (1表示災難，0表示非災難)等信息。部分數據見表1。訓練集和測試集數量分別為6 090和1 523，比例約為4﹕1，句子最大長度為84，平均長度為15.27。本實驗環境包括：CPU為32核Intel(R) Xeon(R) Silver 4215R，顯卡為Tesla T4，操作系統為：Ubuntu 18.04，采用的框架是Tensorflow，PyTorch和Keras。

表1 示例文本

4.2 模型影響因素分析

在基于BERT預訓練模型的微調過程中，對學習率、預訓練模型種類、batchsize、dropout層、輸入特征和分類算法進行分析，實驗結果如下：

(1) 學習率和預訓練模型種類。為探究學習率對模型訓練效果的影響，為模型設置了從0.000 04到0.000 15的共計12個學習率數值，對照組的預訓練模型是“bert-base-uncased”，另外3組的模型分別是“bert-base-cased”，“bert-large-uncased”和“RoBERTa”，前2個是基于BERTBASE預訓練的模型，且第1個模型將所有字母轉化為小寫，而第2個則保留了大小寫；最后2個分別是基于BERTLARGE和RoBERTa預訓練的模型。模型的批量尺寸均為32，dropout層參數為0.5，加入的隱藏層第二維大小均為50。

每個模型訓練4個epoch，將模型在每個epoch的訓練集和驗證集的正確率和損失值平均后可得到訓練集損失值、驗證集損失值和驗證集正確率隨學習率變化的圖像(圖4)。

圖4 不同預訓練模型在驗證集和訓練集上的性能((a)“bert-base-uncased”預訓練模型；(b)“bert-base-cased”預訓練模型；(c)“bert-large-uncased”預訓練模型；(d)“RoBERTa”預訓練模型)

由圖4可以看出，基于BERTBASE預訓練的微調模型受學習率變化影響較小；而基于BERTLARGE預訓練的微調模型則受學習率數值影響較大，且學習率數值較小的模型效果更優。從驗證集正確率角度，性能排序為RoBERTa，BERTLARGE和BERTBASE，且保留大小寫對模型性能影響較小。另外，這幾種方法的訓練集損失值和驗證集的損失值相近，說明經過BERT預處理后，模型基本不會出現過擬合。由表2可知，較于普通的傳統模型(樸素貝葉斯模型的最優識別正確率為82.96%)，基于BERT預訓練加微調后的模型正確率提升了1%以上。

(2) 批量尺寸。模型微調過程中的批量大小也會對模型訓練產生影響，本次實驗對基于“bert- base-uncased”預訓練的模型分別設置了3種批量，即16，32和64，測試集結果見表3。

測試結果表明，批量尺寸越大，模型的預測正確率越高。

表2 不同預訓練模型的測試效果

注：加粗數據表示同一個預訓練模型在不同學習率下的最優值

表3 不同批量尺寸的測試結果(學習率0.000 04)

注：加粗數據表示不同批量尺寸的測試最大值

(3) dropout層。在微調過程中是否加入dropout層也會影響模型性能，本實驗對基于“bert-base- uncased”預訓練的模型進行了探討，測試結果見表4。

表4 dropout層對測試結果的影響(學習率0.000 04)

注：加粗數據表示測試最大值

測試結果表明：在微調過程中，用戶設計的網絡層中加入dropout層會對模型性能造成不利影響。

(4) 文本輸入特征。一般情況下的文本分類多使用BERT詞向量化后的第一個token[CLS]作為后續模型的輸入，為了比較不同輸入的識別效果，本文比較了第一個和最后一個token及句子整體向量3種不同輸入的模型性能(批量尺寸為32)。

表5在本任務中，將最后一個token向量和句子整體向量作為輸入的識別效果更好。這可能是由于本任務中，句子的整體含義更具代表性。

表5 不同輸入向量的測試結果(學習率0.000 04)

注：加粗數據表示測試最大值

(5) 不同模型的識別效果對比。研究對比了不同模型后端的分類算法的識別效果，除簡單的線性分類層，還引入了CNN和LSTM網絡以及LSTM+CNN的串聯網絡(LSCN)進行分類。

通常情況下，樸素貝葉斯分類器正確率一般在78%左右。通過衡量特征詞與分類標簽的關聯程度，經過卡方特征篩選文本數據特征可以對模型進行優化。優化后，當卡方特征數量保留在5 000左右時，樸素貝葉斯模型的分類效果達到最佳，識別正確率可達83%。而只利用LSTM和CNN，沒有BERT預處理的神經網絡分類模型，測試準確率只能達到80% (此模型采用的embedding詞匯表大小為5 000，對每條文本的前55個單詞編碼，batchsize為96，學習率為0.001，CNN卷積層和池化層與微調模型結構基本一致)。

以該模型為基準，表6為各模型的分類結果。由表6可知，基于BERT微調的分類器精度較高，性能與基準NB模型相當；當結合LSTM和CNN后，其識別效果則顯著優于最佳NB模型。實驗表明：將LSTM+CNN的串聯網絡“LSCN”模型作為微調分類器，學習率設為0.000 02，不設dropout層的分類識別模型最優，正確率近85%，且由于數據集較小，采用更大的batchsize不會顯著提升模型性能，不同BERT模型預處理后的準確率差別不大。

表6 不同分類模型的測試結果

注：加粗數據表示測試最大值

此外，BERT預訓練過程涉及Masked Language Modeling和Next Sentence Prediction 2個主要任務。其中，前者類似于完形填空，利用全文的所有詞句信息進行預測，這也體現了BERT模型的雙向性；而后者則類似于語義推理，用來推測上下文的邏輯關系，適用于長文序列。針對本文災害信息分類問題，前者更有價值，可以挖掘深層信息，而后者則適用性較低。因此，未來針對本文的分類場景，可在訓練過程中進一步提高掩碼的隨機性，提升預訓練模型的專業性。

5 結束語

針對災害推文分類問題，本文提出了基于BERT預訓練模型和“LSTM+CNN”的分類模型，并以Kaggle競賽中的災難推文數據進行了實驗分析與性能對比。由于訓練所用數據規模較小，數據有限，這也是解決小樣本文本分類的一種有效方法。結果表明：

(1) 相比經典的樸素貝葉斯分類方法和神經網絡模型，基于BERT預訓練模型的深度學習方法性能更加優異，將正確率提升了1.6%。

(2) 在微調和遷移學習過程中，是否加入dropout層及批量大小對本任務的模型性能有一定影響。針對BERT輸出的詞向量種類進行實驗，結果表明用代表整個句子的詞向量作為后續分類算法的輸入效果最優。

(3) 本文還對比了CNN和LSTM等不同網絡與BERT預處理模塊結合的分類模型，結果表明兩者均優于經典線性分類器，且兩者相結合的LSTM+CNN模型最優。

綜上所述，基于BERT預訓練模型的深度文本分類方法可以有效解決小樣本分類問題，可快速識別災害相關推文、減少謠言傳播，對提升災害應急響應與溝通效率、建設韌性城市具有重要意義。盡管本文過程中采用了英文文本數據集，但基本方法流程同樣適用于中文災害文本分類問題，只需針對性更換中文的預訓練BERT模型即可。未來可以進一步引入跨語言分類算法[22-23]，構建統一的算法模型。

[1] PLOTNICK L, TUROFF M, WHITE C. Partially distributed emergency teams: considerations of decision support for virtual communities of practice[M]//Supporting Real Time Decision-Making. Boston: Springer, 2010: 203-220.

[2] CHEN Y D, WANG Q, JI W Y. Rapid assessment of disaster impacts on highways using social media[J]. Journal of Management in Engineering, 2020, 36(5): 04020068.

[3] ACAR A, MURAKI Y. Twitter for crisis communication: lessons learned from Japan's tsunami disaster[J]. International Journal of Web Based Communities, 2011, 7(3): 392-402.

[4] WANG Y, TAYLOR J E, GARVIN M J. Measuring resilience of human–spatial systems to disasters: framework combining spatial-network analysis and fisher information[J]. Journal of Management in Engineering, 2020, 36(4): 04020019.

[5] 夏志杰, 吳忠, 欒東慶. 基于社會化媒體的突發事件應急信息共享研究綜述[J]. 情報雜志, 2013, 32(10): 122-126, 121.

XIA Z J, WU Z, LUAN D Q. The literature review of information sharing research for emergency respond based on social media[J]. Journal of Intelligence, 2013, 32(10): 122-126, 121 (in Chinese).

[6] 何鎧. 基于自然語言處理的文本分類研究與應用[D]. 南京: 南京郵電大學, 2020.

HE K. Research and application of text classification based on natural language processing[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2020 (in Chinese).

[7] YANG Y M, LIU X. A re-examination of text categorization methods[C]//The 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1999: 42-49.

[8] 張華偉, 王明文, 甘麗新. 基于隨機森林的文本分類模型研究[J]. 山東大學學報: 理學版, 2006, 41(3): 139-143.

ZHANG H W, WANG M W, GAN L X. Automatic text classification model based on random forest[J]. Journal of Shandong University: Natural Science, 2006, 41(3): 139-143 (in Chinese).

[9] 李蓉, 葉世偉, 史忠植. SVM-KNN分類器: 一種提高SVM分類精度的新方法[J]. 電子學報, 2002, 30(5): 745-748.

LI R, YE S W, SHI Z Z. SVM-KNN classifier—A new method of improving the accuracy of SVM classifier[J]. Acta Electronica Sinica, 2002, 30(5): 745-748 (in Chinese).

[10] 陳翠平. 基于深度信念網絡的文本分類算法[J]. 計算機系統應用, 2015, 24(2): 121-126.

CHEN C P. Text categorization based on deep belief network[J]. Computer Systems & Applications, 2015, 24(2): 121-126 (in Chinese).

[11] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language uUnderstanding[EB/OL]. [2021-09-08]. https://arxiv.org/abs/ 1810.04805v1.

[12] 王楠禔. 基于BERT改進的文本表示模型研究[D]. 重慶: 西南大學, 2019.

WANG N (T/Z). Research on improved text representation model based on BERT[D]. Chongqing: Southwest University, 2019 (in Chinese).

[13] MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]//The 27th International Conference on Neural Information Processing Systems. New York: ACM Press, 2014: 2204-2212.

[14] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[EB/OL]. [2021-08-12]. https://arxiv.org/abs/1409.0473.

[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL]. [2021-08-10]. https://arxiv.org/abs/1706. 03762v5.

[16] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. [2021-07-22]. https://arxiv.org/abs/1907.11692 .

[17] 陳慧靈. 面向智能決策問題的機器學習方法研究[D]. 長春: 吉林大學, 2012.

CHEN H L. Research on machine learning methods for intelligent decision-making[D]. Changchun: Jilin University, 2012 (in Chinese).

[18] 黃春梅, 王松磊. 基于詞袋模型和TF-IDF的短文本分類研究[J]. 軟件工程, 2020, 23(3): 1-3.

HUANG C M, WANG S L. Research on short text classification based on bag of words and TF-IDF[J]. Software Engineering, 2020, 23(3): 1-3 (in Chinese).

[19] 施聰鶯, 徐朝軍, 楊曉江. TFIDF算法研究綜述[J]. 計算機應用, 2009, 29(S1): 167-170, 180.

SHI C Y, XU C J, YANG X J. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(S1): 167-170, 180 (in Chinese).

[20] 江大鵬. 基于詞向量的短文本分類方法研究[D]. 杭州: 浙江大學, 2015.

JIANG D P. Research on short text classification based on word distributed representation[D]. Hangzhou: Zhejiang University, 2015 (in Chinese).

[21] 弗朗索瓦·肖萊. Python深度學習[M]. 張亮, 譯.北京: 人民郵電出版社, 2018: 147.

CHOLLET F. Deep learning with Python[M]. ZHANG L, translate. Beijing: Posts & Telecom Press, 2018: 147 (in Cjinese).

[22] 劉星佐. 跨語言文本分類技術研究[D]. 長沙: 國防科學技術大學, 2016.

LIU X Z. Research on cross-language text classification technology[D]. Changsha: National University of Defense Technology, 2016 (in Chinese).

[23] 高影繁, 王惠臨, 徐紅姣. 跨語言文本分類技術研究進展[J]. 情報理論與實踐, 2010, 33(11): 126-128, 104.

GAO Y F, WANG H L, XU H J. Progress in research on cross-language text categorization technology[J]. Information Studies: Theory & Application, 2010, 33(11): 126-128, 104 (in Chinese).

Disaster tweets classification method based on pretrained BERT model

LIN Jia-rui, CHENG Zhi-gang, HAN Yu, YIN Yun-peng

(Department of Civil Engineering, Tsinghua University, Beijing 100084, China)

Social media has become an important medium for the release and dissemination of disaster information, the effective identification and utilization of which is of great significance to disaster emergency management. Given the shortcomings of the traditional text classification model, a disaster tweet classification method was proposed based on the pre-trained model of bidirectional encoder representations from transformers (BERT). After data cleaning and preprocessing, this study constructed a text classification model based on long short-term memory-convolutional neural network (LSTM-CNN) through comparative analysis, based on BERT. Experiments on the tweet datasets of the Kaggle competition platform showed that the proposed classification model outperforms the traditional Naive Bayesian classification model and the common fine-tuning model, with the recognition rate up to 85%. This study could shed significant light on enhancing the identification accuracy of real disaster information and the efficiency of disaster emergency response.

text classification; deep learning; BERT; pre-trained model; fine-tuning; disaster; emergency management

X43

10.11996/JG.j.2095-302X.2022030530

2095-302X(2022)03-0530-07

2021-10-10；

2021-11-22

10 October，2021；

22 November，2021

國家自然科學基金項目(72091512，51908323)

National Natural Science Foundation of China (72091512, 51908323)

林佳瑞(1987-)，男，助理研究員，博士。主要研究方向為智能建造、韌性城市，E-mail：lin611@tsinghua.edu.cn

LIN Jia-rui (1987-), research assistant professor, Ph.D. His main research interests cover intelligent construction and resilient city. E-mail：lin611@tsinghua.edu.cn