基于改進Transformer的社交媒體謠言檢測

2022-08-28 07:46:44鄭洪浩郝一諾于洪濤李邵梅吳翼騰

網絡與信息安全學報 2022年4期

鄭洪浩，郝一諾，于洪濤，李邵梅，吳翼騰

鄭洪浩，郝一諾，于洪濤，李邵梅，吳翼騰

（信息工程大學，河南鄭州 450001）

隨著互聯網的快速發展，社交媒體日益廣泛而深刻地融入人們日常生活的各個方面。社交媒體逐漸成為人們彼此之間用來分享意見、見解、經驗和觀點的工具和平臺，是人們獲取分享信息、表達交流觀點的主要途徑。社交媒體在互聯網的沃土上蓬勃發展，爆發出令人眩目的能量。由于社交媒體的開放性，用戶規模龐大且來源復雜眾多，容易產生各種各樣的謠言虛假信息。社交媒體謠言左右著網民對事件的認識、動搖著社會的穩定。因此，如何準確高效地檢測謠言成為當下亟待解決的問題。現有基于Transformer的社交媒體謠言檢測模型忽略了文本位置信息。為有效提取文本位置信息，充分利用文本潛在信息，提出了一種基于改進Transformer的社交媒體謠言檢測模型。該模型從相對位置和絕對位置兩方面對傳統Transformer進行改進：一方面采用可學習的相對位置編碼捕捉文本的方向信息和距離信息；另一方面采用絕對位置編碼將不同位置詞語映射到不同特征空間。實驗結果表明，與其他基準模型相比，所提模型在Twitter15、Twitter16和Weibo 3種數據集上的準確率分別提高了0.9%、0.6%和1.4%。實驗結果驗證了所提的位置編碼改進有效，基于位置編碼改進的Transformer模型可顯著提升社交媒體謠言檢測效果。

社交媒體謠言檢測；改進Transformer；位置信息

0 引言

謠言是指在人和人之間傳播的, 真實性不能很快得到證明或得不到證明的，含有公眾關心信息的一種特殊陳述[1]。近年來，隨著Twitter、微博（Weibo）等大型社交媒體平臺的迅速發展，廣泛傳播的謠言已成為危害人們生活的“痼疾”。謠言檢測應運而生，其對于改善網絡信息生態環境質量、維護社會穩定具有重要意義。

自Mikolov等[2]起，研究者陸續在謠言檢測中引入深度學習方法以避免人工特征。基于深度學習的謠言檢測的基礎方法論將其看作一個分類問題，通過微博文本信息、發布者資料和傳播特征對謠言真偽進行辨別[3]。現有基于深度學習的謠言檢測模型的主要差異也體現在對3種信息的處理之中。

Transformer[4]因其并行計算結構和長文本獲取能力，在微博文本信息的獲取上取得了顯著突破。Yuan等[5]首先提出使用Transformer處理微博文本信息。進一步，琚心怡等[6]提出使用深層雙向Transformer用于語義特征提取。

然而，對于基于自注意力機制的Transformer來說，其原生的正弦位置編碼不能完整地表達位置信息。位置信息尤為重要，失去了位置信息，具有語義信息的句子就會變成一個詞袋。位置信息包含兩種：相對位置信息和絕對位置信息。相對位置是指將位置之間的差異性映射到向量空間，絕對位置是指不同位置的序列映射到不同特征空間。

針對上述問題，本文首先對Transformer的正弦位置編碼進行深入分析，然后提出一種基于改進Transformer的社交媒體謠言檢測方法，并將改進的Transformer命名為TPE（transformer with positional encoding）。該方法對現有的Transformer進行兩方面的改進：一是使用可學習的相對位置編碼以捕捉謠言文本的方向和距離信息；二是使用絕對位置編碼，將謠言文本中不同位置的詞映射到不同的特征空間。此外，該方法使用圖注意力網絡將發布者資料與傳播特征融入特征表示之中，這樣有利于提升模型的謠言檢測性能。實驗表明，與現有的微博文本獲取模型相比，TPE可以更加有效地獲取文本信息。與基準方法相比，本文方法在 Twitter 15[7]、Weibo16[7]、Weibo[8]這3種數據集上的準確率均有提高。

1 相關工作

Transformer是Vaswani等[4]提出的一種基于自注意力機制的模型，其編碼層由自注意力層和全連接層兩個子層構成。對于既不使用卷積也不使用遞歸的Transformer是無法從模型結構上獲取位置信息的。所以，Vaswani等[4]提出使用正弦位置向量與詞向量相加的方式嵌入位置信息。Shaw等[9]在機器翻譯任務上使用可學習的相對位置編碼替換正弦位置編碼。Devlin等[10]和Liu等[11]提出將可學習的絕對位置編碼應用于預訓練模型。Yang等[12]將固定的相對位置編碼應用于XLnet模型，顯著地提高了預訓練模型的效果。

本文與上述研究的不同之處在于以下兩點：對Transformer原生的正弦位置編碼進行深入分析；提出一種可以同時獲取相對位置信息和絕對位置信息的新位置編碼范式。接下來，對原生Transformer的工作原理進行介紹。

對于每頭注意力，Transformer的計算過程如下所示。

2 謠言檢測模型

2.1 微博文本信息編碼

相對于現有的RNN類和CNN類模型，Transformer具有獲取長文本信息和并行計算結構的優勢。然而，Transformer的正弦位置編碼在相對位置獲取上仍存在局限和缺失，影響微博文本信息的獲取。正弦編碼的位置嵌入存在相對位置信息缺失嚴重的問題，具體表現在距離性信息表達模糊和方向性信息損失嚴重。本節先對Transformer的正弦位置編碼進行分析，而后提出具體的改進方法。

2.1.1 正弦位置編碼的性質

在Transformer中，只在計算自注意力得分的過程中發生位置交互。為了深入地對正弦位置編碼進行研究，本文將自注意力得分的計算展開為“(a)文本?文本”“(b)文本?位置”“(c)位置?文本”“(d)位置?位置”4項。

經分析，可以得出相對位置編碼具有以下兩個性質。

2.1.2 方法的具體改進

針對上述問題，本文重新定義現有的注意力得分計算范式。①使用可學習的相對位置編碼以捕捉謠言文本的方向和距離信息。②使用絕對位置編碼，將謠言文中不同位置的詞映射到不同的特征空間。重新定義之后的注意力得分計算如下：

方法具體的改進有以下3點。

改進3 構建可以反映絕對位置的()項，()使用可學習的向量與第個輸入的查詢向量點積的方式表征輸入之間的不同，反映各個輸入的絕對位置信息。

上述的改進是在文獻[5, 13-17]的研究基礎上進行的。

2.2 發布者資料與傳播特征

為了獲取發布者資料與傳播特征，Liu等[18]提出將傳播路徑建模為多元的時間序列，并應用遞歸網絡和卷積網絡的組合來捕捉用戶特征傳播路徑。然而，該方式不能直接融合不同微博和用戶之間的全局結構信息。社交媒體是異構的網絡，具有用戶、帖子、地理位置和標簽等實體，以及好友、轉發和空間鄰域等關系。因此全局結構信息可以豐富模型信息以提升謠言檢測的性能。Yuan等[5]提出用圖注意力網絡融合不同微博和用戶之間的全局結構信息，并在主流數據集上取得了較好的效果。本文采用與文獻[5]同樣的結構融合發布者資料與傳播特征。

3 改進Transformer的有效性驗證實驗

3.1 實驗設置

（1）數據

本文實驗采用主流社交媒體平臺的3類數據集：Twitter15、Twitter16和Weibo。數據集的統計如表1所示，其中真實謠言是指微博文本中已注明該文本是謠言。此外，原始的數據集中并不包含用戶特征，實驗采用Yuan等[5]爬取的用戶信息。

表1 數據集的統計

所有數據集均使用10%的數據作為驗證集，其余數據采用3:1的比例劃分訓練集和測試集。實驗采用由預訓練模型Word2vec[19]訓練出的300維向量作為詞表示。

（2）評價指標和參數設置

為了評估本文改進的有效性并與其他方法進行公平的比較，實驗采用與其他研究者相同的評價指標（準確率、精確率、召回率和1值），采用反向傳播的方法進行訓練。在優化模型方面，實驗采用隨機梯度下降和動量聯合的方式，學習率更新采用三角法[20]。

3.2 與主流模型的對比實驗

3.2.1 對比模型

將本文模型與所選取的基準模型在相同的數據集上開展實驗, 本文選取了以下幾個基準模型。

（1）DTC模型[21]，該模型通過決策樹融合了多種新聞特征進行分類。

（2）SVM-TS模型[22]，該模型利用時間序列特征模擬微博事件特征并通過SVM分類器進行分類。

（3）DT-Rank模型[23]，該模型基于決策樹，為每個微博簇添加短語信息以對假新聞排序。

（4）GRU-2模型[8]，該模型利用GRU網絡從用戶注釋中學習微博事件的深層信息并完成分類。

（5）RvNN模型[24]，該模型利用遞歸神經網絡構建自下而上和自上而下的樹結構模型并完成分類。

（6）PPC模型[18]，該模型結合遞歸神經網絡和卷積神經網絡建模傳播路徑信息以完成分類。

（7）GLAN模型[5]，該模型通過Transformer和圖注意力網絡獲取全局信息以完成分類。

GLAN模型在實驗采用的3種數據集上效果最好。

3.2.2 實驗結果與分析

為了驗證本文方法的有效性，將本文模型與其他基準模型進行比較。在Twitter15、Twitter16和Weibo這3種數據集上的實驗結果分別如表2、表3、表4所示，本文模型記為TPE-GAT，未使用位置改進的模型記為Transformer-GAT。為了保證比較的公平性，實驗引用了文獻[18,24]的實驗結果。

表2 Twitter15數據集上的實驗結果

表3 Twitter16數據集上的實驗結果

表4 Weibo數據集上的實驗結果

（1）從表2～表4可以看出，在基準模型中，SVM-TS模型因能捕獲更多的時間和結構特征，在Twitter15、Twitter16和Weibo數據集上分別達到了54.4%、57.4%和85.7%的準確率，在基于傳統機器學習的模型中取得了較好的效果。相對于基于深度學習的模型，基于傳統機器學習的模型性能明顯不足，GLAN模型同時獲取局部語義信息和全局結構信息，在性能上取得了明顯的提升。這進一步證明了基于深度學習的模型可以自動學習到潛在特征，提升謠言檢測的效果。而本文模型在前人研究的基礎上，改進了現有的Transformer，在Twitter15、Twitter16和Weibo數據集上分別達到了91.4%、90.8%和96.0%的準確率，比SVM-TS模型分別提升了37.0%、33.4%和10.3%，比GLAN模型分別提升了0.9%、0.6%和1.4%。此外，本文模型的F1值均高于基準模型的最優值。實驗結果證明了本文模型的有效性。

（2）從表2～表4可以看出，進行位置改進后的模型TPE-GAT相比Transformer-GAT，在Twitter15、Twitter16和Weibo數據集上分別提高了2.3%、1.6%和2.6%的準確率。實驗結果證明了位置改進的有效性。

（3）Transformer由于參數量較大，在小型數據集上的表現稍差。與GLAN相比，本文模型在Weibo、Twitter15、Twitter16數據集上的提升遞減，其原因可能是Transformer的數據依賴性。

綜上所述，本文模型能在社交媒體謠言檢測問題上表現出更好的效果，本文對Transformer的位置改進具有有效性。

3.3 消融實驗

為了進一步驗證本文位置改進的貢獻，設計了5組模型變體進行消融實驗。

（1）TPE0-GAT使用式(5)作為注意力得分計算范式。

（4）TPE-GAT使用式(11)作為注意力得分計算范式。

（5）Only TPE只使用TPE獲取文本信息而不使用結構信息進行謠言檢測。

從表5可以看出，對于謠言檢測，文本信息是有效信息，僅使用文本信息就可以達到較高的準確率。因此，改進Transformer以更好地獲取文本信息對于社交媒體謠言檢測問題具有重要意義。本文提出的3種改進都具有有效性。在Twitter15、Twitter16和Weibo數據集上，TPE1-GAT模型分別高于TPE0-GAT模型3.1%、2.2%和1.9%的準確率，這說明相對位置的改進能較大幅度提升Transformer對于文本信息的獲取能力。TPE2-GAT模型分別高于TPE1-GAT模型?0.3%、0.4%和1.1%的準確率，這說明精確的距離信息可以小幅度提升Transformer對于文本信息的獲取能力，同時可學習的參數由于初始化的不穩定性，有進一步改進的空間。TPE-GAT模型分別高于TPE2-GAT模型0.5%、0.6%和0.5%的準確率，這說明絕對位置信息也可以小幅度提升Transformer對于文本信息的獲取能力。

表5 Weibo、Twitter15和Twitter16數據集上的消融實驗結果

綜上，本文提出的3點具體改進可以提升Transformer對于文本序列位置信息的獲取能力，且可以獲取更準確的語義信息從而提升Transformer在社交媒體謠言檢測問題上的性能。

4 結束語

本文提出了一種基于改進Transformer的社交媒體謠言檢測方法，通過對Transformer進行相對位置和絕對位置的改進，提升Transformer獲取微博文本信息的能力。此外，該方法利用圖注意力網絡獲取發布者資料與傳播特征，并將信息融入微博的文本表示之中。在Twitter15、Twitter16和Weibo這3個公開的數據集中，與基準方法相比，本文方法取得了更高的正確率和1值，驗證了本文方法在社交媒體謠言檢測問題上的有效性。通過消融實驗，也進一步驗證了本文對Transformer位置改進能明顯提升Transformer獲取微博文本信息的能力。

根據實驗發現，由于Transformer參數量大、對數據的依賴性強，在小數據集中效果一般。因此，下一步將研究如何在保證模型效果的前提下，減少模型的參數。

[1] LIU Z Y, ZHANG L, TU C C, et al. Statistical and semantic analysis of rumors in Chinese social media[J]. Scientia Sinica, 2015. 45(12): 1536-1546.

[2] MIKOLOV T, SUTSKEVER L, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013, (26): 3111-3119.

[3] RUCHANSKY N, SEO S, LIU Y. CSI: a hybrid deep model for fake news detection[J]. 2017: arXiv: 1703.06959.

[4] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.

[5] YUAN C Y, MA Q W, ZHOU W, et al. Jointly embedding the local and global relations of heterogeneous graph for rumor detection[C]//Proceedings of 2019 IEEE International Conference on Data Mining (ICDM). 2019: 796-805.

[6] 琚心怡. 基于深層雙向Transformer編碼器的早期謠言檢測[J]. 信息通信, 2020, 33(5): 17-22.

QU X Y. Early rumor detection based on deep two-way Transformer encoder[J].Information & Communications, 2020, 33(5): 17-22.

[7] MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. 2017: 708-717.

[8] MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks[C]// Proceedings of International Joint Conference on Artificial Intelligence. 2016.

[9] SHAW P, USZKOREIT J, VASWANI A. Self-attention with relative position representations[J]. arXiv preprint arXiv:1803.02155, 2018.

[10] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[11] LIU Y H, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

[12] YANG Z L, DAI Z H, YANG Y M, et al. XLNet: generalized autoregressive pretraining for language understanding[J]. CoRR, 2019, abs/1906.08237.

[13] YAN H, DENG B C, LI X N, et al. TENER: adapting transformer encoder for name entity recognition[J]. arXiv preprint arXiv:1911.04474, 2019.

[14] DAI Z H, YANG Z L, YANG Y M, et al. Transformer-XL: attentive language models beyond a fixed-length context[J]. arXiv preprint arXiv:1901.02860, 2019.

[15] HE P C, LIU X D, GAO J F, et al. DeBERTa: decoding-enhanced BERT with disentangled attention[J]. arXiv preprint arXiv:2006.03654, 2020.

[16] KE G L, HE D, LIU T Y. Rethinking the positional encoding in language pre-training[J]. arXiv preprint arXiv:2006.15595, 2020.

[17] WANG B Y, ZHAO D H, LIOMA C, et al. Encoding word order in complex embeddings[J]. arXiv preprint arXiv:2006.15595, 2020.

[18] LIU Y, WU Y F. Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks[C]//Proceedings of Thirty-Second AAAI Conference on Artificial Intelligence. 2018.

[19] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[20] SMITH L N. Cyclical learning rates for training neural networks[C]//Proceedings of 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). 2017: 464-472.

[21] CASTILLO C, MENDOZA M, POBLETE B. Information credibility on twitter[C]//Proceedings of the 20th International Conference on World Wide Web-WWW '11. 2011: 675-684.

[22] MA J, GAO W, WEI Z Y, et al. Detect rumors using time series of social context information on microblogging websites[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. 2015: 1751-1754.

[23] ZHAO Z, RESNICK P, MEI Q. Enquiring minds: early detection of rumors in social media from enquiry posts[C]//Proceedings ofInternational World Wide Web Conferences Steering Committee. 2015.

[24] MA J, GAO W, WONG K F. Rumor detection on twitter with tree-structured recursive neural networks[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. 2018: 1980-1989.

Rumor detection in social media based on eahanced Transformer

ZHENG Honghao, HAO Yinuo, YU Hongtao, LI Shaomei, WU Yiteng

Information Engineering University, Zhengzhou 450001, China

With the rapid development of the Internet, social media is increasingly integrated into all aspects of people’s daily life. Social media has gradually become a tool and even a platform for people to share opinions, insights, experiences and viewpoints. It is the main method for people to obtain and share information as well as express and exchange opinions. Currently, social media mainly includes social networking sites, Weibo, Twitter, blogs, forums, podcasts and so on. Due to the openness of social media, the user scale is large and the sources are complex and numerous, then all kinds of rumors and false information may be generated easily. Rumors on social media influence netizens’ understanding of events and shake the stability of society. Therefore, how to accurately and efficiently detect rumors has become an urgent problem to be solved. Existing Transformer based social media rumor detection models ignored the text location information. To effectively extract text location information and make full use of text potential information, a rumor detection model in social media was proposed and it was based on the enhanced Transformer. This model enhanced the traditional Transformer from two aspects of relative position and absolute position. It captured the direction information and distance information of the text using learnable relative position coding and mapped words from different positions to different feature spaces using absolute position coding. Experimental results show that, compared with the best benchmark model, the accuracy of the proposed model on Twitter15, Twitter16 and Weibo datasets is enhanced by 0.9%, 0.6% and 1.4%, respectively. Experimental results verify the effectiveness of the proposed location coding. And the enhanced Transformer based on location coding can significantly improve the effects of social media rumor detection.

rumor detection in social media, enhanced Transformer, position information

The National Natural Science Foundation of China (61601513), Major Collaborative Innovation Projects of Zhengzhou (162/32410218)

鄭洪浩, 郝一諾, 于洪濤, 等. 基于改進Transformer的社交媒體謠言檢測[J]. 網絡與信息安全學報, 2022, 8(4): 168-174.

TP391

10.11959/j.issn.2096?109x.2022042

鄭洪浩（1992?），男，山東濟寧人，信息工程大學碩士生，主要研究方向為自然語言處理。

郝一諾（1997?），女，江蘇徐州人，信息工程大學碩士生，主要研究方向為無線物理層安全、自然語言處理。

于洪濤（1970?），男，遼寧丹東人，博士，信息工程大學研究員、博士生導師，主要研究方向為網絡大數據分析與處理。

李邵梅（1982?），女，湖北鐘祥人，博士，信息工程大學副研究員，主要研究方向為計算機視覺。

吳翼騰（1992?），男，山東樂陵人，信息工程大學博士生，主要研究方向為人工智能安全。

2021?08?31；

2022?02?15

于洪濤，15937101921@139.com

國家自然科學基金（61601513）；鄭州市協同創新重大專項（162/32410218）

Formats: ZHENG H H, HAO Y N, YU H T, et al. Rumor detection in social media based on eahanced Transformer[J]. Chinese Journal of Network and Information Security, 2022, 8(4): 168-174.