基于多語(yǔ)BERT的無(wú)監(jiān)督攻擊性言論檢測(cè)

2022-11-30 07:29:58師夏陽(yáng)張風(fēng)遠(yuǎn)袁嘉琪黃敏

計(jì)算機(jī)應(yīng)用 2022年11期

師夏陽(yáng)，張風(fēng)遠(yuǎn)，袁嘉琪，黃敏*

師夏陽(yáng)1，張風(fēng)遠(yuǎn)1，袁嘉琪2，黃敏1*

（1.鄭州輕工業(yè)大學(xué) 軟件學(xué)院，鄭州 450001； 2.鄭州輕工業(yè)大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院，鄭州 450001）（?通信作者電子郵箱huangmin@zzuli.edu.cn）

攻擊性言論會(huì)對(duì)社會(huì)安定造成嚴(yán)重不良影響，但目前攻擊性言論自動(dòng)檢測(cè)主要集中在少數(shù)幾種高資源語(yǔ)言，對(duì)低資源語(yǔ)言缺少足夠的攻擊性言論標(biāo)注語(yǔ)料導(dǎo)致檢測(cè)困難，為此，提出一種跨語(yǔ)言無(wú)監(jiān)督攻擊性遷移檢測(cè)方法。首先，使用多語(yǔ)BERT（mBERT）模型在高資源英語(yǔ)數(shù)據(jù)集上進(jìn)行對(duì)攻擊性特征的學(xué)習(xí)，得到一個(gè)原模型；然后，通過(guò)分析英語(yǔ)與丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)、希臘語(yǔ)的語(yǔ)言相似程度，將原模型遷移到這四種低資源語(yǔ)言上，實(shí)現(xiàn)對(duì)低資源語(yǔ)言的攻擊性言論自動(dòng)檢測(cè)。實(shí)驗(yàn)結(jié)果顯示，與BERT、線性回歸（LR）、支持向量機(jī)（SVM）、多層感知機(jī)（MLP）這四種方法相比，所提方法在丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)、希臘語(yǔ)這四種語(yǔ)言上的攻擊性言論檢測(cè)的準(zhǔn)確率和F1值均提高了近2個(gè)百分點(diǎn)，接近目前的有監(jiān)督檢測(cè)，可見(jiàn)采用跨語(yǔ)言模型遷移學(xué)習(xí)和遷移檢測(cè)相結(jié)合的方法能夠?qū)崿F(xiàn)對(duì)低資源語(yǔ)言的無(wú)監(jiān)督攻擊性檢測(cè)。

跨語(yǔ)言模型；攻擊性言論檢測(cè)；BERT；無(wú)監(jiān)督方法；遷移學(xué)習(xí)

0 引言

網(wǎng)絡(luò)社交媒體中時(shí)常存在著大量的攻擊性言論，如網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)攻擊和仇恨言論等［1-2］。社交媒體中的攻擊性言論會(huì)嚴(yán)重影響人們的正常交流，更有甚者可能煽動(dòng)群眾情緒，對(duì)社會(huì)穩(wěn)定造成不良的影響。因此，檢測(cè)和過(guò)濾網(wǎng)絡(luò)中的攻擊性言論顯得格外重要，成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)［3］。

目前攻擊性言論檢測(cè)的研究主要集中在高資源語(yǔ)言（如英語(yǔ)）中，這是因?yàn)楦哔Y源的數(shù)據(jù)集資源、單語(yǔ)詞典和預(yù)訓(xùn)練語(yǔ)言模型成果豐富［4］。然而，在社交媒體平臺(tái)上，往往存在著多種語(yǔ)言的攻擊性言論（例如：不同國(guó)家的語(yǔ)言、不同民族的語(yǔ)言和不同地區(qū)的方言），而對(duì)語(yǔ)言進(jìn)行攻擊性言論檢測(cè)研究大多基于有限的數(shù)據(jù)集上，因此低資源語(yǔ)言攻擊性言論檢測(cè)的研究面臨巨大的挑戰(zhàn)［5-6］。

攻擊性言論檢測(cè)是分類任務(wù)中的一項(xiàng)具體應(yīng)用，往往將分類任務(wù)分為上游的語(yǔ)言建模和下游的分類特征學(xué)習(xí)兩階段。神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型（Neural Network Language Model， NNLM）通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)的方式來(lái)探索和建模自然語(yǔ)言內(nèi)在的依賴關(guān)系，能夠用向量表征一個(gè)單詞或者句子，優(yōu)良表征能夠提高下游模型泛化能力。檢測(cè)方法泛化能力往往建立在龐大的數(shù)據(jù)資源基礎(chǔ)上，因此，當(dāng)建模語(yǔ)言對(duì)象為低資源語(yǔ)言時(shí)，由于可用資源很少，無(wú)法學(xué)習(xí)到語(yǔ)言對(duì)象中內(nèi)在的依賴關(guān)系，也就無(wú)法對(duì)低資源語(yǔ)言中的文本語(yǔ)義特征進(jìn)行有效的語(yǔ)義編碼學(xué)習(xí)。研究表明可以通過(guò)跨語(yǔ)言詞向量結(jié)合遷移學(xué)習(xí)（Transfer Learning， TL）實(shí)現(xiàn)對(duì)低資源語(yǔ)言上的文本語(yǔ)義編碼［7］。此外，下游階段模型的泛化能力決定分類性能的優(yōu)劣，而可用數(shù)據(jù)資源的多少又決定了下游階段的泛化能力；同時(shí)，也造成了下游分類模型無(wú)法依靠這些低資源數(shù)據(jù)得到一個(gè)有效的攻擊性言論檢測(cè)模型。

低資源的攻擊性言論檢測(cè)面臨兩大挑戰(zhàn)：一是由于可用資源少，無(wú)法單獨(dú)對(duì)低資源語(yǔ)言中的文本語(yǔ)義進(jìn)行有效編碼；二是無(wú)法對(duì)低資源語(yǔ)言中的攻擊性特征進(jìn)行有效訓(xùn)練?；谏鲜龇治?，本文采用遷移學(xué)習(xí)架構(gòu)，在BERT（Bidirectional Encoder Representation from Transformers）模型的基礎(chǔ)上，多語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型——多語(yǔ)BERT（multilingual BERT， mBERT）進(jìn)行在低資源語(yǔ)言中的遷移學(xué)習(xí)，使模型具備對(duì)低資源語(yǔ)言的文本語(yǔ)義編碼能力［8］。此外，通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似程度，再次對(duì)低資源語(yǔ)言進(jìn)行遷移，實(shí)現(xiàn)對(duì)低資源語(yǔ)言的攻擊性言論的跨語(yǔ)言檢測(cè)，使模型具有一定的對(duì)低資源語(yǔ)言的攻擊性言論檢測(cè)的泛化能力。

本文的主要工作包括：

1）提出了一種融合mBERT的跨語(yǔ)言攻擊性言論遷移檢測(cè)方法，通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度，將在高資源語(yǔ)言上訓(xùn)練的模型遷移到其他低資源語(yǔ)言中來(lái)檢測(cè)該低資源語(yǔ)言中的攻擊性；

2）使用BERT模型作為語(yǔ)言模型，通過(guò)對(duì)BERT微調(diào)，保證了對(duì)自然語(yǔ)言的語(yǔ)義編碼能力；

3）利用mBERT進(jìn)行不同語(yǔ)言的遷移學(xué)習(xí)，保留了mBERT模型對(duì)不同語(yǔ)言的語(yǔ)義編碼特征，以便于探索不同語(yǔ)言之間的語(yǔ)言相似程度。

1 相關(guān)工作

進(jìn)行攻擊性言論識(shí)別的早期工作依賴于手動(dòng)提取不同類型的特征和基于知識(shí)的功能以及多模式信息［9-10］，如：Saroj等［11］使用四種機(jī)器學(xué)習(xí)分類器：多項(xiàng)式樸素貝葉斯（Multinomial Naive?Bayes， MNB）、隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）、線性支持向量機(jī)（Linear Support Vector Machine， LSVM）和線性回歸（Linear Regression，LR）來(lái)識(shí)別社交媒體中印地語(yǔ)中的攻擊性言論；Pathak等［12］通過(guò)提取文本語(yǔ)言中的?gram特征，使用機(jī)器學(xué)習(xí)中的分類和回歸方法來(lái)學(xué)習(xí)這些攻擊性言論的特征。但是這種基于特征的方法在文本表示中的能力相對(duì)較弱，往往需要構(gòu)建高維的特征對(duì)復(fù)雜文本進(jìn)行特征學(xué)習(xí)，在進(jìn)行相關(guān)計(jì)算時(shí)耗費(fèi)大量資源，且特征的冗余會(huì)影響分類的實(shí)際效果［13］。受Zampieri 等［14］的啟發(fā)，Howard等［15］借助BERT，利用ULMFiT（Universal Language Model Fine?tuning for Text classification， ULMFiT）方法經(jīng)過(guò)預(yù)訓(xùn)練的語(yǔ)言模型成功實(shí)現(xiàn)了遷移學(xué)習(xí)在攻擊性言論檢測(cè)的應(yīng)用，由于性能較好，該類方法成為用于解決攻擊性言論識(shí)別任務(wù)的主流。在2019年OffensEval競(jìng)賽［16］中，參加任務(wù)A的前10個(gè)團(tuán)隊(duì)中，有7個(gè)使用了BERT，僅在參數(shù)設(shè)置和預(yù)處理步驟有所不同［17-18］。目前利用跨語(yǔ)言預(yù)訓(xùn)練模型進(jìn)行攻擊性言論檢測(cè)大多數(shù)都以預(yù)訓(xùn)練跨語(yǔ)言模型基礎(chǔ)［19-21］。這類方法最大的優(yōu)點(diǎn)是：通過(guò)這種無(wú)監(jiān)督的跨語(yǔ)言預(yù)訓(xùn)練模型，能夠?qū)崿F(xiàn)低資源語(yǔ)言的攻擊性言論檢測(cè)。Ayo等［22］提出基于支持向量機(jī)（Support Vector Machine， SVM）和BERT的方法構(gòu)建跨語(yǔ)言攻擊性言論和厭女性（Misogynist）言論檢測(cè)模型。Kapil等［23］在跨語(yǔ)言預(yù)訓(xùn)練模型的基礎(chǔ)上加入了遷移學(xué)習(xí)，將豐富資源的攻擊性言論檢測(cè)任務(wù)知識(shí)遷移到低資源語(yǔ)言上，可以有效提高低資源語(yǔ)言的攻擊性言論檢測(cè)準(zhǔn)確率，但上述方法的檢測(cè)性能并不令人滿意。

2 融合mBERT與TL的攻擊性言論檢測(cè)方法

本文提出的方法包括兩個(gè)方面：第一是單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí)；第二是跨語(yǔ)言遷移檢測(cè)。對(duì)于給定的單語(yǔ)攻擊性言論樣本集，首先，使用mBERT模型在單語(yǔ)攻擊性言論樣本集中進(jìn)行遷移學(xué)習(xí)，得到單語(yǔ)攻擊性言論檢測(cè)器。對(duì)于給定的低資源語(yǔ)種文本，將單語(yǔ)攻擊性言論檢測(cè)器遷移到低資源語(yǔ)言，檢測(cè)低資源語(yǔ)言文本中的攻擊性言論。融合mBERT與TL的攻擊性言論檢測(cè)方法結(jié)構(gòu)如圖1所示。

2.1　單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí)

由于給定的單語(yǔ)攻擊性言論樣本集較小，不足以支撐構(gòu)建一個(gè)相對(duì)完整的模型表達(dá)這些言論中的文本語(yǔ)義信息，但跨語(yǔ)言遷移學(xué)習(xí)方法能夠利用其他語(yǔ)言提供的更大的可用數(shù)據(jù)集。通過(guò)遷移學(xué)習(xí)將已經(jīng)學(xué)到的模型參數(shù)（也可理解為模型學(xué)到的知識(shí)）通過(guò)某種方式來(lái)分享給新模型，從而提高模型的學(xué)習(xí)效率，避免了多數(shù)網(wǎng)絡(luò)從零學(xué)習(xí)的缺點(diǎn)。

mBERT為Google發(fā)布的基于BERT模型訓(xùn)練的多語(yǔ)言預(yù)訓(xùn)練模型，由12個(gè)堆疊的Transformer組成，其中一個(gè)隱藏層大小為768，還包括12個(gè)自注意力頭。mBERT模型經(jīng)過(guò)預(yù)先訓(xùn)練，將104種不同語(yǔ)言的單語(yǔ)維基百科數(shù)據(jù)（包括英語(yǔ)、印地語(yǔ)、土耳其語(yǔ)、馬拉雅拉姆語(yǔ)等）與一個(gè)共享的詞匯表（該詞匯表包括12萬(wàn)個(gè)單詞）進(jìn)行連接，使得所有字符編碼共享一個(gè)嵌入空間和編碼器，方便應(yīng)用于不同的語(yǔ)言任務(wù)中［24］。Kudugunta等［25］和Kondratyuk等［26］驗(yàn)證了在下游任務(wù)上（如詞性標(biāo)注、命名實(shí)體識(shí)別等）可以實(shí)現(xiàn)從跨語(yǔ)言預(yù)訓(xùn)練模型中提取相關(guān)特征，獲取在特定任務(wù)上的基于語(yǔ)言知識(shí)的信息。Kumar等［27］在德語(yǔ)和印地語(yǔ)任務(wù)中，使用了預(yù)訓(xùn)練模型mBERT，通過(guò)對(duì)BERT模型微調(diào)在德語(yǔ)和印地語(yǔ)的識(shí)別仇恨和冒犯性任務(wù)上取得了顯著的效果。Libovicky等［28］證明了基于上下文的mBERT可以捕捉語(yǔ)言之間的相似性，并將語(yǔ)言按語(yǔ)種進(jìn)行聚類，且跨語(yǔ)言微調(diào)后不會(huì)破壞這個(gè)屬性。換句話說(shuō)，mBERT可以將語(yǔ)言信息的一部分按照嵌入空間中的位置進(jìn)行編碼，將每種語(yǔ)言的編碼集中起來(lái)，可以實(shí)現(xiàn)一定程度的跨語(yǔ)言性。

圖 1　本文方法的結(jié)構(gòu)

受到前面工作的啟發(fā)，本文利用mBERT模型的跨語(yǔ)言性使得檢測(cè)器可以捕獲不同語(yǔ)言的文本特征，通過(guò)遷移學(xué)習(xí)將mBERT學(xué)到的有關(guān)各種語(yǔ)言的知識(shí)信息分享給新模型，在mBERT模型參數(shù)的基礎(chǔ)上進(jìn)行檢測(cè)器模型的訓(xùn)練，從而提高模型的學(xué)習(xí)效率。本文方法使用BERT模型作為構(gòu)建攻擊性言論檢測(cè)模型的基礎(chǔ)結(jié)構(gòu)，將mBERT的模型參數(shù)作為上述攻擊性言論檢測(cè)模型的初始參數(shù)，在此基礎(chǔ)上，通過(guò)對(duì)BERT模型進(jìn)行微調(diào)，完成攻擊性言論檢測(cè)器的訓(xùn)練。

最后，使用交叉熵函數(shù)作為該任務(wù)的損失函數(shù)。該損失函數(shù)如式（3）所示：

通過(guò)使用遷移學(xué)習(xí)，將mBERT跨語(yǔ)言預(yù)訓(xùn)練模型的權(quán)重參數(shù)遷移到單語(yǔ)攻擊性言論檢測(cè)模型中作為單語(yǔ)攻擊性言論檢測(cè)模型的初始參數(shù)，在這基礎(chǔ)上進(jìn)行攻擊性言論中的攻擊性特征的學(xué)習(xí)，最后得到一個(gè)單語(yǔ)攻擊性言論檢測(cè)模型。

2.2　跨語(yǔ)言檢測(cè)

2.1節(jié)中得到的單語(yǔ)攻擊性言論檢測(cè)模型不僅可以解釋高資源攻擊性言論中的攻擊性特征，還繼承了遷移到mBERT預(yù)訓(xùn)練模型對(duì)多種語(yǔ)言的語(yǔ)義編碼能力。這種能力使單語(yǔ)攻擊性言論檢測(cè)模型可以對(duì)未參與攻擊性特征學(xué)習(xí)的語(yǔ)言直接進(jìn)行檢測(cè)。本文將使用訓(xùn)練好的單語(yǔ)攻擊性言論檢測(cè)模型對(duì)未參與攻擊性特征學(xué)習(xí)的語(yǔ)言進(jìn)行檢測(cè)的方法稱為跨語(yǔ)言檢測(cè)。

為觀察語(yǔ)言之間的關(guān)系，從每種語(yǔ)言中隨機(jī)抽取了1 000個(gè)樣本，并使用tSNE（t?distributed Stochastic Neighbor Embedding）可視化了它們的句子嵌入（見(jiàn)圖2）［29］。從可視化中觀察到，這些例子基于它們的語(yǔ)言形成了一個(gè)粗略的聚類，但是英語(yǔ)和丹麥語(yǔ)的集群彼此靠近。這進(jìn)一步說(shuō)明了利用嵌入空間的這種接近性來(lái)提高對(duì)低資源語(yǔ)言攻擊性文本檢測(cè)的可能性。

需要特別指出的是，本文方法并未使用上述單語(yǔ)攻擊性言論檢測(cè)模型在低資源數(shù)據(jù)上進(jìn)行再遷移學(xué)習(xí)，因此該方法可以稱無(wú)監(jiān)督的跨語(yǔ)言檢測(cè)。

對(duì)于某些語(yǔ)種（如丹麥語(yǔ)、阿拉伯語(yǔ)和印地語(yǔ)等），由于這些語(yǔ)種的攻擊性言論樣本資源極少，在對(duì)現(xiàn)有資源進(jìn)行跨語(yǔ)言遷移學(xué)習(xí)時(shí)，這些樣本量不足以訓(xùn)練一個(gè)完整的針對(duì)該語(yǔ)言的攻擊性言論檢測(cè)器。通過(guò)觀察表1，發(fā)現(xiàn)這些語(yǔ)言之間或多或少都有些相似之處，如：丹麥語(yǔ)和英語(yǔ)之間，在實(shí)際生活中，丹麥語(yǔ)中也包含大部分的英語(yǔ)；又發(fā)現(xiàn)如英語(yǔ)、土耳其語(yǔ)這些語(yǔ)言，構(gòu)成文本的字符較為相似；而印地語(yǔ)、阿拉伯語(yǔ)和希臘語(yǔ)這些語(yǔ)言的字符之間差異較大，這些差異也決定了這些語(yǔ)言間的相似性不高。因此，提出一種通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度，選取合適的單語(yǔ)攻擊性言論檢測(cè)器，用來(lái)檢測(cè)低資源語(yǔ)種文本中的攻擊性言論。

為了定量估計(jì)兩種語(yǔ)言的語(yǔ)義相似性，本文使用了Patra等［30］提出的GH（Gromov?Hausdroff）距離度量?jī)蓚€(gè)單詞之間嵌入空間距離的方法。與文獻(xiàn)［30］中不同語(yǔ)言的單詞所映射到的嵌入空間不同的情況相反，通過(guò)跨語(yǔ)言預(yù)訓(xùn)練模型mBERT編碼的嵌入編碼都映射在同一空間內(nèi)，且通過(guò)編碼可視化（編碼可視化如圖2所示）可以看出不同語(yǔ)言的編碼聚集在不同區(qū)域。因此，本文只需計(jì)算兩種語(yǔ)言嵌入編碼在不同區(qū)域的等距距離，以此來(lái)定量?jī)煞N語(yǔ)言的語(yǔ)義相似程度。

表1　各語(yǔ)種的樣本數(shù)據(jù)

具體來(lái)說(shuō)，GH距離定義如式（4）所示：

3 實(shí)驗(yàn)設(shè)置

3.1　數(shù)據(jù)設(shè)置

為了驗(yàn)證本文方法的性能，使用了如表2所示的公開(kāi)可用的攻擊性言論檢測(cè)數(shù)據(jù)集。對(duì)于豐富的資源語(yǔ)言，本文使用2019年OffensEval共享任務(wù)6中發(fā)布的英文標(biāo)記數(shù)據(jù)集（EN?OLID）［31］，OLID（EN?OLID）是最流行的英語(yǔ)語(yǔ)言數(shù)據(jù)集之一。對(duì)于其他資源匱乏的語(yǔ)言，選擇使用在2020年OffensEval共享任務(wù)12中發(fā)布的丹麥語(yǔ)（Danish）、阿拉伯語(yǔ)（Arabic）、土耳其語(yǔ)（Turkish）和希臘語(yǔ)（Greek）數(shù)據(jù)集。其中，OLID數(shù)據(jù)集包括三個(gè)子任務(wù)。子任務(wù)A：檢測(cè)語(yǔ)言文本具有攻擊性或不具有攻擊性，以及兩者樣本總和；子任B：將攻擊語(yǔ)言文本的攻擊類型分類為有針對(duì)性的侮辱（TIN）、有針對(duì)性的威脅（TTH）或無(wú)針對(duì)性的（UNT）；子任務(wù)C：將攻擊目標(biāo)確定為個(gè)人（IND）、人群（GRP）、組織或?qū)嶓w（ORG）及其他（OTH）。而阿拉伯語(yǔ)、丹麥語(yǔ)、希臘語(yǔ)和土耳其語(yǔ)只包含子任務(wù)A。本文實(shí)驗(yàn)只針對(duì)上述所有任務(wù)A數(shù)據(jù)進(jìn)行探討。此外，實(shí)驗(yàn)中設(shè)置訓(xùn)練集樣本量和測(cè)試集樣本量的比例為9∶1。

表2　樣本數(shù)據(jù)分布

3.2　參數(shù)設(shè)置

詞向量維度：設(shè)置本方法中的模型詞向量維度為768維。

詞表：設(shè)置mBERT預(yù)訓(xùn)練模型對(duì)應(yīng)的詞表作為文本實(shí)驗(yàn)中的共享詞表，其中，該詞表包括104種語(yǔ)言，共有12萬(wàn)詞匯。

跨語(yǔ)言遷移學(xué)習(xí)：經(jīng)過(guò)對(duì)樣本的數(shù)據(jù)分析，發(fā)現(xiàn)大部分?jǐn)?shù)據(jù)長(zhǎng)度在120個(gè)詞以內(nèi)，因此設(shè)置句子最大長(zhǎng)度為120。設(shè)置Softmax層的隱藏層單元為標(biāo)簽類別個(gè)數(shù)2。

模型訓(xùn)練：設(shè)置訓(xùn)練batch為64，epoch為10。

優(yōu)化器設(shè)置：設(shè)置優(yōu)化器為Adam。

優(yōu)化參數(shù)設(shè)置：設(shè)置隱藏層dropout參數(shù)為0.01，固定學(xué)習(xí)率為0.000 02。

4 實(shí)驗(yàn)及結(jié)果分析

4.1　度量標(biāo)準(zhǔn)

度量標(biāo)準(zhǔn)主要包括模型預(yù)測(cè)的準(zhǔn)確率（Accuracy）、精確率（Precision）、召回率（Recall）、宏平均macro F1值（后文統(tǒng)稱F1值）。

4.2　對(duì)比實(shí)驗(yàn)分析

首先實(shí)驗(yàn)驗(yàn)證所提方法對(duì)于低資源語(yǔ)言攻擊性言論檢測(cè)的有效性。先抽取英語(yǔ)樣本集做跨語(yǔ)言遷移學(xué)習(xí)，接著將訓(xùn)練好的攻擊性言論檢測(cè)器遷移到其他語(yǔ)言樣本中，用來(lái)檢測(cè)文本中的攻擊性。同時(shí)設(shè)置幾個(gè)單語(yǔ)模型作為對(duì)比，單語(yǔ)模型設(shè)置如下：

BERT：直接遷移mBERT預(yù)訓(xùn)練模型權(quán)重參數(shù)到低資源語(yǔ)言上進(jìn)行攻擊性特征的學(xué)習(xí)。

LR：使用詞頻?逆向文檔頻率（Term Frequency?Inverse Document Frequency，TF?IDF）提取語(yǔ)言文本特征信息，接著使用Logistic Regression算法構(gòu)建攻擊性言論分類器。

SVM：使用TF?IDF提取語(yǔ)言文本中的特征信息，使用SVM來(lái)學(xué)習(xí)特征信息中的文本特征。

MLP：使用多層感知機(jī)（Multi?Layer Perceptron， MLP）來(lái)構(gòu)建攻擊性文本分類器。

實(shí)驗(yàn)結(jié)果如表3所示。表3顯示，與所設(shè)置的4種方法相比，本文方法不論是準(zhǔn)確率還是F1值都有所提升，進(jìn)一步驗(yàn)證了本文提出的跨語(yǔ)言遷移檢測(cè)方法要優(yōu)于基于單語(yǔ)模型的檢測(cè)方法。從以下兩方面分析原因：

1）理論上，可以通過(guò)對(duì)BERT模型進(jìn)行微調(diào)來(lái)自動(dòng)檢測(cè)攻擊性言論，但要達(dá)到上述目標(biāo)需要大量的語(yǔ)料，而由于語(yǔ)料不足，模型無(wú)法很好地對(duì)文本中的攻擊性特征進(jìn)行表示學(xué)習(xí)；類似地，在使用TF?IDF表示文本特征時(shí)，數(shù)據(jù)集極少的情況下并不能將文本中的多元信息很好地表示出來(lái)，所以這些單語(yǔ)模型盡管可以學(xué)習(xí)到一些攻擊性特征，但在測(cè)試過(guò)程中的檢測(cè)性能表現(xiàn)一般。

2）在數(shù)據(jù)資源極少的情況下，由于組成不同語(yǔ)言的單詞不同，可能差異很大。這導(dǎo)致將其他語(yǔ)言的文本作為單語(yǔ)檢測(cè)器的輸入時(shí)，該檢測(cè)器對(duì)上述所能表示的信息量與對(duì)訓(xùn)練語(yǔ)言相同的文本表示的信息量相差懸殊，不利于遷移檢測(cè)。而對(duì)mBERT的遷移學(xué)習(xí)使該檢測(cè)器對(duì)不同的語(yǔ)言都有一定的表示能力，可以縮小文本表示階段的信息量差距，這有利于將單語(yǔ)檢測(cè)器學(xué)習(xí)到的特征遷移到其他語(yǔ)言做檢測(cè)。

表3　不同模型的實(shí)驗(yàn)結(jié)果對(duì)比

經(jīng)驗(yàn)上，對(duì)可用數(shù)據(jù)資源極少的語(yǔ)言收集工作和標(biāo)記工作都是極耗費(fèi)人力物力的，從而導(dǎo)致這些語(yǔ)言的可用資源很少；而使用跨語(yǔ)言遷移檢測(cè)方法能夠?qū)膭e的語(yǔ)言上學(xué)習(xí)到的攻擊性特征遷移到低資源語(yǔ)言上檢測(cè)包含攻擊性的言論，擴(kuò)大了該方法的使用范圍。

實(shí)驗(yàn)也驗(yàn)證了跨語(yǔ)言遷移檢測(cè)方法可以檢測(cè)低資源語(yǔ)言中的攻擊性言論。觀察表3，可以看到基于英語(yǔ)數(shù)據(jù)集的攻擊性言論檢測(cè)器在不同語(yǔ)言上的遷移檢測(cè)實(shí)驗(yàn)結(jié)果并不一致。相比其他語(yǔ)言，在丹麥語(yǔ)上的遷移檢測(cè)結(jié)果最好。通過(guò)觀察表3中的原數(shù)據(jù)，發(fā)現(xiàn)不同的單語(yǔ)檢測(cè)模型在不同語(yǔ)言的遷移檢測(cè)效果是不同的。可以得出結(jié)論，在兩種語(yǔ)義相近的語(yǔ)言上做遷移檢測(cè)可以解決低資源的攻擊性言論檢測(cè)問(wèn)題。為進(jìn)一步驗(yàn)證本文方法的有效性，通過(guò)式（4）計(jì)算兩個(gè)語(yǔ)言的GH距離作為判斷最佳遷移檢測(cè)模型的效果，結(jié)果如表4所示。表4計(jì)算了樣本量最高的三種語(yǔ)言（英語(yǔ)、土耳其語(yǔ)和希臘語(yǔ)）和其他語(yǔ)言之間的單詞向量的GH距離來(lái)衡量不同語(yǔ)種之間的語(yǔ)言相似度。其中，兩種不同語(yǔ)言對(duì)應(yīng)的值越小，表明這兩種語(yǔ)言越相似。從表4中可以看出英語(yǔ)與丹麥語(yǔ)相似度更高，而希臘語(yǔ)與丹麥語(yǔ)、土耳其語(yǔ)與阿拉伯語(yǔ)相似度高，這也符合人們對(duì)語(yǔ)言的觀測(cè)。

4.3　語(yǔ)義相似度對(duì)遷移效果的影響分析

為了分析語(yǔ)義相似度對(duì)遷移效果的影響，設(shè)置樣本量最高的三種語(yǔ)言訓(xùn)練單語(yǔ)檢測(cè)模型，并遷移到其他語(yǔ)言中做遷移檢測(cè)實(shí)驗(yàn)，檢測(cè)不同單語(yǔ)檢測(cè)模型對(duì)不同語(yǔ)言的遷移檢測(cè)效果。

首先，分別在英語(yǔ)、土耳其語(yǔ)和希臘語(yǔ)三個(gè)語(yǔ)言的數(shù)據(jù)集上進(jìn)行攻擊性言論檢測(cè)模型的訓(xùn)練，得到英語(yǔ)檢測(cè)模型、土耳其語(yǔ)檢測(cè)模型和希臘語(yǔ)檢測(cè)模型；接著，將這三個(gè)檢測(cè)模型分別在其他語(yǔ)言上進(jìn)行檢測(cè)實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果圖3所示，其中en、da、ar、tr、和el表示英語(yǔ)、丹麥語(yǔ)、阿拉伯語(yǔ)、土耳其語(yǔ)和希臘語(yǔ)。

圖3　五種語(yǔ)言模型的準(zhǔn)確度、召回率、精確度和F1性能比較

從圖3可以看出，對(duì)于丹麥語(yǔ)、阿拉伯語(yǔ)和土耳其語(yǔ)的F1以及Recall，使用英語(yǔ)檢測(cè)器的檢測(cè)結(jié)果對(duì)應(yīng)的四個(gè)評(píng)價(jià)指標(biāo)基本優(yōu)于另外兩個(gè)分類器（在本次分析中，使用土耳其語(yǔ)檢測(cè)器檢測(cè)土耳其語(yǔ)和使用希臘語(yǔ)檢測(cè)器檢測(cè)希臘語(yǔ)的結(jié)果不參與分析），且這三種語(yǔ)言與英語(yǔ)之間的GH距離也遠(yuǎn)小于其他兩種語(yǔ)言之間的GH距離。對(duì)于Accuracy和Precision，土耳其語(yǔ)對(duì)應(yīng)的柱狀圖要高于英語(yǔ)對(duì)應(yīng)的柱狀圖，表明這種方法在一定程度上利用了語(yǔ)言上的相似性，使在語(yǔ)義相似的語(yǔ)言間遷移時(shí)達(dá)到信息損失最小化，進(jìn)一步說(shuō)明了判斷語(yǔ)義相似度在跨語(yǔ)言檢測(cè)中的重要性。可以利用這種特性，選擇與低資源語(yǔ)言語(yǔ)義相似度最高的高資源數(shù)據(jù)進(jìn)行單語(yǔ)攻擊性言論檢測(cè)模型的訓(xùn)練，進(jìn)而可以更好地實(shí)現(xiàn)對(duì)低資源語(yǔ)言中的攻擊性判斷。

4.4　訓(xùn)練資源的多少對(duì)遷移效果的影響分析

設(shè)置不同的訓(xùn)練樣本量以分析樣本量變化過(guò)程中遷移檢測(cè)效果的變化，結(jié)果如圖4?？梢钥闯觯S著訓(xùn)練樣本量的增多，遷移檢測(cè)效果的性能也不斷提升。觀察圖4發(fā)現(xiàn)，當(dāng)訓(xùn)練樣本量小于3 000時(shí)，對(duì)各個(gè)語(yǔ)言的遷移檢測(cè)性能指標(biāo)均低于0.35，此時(shí)模型處于不夠理想的狀態(tài)；隨著訓(xùn)練樣本量的增加，模型的遷移檢測(cè)性能指標(biāo)也隨之上升，當(dāng)訓(xùn)練樣本量增加到12 000時(shí)，圖中各指標(biāo)處于緩慢增長(zhǎng)甚至穩(wěn)定狀態(tài)。而且相較于其他語(yǔ)言，與英語(yǔ)語(yǔ)義相似度最高的丹麥語(yǔ)的檢測(cè)性能指標(biāo)增長(zhǎng)最快。所以訓(xùn)練樣本越多，用這些訓(xùn)練樣本訓(xùn)練得到的模型遷移到其他語(yǔ)言中的效果越好，但當(dāng)樣本量超過(guò)一定值時(shí)，訓(xùn)練資源的多少帶來(lái)的影響就會(huì)很??；而且與高資源語(yǔ)言相似度最高的低資源語(yǔ)言的檢測(cè)性能的變化最明顯。由此，本文認(rèn)為語(yǔ)言之間的相似性是使遷移效果更優(yōu)的主要原因，兩種語(yǔ)言越相似，遷移檢測(cè)效果越好。

4.5　與有監(jiān)督方法的對(duì)比實(shí)驗(yàn)分析

本文方法主要是基于mBERT的無(wú)監(jiān)督檢測(cè)方法，為了進(jìn)一步探究語(yǔ)言相似性對(duì)低資源語(yǔ)言任務(wù)中的影響，將無(wú)監(jiān)督方法與一組有監(jiān)督方法作對(duì)比實(shí)驗(yàn)。具體實(shí)現(xiàn)為在得到英語(yǔ)這種高資源語(yǔ)言對(duì)應(yīng)的檢測(cè)模型后，在有限的低資源語(yǔ)言中做進(jìn)一步的遷移學(xué)習(xí)，實(shí)驗(yàn)結(jié)果如表5。由表5可以看出，本文的無(wú)監(jiān)督方法效果接近有監(jiān)督的方法，并且不同語(yǔ)言之間的接近程度有一定的差異。值得注意的是，丹麥語(yǔ)中的有監(jiān)督方法比無(wú)監(jiān)督方法在Accuracy和F1兩種評(píng)價(jià)指標(biāo)中分別高0.029和0.090。同時(shí)發(fā)現(xiàn)，與英語(yǔ)相似度更高的丹麥語(yǔ)無(wú)論是各指標(biāo)值還是接近程度都要優(yōu)于其他語(yǔ)言，這也進(jìn)一步驗(yàn)證了語(yǔ)言相似性對(duì)低資源語(yǔ)言任務(wù)中的影響一致性。

圖 4　訓(xùn)練樣本量不同時(shí)的模型遷移檢測(cè)對(duì)比

表5　本文方法與有監(jiān)督方法的對(duì)比

5 結(jié)語(yǔ)

本文采用跨語(yǔ)言模型遷移學(xué)習(xí)和遷移檢測(cè)相結(jié)合方式構(gòu)建了攻擊性言論監(jiān)測(cè)器，實(shí)現(xiàn)了對(duì)低資源語(yǔ)言的攻擊性檢測(cè)。通過(guò)在BERT模型中遷移跨語(yǔ)言預(yù)訓(xùn)練語(yǔ)言模型mBERT，保證模型對(duì)多種語(yǔ)言的語(yǔ)義編碼能力，且減少多語(yǔ)語(yǔ)言模型訓(xùn)練過(guò)程中資源的耗費(fèi)。對(duì)BERT模型微調(diào)，實(shí)現(xiàn)在該語(yǔ)言中的攻擊性言論檢測(cè)。通過(guò)探索不同語(yǔ)言之間的語(yǔ)言相似度，提高在低資源語(yǔ)種中的攻擊性言論遷移檢測(cè)有效性。實(shí)驗(yàn)結(jié)果表明，本文方法確實(shí)能有效提高對(duì)低資源語(yǔ)種的遷移檢測(cè)效果。在今后的研究中，會(huì)嘗試將這種方法應(yīng)用在多種任務(wù)上，如其他自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯、文本生成等。

[1] MALMASI S， ZAMPIERI M. Challenges in discriminating profanity from hate speech［J］. Journal of Experimental and Theoretical Artificial Intelligence， 2018. 30（2）： 187-202.

[2] KUMAR R， OJHA A K， MALMASI S， et al. Benchmarking aggression identification in social media［C］// Proceedings of the 1st Workshop on Trolling， Aggression， and Cyberbullying. Stroudsburg， PA： Association for Computational Linguistics， 2018： 1-11.

[3] NOBATA C， TETREAULT J， THOMAS A， et al. Abusive language detection in online user content［C］// Proceedings of the 25th International Conference on World Wide Web. Republic and Canton of Geneva： International World Wide Web Conferences Steering Committee， 2016： 145-153.

[4] ROSENTHAL S， ATANASOVA P， KARADZHOV G， et al. SOLID： a large?scale semi?supervised dataset for offensive language identification［C］// Findings of the Association for Computational Linguistics： ACL?IJCNLP 2021. Stroudsburg， PA： Association for Computational Linguistics， 2021： 915-928.

[5] MUBARAK H， RASHED A， DARWISH K， et al. Arabic offensive language on Twitter： analysis and experiments［C］// Proceedings of the 6th Arabic Natural Language Processing Workshop. Stroudsburg， PA： Association for Computational Linguistics， 2021： 126-135.

[6] ??LTEKIN ?. A corpus of Turkish offensive language on social media［C］// Proceedings of the 12th Language Resources and Evaluation Conference. Paris： European Language Resources Association， 2020： 6174-6184.

[7] CASULA C， PALMERO APROSIO A， MENINI S， et al. FBK?DH at SemEval-2020 Task 12： using multi?channel BERT for multilingual offensive language detection［C］// Proceedings of the 14th Workshop on Semantic Evaluation. ［S.l.］： International Committee for Computational Linguistics， 2020： 1539-1545.

[8] FENG F X Y，YANG Y F， CER D， et al. Language?agnostic BERT sentence embedding［C］// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2022： 878-891.

[9] PAMUNGKAS E W， PATTI V. Cross?domain and cross?lingual abusive language detection： a hybrid approach with deep learning and a multilingual lexicon［C］// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics： Student Research Workshop. Stroudsburg， PA： Association for Computational Linguistics，2019： 363-370.

[10] WARNER W， HIRSCHBERG J. Detecting hate speech on the world wide web［C］// Proceedings of the 2nd Workshop on Language in Social Media. Stroudsburg， PA： Association for Computational Linguistics， 2012： 19-26.

[11] SAROJ A， PAL S. An Indian language social media collection for hate and offensive speech［C］// Proceedings of the 1st Workshop on Resources and Techniques for User and Author Profiling in Abusive Language. Paris： European Language Resources Association， 2020： 2-8.

[12] PATHAK V， JOSHI M， JOSHI P A， et al. KBCNMUJAL@ HASOC?Dravidian?CodeMix?FIRE2020： using machine learning for detection of hate speech and offensive code?mixed social media text［EB/OL］. （2021-02-19）［2021-08-10］.https：//arxiv.org/ftp/arxiv/papers/2102/2102.09866.pdf.

[13] 蘇金樹(shù)，張博鋒，徐昕. 基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展［J］. 軟件學(xué)報(bào)， 2006， 17（9）： 1848-1859.（SU J S， ZHANG B F， XU X. Advances in machine learning based text categorization［J］. Journal of Software， 2006， 17（9）：1848-1859.）

[14] ZAMPIERI M， NAKOV P， ROSENTHAL S， et al. SemEval-2020 Task 12： multilingual offensive language identification in social media （OffensEval 2020）［C］// Proceedings of the 14th Workshop on Semantic Evaluation. ［S.l.］： International Committee for Computational Linguistics， 2020： 1425-1447.

[15] HOWARD J， RUDER S. Universal language model fine?tuning for text classification［C］// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Stroudsburg， PA： Association for Computational Linguistics， 2018： 328-339.

[16] LIU P， LI W， ZOU L. NULI at SemEval-2019 Task 6： transfer learning for offensive language detection using bidirectional transformers［C］// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg， PA： Association for Computational Linguistics， 2019： 87-91.

[17] PITENIS Z， ZAMPIERI M， RANASINGHE T. Offensive language identification in Greek［C］// Proceedings of the 12th Language Resources and Evaluation Conference. Paris： European Language Resources Association， 2020： 5113-5119.

[18] NIKOLOV A， RADIVCHEV V. Nikolov?Radivchev at SemEval-2019 Task 6： offensive tweet classification with BERT and ensembles［C］// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg， PA： Association for Computational Linguistics， 2019： 691-695.

[19] MAHESHAPPA P， MATHEW B， SAHA P. Using knowledge graphs to improve hate speech detection［C］// Proceedings of the 3rd ACM India Joint International Conference on Data Science and Management of Data. New York： ACM， 2021： 430-430.

[20] PHAM Q H， NGUYEN V A， DOAN L B， et al. From universal language model to downstream task： improving RoBERTa?based Vietnamese hate speech detection［C］// Proceedings of the 12th International Conference on Knowledge and Systems Engineering. Piscataway： IEEE， 2020： 37-42.

[21] AL?MAKHADMEH Z， TOLBA A . Automatic hate speech detection using killer natural language processing optimizing ensemble deep learning approach［J］. Computing， 2020， 102（2）：501-522.

[22] AYO F E， FOLORUNSO O， IBHARALU F T， et al. Hate speech detection in Twitter using hybrid embeddings and improved cuckoo search?based neural networks［J］. International Journal of Intelligent Computing and Cybernetics，2020， 13（4）：485-525.

[23] KAPIL P， EKBAL A. A deep neural network based multi?task learning approach to hate speech detection［J］. Knowledge?Based Systems， 2020， 210： No.106458.

[24] COLLA D， CASELLI T， BASILE V， et al. GruPaTo at SemEval-2020 Task 12： retraining mBERT on social media and fine?tuned offensive language models［C］// Proceedings of the 14th Workshop on Semantic Evaluation. ［S.l.］： International Committee for Computational Linguistics， 2020： 1546-1554.

[25] KUDUGUNTA S， BAPNA A， CASWELL I， et al. Investigating multilingual NMT representations at scale［C］// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2019： 1565-1575.

[26] KONDRATYUK D， STRAKA M. 75 languages， 1 model： parsing universal dependencies universally［C］// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg， PA： Association for Computational Linguistics， 2019： 2779-2795.

[27] KUMAR A， SAUMYA S， SINGH J P . NITP?AI?NLP@HASOC? FIRE2020： fine tuned BERT for the hate speech and offensive content identification from social media［C］// Proceedings of the 12th Meeting of Forum for Information Retrieval Evaluation. Aachen： CEUR?WS.org， 2020： 266-273.

[28] LIBOVICKY J， ROSA R， FRASER A. How language?neutral is multilingual BERT？［EB/OL］. （2019-11-08）［2021-08-10］.https：//arxiv.org/pdf/1911.03310.pdf.

[29] ABE M， MIYAO J， KURITA T. q?SNE： visualizing data using q?Gaussian distributed stochastic neighbor embedding［C］// Proceedings of the 25th International Conference on Pattern Recognition. Piscataway： IEEE， 2021： 1051-1058.

[30] PATRA B， MONIZ J R A， GARG S， et al. Bilingual lexicon induction with semi?supervision in non?isometric embedding spaces［C］// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics， Stroudsburg， PA： Association for Computational Linguistics， 2019： 184-193.

[31] ZAMPIERI M， MALMASI S， NAKOV P， et al. SemEval-2019 Task 6： identifying and categorizing offensive language in social media （OffensEval）［C］// Proceedings of the 13th International Workshop on Semantic Evaluation. Stroudsburg， PA： Association for Computational Linguistics， 2019： 75-86.

Detection of unsupervised offensive speech based on multilingual BERT

SHI Xiayang1， ZHANG Fengyuan1， YUAN Jiaqi2， HUANG Min1*

（1，，450001，；2，，450001，）

Offensive speech has a serious negative impact on social stability. Currently， automatic detection of offensive speech focuses on a few high?resource languages， and the lack of sufficient offensive speech tagged corpus for low?resource languages makes it difficult to detect offensive speech in low?resource languages. In order to solve the above problem， a cross?language unsupervised offensiveness transfer detection method was proposed. Firstly， an original model was obtained by using the multilingual BERT （multilingual Bidirectional Encoder Representation from Transformers， mBERT）model to learn the offensive features on the high?resource English dataset. Then， by analyzing the language similarity between English and Danish， Arabic， Turkish， Greek， the obtained original model was transferred to the above four low?resource languages to achieve automatic detection of offensive speech on low?resource languages. Experimental results show that compared with the four methods of BERT， Linear Regression （LR）， Support Vector Machine （SVM） and Multi?Layer Perceptron （MLP）， the proposed method increases both the accuracy and F1 score of detecting offensive speech of languages such as Danish， Arabic， Turkish， and Greek by nearly 2 percentage points， which are close to those of the current supervised detection， showing that the combination of cross?language model transfer learning and transfer detection can achieve unsupervised offensiveness detection of low?resource languages.

cross?language model; offensive speech detection; BERT (Bidirectional Encoder Representation from Transformers); unsupervised method; Transfer Learning (TL)

This work is partially supported by Key Research and Development and Promotion Project of Henan Province （212102210547）.

SHI Xiayang， born in 1978，Ph. D.， lecturer. His research interests include natural language processing， machine translation.

ZHANG Fengyuan， born in 1998. Her research interests include natural language processing， machine translation.

YUAN Jiaqi， born in 1996， M. S. candidate. Her research interests include natural language processing， multimodal machine translation.

HUANG Min， born in 1972， Ph. D.， professor. His research interests include data mining， information processing.

TP391.1

1001-9081（2022）11-3379-07

10.11772/j.issn.1001-9081.2021112005

2021?11?25；

2021?12?31；

2022?01?14。

河南省重點(diǎn)研發(fā)與推廣專項(xiàng)（212102210547）。

師夏陽(yáng)（1978—），男，河南魯山人，講師，博士，CCF會(huì)員，主要研究方向：自然語(yǔ)言處理、機(jī)器翻譯；張風(fēng)遠(yuǎn)（1998—），女，河南許昌人，主要研究方向：自然語(yǔ)言處理、機(jī)器翻譯；袁嘉琪（1996—），女，河南許昌人，碩士研究生，主要研究方向：自然語(yǔ)言處理、多模態(tài)機(jī)器翻譯；黃敏（1972—），男，河南南陽(yáng)人，教授，博士，主要研究方向：數(shù)據(jù)挖掘、信息處理。

基于多語(yǔ)BERT的無(wú)監(jiān)督攻擊性言論檢測(cè)

0 引言

1 相關(guān)工作

2 融合mBERT與TL的攻擊性言論檢測(cè)方法

2.1 單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí)

2.2 跨語(yǔ)言檢測(cè)

3 實(shí)驗(yàn)設(shè)置

3.1 數(shù)據(jù)設(shè)置

3.2 參數(shù)設(shè)置

4 實(shí)驗(yàn)及結(jié)果分析

4.1 度量標(biāo)準(zhǔn)

4.2 對(duì)比實(shí)驗(yàn)分析

4.3 語(yǔ)義相似度對(duì)遷移效果的影響分析

4.4 訓(xùn)練資源的多少對(duì)遷移效果的影響分析

4.5 與有監(jiān)督方法的對(duì)比實(shí)驗(yàn)分析

5 結(jié)語(yǔ)

2.1　單語(yǔ)攻擊性言論檢測(cè)學(xué)習(xí)

2.2　跨語(yǔ)言檢測(cè)

3.1　數(shù)據(jù)設(shè)置

3.2　參數(shù)設(shè)置

4.1　度量標(biāo)準(zhǔn)

4.2　對(duì)比實(shí)驗(yàn)分析

4.3　語(yǔ)義相似度對(duì)遷移效果的影響分析

4.4　訓(xùn)練資源的多少對(duì)遷移效果的影響分析

4.5　與有監(jiān)督方法的對(duì)比實(shí)驗(yàn)分析