








關(guān)鍵詞網(wǎng)絡(luò)語(yǔ)言治理;暴力言論檢測(cè);大語(yǔ)言模型;語(yǔ)料庫(kù)建設(shè)
一、引言
隨著移動(dòng)互聯(lián)網(wǎng)和社交媒體平臺(tái)的發(fā)展與普及,網(wǎng)絡(luò)上的用戶(hù)生成內(nèi)容呈現(xiàn)出快速增長(zhǎng)的態(tài)勢(shì),互聯(lián)網(wǎng)成為網(wǎng)民抒發(fā)個(gè)人情感的重要場(chǎng)所。然而,自媒體的自主性、隨意性和多樣性,以及網(wǎng)絡(luò)傳播的難以控制,使得網(wǎng)絡(luò)上語(yǔ)言暴力現(xiàn)象比較嚴(yán)重,帶來(lái)的不良影響有日益擴(kuò)大的趨勢(shì)。因此,對(duì)網(wǎng)絡(luò)暴力言論的語(yǔ)言治理勢(shì)在必行。
暴力言論是基于種族、宗教、性別、地域等特征對(duì)特定群體或個(gè)體表達(dá)仇恨、煽動(dòng)傷害的不良言論,容易導(dǎo)致沖突,引發(fā)網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)暴力言論發(fā)生頻度較高,傳播范圍較廣,造成危害較大,因此是網(wǎng)絡(luò)語(yǔ)言治理的重點(diǎn)(向承才,王彬彬2022)。
面對(duì)社交媒體上日益泛濫的暴力言論,各個(gè)國(guó)家與相關(guān)的互聯(lián)網(wǎng)平臺(tái)企業(yè)紛紛采取了法律與技術(shù)手段予以治理(石佳友2023;吳穎妍2020)。德國(guó)、法國(guó)等歐洲國(guó)家較早通過(guò)立法禁止暴力言論的發(fā)布和傳播,并且對(duì)互聯(lián)網(wǎng)服務(wù)提供商進(jìn)行了明確的法律限制,要求互聯(lián)網(wǎng)平臺(tái)必須在規(guī)定時(shí)間內(nèi)進(jìn)行有效處理(Jordans2017)。我國(guó)的多部法律也明確禁止包含誹謗、煽動(dòng)民族仇恨、民族歧視與侮辱、破壞國(guó)家宗教政策等較為嚴(yán)重的暴力言論(方澗2020;趙玉現(xiàn),胡春莉2019)。近年來(lái),我國(guó)大力加強(qiáng)了對(duì)網(wǎng)絡(luò)空間綜合治理的實(shí)踐探索,《攜手構(gòu)建網(wǎng)絡(luò)空間命運(yùn)共同體》白皮書(shū)指出,構(gòu)建良好秩序是構(gòu)建網(wǎng)絡(luò)空間命運(yùn)共同體的基本原則。2020年,中共中央網(wǎng)絡(luò)安全和信息化委員會(huì)辦公室和國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》,要求網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者不得制作、復(fù)制、發(fā)布含有煽動(dòng)民族仇恨、違背宗教政策、鼓吹兇殺暴力等違法信息。國(guó)家網(wǎng)信辦連續(xù)多年?duì)款^開(kāi)展“清朗”專(zhuān)項(xiàng)行動(dòng),整治網(wǎng)絡(luò)生態(tài)環(huán)境。其中于2022年4月開(kāi)展了“清朗·網(wǎng)絡(luò)暴力專(zhuān)項(xiàng)治理行動(dòng)”,于2023年6月開(kāi)展了“清朗·網(wǎng)絡(luò)戾氣整治”專(zhuān)項(xiàng)行動(dòng)。2023年7月,國(guó)家網(wǎng)信辦發(fā)布了《網(wǎng)絡(luò)暴力信息治理規(guī)定(征求意見(jiàn)稿)》,進(jìn)一步加強(qiáng)了對(duì)網(wǎng)絡(luò)語(yǔ)言暴力信息的治理力度。
在網(wǎng)絡(luò)平臺(tái)層面,為了遏制網(wǎng)絡(luò)暴力言論在社交媒體平臺(tái)的擴(kuò)散,網(wǎng)絡(luò)社交平臺(tái)也在其社區(qū)規(guī)章中對(duì)網(wǎng)絡(luò)語(yǔ)言表達(dá)進(jìn)行了不同的界定,詳見(jiàn)表1。
鑒于社交媒體的信息量巨大,單憑人力不可能及時(shí)處理。因此,運(yùn)用自然語(yǔ)言處理等人工智能技術(shù)進(jìn)行自動(dòng)檢測(cè)是及時(shí)阻止網(wǎng)絡(luò)暴力言論傳播擴(kuò)散、嚴(yán)格執(zhí)行法律法規(guī)與各項(xiàng)限制措施的必然要求。對(duì)網(wǎng)絡(luò)暴力言論檢測(cè)領(lǐng)域進(jìn)行全面總結(jié)和系統(tǒng)梳理,有利于各個(gè)學(xué)科領(lǐng)域的研究者了解相關(guān)研究的前沿與進(jìn)展,為構(gòu)建風(fēng)清氣正的網(wǎng)絡(luò)環(huán)境貢獻(xiàn)力量。本文將對(duì)暴力言論檢測(cè)的最新研究進(jìn)展進(jìn)行了系統(tǒng)梳理,闡述暴力言論檢測(cè)的任務(wù),并通過(guò)構(gòu)建的中文暴力言論語(yǔ)料庫(kù),提出暴力言論檢測(cè)方法,對(duì)大語(yǔ)言模型(LargeLanguageModel,以下簡(jiǎn)稱(chēng)“大模型”)時(shí)代的暴力言論檢測(cè)進(jìn)行前瞻性的分析。
二、暴力言論檢測(cè)的研究進(jìn)展
網(wǎng)絡(luò)暴力言論的相關(guān)研究近些年受到了國(guó)內(nèi)外研究者的廣泛關(guān)注。鑒于本文的目的是利用人工智能技術(shù)進(jìn)行網(wǎng)絡(luò)暴力言論的檢測(cè),因此將從以下3個(gè)方面對(duì)于暴力言論的國(guó)內(nèi)外研究進(jìn)展進(jìn)行回溯,即暴力言論與負(fù)面情感、暴力言論的語(yǔ)料庫(kù)建設(shè)以及暴力言論的檢測(cè)方法。
(一)暴力言論與負(fù)面情感
暴力言論廣泛存在于人類(lèi)的日常生活中,可以看作仇恨、嫉妒、厭惡等負(fù)面情感在社交媒體中的具體表現(xiàn)形式。暴力言論具有多樣性與復(fù)雜性,難以給出精確而統(tǒng)一的定義,對(duì)其進(jìn)行進(jìn)一步的細(xì)分,可以更清晰地進(jìn)行討論。
姜永(2015)嘗試確立符合我國(guó)國(guó)情的暴力言論類(lèi)型理論,將我國(guó)的暴力言論分成種族、地域、宗教、性別等4個(gè)領(lǐng)域。鑒于暴力言論危及人格尊嚴(yán)與言論自由價(jià)值,可對(duì)其進(jìn)行比一般言論更為嚴(yán)格的限制,但從合憲性的角度考慮,這種限制還需符合3個(gè)原則:限制的法定主義原則、更多言論的自我凈化原則、針對(duì)政府的最少限制原則。
Khuranaetal.(2022)提出了一個(gè)對(duì)暴力言論進(jìn)行評(píng)價(jià)的框架,指出暴力言論可以依據(jù)攻擊目標(biāo)、攻擊目標(biāo)的社會(huì)特征、攻擊者的特征、負(fù)面評(píng)價(jià)的來(lái)源、可能造成的后果這5個(gè)方面進(jìn)行分類(lèi)。Liuetal.(2019)根據(jù)攻擊對(duì)象的特征將暴力言論分成宗教性言論、種族性言論、殘疾性言論和性取向言論4類(lèi)。Luetal.(2023)在其創(chuàng)建的ToxicCN數(shù)據(jù)集中根據(jù)目標(biāo)對(duì)象將暴力言論分為性別歧視、種族歧視、地域歧視、反對(duì)性少數(shù)4種類(lèi)型,根據(jù)表達(dá)方式將暴力言論分為顯式表達(dá)、隱式表達(dá)、報(bào)道式表達(dá)3種類(lèi)型。
R?ttgeretal.(2021)對(duì)暴力言論進(jìn)行了細(xì)致的分類(lèi),將暴力言論分成貶損性語(yǔ)言、威脅性語(yǔ)言、誹謗性語(yǔ)言、褻瀆性語(yǔ)言、利用代詞表達(dá)的暴力、利用否定句表達(dá)的暴力、以問(wèn)題或觀點(diǎn)的形式表達(dá)的暴力、拼寫(xiě)變化等8種類(lèi)型,并且對(duì)典型的非暴力言論也進(jìn)行了分類(lèi),一共提出了11種類(lèi)型和29種具體情況。此后,根據(jù)非英語(yǔ)暴力言論的獨(dú)有特征,R?ttgeretal.(2022)又將其擴(kuò)充到了34種具體類(lèi)型。Ayuningtiasetal.(2021)則從詞匯語(yǔ)法的角度,運(yùn)用情態(tài)語(yǔ)氣的分析將暴力言論分為陳述語(yǔ)氣、祈使語(yǔ)氣、疑問(wèn)語(yǔ)氣、感嘆語(yǔ)氣和呼格語(yǔ)氣5種類(lèi)型,分析了不同類(lèi)型暴力言論的頻率。
(二)暴力言論的語(yǔ)料庫(kù)建設(shè)
暴力言論的語(yǔ)料庫(kù)建設(shè)能夠?yàn)楸┝ρ哉摍z測(cè)任務(wù)提供充分的數(shù)據(jù)支撐,同時(shí)通過(guò)從多元化渠道搜集暴力言論,豐富數(shù)據(jù)的多樣性,使得研究者們對(duì)于暴力言論的特征有更加全面的認(rèn)知。在暴力言論語(yǔ)料庫(kù)構(gòu)建中,標(biāo)注方案決定著語(yǔ)料庫(kù)類(lèi)型及后續(xù)研究方向。常見(jiàn)標(biāo)注項(xiàng)包括對(duì)象、特征、強(qiáng)度和負(fù)面情感類(lèi)型等。Basileetal.(2019)從Twitter收集與種族和性別仇恨相關(guān)的英語(yǔ)和西班牙語(yǔ)推文,發(fā)布了HatEval評(píng)測(cè)。該評(píng)測(cè)包含兩個(gè)子任務(wù),仇恨與非仇恨識(shí)別任務(wù)和仇恨特征識(shí)別任務(wù)。Hadaetal.(2021)創(chuàng)建了細(xì)粒度的基于英語(yǔ)網(wǎng)絡(luò)社區(qū)Reddit評(píng)論的暴力言論語(yǔ)料庫(kù),將冒犯程度轉(zhuǎn)化為-1到1連續(xù)分布的數(shù)值,并且對(duì)多種暴力言論檢測(cè)方法進(jìn)行了評(píng)估。
國(guó)內(nèi)相關(guān)的中文暴力言論語(yǔ)料庫(kù)在種類(lèi)和數(shù)量上比較匱乏。Jiangetal.(2022)從新浪微博獲取數(shù)據(jù),標(biāo)注項(xiàng)為是否具有厭女癥、厭女癥類(lèi)別和厭女癥對(duì)象,構(gòu)建了中文厭女癥語(yǔ)料庫(kù)SWSR,提出了針對(duì)女性的中文侮辱性詞表,對(duì)中文侮辱性語(yǔ)言的詞法和語(yǔ)法特點(diǎn)進(jìn)行分析總結(jié)。Chungetal.(2021)構(gòu)建了較大規(guī)模的暴力言論語(yǔ)料庫(kù)TOCAB,包含性別、政治和地域等多種類(lèi)型的暴力言論,每條文本標(biāo)注了是否為侮辱性言論及攻擊對(duì)象。
暴力言論的表達(dá)不僅僅局限于文本模態(tài),也包括圖像和聲音等多模態(tài)內(nèi)容,模因圖作為網(wǎng)絡(luò)上的一種新興交流方式,其中的暴力內(nèi)容也與日俱增。為此,F(xiàn)acebookAI發(fā)起了冒犯性模因挑戰(zhàn)賽(Kielaetal.2020),任務(wù)是識(shí)別模因圖是否具有冒犯性,這需要一定的推理能力。Fersinietal.(2022)發(fā)布了MAMI厭女癥語(yǔ)料庫(kù),作為SemEval-2022評(píng)測(cè)任務(wù)。該任務(wù)不僅僅需要識(shí)別詞語(yǔ)和語(yǔ)句是否表達(dá)了厭女情感,還需要識(shí)別厭女癥的類(lèi)型,后者具有更高的難度。
(三)暴力言論的檢測(cè)方法
早期,由于文本是暴力言論最主要的載體,針對(duì)文本的暴力言論檢測(cè)經(jīng)常采取基于機(jī)器學(xué)習(xí)的方法,通過(guò)詞典、構(gòu)建規(guī)則和特征工程來(lái)完成暴力言論檢測(cè)任務(wù)(Kiritchenkoetal.2021)。機(jī)器學(xué)習(xí)方法所構(gòu)建的特征包括以詞袋模型和TF-IDF為代表的文本統(tǒng)計(jì)特征、以詞嵌入為代表的語(yǔ)義特征、以詞性標(biāo)注和人稱(chēng)分析為代表的句法特征和以情感詞典為代表的情感特征(Alrashidietal.2022)。
近期,隨著深度學(xué)習(xí)的迅速發(fā)展,在暴力言論檢測(cè)領(lǐng)域涌現(xiàn)出大量基于深度學(xué)習(xí)特別是預(yù)訓(xùn)練語(yǔ)言模型的方法。Rizwanetal.(2020)將4個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型連接起來(lái),并在其間加入池化層以捕捉不同領(lǐng)域范圍內(nèi)的文本信息。Kimetal.(2022)針對(duì)暴力言論檢測(cè)任務(wù)的特點(diǎn)對(duì)預(yù)訓(xùn)練語(yǔ)言模型BERT進(jìn)行再次微調(diào),增強(qiáng)了暴力言論檢測(cè)任務(wù)的可解釋性。Casellietal.(2021)則使用從Reddit中因?yàn)榘l(fā)布暴力言論被封禁的板塊中獲取的語(yǔ)料對(duì)BERT進(jìn)行了重新訓(xùn)練,顯著提高了BERT在暴力言論檢測(cè)任務(wù)中的性能。Zhouetal.(2021)以BERT為基礎(chǔ),在多任務(wù)學(xué)習(xí)框架下,通過(guò)在情感分析任務(wù)與暴力言論檢測(cè)任務(wù)之間進(jìn)行知識(shí)共享,提升了暴力言論檢測(cè)任務(wù)的性能。
根據(jù)表達(dá)方式的不同,暴力言論可以分為顯式暴力言論和隱式暴力言論兩類(lèi)(王任華2018)。上述方法通常都側(cè)重于具有明顯侮辱性詞語(yǔ)的顯式暴力言論檢測(cè),而在現(xiàn)實(shí)中網(wǎng)絡(luò)上蔓延的暴力言論卻不一定具有明顯的標(biāo)志性詞語(yǔ)。ElSheriefetal.(2021)發(fā)現(xiàn)相較于具有明顯侮辱性詞語(yǔ)的顯式暴力言論,隱式暴力更加普遍。Hartvigsenetal.(2022)建立了包含隱式暴力言論的英文數(shù)據(jù)集,并且比較了常用的預(yù)訓(xùn)練語(yǔ)言模型檢測(cè)暴力言論的性能。Minetal.(2023)在多任務(wù)學(xué)習(xí)框架下,利用暴力言論與情感之間的內(nèi)在關(guān)聯(lián),提出了一種多標(biāo)簽自訓(xùn)練的暴力言論檢測(cè)方法,能夠在隱式暴力言論檢測(cè)數(shù)據(jù)集上取得良好的表現(xiàn)。
另外,對(duì)于網(wǎng)絡(luò)暴力言論出現(xiàn)的不規(guī)范、短文本、錯(cuò)別字等外部表現(xiàn)形式,也有研究者給出了具體的解決方法。丁玉霞(2020)對(duì)于粗粒度的謾罵型語(yǔ)言分類(lèi)問(wèn)題,提出了在遷移學(xué)習(xí)方法下的注意力有序神經(jīng)網(wǎng)絡(luò)模型;對(duì)于細(xì)粒度的謾罵型語(yǔ)言分類(lèi)問(wèn)題,提出了注意力選擇機(jī)制下多層級(jí)嵌入模型。在HASOC-2019子任務(wù)數(shù)據(jù)集上,達(dá)到目前比較理想的結(jié)果。劉林斌(2022)針對(duì)暴力言論往往不夠規(guī)范,文中往往含有許多表情、俚語(yǔ)和錯(cuò)別字詞的現(xiàn)象,提出了一種基于文本質(zhì)量和單詞分布偏差糾正的暴力言論識(shí)別方法;針對(duì)暴力言論文本長(zhǎng)度常常較短,導(dǎo)致語(yǔ)義過(guò)于稀疏的現(xiàn)象,提出了一種基于語(yǔ)義概念擴(kuò)展的暴力言論識(shí)別方法。陳靜(2022)針對(duì)一詞多義問(wèn)題給暴力言論檢測(cè)帶來(lái)的困難,提出了基于主題記憶和注意力機(jī)制的暴力言論和攻擊性言論識(shí)別方法。
(四)暴力言論檢測(cè)研究面臨的挑戰(zhàn)
由于暴力言論主題和時(shí)空分布的廣泛性和表達(dá)的隱匿性,使得暴力言論檢測(cè)面臨嚴(yán)峻的挑戰(zhàn)。
1.如何區(qū)分正當(dāng)批評(píng)言論與暴力言論
在社交媒體上發(fā)表言論,表達(dá)自己對(duì)于某些事物的負(fù)面情感,例如批評(píng)、憤怒、譴責(zé)、抨擊等,是每一個(gè)網(wǎng)民的自由。由于這個(gè)過(guò)程當(dāng)中會(huì)出現(xiàn)大量負(fù)面詞語(yǔ),而這些詞語(yǔ)往往也是鑒別暴力言論常用的語(yǔ)言特征,因此會(huì)使自動(dòng)檢測(cè)系統(tǒng)產(chǎn)生混淆,造成“誤傷”批評(píng)的言論,或者“放過(guò)”有害的言論。
2.如何識(shí)別生成內(nèi)容的暴力言論
隨著人工智能技術(shù)的發(fā)展,基于自然語(yǔ)言處理技術(shù)的生成技術(shù)得到廣泛的應(yīng)用,由此帶來(lái)的挑戰(zhàn)就是如何識(shí)別這些生成內(nèi)容可能包含的暴力言論。近期生成式大模型十分火爆,雖然開(kāi)發(fā)者已經(jīng)對(duì)它們施加了嚴(yán)格的控制策略,但在訓(xùn)練階段、生成階段都有可能產(chǎn)生暴力言論。
3.如何利用背景知識(shí)和隱式語(yǔ)言特征
暴力言論的表達(dá)往往與各個(gè)民族、國(guó)家、地區(qū)的制度、宗教、民俗和表達(dá)習(xí)慣乃至各個(gè)社交媒體平臺(tái)的相關(guān)規(guī)定有關(guān),甚至不同的民族和區(qū)域之間在語(yǔ)言使用方面存在某些沖突。此外,個(gè)體的語(yǔ)言運(yùn)用也往往采取隱晦的表達(dá)方式。這些都造成暴力言論檢測(cè)的困難,必須引入經(jīng)過(guò)適當(dāng)語(yǔ)義表示之后的背景知識(shí)。
三、暴力言論檢測(cè)任務(wù)與實(shí)現(xiàn)
(一)暴力言論語(yǔ)料庫(kù)構(gòu)建
暴力言論語(yǔ)料庫(kù)構(gòu)建主要依據(jù)認(rèn)知語(yǔ)言學(xué)和心理學(xué)理論,圍繞暴力言論檢測(cè)的需求,確定語(yǔ)料庫(kù)構(gòu)建原則。從社交媒體采集原始語(yǔ)料,確定數(shù)據(jù)收集和標(biāo)注范圍,構(gòu)建完整的暴力言論語(yǔ)料庫(kù)標(biāo)注體系,包含對(duì)象、特征、強(qiáng)度和負(fù)面情感類(lèi)型等細(xì)粒度信息,最終完成標(biāo)注,形成一個(gè)可供訓(xùn)練的標(biāo)準(zhǔn)語(yǔ)料庫(kù)。
為了規(guī)避媒體平臺(tái)的審查機(jī)制,網(wǎng)民們常常采用隱晦的方式來(lái)表達(dá)對(duì)特定群體的厭惡和偏見(jiàn),這種言論被稱(chēng)為隱式暴力言論。例如,在“小仙女的事兒你少管”這一表述中,“小仙女”被用來(lái)諷刺女性。相較于含有明顯侮辱性詞語(yǔ)的顯式暴力言論,隱式暴力言論的檢測(cè)更為困難,需要結(jié)合中文特有的詞匯知識(shí)進(jìn)行檢測(cè)。然而,現(xiàn)有的中文數(shù)據(jù)集常常忽視了含有隱式暴力言論的樣本,并且缺乏對(duì)隱式暴力言論類(lèi)型和表達(dá)方式的細(xì)粒度注釋。這給研究者在此領(lǐng)域的工作帶來(lái)了不小的挑戰(zhàn)。為此,我們研發(fā)了針對(duì)隱式暴力言論的檢測(cè)系統(tǒng)。
首先,我們制定了一個(gè)多層次的分類(lèi)框架,作為數(shù)據(jù)標(biāo)注的準(zhǔn)則,以便深入分析樣本的暴力言論類(lèi)型和表達(dá)方式。如圖1所示,該分類(lèi)框架共分為3個(gè)層級(jí):第一層級(jí)提供了二分類(lèi)的標(biāo)簽,用以判斷給定文本是否包含暴力言論內(nèi)容;第二層級(jí)對(duì)于暴力言論類(lèi)型進(jìn)行分析,區(qū)分包含特定攻擊對(duì)象的暴力言論和不包含特定對(duì)象的一般性侮辱性言論;第三層級(jí)指明暴力言論的攻擊群體和表達(dá)類(lèi)型。
在此基礎(chǔ)上,我們構(gòu)建了一個(gè)細(xì)粒度中文暴力言論數(shù)據(jù)集,從性別、種族、地域和LGBTQ等4個(gè)方面進(jìn)行考察。該數(shù)據(jù)集總共包含12011條樣本。首先,劃分為暴力言論和非暴力言論。然后,根據(jù)有無(wú)特定的攻擊對(duì)象,將暴力言論劃分為一般侮辱性言論(即包含明顯的侮辱性但不具有特定對(duì)象)和仇恨言論(具有特定的攻擊對(duì)象)。從仇恨表達(dá)的角度來(lái)看,一般侮辱性言論都是顯式表達(dá),仇恨言論則可以進(jìn)一步劃分為顯式、隱式和中性3類(lèi)。具體的數(shù)據(jù)分布如表2所示:
在數(shù)據(jù)標(biāo)注階段,我們采取了一系列措施以降低標(biāo)注者的主觀性偏見(jiàn)并提升數(shù)據(jù)的標(biāo)注質(zhì)量:首先,確保標(biāo)注者的性別、地域、學(xué)歷、民族等個(gè)人因素的多樣性;其次,對(duì)標(biāo)注者進(jìn)行統(tǒng)一培訓(xùn),使他們充分理解并準(zhǔn)確執(zhí)行標(biāo)注規(guī)則;最后,通過(guò)幾輪小規(guī)模的數(shù)據(jù)測(cè)試,對(duì)邊緣樣本進(jìn)行深入分析,從而迭代式地優(yōu)化和確定最終的標(biāo)注規(guī)則。這一系列的嚴(yán)謹(jǐn)措施都是為了確保數(shù)據(jù)集的高質(zhì)量和可靠性。
此外,我們還構(gòu)建了一個(gè)包含隱式褻瀆詞語(yǔ)的侮辱性詞典,進(jìn)一步豐富了中文暴力言論研究的資源。此項(xiàng)工作不僅為中文暴力言論的自動(dòng)檢測(cè)提供了重要的數(shù)據(jù)基礎(chǔ),也為理解暴力言論的表達(dá)方式和特征提供了新的視角。
(二)暴力言論檢測(cè)方法
1.基于雙重對(duì)比學(xué)習(xí)的暴力言論檢測(cè)方法
現(xiàn)有的暴力言論檢測(cè)模型過(guò)度依賴(lài)訓(xùn)練過(guò)程中獲取的詞匯先驗(yàn)知識(shí)。它們常常將一些高頻侮辱性詞語(yǔ)作為決策判斷的依據(jù),而忽視了語(yǔ)境信息的重要性。因此,這些模型往往會(huì)誤將包含這些詞語(yǔ)的樣本統(tǒng)一視為暴力言論,導(dǎo)致對(duì)樣本的誤判,進(jìn)而降低了模型的準(zhǔn)確度。例如,在樣本“Whatafuckingday!”(真是糟糕的一天!)中,fucking僅是用來(lái)加強(qiáng)“糟糕”之意,然而,由于這個(gè)詞同樣是常見(jiàn)的褻瀆語(yǔ),模型可能因此將該樣本誤判為暴力言論。
為了解決這一問(wèn)題,我們提出了一種新的雙重對(duì)比學(xué)習(xí)框架DCL(ViolentSpeechDetectionBasedonDualContrastiveLearning)。該模型融合了自監(jiān)督和有監(jiān)督的對(duì)比學(xué)習(xí),不僅豐富了對(duì)暴力言論的語(yǔ)義表示,還通過(guò)對(duì)樣本內(nèi)部語(yǔ)境信息和標(biāo)簽監(jiān)督信號(hào)的利用,對(duì)侮辱性詞語(yǔ)在樣本中的含義進(jìn)行了深入分析。這種方法有效減少了模型對(duì)含有侮辱性詞語(yǔ)的非暴力言論進(jìn)行錯(cuò)誤分類(lèi)的情況,同時(shí)也顯著提升了模型的檢測(cè)準(zhǔn)確性。在SemEval2019(SE)和Davidson(DV)兩個(gè)開(kāi)源數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在基線模型BERT的基礎(chǔ)上引入DCL,實(shí)驗(yàn)采用準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表3所示:
相比于其他基線模型,DCL在SE數(shù)據(jù)集上表現(xiàn)最佳,性能相比于BERT模型提升約7個(gè)百分點(diǎn),并且超越了最有競(jìng)爭(zhēng)力的基線模型SKS。在DV數(shù)據(jù)集上,DCL在準(zhǔn)確率指標(biāo)上取得了最好的表現(xiàn),而在weighted-F1上僅次于SKS,但明顯優(yōu)于其他基線模型。SKS使用了外部資源來(lái)提高性能,而DCL雖然沒(méi)有使用任何外部數(shù)據(jù),卻依然在DV數(shù)據(jù)集上取得了與之相當(dāng)?shù)男阅堋?/p>
為了進(jìn)一步驗(yàn)證DCL的有效性,我們對(duì)非暴力言論“IcanbeabitchandanassholebutIwillloveyouandcareaboutyoumorethananyotherpersonyouhavemet.”進(jìn)行了實(shí)例分析,對(duì)訓(xùn)練后的DCL和BERT模型中的注意力權(quán)重進(jìn)行了可視化,如圖2所示。其中,顏色的深度表示模型對(duì)單詞的注意力權(quán)重,單詞的顏色越深,這個(gè)單詞對(duì)模型檢測(cè)的重要性就越大。相比于BERT,DCL更多地關(guān)注詞集{I,will,love,you},而對(duì)侮辱性的詞語(yǔ){bitch,asshole}的注意力權(quán)重更低。這一結(jié)果表明,DCL可以更好地捕捉上下文信息以做出正確的決策,對(duì)暴力言論檢測(cè)任務(wù)具有一定的指導(dǎo)意義。
2.基于情緒輔助的多標(biāo)簽自訓(xùn)練暴力言論檢測(cè)方法
盡管現(xiàn)有的暴力言論檢測(cè)方法取得了一些進(jìn)步,但是它們大多是基于文本內(nèi)容的。從心理學(xué)與語(yǔ)言認(rèn)知的角度出發(fā),暴力言論是一種復(fù)雜的心理認(rèn)知現(xiàn)象。對(duì)于暴力言論的理解與判斷,最終依賴(lài)于人類(lèi)的認(rèn)知能力。同時(shí),暴力言論的產(chǎn)生伴隨著說(shuō)話者心理狀態(tài)以及情緒的變化。根據(jù)暴力-情緒關(guān)聯(lián)理論,暴力言論的產(chǎn)生往往伴隨著一些特定的負(fù)面情緒狀態(tài),比如憤怒、蔑視、羞辱以及厭惡。
基于這一理論,我們提出了一種基于情緒輔助的多標(biāo)簽自訓(xùn)練暴力言論檢測(cè)方法EMoVSD(Emotion-enrichedMulti-labelViolenceSpeechDetector)。該方法主要由底部暴力檢測(cè)分類(lèi)器、情緒檢測(cè)分類(lèi)器以及頂部暴力檢測(cè)分類(lèi)器三部分構(gòu)成,見(jiàn)圖3。其中,底部暴力檢測(cè)分類(lèi)器與情緒檢測(cè)分類(lèi)器位于基于BERT的共享編碼層之上。對(duì)于輸入的情緒檢測(cè)任務(wù)樣本,情緒檢測(cè)分類(lèi)器能夠預(yù)測(cè)其情緒標(biāo)簽。對(duì)于輸入的暴力言論樣本,我們認(rèn)為該樣本包含一個(gè)額外的負(fù)面情緒標(biāo)簽。所以我們借鑒多標(biāo)簽學(xué)習(xí)思想,利用頂部暴力檢測(cè)分類(lèi)器從標(biāo)簽層面實(shí)現(xiàn)兩個(gè)任務(wù)之間的語(yǔ)義交互。
具體來(lái)講,首先采用底部暴力檢測(cè)分類(lèi)器與情緒檢測(cè)分類(lèi)器分別給出其暴力預(yù)測(cè)標(biāo)簽以及情緒預(yù)測(cè)標(biāo)簽。然后,考慮到暴力言論樣本缺少真實(shí)情緒標(biāo)簽,所以通過(guò)銳化操作構(gòu)建偽情緒標(biāo)簽,將其與真實(shí)情緒標(biāo)簽拼接,形成多標(biāo)簽樣本的真實(shí)標(biāo)簽。最后,在偽多標(biāo)簽數(shù)據(jù)的基礎(chǔ)上,以自訓(xùn)練的方式,使得頂部暴力檢測(cè)分類(lèi)器能夠充分利用情緒檢測(cè)任務(wù)的標(biāo)簽信息來(lái)捕捉暴力言論樣本的語(yǔ)義。我們采用端到端的方式來(lái)訓(xùn)練該方法,并且將頂部暴力檢測(cè)分類(lèi)器預(yù)測(cè)的結(jié)果作為最終的暴力預(yù)測(cè)標(biāo)簽。
我們選取HatEval-Relabeled(HER)、Davidson(DVS)和ImplicitHatred(IH)3個(gè)暴力言論檢測(cè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。這3個(gè)數(shù)據(jù)集中的樣本均從社交媒體平臺(tái)采集得到。對(duì)于HER數(shù)據(jù)集,本文遵循原文獻(xiàn)中的劃分方式,訓(xùn)練集、驗(yàn)證集以及測(cè)試集對(duì)應(yīng)的數(shù)量分別為9000,1000和2971。對(duì)于其他兩個(gè)數(shù)據(jù)集,采用五折交叉驗(yàn)證,實(shí)驗(yàn)采用準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo)。見(jiàn)表4。
結(jié)果表明,我們所提出的方法在3個(gè)數(shù)據(jù)集上相比于現(xiàn)有的暴力言論檢測(cè)方法性能均有明顯提升。在準(zhǔn)確率上,相比于之前的最優(yōu)結(jié)果分別提升了1.60、0.12和0.09個(gè)百分點(diǎn)。這些提升能夠說(shuō)明該方法能夠充分利用情緒狀態(tài)與暴力言論之間的內(nèi)在關(guān)聯(lián)來(lái)有效提升暴力言論檢測(cè)任務(wù)的表現(xiàn),在多標(biāo)簽學(xué)習(xí)技術(shù)的支撐下將暴力標(biāo)簽與情緒標(biāo)簽關(guān)聯(lián)起來(lái),實(shí)現(xiàn)對(duì)于暴力言論樣本內(nèi)蘊(yùn)情緒的有效建模。同時(shí),相比基于多任務(wù)的AbuseGNN方法,EMoVSD方法在F1值上分別提升5.78、1.51和1.46個(gè)百分點(diǎn)。這說(shuō)明除了多任務(wù)學(xué)習(xí)的方式,從多標(biāo)簽學(xué)習(xí)的角度利用暴力言論與情緒標(biāo)簽之間的共現(xiàn)特征同樣能夠提升任務(wù)表現(xiàn)。
四、大模型時(shí)代的暴力言論檢測(cè)
(一)應(yīng)用大模型進(jìn)行暴力言論檢測(cè)
隨著基于大模型的生成式人工智能服務(wù)的迅速發(fā)展,大模型技術(shù)也被應(yīng)用于暴力言論檢測(cè)的任務(wù)中。大模型從海量的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到語(yǔ)言知識(shí)和背景信息,通過(guò)識(shí)別并理解文本中的情感、偏見(jiàn)、歧視等不良內(nèi)容的線索和上下文,辨別出潛在的暴力信息,同時(shí)生成決策的解釋?zhuān)嬷褂谜咻斎氲奈谋緸楹伪慌袛酁楸┝ρ哉摗@么竽P瓦M(jìn)行暴力言論檢測(cè)的示例如圖4所示,通過(guò)給定提示信息(請(qǐng)判斷以下內(nèi)容是否是暴力言論)和待檢測(cè)文本(南方蠻子真不要臉),模型可以判斷輸入內(nèi)容為暴力言論,并給出解釋。
(二)大模型與以往暴力言論檢測(cè)技術(shù)的比較
使用大模型可以充分結(jié)合背景知識(shí)更準(zhǔn)確地檢測(cè)暴力言論。研究表明,大模型英文暴力言論的檢測(cè)能力與人類(lèi)的檢測(cè)水平基本相當(dāng),可以生成更具有邏輯性和可信度的決策解釋?zhuān)℉uangetal.2023);同時(shí),大模型能夠處理不同語(yǔ)言和多樣化的表達(dá)方式,使得暴力言論檢測(cè)可以覆蓋更廣泛的用戶(hù)群體和文化背景,具有更強(qiáng)的泛化性。
但是,大模型在低資源語(yǔ)料上的檢測(cè)效果依然有限,對(duì)中文等非英文暴力言論的檢測(cè)能力不及傳統(tǒng)方法。這是因?yàn)楝F(xiàn)有大模型的訓(xùn)練數(shù)據(jù)大多以英文為主,模型對(duì)非英文語(yǔ)言的理解能力仍有待提高。因此,暴力言論檢測(cè)依然是大模型研究的重點(diǎn)問(wèn)題。
(三)大模型生成內(nèi)容與人類(lèi)價(jià)值觀對(duì)齊
由于大模型的本質(zhì)依然是針對(duì)訓(xùn)練數(shù)據(jù)中單詞的出現(xiàn)頻率和語(yǔ)言模式進(jìn)行決策,因此,如果訓(xùn)練數(shù)據(jù)中包含對(duì)弱勢(shì)群體的偏見(jiàn)內(nèi)容,模型在誘導(dǎo)下也會(huì)生成相應(yīng)的言論(Mayetal.2019)。同時(shí),因?yàn)橛?xùn)練數(shù)據(jù)非常豐富并且涵蓋多樣化的文化觀和價(jià)值觀,所以也存在潛在的種族、文化和價(jià)值觀之間的沖突風(fēng)險(xiǎn),導(dǎo)致大模型輸出的內(nèi)容與人類(lèi)價(jià)值觀不一致,引發(fā)道德和倫理問(wèn)題,最終造成誤導(dǎo)、誤解、歧視或其他不良后果。通過(guò)與人類(lèi)價(jià)值觀對(duì)齊,可以確保生成的內(nèi)容符合社會(huì)的道德標(biāo)準(zhǔn),不會(huì)損害個(gè)人、群體或社會(huì)的利益。因此,大模型研發(fā)人員需要保護(hù)用戶(hù)隱私,并確保平衡言論自由與限制暴力言論之間的關(guān)系。
五、未來(lái)研究方向
針對(duì)暴力言論檢測(cè)的理論和應(yīng)用價(jià)值、現(xiàn)實(shí)需求以及時(shí)代背景,基于上述的調(diào)研分析和技術(shù)路線,我們認(rèn)為,暴力言論檢測(cè)研究在未來(lái)有以下4個(gè)主要方向。
(一)多模態(tài)暴力言論檢測(cè)研究
當(dāng)前,隨著以抖音、快手為代表的視頻社交媒體的興起,網(wǎng)絡(luò)社交媒體的信息傳播不再以文字為唯一的主要載體,圖片、視頻、音頻也成為重要的網(wǎng)絡(luò)信息傳播載體。暴力言論的制造者為了逃避監(jiān)管,很可能會(huì)運(yùn)用圖片、畫(huà)面、配音等方式來(lái)傳達(dá)暴力色彩。因此,有必要加大對(duì)于多模態(tài)的暴力言論檢測(cè)的方法研究。
(二)基于大模型的暴力言論檢測(cè)方法研究
基于預(yù)訓(xùn)練大模型的微調(diào)成為暴力言論檢測(cè)正在興起的方法,但是如何運(yùn)用大模型的能力進(jìn)行暴力言論檢測(cè)仍是一個(gè)重要的研究方向。網(wǎng)絡(luò)信息浩如煙海,每天產(chǎn)生的新內(nèi)容不計(jì)其數(shù),形式千變?nèi)f化,甚至有“喂毒”行為,這給基于大模型的暴力言論檢測(cè)研究提出了挑戰(zhàn)。
(三)基于大模型的暴力言論監(jiān)管機(jī)制研究
受到來(lái)源各異的訓(xùn)練數(shù)據(jù)的影響,大模型中有可能蘊(yùn)含著大量的偏見(jiàn)與暴力言論信息。因此,僅僅在社交媒體平臺(tái)的監(jiān)管中進(jìn)行暴力言論的檢測(cè)已經(jīng)不足以遏制暴力言論的傳播,必須對(duì)于大模型的生成內(nèi)容進(jìn)行有效監(jiān)管,從源頭遏止大模型生成含有暴力言論的內(nèi)容。
(四)暴力言論檢測(cè)的可解釋性研究
如果暴力言論檢測(cè)方法不具備可解釋性,在實(shí)際應(yīng)用落地中就必將面臨缺乏說(shuō)服力的問(wèn)題。更為關(guān)鍵的問(wèn)題是自由表達(dá)的邊界與暴力言論監(jiān)管的規(guī)則如何有效地統(tǒng)一,既能維護(hù)網(wǎng)民言論自由,也能及時(shí)阻止暴力言論的傳播。因此,需要對(duì)暴力言論檢測(cè)方法開(kāi)展可解釋性研究,以解釋自動(dòng)監(jiān)管的合理性。
六、結(jié)論
綜上所述,暴力言論檢測(cè)對(duì)于網(wǎng)絡(luò)空間綜合治理至關(guān)重要,能夠有效地提高網(wǎng)絡(luò)社交媒體平臺(tái)管理的效率,防范網(wǎng)絡(luò)暴力言論的擴(kuò)散與傳播。因此,網(wǎng)絡(luò)暴力言論檢測(cè)具有較高理論價(jià)值與應(yīng)用價(jià)值。但是,網(wǎng)絡(luò)暴力言論問(wèn)題是一個(gè)復(fù)雜的社會(huì)問(wèn)題,需要多方面的努力和合作來(lái)解決。應(yīng)著眼于消除網(wǎng)絡(luò)暴力言論滋生的土壤,完善監(jiān)測(cè)識(shí)別、實(shí)時(shí)保護(hù)、干預(yù)處置、溯源追責(zé)、宣傳曝光等全鏈條治理。相信隨著全社會(huì)對(duì)于暴力言論的重視以及人工智能技術(shù)的進(jìn)步,基于人工智能的暴力言論檢測(cè)將會(huì)成為網(wǎng)絡(luò)空間治理中不可或缺的一環(huán),為建設(shè)網(wǎng)絡(luò)空間命運(yùn)共同體、營(yíng)造清朗網(wǎng)絡(luò)環(huán)境貢獻(xiàn)出重要的一份力量。