劉玉文,翟菊葉,朱文婕,2,謝 靜
(1.蚌埠醫學院,安徽 蚌埠 233030; 2.中國科學技術大學 計算機科學與技術學院,安徽 合肥 230027)
隨著計算機與通訊技術的快速發展,網絡朝著終端移動化、平臺多元化、帶寬高速化的方向發展[1]。中國互聯網絡信息中心(CNNIC)發布的第47次《中國互聯網絡發展狀況統計報告》顯示:截止2020年12月,中國網民數量為9.89億,已占全球網民總數的五分之一。網絡打破了時間限制,在給人們帶來便利的同時,也給網絡暴力提供了滋生環境。當前,社會熱點事件是誘發網絡暴力的主要因素之一,是因為社會熱點事件具有突發性和聚焦性,能在短時間內吸引網民聚集,其所產生的網絡暴力威力大,不僅會對當事人的心理造成極大的影響,也會極大地破壞網絡生態環境,給社會和諧發展帶來嚴峻挑戰。所以,熱點事件中網絡暴力分析對掌握網絡暴力內部規律,尋找合適的網絡暴力治理策略具有十分重要的意義。
自社交網絡誕生之日起,網絡暴力就如影隨形。為了應對網絡暴力帶來的威脅與挑戰,眾多學者從社交網絡入手開展了大量的網絡輿情治理相關研究,提出了多種網絡輿情處理框架,確立了網絡話題識別[2]、網絡社區檢測[3]、意見領袖發現[4]、用戶肖像刻畫[5]、情感計算[6]等相關核心技術,取得了一系列研究成果。如Chang等[7]提出了一種基于智能語義框架的網絡話題識別方法,該方法通過知識框架生成機制從文檔中提取規則模式,再通過句法結構和語義關聯來有效檢測文檔主題。Xing等[8]對新媒體環境下負面網絡輿情檢測指標體系進行研究,提出了基于信息熵的網絡輿情檢測模型,實現了輿情等級的自動分類。Yang等[9]對情緒因素影響下的突發事件網絡輿情演化機理進行研究,把包含情緒函數的RDEU理論引入突發事件網絡輿情演化博弈中,構建以網民和政府為代表的動態博弈模型,最后通過假設收益數值實現情緒影響下的演化仿真。
近些年,又有學者依托知識圖譜提出了輿情危機治理新思路,實現了輿情感知智能化。如Shen等[10]提出了基于網絡新聞語料的公共危機事件知識圖譜構建方法,該方法從新聞語料中抽取實體,構建公共危機事件知識圖譜模型。實現了實體關系抽取、知識融合、知識加工和知識推理等多項技術的整合。Bao等[11]提出了非結構化語料知識圖譜構建方法,該方法運用詞法分析和語義技術構建評論文本中實體與實體、實體與屬性關系,把非結構化數據映射成知識圖譜,實現了文本內容的邏輯表示,解決了網絡輿情回溯和推理問題。梁野等[12]提出了一種面向輿情分析與預警領域的跨語言知識圖譜架構,完成了涵蓋多來源的面向輿情分析與預警領域的跨語言知識圖譜構建平臺CLOpin,高效地實現了多源數據整合,解決了夸語言輿情分析與預警問題。
從當前研究成果中可以發現,網絡輿情治理主要集中在負面輿論分析、輿情知識表示、輿論等級劃分、輿情預警等方面,缺少對網絡暴力內部數據特征的研究,無法深入了解網絡暴力的內容組織關系。針對以上問題,在文本語義和情感詞典技術的基礎上,該文提出了一種基于文本語義的網絡暴力分析方法(TSCA)。該方法從網絡暴力數據特征入手,首先根據語境創建網絡暴力領域情感詞典,實現文本實體情感詞匯的識別;然后根據文本分詞的位置關系,運用語義規則生成負面情感詞組集,并用卡方檢驗對暴力特征進行篩選;最后通過語義相似度對暴力特征進行計算,從暴力詞和用戶兩個維度實現對網絡暴力的多尺度分析。
從文本內容的組成結構角度,語義分析包括詞語級語義分析、句子級語義分析和文檔級語義分析。但不管從哪個層級進行語義分析,首要任務都是解決文本特征的識別問題。文本特征識別是自然語言處理的核心技術,特征識別方法包括文檔頻率法(document frequency,DF)、信息增益法(information gain,IG)及卡方檢驗法等。其中,卡方檢驗法是最常用的文本特征選擇方法。
卡方檢驗[13]主要功能是統計樣本的實際觀測值與理論推斷值之間的相關程度,卡方值越大,則兩者相關的可能性就越大,χ2統計量的計算公式如式(1)所示。
χ2(Featurei,Cj)=
(1)
其中,Featurei表示特征,Cj表示特征所屬類別;M表示訓練集中文本總數,A表示屬于Cj類且包含Featurei的文本頻數,B表示不屬于Cj類但包含Featurei的文本頻數,C表示屬于Cj類但是不包含Featurei的文本頻數,D表示既不屬于Cj類也不包含Featurei的文本頻數。
1997年,MIT媒體實驗室Picard教授首次提出情感計算(affective computing,AC)概念[6],目的是通過外部表露出的信息來研究人的內在心理活動。經過20多年的發展,情感分析延伸出了面部情感分析、姿態情感分析、自然語言情感分析、多模態情感計算等多個研究分支,該文研究的文本情感分析屬于自然語言情感分析范疇。
當前,網絡成為了民眾信息交互和觀點表達的主要平臺,網絡上存儲了大量的文本數據,隱含著很多有價值信息,對文本進行情感分析能夠感知網絡輿情態勢,了解民眾需求,對促進社會管理水平的提高具有十分重要的意義。文本作為自然語言的一種存儲形式,最小的語義單位是詞,詞語級情感分析是最基礎的文本語義分析技術,同時也為句子級和文檔級情感分析提供了知識支撐。詞語級情感分析技術運用情感詞典來衡量測試詞匯的情感值,并依據語義規則進行情感計算,具體分析流程如圖1所示。
從圖1中可以看出,計算規則是情感計算的核心,它的主要任務是依據情感詞典對新詞情感進行量化,量化方式包括互信息計算、相似度對比。

圖1 文本情感分析框架
從本質上說,文本暴力分析是情感分析的一個典型應用。由于熱點事件的突發性和聚焦性,網民評論緊緊圍繞著熱點事件展開,語言相似性大,領域特性強,用經典的情感詞典進行語義對比,情感計算結果準確度不高。另外,網絡暴力是帶有侮辱性的攻擊語言,負面情感色彩強烈,但負面情感不一定都是網絡暴力,如何從負面情感中篩選出暴力特征是網絡暴力分析的關鍵。所以,在網絡暴力分析流程中要解決兩個核心問題:(1)暴力領域情感詞典建立;(2)基于負面情感特征的網絡暴力篩選。
情感詞典是一種按照文本內詞匯之間的邏輯關系搭建起來的知識庫,它的建立需要遵循文本語義規則。文本由句子組成,句子又由詞組成。詞是文本的最小語義單位,但是詞在表達語義的時候,由于缺少前綴修飾詞,意義表達往往不明確。如果單純的從詞的角度去挖掘暴力信息,挖掘出的信息可能會不準確。比如:“人渣”是個暴力詞,但如果語境是“他不是人渣”,在“人渣”的前面有個否定前綴,那整個語義就不具備暴力,所以,在文本暴力挖掘時,往往詞組才是具備有效語義的基本單位。
從文學角度來說,詞組可分成很多種類型,如:主謂詞組(大家幫助);動賓詞組(發現問題);介賓詞組(把他打死);偏正詞組(崇高的理想);否定詞組(不喜歡)。從這些詞組的語義環境來看,能顯著對情感進行修飾或改變的只有偏正詞組和否定詞組。進一步研究發現,否定詞和修飾詞的位置在文本語義表示中非常重要,比如,“不很美麗”和“很不美麗”兩者意義截然相反。另外,正情感詞和負情感詞前面加否定詞時,語義翻轉的程度也不同,如:正情感詞“好人”加否定后得“不是好人”,語義翻轉到了好人的對立面,即“壞人”;而負情感詞“壞人”加否定前綴后的“不是壞人”,語義就不能翻轉到“好人”,從語境理解,“不是壞人”只能表明“不壞”,但不能表明是“好”。因此,該文對具有否定的詞組結構進行如下規定:
規則1:否定前綴+情感詞。
如果正情感詞前面有否定前綴,則否定權值為1;若負情感詞前面有否定前綴,則否定權值為0.5。
規則2:否定前綴+修飾詞。
當情感詞前面同時含有否定詞和修飾詞時,若否定詞在修飾詞前,則否定權值為0.5;若在修飾詞后,則取值為1。
評論文本是用戶發表意見的載體,文本包含用戶的情感、態度、行為等特征,文本的情感計算可以轉化為對語義詞組的情感計算[14]。由于在不同的語境下詞匯表達的含義可能會不一樣,所以,首先需要依據語義環境創建情感詞典,然后,用測試文本的分詞與情感詞典進行語義對比,得出測試分詞的情感值。情感詞典由3個數據表組成:情感詞表Wc、程度副詞表Wv和否定詞表Wn。情感詞表包含6個屬性:前綴否定詞ID、前綴副詞ID、詞項、性質(褒義或貶義)、情感值、位置;程度副詞表包含3個屬性:詞項、強度值和位置;否定詞表也包括3個屬性:詞項、否定值(否定一般設置為-1)和位置。
(1)情感詞表創建。
根據當前語料的語義環境,人工篩選出N個核心情感種子詞。種子詞篩選原則是情感意義非常明確,具有代表性,情感極性最強。首先運用情感種子詞建立原始情感詞表,然后用循環的方法依次遍歷文本分詞,當i=1時,把文本di中的新詞wi與情感詞表中的所有詞匯進行語義互信息計算,把互信息最高的詞匯情感值作為新詞wi的情感值,并填充進情感詞表。依次循環,使得每個文本上的分詞都會被遍歷一次。以下介紹情感詞表的擴充方法。
設wn是D中的新詞,wi是情感詞表Wc內的詞項,wn的情感值可以通過與wi的點間互信息計算得到,計算公式如式(2)所示:
(2)
其中,P(wn,wi)表示wn和wi在D中共現的概率,P(wn)和P(wi)分別表示wn和wi單獨出現的概率,PMI(wn,wi)的取值范圍為[0,1]。如果PMI(wn,wi)>δ(δ表示wn和wi的相似性閾值),則判定wn和wi的語義相同。為了綜合判斷詞匯wn的情感傾向,還需要在情感詞表Wc上對wn進行綜合考察,設情感詞表Wc正面情感詞集合為Wcp,負面情感詞集合為Wcn,詞匯wn的綜合值計算公式如式(3)所示:
從公式(3)可以看出,S(wn)的取值范圍也是[-1,1],絕對值越大,wn的極性越強。最后判斷wn在Wc內是否為新詞,如果是新詞,則把wn直接加入到Wc中,否則對原有詞的情感值進行覆蓋。按照上述方法計算D中所有分詞,完成對情感詞表Wc的擴充。對任意情感詞wn,若S(wn)>0,則wn具有正情感傾向;若S(wn)=0,則wn具有中性情感傾向;若S(wn)<0,則wn具有負情感傾向。
(2)程度副詞表創建。
程度副詞表擴充與情感詞表擴充的過程相似,不同之處是程度副詞的修飾程度取值范圍為[0,1]。為了提高程度副詞的擴充精度,根據6級劃分理論,按梯度下降公式對每個級別賦予不同的權值,具體創建方式如下:
設wi是程度副詞,Wv為程度副詞表,為了度量wi的修飾程度,需要在Wv上對wi進行綜合計算,如公式(4)所示:
(4)
其中,k表示wv的權值。根據公式(4)的計算結果,首先判斷wi在Wv內是否為新詞,如果是新詞,則把wi直接加入到Wv中;如果不是新詞,則對原有詞的修飾強度進行覆蓋。遍歷分詞預料庫中所有副詞完成副詞表Wv的擴充。
(3)否定詞表創建。
否定詞能讓情感詞的極性發生翻轉,如果情感詞前有否定詞,在情感計算時,根據否定詞出現的次數e,用(-1)e乘以情感強度。由于否定詞意義明確,其意義表達不依賴于語義環境,通常情況下以“不”、“沒”、“未”等字組成,在HowNet詞典中收錄非常完善,所以,該文借鑒HowNet中的否定詞表,以此填充到創建的領域詞典內。
負面情感詞組檢測。
網絡暴力本質是極端惡劣的負面情感,所以文本暴力分析是情感計算技術的一種具體應用,目標是從負面情感特征中識別出暴力特征,并對暴力特征進行計算。文本是詞匯的集合,文本的情感隱含在情感詞中,文本情感通過計算文本詞匯的綜合情感值來實現。為了更清楚地表述詞匯語義,特做如下定義:
定義1:語義詞組。設五元組W=
語義詞組W能夠明確描述情感詞的語義環境,其情感的計算過程如下:首先,依次遍歷文本內情感詞,根據文本中第n個分詞wn所在的位置讀取出前綴詞,并與wn連接,組成語義詞組W,W的情感值計算如公式(5)所示:
S(W)=N(wn)Adv(wn)S(wn)M(wn)Q(wn)
(5)
其中,N(wn)表示wn的否定詞向量權重;Adv(wn)表示wn修飾詞向量權重,兩個分量可繼續分解為公式(6)和公式(7):
N(wn)=(-1)e,e≥0
(6)
(7)
在公式(5)~(7)中,e表示否定詞出現的次數,V表示程度副詞出現的數量。M(wn)表示否定詞的位置,初始值為1;Q(wn)表示情感翻轉系數,初始值為1。根據該文定義的語義規則:①若否定詞在修飾詞前,則M(wn)取值為0.5;若在修飾詞后,則取值為1;②當S(wn)>0時,若wn有否定前綴,則Q(wn)取值為1;若S(wn)<0時,則Q(wn)取值為0.5。由公式可以計算出詞組W的情感值。如果S(w)的值小于0,則W為負情感詞組。
(1)網絡暴力詞組篩選。
網絡暴力作為一種攻擊性語言,具有很強的負情感,但負情感特征詞不一定都是暴力語言。暴力是負情感的充分條件,負情感是暴力的必要條件。所以網絡暴力特征需要從負面情感特征中進一步篩選。χ2檢驗是常用的文本特征篩選方法,運用χ2檢驗的網絡暴力篩選過程如下:
第①步:從負情感詞組集中,用人工的方法標注出負面情感最強烈的20個暴力詞組作為種子存放在詞向量C中,并設定χ2檢驗閾值ξ=0.90;
第②步:利用卡方檢驗對負情感詞組進行特征計算,按從大到小順序,選擇χ2(Wi,C)≥ξ的特征詞組,添加到C中;
第③步:增加閾值ξ,使得ξ=ξ+0.01,返回到第②步,直到選不出暴力特征詞組為止。
通過暴力特征詞的篩選能把不具備暴力的負面情感詞組過濾掉,大大提高了網絡暴力識別精度。從情感計算角度看,網絡暴力是負值,取值范圍是[-1,0)。為了直觀地對網絡暴力進行描述,文本對包含網絡暴力的負面情感進行翻轉計算,把網絡暴力取值范圍映射到區間(0,1]內,轉換后的暴力詞組計算公式如式(8)所示:
Cyber(W)=-N(wn)Adv(wn)S(wn)M(wn)Q(wn)
(8)
定義2:暴力密度。設詞組集WS={W1,W2,…,WK},暴力語義詞組集WC={Wc1,Wc2,…,WcK},且WC? WS,則WS的暴力密度計算公式如式(9)所示:
(9)
(2)文本暴力計算。
文本是單詞的有序集合,即:di={w1,w2,…,wN}。但從詞組的角度看,文本又可表示成多個語義詞組的順序排列,即:di={W1,W2,…,WK},且{W1∪W2∪…∪WK}={w1,w2,…,wN}。所以,基于詞組的文本暴力計算公式如式(10)所示:
(10)
其中,C表示暴力詞組向量。然后對所有文本的暴力值進行歸一化處理,計算公式如式(11)所示:

(11)
其中,Cybermax(di)表示文本暴力的最大值,Cybermin(di)表示文本暴力的最小值。
(3)用戶暴力計算。
用戶暴力是用戶所發表評論文本的暴力之和,所以,對于用戶ui,其暴力計算公式如式(12)所示:
(12)
其中,|Di|表示用戶ui發表的評論文本數量。對用戶暴力進行歸一化處理,計算公式如式(13)所示:
(13)
其中,Cybermax(ui)表示用戶暴力的最大值,Cybermin(ui)表示用戶暴力的最小值。
以“合肥母子三人跳樓事件”為例,使用八爪魚數據采集器獲取了騰訊新聞中該主題下的評論信息:用戶節點1 052個,評論文本3 128條。首先抽取用戶之間的“回復、點贊”關系,建立用戶關系庫U,然后使用ICTCLAS分詞軟件對評論文本進行分詞,去除停用詞、介詞、語氣詞、轉折詞等無用詞后,建立文本語料矩陣G。
U的大小為|U|×4,其中,第i行存放第i個用戶ui的相關信息,存放順序是:第1列存放ui的序號,第2列存放ui的ID,第3列存放ui回復的用戶ID串,第4列存放ui點贊的用戶ID串。G的大小為|G|×[2+N+3],其中,第i行存放第i條評論文本di的相關信息,存放順序是:第1列存放di的序號;第2列存放發表di的用戶ID,后N列存放di的分詞結果。初始語料矩陣準備完畢之后,運用該文提出的方法對語料信息進行處理分析。
(1)暴力詞語義分析。
在語料矩陣G的基礎上,按照文本暴力分析路線,首先創建領域情感詞典S,生成負面情感詞組集N,再通過卡方檢驗篩選出暴力詞組集C。組成暴力詞組集的高頻基礎情感詞及情感值計算結果如表1所示。

表1 事件評論網絡暴力高頻詞列表(Top 45)
(2)暴力多尺度分析。
為了反映暴力特征詞之間意義分布形態,對45個暴力特征詞進行多維尺度統計分析。根據暴力特征詞兩兩之間共現頻數,得到大小為45×45的暴力特征詞共現矩陣。由于頻次的范圍變化大,數據分析不方便,為了消除詞頻計數對分析的影響,用Ochiia系數將共詞矩陣轉換為相關矩陣,并對共現頻次進行歸一化處理,再根據詞與詞之間的共現關系,建立兩詞之間的相異矩陣,計算公式如式(14)所示:
(14)
為了便于理解,用“1”與矩陣相減,得到表示兩詞建相異程度的相異矩陣,轉換結果如表2所示。

表2 Ochiia相異矩陣
把相異矩陣數據輸入到SPSS軟件中,選擇二維分析組圖輸出方式,對其進行Euclidean距離分析,分析結果如圖2所示。圖中點與點之間的距離表示詞匯所屬內容主題的相關程度,距離越小表明主題語義相似度越大,主題內容越集中;反之,距離越遠表明表達內容越獨立。

圖2 暴力詞匯多尺度分析結果
從圖2顯示的分析結果來看,詞匯之間既有滲透交叉,又有群組分布的獨立性,說明詞匯語義反映出了明顯的主題差異性。從詞匯表達的內容角度出發,人工對詞匯進行主題分組,根據劃分邊界大致可分成三個群組,每個群組代表一個被網絡暴力攻擊的實體對象,分別為:跳樓女子(以下簡稱“女方”)、女子丈夫(以下簡稱“男方”)、女子所處的家庭環境(以下簡稱“家庭”)。按照分組結果,對語料中每個群組詞及群組內暴力詞進行統計,結果如圖3所示。

圖3 各群組暴力詞占比
從圖3可以看出,在所有語料詞組中,女方群組詞數量的占比為38.2%,家庭群組詞占比為29.7%,丈夫群組詞占比為32.1%。網民針對女方發表的網絡評論最多,也從側面反映出了女方在事件中的主體地位。但從暴力詞匯在群組內的占比來看,針對丈夫的暴力詞占比最高,達到98.6%,其次針對家庭的暴力詞占比為96.3%,說明網友的暴力攻擊點主要集中在男方和家庭,而針對女子的暴力詞占比也有49.6%,說明了雖然在整個事件中女方是受害者,但女方綁架子女生命的赴死方式也遭到了眾多網友的鄙視。
為了度量不同群組遭受的暴力,運用公式(9)對每個群組的暴力密度進行計算,了解不同對象遭受暴力的強度,三個群組的暴力密度計算結果如圖4所示。

圖4 三個群組網絡暴力密度對比
通過群組詞匯量整體占比、暴力詞在群組內占比以及群組詞匯的暴力密度等信息,可以對不同對象所遭受的網絡暴力做如下分析。
①對男方的暴力攻擊分析:通過圖3和圖4可知,攻擊男方的暴力特征詞占比最大, 暴力密度也最高。
說明事件中女子的丈夫是被網民攻擊的主要對象。從評論文本中可以看出,網民一致認為他是促使妻子跳樓的最直接元兇,評論用詞激烈極端,遭受的網絡暴力最強。
②對家庭的暴力攻擊分析:從暴力詞占比以及暴力密度對比結果來看,網民另一個攻擊對象是女子所處的家庭環境。通過對原始語料分析可知,女子獨自帶孩子,孩子身體不好,丈夫不僅不給生活費,還遭受公婆嫌棄,引起了網民的極大憤恨和道德譴責。
③對女方的暴力攻擊:雖然女方是受害方,本應該受到網民同情,但她以極端的方式剝奪了孩子的生命,從性質上來說,她也是殺人犯,展現出了她可怕、冷血的一面;另外也突出了她自私,懦弱的性格特征。網民在同情女子遭受不幸的過程中,同樣也對她進行了指責。
(3)暴力用戶分析。
用戶是網絡暴力的發起者,對用戶暴力進行分析有助于掌握網絡暴力實施的人群分布。具體分析過程是:首先遍歷語料數據庫G,以用戶為單位檢索出用戶發表的評論文本分詞,并與暴力詞組集C對照匹配,找出用戶的暴力詞組;再根據公式(10)和(11)計算用戶文本的暴力值,然后再用公式(12)和(13)計算出用戶的暴力值;最后把用戶暴力詞組分別與三個群組暴力詞組進行相似度對比,識別出用戶暴力攻擊的目標,計算結果如表3所示。

表3 暴力用戶信息表(暴力值Top 40)
暴力特征詞組的篩選是該文的核心,為了驗證該方法的暴力特征識別效果,對實驗語料中的負面情感詞組和暴力特征詞組進行人工標注,并把原始語料庫分成5個數據集,分別用TSCA和FWCC[15]方法對數據集的暴力特征進行提取。為了提高人工標注的可信度和準確性,采用三組標注法,以高分表決的方式標注語料中的暴力特征詞組,兩種方法的評價對比結果如表4所示。

表4 暴力特征識別性能對比 %
從表4可以看出,在五組語料數據集上,TSCA方法的暴力特征詞組識別性能(F值)高于FWCC方法,說明TSCA方法達到了良好的文本暴力特征識別效果。
運用信息熵理論建立了網絡暴力領域情感詞典,并以領域情感詞典為基礎,結合詞法分析技術建立了基于文本語義的網絡暴力分析方法。該方法能從暴力詞和用戶兩個維度度量熱點話題下的網絡暴力信息,拓展了網絡暴力識別與分析方法。經過實驗,該方法在多維網絡暴力分析方面達到了良好的效果。由于該方法中暴力閾值的設定是人工實現的,存在一定的局限性。如何實現閾值的自動劃分是未來需要進一步研究的方向。