來能燁
(上海工程技術大學 管理學院,上海 201620)
通常情況下,大多數網民會在各種社交網絡上表達出對社會熱點事件的不同看法。因此,如何有效識別其態度、行為和情感偏好程度成為被廣泛關注的研究熱點。情感偏好是情感強度的另一種表達形式,在根本上決定著人的思想、行為和生理活動,制約著情感的動力特性。
基于此,諸多學者及專業人士從各方面對該問題進行了研究并提出各自觀點。Pablo C等人[1]指出,社交網絡領域的主要研究方向之一,是尋找和分析用戶之間可能存在的聯系。這些發展允許用戶在其聯系人網絡上進行擴展,而不必在全部用戶中進行搜索;?avdar,A B等[2]研究挖掘社交和交互數據,將這些信息與當前的數據分析模型結合起來,得出其結合程度是有限的的結論。可使用客戶的社交網絡信息來增強這個基本模型,以包含客戶所做的間接貢獻;Daniela F E等[3]描述了如何將Twitter上的性別識別作為一種智能的商業工具,來確定用戶之間的隱私問題,并最終為更有可能積極響應目標廣告的客戶提供更個性化的服務;Ran X[4]研究網絡傳播效應,也被稱為同伴效應或社會影響過程,并提出了幾種替代估計方法,當存在共同決定影響和選擇的未觀察特征時,這些方法有可能正確識別傳染效應。采用蒙特卡羅模擬結果,設計了一種網絡空間調整估計器;杜永萍等人[5]提出了一種CNNLSTM模型下短文本情感分類方法,該方法以卷積神經網絡模型為基礎,構建大小不同的卷積窗口,對文本的譜義特征進行提取,采用長短時記憶模型,預測文本的情感傾向。通過在不同文本中進行驗證,證明方法有效提高了網絡文本情感識別的召回率,但是其準確率相對較低。穆永利等人[6]提出了一種基于E-CNN的情緒原因識別方法。該方法首先對本文進行卷積、池化等操作來融合句子中的語義信息,通過CNN集成降低數據不平衡性對識別效果的影響,解決了傳統識別方法規則制定繁瑣、需要對文本進行空間降維等問題。該方法可以從所有信息中有效識別全局信息,但是沒有給出一個能夠判斷句子中真正情感的子句的合理度量,使得最終識別結果不夠準確。
為提高情感偏好識別的準確率和識別效率,本文提出了一種考慮情感強度的加權社會網絡偏好信息識別算法。該算法的優越之處在于將網絡文本語句中不同程度的副詞賦予不同的權重值,通過本身定義的權重值與句中的副詞權值相乘來獲得文本的總體情感強度。通過GMM算法進行情感偏好狀態測定,完成識別全過程,總體識別效果更好,具有較好的應用價值。
文本挖掘以語言學、統計梳理分析等作為主要理論依據,在信息檢索技術的基礎上,從網絡繁雜的用戶信息中,將能夠表現出各類特征的獨立信息提取出來。在文本挖掘過程中,文本分詞是很重要的一部分,其關鍵部分在于歧義切分。在英文文本中,因其單詞之間有空格能夠被視為分隔符,所以歧義切分過程較為方便,但是中文文本中每句話的字詞都是相互聯系的,沒有明顯的分隔標記,相對英文文本來說,中文文本的歧義切分較為復雜。
為了使分詞具有較好效率的同時也能充分保證分詞的準確性,使用詞典與互信息相結合的分詞方法,對文本進行分詞處理。將M I(x,y)定義為詞x和詞y的互信息,則有:

式中,當M I(x,y)≥0時,表明二者經常同時出現,同時證明兩個詞的關聯性很強;當M I(x,y)≈0,則代表x和y同時出現的次數極少,從而證明二者的關聯性較弱;當M I(x,y)≤0時,則表明x和y不會同時出現,二者之間沒有關聯性,為互補分布。
通過對詞語互信息的計算,原詞典中信息就會隨之豐富,從而獲得詞與詞之間的互信息矩陣為:

在進行文本分詞時,為豐富詞典信息,使用雙向匹配分詞法對網絡文本語句進行切分處理。在處理過程中,當正向和逆向切分的最終呈現效果不同時,通過互信息選出最適合整體的分詞結果,同時計算切分后詞語的整體平均互信息以減少詞語個數對切分結果的影響。其計算方法如式(3):

式中,n表示被切分詞語數量,Wi表示第i個切分詞語。
由于中文文本中的語言表達形式較為復雜,直接挖掘分析切分后的語句尤為困難。因此需要將分詞處理的文本整合成更適合定量研究的文本情感形式。首先,提取各網絡文本內的情感特征項,然后對提取后的情感特征項做文本系統結構化,并將其作為中間狀態依次對文本信息進行描述。在文本系統中,文本之間是相互不發生聯系的,因此從數據整體來看文件之間數據是沒有結構關系的,而結構化就是將程序中逐漸積累出的內容和數據進行歸納整理,使程序數據條理化,更易于后期的處理。
文本通常能夠通過詞語來表達特征,如關鍵詞、主題詞、短語等。一般情況下,文本特征大致可以劃分為語義特征和描述特征兩類,通過處理特征項就可以實現文本分析。提取語義特征中的評價對象主要過程如下:
(1)采用中分詞方法對文本進行分詞處理。
(2)對切分后的名詞進行比對,得到評價對象。
(3)選出文本中含有評價對象的句子。
(4)將修飾評價對象的詞語進行篩選,將其視為情感詞,并且將修飾情感詞的副詞定義為修飾詞。
(5)記錄情感詞及修飾詞的相對位置。
在文本中,句中的一些副詞往往可以表達出這個句子的情感強度,不同程度的副詞賦予不同的權重值。整個句子的最終情感權值,可以通過自身定義的權值與句中的副詞權值相乘而獲得。
本文選擇219個程度副詞,根據其強度分為5個等級(W1,W2,W3,W4,W5),分別賦予不同的權重值見表1,構建的文本情感見表2。

表1 程度副詞權重Tab.1 Weight of degree adverbs

表2 情感詞表Tab.2 Sentiment word table
將文本D分解成句子S的集合,則D={S1,S2,···,Sn},每個句子的情感權值(Si)為:

式中,Swi表示每個句子中副詞的權重值;如果F(S)>0,則可以判定該文本為正向情感;如果F(S)<0,則可以判定該文本為負向情感;如果F(S)=0,則可以判定該文本為中性情感。
計算情感詞W的值Swi如下式:

式中,Np表示正向詞的數目,Nn表示負向的詞匯數目。
考慮到文本中句型對情感強度判定的影響,根據不同句型歸納出句子的情感值如下:
疑問句:F'(Si)=F(Si)×(-0.2)+(-0.5)
反問句:F'(Si)=F(Si)×(-0.6)+(-0.5)
感嘆句:F'(Si)=F(Si)×(1.5)
假設句:F'(Si)=F(Si)×(-0.2)
通過句子的情感值可以獲得文本的情感權重值為[7]:

當F'(S)>0時,則表示為正向情感[8-9],F'(S)<0時,則可以定義為負向情感,F'(S)=0時,則文本可以定義為中性情感。
再次加入程度副詞進行計算如下:

式中,Ne為否定系數,*為調節過程。
若感情詞與否定詞相鄰,則可以判斷該文本為負偏好情感,因此將其否定系數Ne設置為-1。σ表示調節系數,如果篩選出的情感詞與程度副詞“非常”、“極其”等相鄰時,則可以判定其為正偏好情感,其表達式如下:

如果情感詞與“一般”、“還可以”等程度副詞相鄰時[10],則可以將該文本定義為中偏好情感。則其情感得分如下式:

通過計算用戶對目標個體的情感偏好指數,可以了解用戶對任意事物的選擇傾向,并能反映出相對于他人的不同價值取向,即價值取向表現的優劣程度足以直接反映出個人的情緒偏好。
語篇情感偏好識別主要是通過語篇中句子的情感權重來判斷。考慮情感強度的社會網絡偏好信息加權識別,是在文本挖掘和情感強度模型建立的基礎上,通過GMM算法進行特征提取和向量轉換,確定情感偏好狀態,完成識別過程。具體流程如圖1所示。

圖1 識別流程Fig.1 Identification flow chart
為了更有效的識別文本情感偏好,需對文本進行預處理。文本處理包括:命名實體及過濾停用詞等。本文在Windows操作系統下,獲取相關文本數據,并對文本中表情符號、網址等無意義的文本進行清理。
采用GMM算法識別情感詞。其具體數學表達形式如下:


式中,∑i表示協方差矩陣,μi表示均值矢量。協方差矩陣可以用滿矩陣,也可以使用簡化后的對角矩陣。高斯分布密度如下式:

似然度直接決定分類器的置信度,更直接的表現是似然度的分散程度。置信度越高,則判定結果越準確。完成識別全過程步驟如下:
(1)將文本輸入分類器,做詞法和語法分析,獲得更易識別的文本結構。
(2)對獲得的結構化文本進一步分析,將其與相應的情感規則進行匹配。結合情感強度模型,做情感劃分,得到情感值。
(3)輸出情感值。將判斷用戶偏好的情感值反饋給機器。
(4)抽取反饋中有價值的信息,更新詞典。
為了驗證考慮情感強度的網絡評論情感偏好識別方法的有效性,本文使用了八爪魚采集器,爬取了新浪微博上關于“新冠肺炎疫情”爆發期間的熱門評論,共計2 943條作為數據來源進行對比實驗。
實驗所用情感詞主要來源于《知網》的情感分析用語詞集,并且加入了一些最新出現的網絡情感用詞,對詞語進行去重處理后,獲得的主要情感詞。
為驗證本文算法的準確性,將文獻[4-6]中提出的方法與本文算法進行比較。利用各算法的準確率Pre、召回率Rec和F值作為評判項。Pre其表達式為:

在識別過程中,往往不能夠使準確度和召回率同時具有較好的表現,因此常使用F值來對識別的整體效果做評估。F值的常用表達式如下:

其中,各參數含義見表3。

表3 分類評價標準參數含義表Tab.3 Meanings of parameters for classification evaluation criteria
各算法的各項指標值如下圖2所示。

圖2 不同方法的準確率對比圖Fig.2 Comparison of precision of each method
由圖2可見,在7次迭代下,本文方法對網絡偏好數據的分析與識別準確率較高,說明在進行語篇情感偏好識別時,對語篇中句子的情感權重判斷效果較好。在文本挖掘和情感強度模型建立的基礎上,考慮情感強度的社會網絡偏好信息加權識別方法實際應用效果較強。
應用情感分析用語詞集,在系統查全率即召回率方面進行對比結果如圖3所示。

圖3 不同方法的系統數據召回率對比圖Fig.3 Comparison of recall of each method
由圖3可知,在進行系統召回率測試時,本文方法的召回效果對比結果魯棒性較強,說明本文方法對文本中表情符號、網址等無意義的文本進行清理后,實際有用的數據能夠被系統查全即有效召回。
將以上兩次實驗數據進行二次擬合,使用F值進行整體效果評估。評估結果如圖4所示。

圖4 不同方法的F值對比結果Fig.4 Comparison of F values of each method
從圖4中可以看出,在情感識別的過程中,文獻[4]算法整體效果最差,本文算法要優于其它文獻方法。最終獲得的召回率、準確率和F值的數值都高于前兩者。因此,證明本文算法是可行的,并且識別效果更優。
用戶對網絡使用體驗感要求增高,情感強度能夠有效獲取用戶對某種屬性喜愛程度。本文提出的考慮情感強度的加權社會網絡偏好信息識別算法,經對比試驗得出如下結論:
(1)通過將其本身定義的權重值與句中的副詞權值相乘來獲得文本的總體情感強度,優化語句情感權重,實現語句的整體閾值。
(2)在排除無意義文本信息后,對文本進行特征提取及向量轉化,通過GMM算法進行情感偏好狀態測定,總體識別效果更好。