劉玉文
〔摘 要〕網絡輿論主題情感在線分析對輿情研判與管理起著十分重要的作用,當前的主題情感模型存在著主題與情感建模關系不緊密,情感挖掘偏斜等問題,容易造成輿情誤判。文本在OLDA(On-Line Latent Dirichlet Allocation,OLDA)模型的基礎上引入情感參數,并提出情感遺傳思想,建立基于情感遺傳的在線主題情感混合模型OTSCM(On-Line Topic and Sentiment Combining Model)。該模型把t-1時間片內的主題情感分布作為t時間片內主題情感分布的先驗,通過構造主題情感演化矩陣,生成t時間片內文檔—主題、主題—特征詞以及主題—情感詞3個分布,最后使用交叉熵方法計算t時間片內主題分布與t-1之前主題分布的相似度,得出t時間片內主題情感演化結果。本文在5個數據集上對OTSCM進行了驗證,并與其它流行算法進行了對比,實驗表明,文本方法在主題情感在線識別方面達到了良好的效果。
〔關鍵詞〕OLDA模型;主題情感;情感遺傳;OTSCM模型;情感計算;情感演化
DOI:10.3969/j.issn.1008-0821.2017.12.006
〔中圖分類號〕G206.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2017)12-0035-07
〔Abstract〕The on-line sentiment analysis of network topic plays an important role in the evaluation and management of public opinion.The current topic and sentiment models have a problem that the relationship between the topic and sentiment is not closely,which likely cause the deviation of sentiment mining and misjudgment of public opinion.This paper introduced the sentiment parameter into OLDA model and proposed a On-Line Topic and Sentiment Combining Model (OTSCM) based on sentiment genetic.This model made the topic and sentiment distribution of the t-1 time slice as a priori of the topic and sentiment distribution of t time slice.By constructing the topic and sentiment evolutionary matrix,the document-topic,topic-word and topic-sentiment 3 distributions were generated.The cross entropy method was used to calculate the similarity between the topic distribution of the t time slice and the t-1 time slice for getting the evolutionary result of t time slice.At last,OTSCM were validated on 5 data sets and compared with other state-of-the-art algorithms.Experiments showed that our approach had better performance.
〔Key words〕OLDA model;topic sentiment;sentiment genetic;OTSCM model;sentiment computing;sentiment evolution
隨著我國網民數量的激增以及Web2.0的應用,互聯網已成為社會熱點事件傳播及民眾意見表達的主要載體,任何社會事件的發生都會在網上引起熱烈的討論,且隨著時間的推移,民眾情感也會發生動態變化。網絡輿論已成為一支重要的社會參與力量,在一定程度上影響決策者的決策方向,所以網絡話題發現與跟蹤以及情感演化分析一直以來都是網絡輿情領域研究的熱點,對及時掌握民眾社會心態從而制定合理的管理策略起著十分重要的作用。
主題檢測與跟蹤[1](Topic Detection and Tracking,TDT)研究始于1996年,目的在于發現網絡中潛在的主題并跟蹤其發展過程,其在社會熱點事件網絡輿情態勢監控中應用廣泛。2003年Blei等[2]提出隱狄利克雷分配模型(Latent Dirichlet Allocation,LDA),用于尋找語料庫中潛在的主題,LDA模型把文本從詞的多維空間降維到主題空間,用特征詞來表征語料庫中的主題。隨后,Alsumait等[3]提出在線LDA模型(On-Line Latent Dirichlet Allocation,OLDA),該模型融入了主題遺傳思想,把t-1時間片內的主題分布后驗作為t時間片內主題分布的先驗,通過計算相鄰時間片內主題相似度,在線跟蹤主題的演化過程。OLDA模型考慮了主題的延續性,但每個時間片內的主題數K設置是固定的,沒有考慮到新話題產生、舊話題消亡以及話題分裂、合并等情況,致使主題挖掘精度與LDA模型相比并沒有得到明顯提高。針對這個問題,眾多學者提出了多種OLDA模型的改進算法,其中,Hu等[4]提出了一種話題演化建模與分析方法,該方法采用模型選擇策略動態確定各時間片內子話題數,并對演化矩陣進行動態增減,提高了各時間片內話題識別精度,另外,該方法提出基于相對熵的子話題相似度計算方法,話題演化計算精度也得到了一定程度的提高。endprint
由于LDA模型在主題識別中的優異表現,很多學者在此基礎上添加了情感參數,提出了基于LDA的主題情感模型,如:ASUM模型(Aspect and Sentiment Unification Model)[5]、TSM模型(Joint Sentiment/topic Model)[6]以及JST模型(Topic Sentiment Mixture)[7],這些模型把主題和情感進行聯合建模,不僅能抽取語料庫中的主題詞,還能識別主題下的情感詞,通過計算主題下情感詞的綜合情感值,得出主題的情感傾向。上述主題情感模型有個共同的缺陷就是只能對靜態數據進行建模,不能在線跟蹤主題的情感變化情況。Huang等[8]提出了一種基于概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)的網絡話題情感分析方法,該方法使用PLSA對不同時間片內的主題進行提取,并把主題詞細分為主題特征詞和主題情感詞,通過主題情感計算和主題相似度計算在線跟蹤話題及其情感的演化。該方法的缺陷是沒有對情感進行單獨建模,情感詞只是從主題詞里分離出來的,使得情感詞來源受限,不能精確表達主題的情感。Li等[9]提出了動態主題情感模型(DTSCM),并應用與微博主題情感演化挖掘。該方法使用主題情感模型分別對每個時間片內的微博文本進行建模,得出各時間片內的主題詞和情感詞,通過主題間的相似度計算,得出微博情感演化圖。該方法與文獻[3]相似,沒有考慮到不同時間片中的主題變化,且沒有考慮到以前時間片內主題情感分布對當前時間片內主題情感分布的影響。
針對當前主題情感演化模型存在的問題,文本在OLDA模型的基礎上引入情感參數,并融入情感遺傳思想,提出基于情感遺傳的在線主題情感跟蹤模型OTSCM。該模型借鑒OLDA模型中主題遺傳思想,認為t時間片內的主題—情感詞分布也只受到t-1時間片內主題—情感詞分布的影響,把t-1時間片內主題—情感詞分布后驗當作t時間片內主題—情感詞分布的先驗。t時間片內的主題數量采用貝葉斯方法動態獲得,通過建模t時間片內主題及其情感,得到主題—特征詞分布和主題—情感分布,最后通過計算t時間片主題與t-1之前主題相似度得出t時間片內主題情感演化趨勢。
1 相關理論
1.1 LDA模型與OLDA模型
潛在隱狄利克雷分配[10](Latent Dirichlet Allocation,LDA)是由Blei等提出的用于尋找語料庫中潛在主題的概率生成模型。該模型假設每個文檔包含多個主題,每個主題包含多個特征詞,文檔以一定的概率選擇主題,主題以一定的概率選擇主題詞。LDA模型把文檔從N維詞分布降維到K維主題分布,生成文檔—主題θ和主題—詞匯φ兩個分布矩陣。在大數據環境下,LDA模型主題挖掘效果非常明顯[11],缺陷是只能對靜態數據進行建模,不能識別主題在時間上的演化分布。
為了使LDA模型具備在線主題演化挖掘能力,Alsumait等[3]把時間粒度引入LDA模型[2],建立在線主題生成模型OLDA。該模型假設t時間片內的主題—詞匯分布φt只受到t-1時間片內φt-1分布的影響,不同時間片內的主題—詞匯分布可以看成一個隱馬爾科夫鏈,采用t-1時間片內的主題—詞匯后驗分布φt-1作為t時間片內φt的先驗,以此來保持主題的連續性,φt服從狄利克雷分布的公式如(1)所示。
OLDA模型采用增量Gibbs算法對t時間片內的文本數據進行采樣,反復迭代θt和φt,直至達到穩定狀態為止。
雖然OLDA模型考慮了主題的延續性,但也存在著明顯的缺陷[8],即各時間片內的主題數設置都是固定值,忽略了新主題的產生、舊主題消亡等動態變化情況,且主題數設置不合理容易導致主題挖掘的偏斜。
1.2 流文本情感詞典擴充
通常文本包含情感特征詞,文本的情感計算可以轉化為對情感詞的情感計算[12],計算過程分為兩步:1)首先創建情感詞典;2)計算測試文本內情感詞與情感詞典之間的語義關系,得出測試文本的情感值。情感詞典由3個數據表組成:情感詞表、程度副詞表和否定詞表。情感詞表包含4個屬性:詞、性質(褒義或貶義)、情感值和位置;程度副詞表包含3個屬性:詞、強度值和位置;否定詞表也包括3個屬性:否定詞、否定值(否定一般設置為-1)和位置。
1.2.1 情感詞表在線擴充
對于流文本而言,設t時間內到達的文本集為Dt={ d1t,d2t,…,dnt},t時刻的文本情感通過計算文本內情感詞與t-1時刻的情感詞典之間的相關關系得到。情感詞典的構造包含以下步驟:當t=1時,統計并計算t時刻到達的文本集內的情感詞,以此作為情感詞表Ws的初始值。當t>1時,利用t時間片內的文本對情感詞典進行擴充,依次循環,使得在每個時間片上Ws都會被擴充一次。以下介紹情感詞表在t時間片內的擴充方法。
2 基于OTSCM模型的主題情感在線追蹤
由于OLDA模型只能在線識別流文本主題,不能識別主題下的情感,所以,文本把情感參數引入到OLDA模型中,參照OLDA模型中的主題遺傳思想,提出情感遺傳概念,建立在線主題情感混合模型OTSCM(Online Topic and Sentiment Combining Model)。模型的核心思想是:t時間片內的流文本集Dt是多個主題和情感的混合,主題不僅以一定的概率選擇某個主題特征詞,而且以一定概率選擇某種情感特征詞,主題特征詞和情感特征詞均依賴與主題,而主題又依賴與文本。通過t-1時間片內主題遺傳度和情感的遺傳度建立t時間片內文檔、主題、情感和詞匯4個變量之間的聯合條件概率,再采用吉布斯增量采樣算法訓練得到文檔—主題θt、主題—特征詞φt、主題—情感詞μt3個分布矩陣,最后計算t與t-1時間片之間主題相似度,得出主題及其情感的演化結果。endprint
2.1 模型描述
設t時間片內的文本集Dt包含Kt個主題,OTSCM模型認為文本是主題的混合,主題又是特征詞和情感詞的混合。模型生成文本的過程如下:首先從文本—主題分布θt中抽取一個主題,根據抽到的主題從話題—特征詞分布φt中抽取一個特征詞,從主題—情感分布μt中抽取一個情感,再從情感—詞匯分布中抽取一個情感詞。OTSCM模型是一個4層貝葉斯網絡,其生成過程如圖1所示。
從表2中可以發現數據集中存在6個報道主題,主題1:各方救援,報道時間為t1~t5;主題2:挖掘到井底,但沒見到孩子,報道時間為t4~t5;主題3:警方帶走孩子父親和爺爺,報道時間為t4~t5;主題4:孩子找到,但無生命體征,報道時間為t5~t7;主題5:孩子爺爺磕頭致謝,報道時間為t6~t7;主題6:男童下葬,大坑回填,報道時間為t7~t8。根據主題—情感詞分布μt,表3顯示了在t=4時間片內OTSCM模型識別出的主題下的情感詞,并通過公式(21)計算得出主題綜合情感值。由于篇幅限制,其他時間片內的主題情感識別結果不再一一列出。
3.3 主題情感在線演化
為了清晰表達模型對新聞主題的輿論情感演化識別情況,根據主題演化計算結果和不同時間內主題情感計算結果,可以描述出所有主題輿論情感演化過程,如圖2所示。
從圖2中可以得出,每個主題下的輿論情感都是動態變化的,其中主題1的輿論情感變化較大,范圍是(0.74,-0.35),原因是在救援初期民眾表達了強烈的正情感,但隨著救援時間的拉長,民眾開始質疑救援方案,所以輿論情感逐漸降低,到t=5時,小孩被救出時已死亡,民眾的負面情緒到達了最高值,出現了較強的負情感,分析原因是因為民眾對救援方案產生質疑。主題2和3的輿論情感在中性情感附近,體現了民眾復雜的心態,即井下沒看到孩子,且警察又把孩子父母帶走了,民眾都在對最終答案進行猜測,沒有明確的情感傾向。主題4和5下的輿論表現出了很強且穩定的正情感,孩子被發現已死亡,且爺爺磕頭感謝,民眾的正面情緒占主導,紛紛表達了對孩子的惋惜和對爺爺行為的尊重。主題6的輿論情感表現為低強度正情感,因為民眾對孩子下葬表現出了正情感,但是對威脅兒童的安全隱患表示了擔憂,抵消了一部分正情感。
3.4 模型性能評價
為了驗證本文算法的通用性,本文以“河北男童落井事件”、“山東辱母殺人事件”、“薩德入韓事件”,“徐玉玉事件”及“中印對峙”5個新聞數據集作為測試數據,依次命名為DataSet1~DataSet5,以ASUM、TSM、JST、DTSCM 4個模型作為OTSCM的對比對象,分別進行了實驗,各算法的準確率對比結果如表4所示。
從表4中可以看出,文本算法的準確率在各組數據集中均為最高,原因是ASUM、TSM和JST模型中主題數必須事先固定,受到人為經驗影響較大,容易造成主題識別模糊,且三者都是靜態模型,主題先驗和情感先驗設置固定,沒有考慮到在前后時間片內的關聯。DTSCM模型雖然在不同時間片內動態獲取主題數量,但是不同時間片內的主題和情感不具有傳遞性,先驗知識得不到有效利用,主題和情感的計算在各時間片內都是孤立的。本文算法填補了上述算法的缺陷,每個時間片內的主題和情感不僅具有遺傳性,而且不同時間片內的主題數是動態獲取的,有效地提高了主題和情感的分類精度。
實驗進一步驗證了各算法之間的困惑度對比,困惑度是檢測聚類質量的評價標準,困惑度越小,算法性能越好,困惑度的計算公式如(22)所示。
其中,p(wi)表示詞wi在文檔d中出現的概率,Nd表示文檔d中詞的數量。試驗中在每個數據集中隨機抽取70%的文本數據作為訓練集,剩下的30%作為測試集,各算法的困惑度對比如圖3所示。
從圖3中可以得出,OTSCM算法的情感識別困惑度最低,情感聚類效果最好。
4 結束語
本文把情感信息引入OLDA模型中,并提出情感遺傳思想,建立了基于情感遺傳的在線主題情感跟蹤模型OTSCM。該模型把t-1時間片內主題情感后驗作為t時間片內主題情感先驗,生成文檔—主題、主題—特征詞和主題—情感詞3個分布矩陣,再利用基于交叉熵的相似度計算方法判斷當前t時間片內主題情感的演化趨勢。實驗結果表明:與其他最流行算法相比,OTSCM模型在主題情感在線演化分析中具有良好的性能。
參考文獻
[1]Li G,Jiang S,Zhang W,et al.Online web video topic detection and tracking with semi-supervised learning[J].Multimedia Systems,2016,22(1):115-125.
[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].JMLR.org,2003,3(9):993-1022.
[3]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]// Eighth IEEE International Conference on Data Mining.IEEE Computer Society,2008:3-12.
[4]HU Yan-Li,BAI Liang,ZHANG Wei-Ming.Modeling and Analyzing Topic Evolution[J].Journal of Automatica Sinica,2012,38(10):1690-1697.endprint
[5]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C]// ACM International Conference on Web Search and Data Mining.ACM,2011:815-824.
[6]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.
[7]Lin C,He Y,Everson R,et al.Weakly Supervised Joint Sentiment-Topic Detection from Text[J].IEEE Transactions on Knowledge & Data Engineering,2012,24(6):1134-1145.
[8]HUANG Wei-dong,LIN Ping,DONG Yi,et al.Analysis on the Feature Words Based Evolution of Netizens Sentiments in Network Public Topics[J].Journal of Intelligence,2015,(11):117-122.
[9]LI Chao-xiong,HUANG Fa-liang,WEN Xiao-qian,et al.Evolution analysis method of microblog topic-sentiment based on dynamic topic sentiment combining model[J].Journal of Computer Applications,2015,35(10):2905-2910.
[10]Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266(5):90-100.
[11]Dermouche M,Kouas L,Velcin J,et al.A joint model for topic-sentiment modeling from text[J].2015:819-824.
[12]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.
[13]Zhao Y,Qin B,Liu T,et al.Social sentiment sensor:a visualization system for topic detection and topic sentiment analysis on microblog[J].Multimedia Tools & Applications,2016,75(15):8843-8860.
[14]Peng B,Li J,Chen J,et al.Trending Sentiment-Topic Detection on Twitter[J].2015,9042(2):66-77.
[15]Pinto M,Saleiro P,Teixeira J.SentiBubbles:Topic Modeling and Sentiment Visualization of Entity-centric Tweets[C]// International C* Conference on Computer Science & Software Engineering.ACM,2016:123-124.
(本文責任編輯:孫國雷)endprint