





摘要: 針對目前已有的相關主題模型中, 對大眾情感因素考慮不足, 難以精準挖掘, 同時對社交文本的實時動態演化考慮弱化了模型聚類能力的問題, 通過在模型中增加情感層以提取社交文本情感極性特征, 并引入先驗分布函數, 提出一種基于動態主題情感模型的文本聚類算法. 利用真實新冠疫情Twitter文本數據集進行實驗, 實驗結果表明, 該模型的性能優于基線模型, 提高了情感特征區分度, 使文本主題與對應的情感極性聯合生成時間節點, 進而使模型有處理時間演化的能力.
關鍵詞: 動態主題情感模型; 文本挖掘; 情感標簽; 時間戳; 文本聚類; 困惑度
中圖分類號: TP391.1文獻標志碼: A文章編號: 1671-5489(2025)02-0528-09
Text Clustering Algorithm Based on Dynamic Theme Emotion Model
HU Ping
(School of Data Science, Tongren University, Tongren 554300, Guizhou Province, China)
Abstract: Aiming atthe problem that the emotional factors of the public were not considered enough in the existing related theme models, which was difficult to accurately excavate them, and the real-time dynamic evolution of social texts was considered to weaken the clustering ability of the model, the authorproposed a text clustering algorithm based on the dynamic theme emotin model by addingthe emotional layer to the model to extract the polar features of social text emotion, and introducing a prior distribution function. The experiments were carried out by using real COVID-19 Twitter text datasets.The experimental results show that the performance of the model is better than the baseline model,and the discrimination of emotional features is improved, so thatthe text theme and the corresponding emotional polarity can jointly generate time nodes, and thenthe model has the ability to deal with time evolution.
Keywords: dynamic topic emotion model; text mining;emotional label; time stamp; text clustering; perplexity
收稿日期: 2023-11-07.
作者簡介: 胡 萍(1983—),女, 土家族, 博士, 副教授, 從事數據挖掘和算法分析的研究, E-mail: 290222350@qq.com.
基金項目: 國家自然科學基金面上項目(批準號: 62066040)、 教育部人文社科青年基金(批準號: 20YJC880030)和銅仁學院博士科研啟動基金(批準號: trxyDH1914).
現有的主題模型主要包括情感主題模型和動態主題模型兩種. 對于社交文本的情感主題模型, 目前的主要研究工作為主題情感建模[1-3], 主要特征為無監督學習, 但在情感特征分析方面存在不足, 且所使用的情感提取方法未考慮時間影響因子, 導致處理強時間性的社交文本表現不佳.
在動態模型研究中, 一部分在文本主題參數的時間演變中融入了Markov假設[4], 即當前主題是從上一時間節點的主題演化而來的, 詞匯分布也隨時間演化而動態變化. Liu等[5]在數據集Twitter上的實驗表明, 其提出的FR-DATM模型從生成的潛在主題的質量、 模型的困惑度和可以動態挖掘作者關注主題三方面都優于潛在Dirichlet分配(latent Dirichlet allocation, LDA)和微博潛在Dirichlet分配(MB-LDA)模型. Ranganathan等[6]提出了一種自動檢測Twitter消息情緒的方法, 該方法利用支持向量機LibLinear模型探索推文的特征和作者的情緒, 并實現了98%的準確率. 情感挖掘在計算機科學領域引起了廣泛關注, 因為它可以用于開發各種系統和具有潛力的應用, 如遠程醫療系統、 客戶服務、 基于用戶情感響應的智能手機以及感知駕駛員情感的車輛等. 這些情感有助于理解用戶的當前狀態, 從而采取適當的行動或提供建議, 以增強其對更健康生活方式的感知[7].Zhang等[8]設計并實現了基于時間序列新詞挖掘的COVID-19輿情監測系統, 提出了一種新的基于網絡話題定時爆炸的詞結構發現方案和針對COVID-19輿情環境的中文情感分析方法. 該系統可以根據評論判斷評論者的積極情緒和消極情緒, 也可以反映出希望、 快樂、 抑郁等7種情緒的深度. Xue等[9]提出了一種結合情感標簽和詞間關系的語義情感主題模型(semantic emotion-topic model, SETM), 考慮了關聯關系、 計算時間、 主題數和語義可解釋性4個因素對SETM性能的影響.
目前, 研究模型大多將時間演化因素納入了考量范圍, 但未深度考慮文本的情感挖掘, 特征區分度較低[10-12].基于此, 本文提出一種sToT模型, 以解決文本中情感特征區分度低的問題. 該模型在傳統主題模型的基礎上增加了情感層, 以提取文本中主題的情感極性特征, 增強了情感區分度. 為捕捉主題的動態演化關系, 在模型中引入時間先驗分布函數, 使主題和對應的情感極性有機融合, 進而觀察到時間戳和單詞, 使模型建模凸顯出時間因素對主題的演化影響. 并選取新冠疫情Twitter文本數據集進行實驗, 實驗結果表明, 該模型展現了優于基線模型的性能, 驗證了該模型的有效性.
1 動態主題情感模型
本文使用的輸入數據為新冠疫情期間社交媒體Twitter中的文本數據. 在使用前, 首先對Twitter的文本數據進行分詞、 去停詞、 提取詞干、 還原詞干等操作, 然后在原有模型的基礎上加入情感詞典, 以對單詞進行情感打分, 進而提升文本的情感區分度. 為使文本主題與時序演化相對應, 本文模型引入時間先驗分布函數以進行主題情感數據的動態挖掘[13-15].在模型的推理部分, 根據單詞、 主題、 情感以及時間戳聯合概率公式對算法使用Gibbs采樣. 模型迭代過程中會為單詞分配各自的主題號、 情感標簽以及時間戳直至收斂到穩定狀態, 然后輸出文本的情感強度值, 直觀體現文本主題的情感子空間演變及文本單詞的聚類結果.
1.1 任 務
本文模型選取的文本是以新冠肺炎為關鍵詞的社交媒體文檔集D={d1,d2,…,dD}, 該文檔集中包含社交媒體用戶所發送的文本內容及社交媒體形成的時間戳V={Wi,ti}, 其中W為文檔集D中所有單詞組成的集合, 各文檔中的單詞都是表V={1,2,…,N}中的索引, t為社交文檔生成時的時間戳. 在對社交文本進行建模時, 各主題都有對應的兩種情感極性, 對這些文檔進行分析時, 要分析相應的主題.
本文模型使用了Sentiwordhel的情感詞標注功能. 通過為文本中的單詞進行情感標簽分配, 并賦予相應的情感分值, 再綜合單詞、 主題、 情感和時間截的聯合概率進行Gibbs采樣, 通過這種形式進行主題號、 情感標簽和時間戳的分配, 為下次迭代使用提供依據. 在模型迭代至概率分布均達到收斂穩定狀態時, 計算單詞的條件概率分布以主題情感詞列表的形式表示文本聚類結果.
1.2 模 型
下面對主題情感動態演化過程及模型中的主題情感關聯方法進行闡述, 并利用該模型挖掘出社交文本中潛在的情感極性變化情況. 本文提出的sToT模型如圖1所示, 其中α為主題先驗參數, β為主題情感詞先驗參數, ψ為時間先驗參數, D為文檔總數, Nd為每篇文檔d中的詞匯數量, θ為主題分布, z為主題號, t為時間截, φ為主題情感詞分布, T為主題數, S為情感數, w為詞匯數. 圖1 sToT模型Fig.1 SToT model
圖1中的矩形表示重復過程.其中的觀測變量包括情感極性和單詞項, 箭頭表示各參數之間的依賴關系, 學習數據中的文
檔必須標注創建時間. 在時間標注方面, 將日期轉換為Unix時間戮格式并進行歸一化, 最后為每個文檔中的單詞進行標注. 由圖1可見, 在文檔生成過程中, 先根據主題參數得到每篇文檔的主題分布, 然后根據主題-情感得到情感詞, 再通過外部的情感字典, 對每個取出的情感詞標注情感標簽(正或負), 如果該單詞不在情感詞典中, 則隨機選取一個標簽, 對文檔中的主題和情感進行混合分布. 此外, 在迭代過程中, 用變量t捕獲時間截, 使用時間戳t上的ψ多項分布獲取主題情感的演化過程.
在建模過程中本文未對時序狀態轉換進行離散化, 避免了Markov假設對時間離散化的影響. sToT模型對每個主題與情感相關的連續時間分布都進行了參數化, 使得每個主題與其對應的情感在時間區間內實現了連續性的高度關聯. 因此, 主題標簽和情感標簽聯合生成時間戳和單詞, 使主題和情感的生成不僅受單詞的影響, 也受時間戳的影響.
在文本動態建模過程中, 本文使用Beta分布對時間戳進行采樣, 在[0,1]內進行連續性概率分布, 公式如下:
f(x;α,β)=1B(α,β)xα-1(1-x)β-1,(1)
其中參數α,βgt;0. 將參數的時間戳范圍歸一化到[0,1]區間, 以實現其在時間軸上的前后關聯. 通過將主題及其對應的情感隨時間變化設為常數, 本文觀察到了主題與情感本身的演變過程, 而非主題情感詞分布的變化. 同時, 本文還將主題與情感定義為動態共存的關系. 在構建情感模型時, 引入了情感層擴展現有的主題模型, 并利用時間先驗函數分析文本情感與時間的演化關系.本文以傳統主題模型為基礎進行建模, 迭代過程中所有文檔都遵循多項式分布原則, 由多個主題混合組成. 此外, 假設每個主題的情感極性包括消極屬性和積極屬性兩種類型. 因此, 主題與情感的關聯強度會隨時間的推移而發生變化. 通過引入情感層, 可以擴展現有的主題模型, 并使用時間先驗函數分析文本情感與時間的演化關系. 在構建情感模型時還需考慮每個主題的情感極性如何隨時間變化, 以及主題與情感之間的動態共存關系.
1.3 情感挖掘模塊
本文使用的情感挖掘方法參考了文獻[1]提出的模型, 模型結構如圖2所示, 其中γ為情感先驗參數, π為每個主題的情感分布, l為情感標簽, 其他符號的含義同圖1.
圖2 情感挖掘模塊Fig.2 Module of emotion mining
本文情感模塊在進行情感特征挖掘時引入了外部的情感詞典, 為模型中的單詞打上極性標簽. 此外, 本文情感模型在建模時, 基于單詞在不同主題下有不同的極性, 所以假設主題決定情感的極性, 以建立主題與情感之間的關聯.
本文情感挖掘模塊能構建情感層與主題層之間的聯系, 將單詞的生成與情感標簽、 主題標簽相關聯, 對各主題的情感極性進行分析. 情感標注上, 引入了外部的情感詞典, 在情感極性上也只設置了消極與積極兩個因子, 積極的情感極性標簽l的值為1, 消極為0. 為使模型算法能收斂, 其計算條件概率公式如下:
p(zi=z, li=lzi,li,w)∝{n(z)m}i+α{nd}i+Tα·
{n(z,l)d}i+γl{n(z)d}i+∑Sl=1γl·{n(t)z,l}i+β
{nz,l}i+Vβ,(2)
其中w表示單詞, γl表示情感l的先驗參數, n(z)d表示第d篇文檔中指定給主題z的單詞數, nd表示第d篇文檔中的總單詞數, n(z,l)d表示第d篇文檔中指定給主題z和情感l的單詞次數, n(t)z,l表示單詞出現在主題z和情感l中的次數, nz,l表示主題z和情感l下的單詞數, 表示除去第d篇文檔中第i個單詞的計數次數.在情感標簽生成方面, 使用NLTK中的Sentiwordnet情感詞典. 詞典示例列于表1.
在SentiWordNet中, 每個單詞都包含詞性信息, 其中n表示名詞, a表示形容詞, v表示動詞, r表示副詞. 此外, 每個單詞還具有詞條編號以及積極情感得分和消極情感得分. 對于同義詞, 單詞之間存在相同的詞條編號. 在注釋部分, 可以發現單詞的其他信息. 但在實際文本數據中, 一個單詞可能具有多種含義. 例如“good”作為名詞有4種含義, 而作為形容詞則有21種含義, 作為副詞有2種含義. 在本文實驗中, 對每個單詞進行了積極情感和消極情感的標注, 標注過程考慮了單詞的多種含義和詞性, 以確保對情感
傾向的準確評估, 計算公式分別為
posScoreword=∑ni=1Posin,(3)
negScoreword=∑ni=1Negin,(4)
其中n表示單詞所有含義的數量, Posi表示單詞當前第i個含義中的積極情感得分, Negi表示單詞當前第i個含義中的消極情感得分. 若posScoreword≥0.1且posScorewordgt;negScoreword, 則給單詞賦子情感標簽1, 表示積極情感標簽, 若negScoreword≥0.1且negScorewordgt;posScoreword, 則給單詞
賦予消極情感標簽0, 表示消極情感標簽.
1.4 動態挖掘模塊
sToT模型中的動態挖掘模塊整體框架如圖3所示. 與采用Markov假設建模時間序列不同, 該模塊每個主題都與時間戳上的連續分布相關聯. 此外, 對每個生成的文檔, 其主題分布都受文檔時間戳的影響. 因此, 該模塊能挖掘主題隨時間變化的規律.
該模型架構使主題發現不僅受單詞共現影響, 也受時間信息影響. 在建模時會對時間戳進行歸一化, 而不是采用動態Markov假設建模狀態變化序列. 這樣可以使模型在時間上觀察到長期的依賴關系, 也有助于避免Markov模型的風險, 即在主題客觀上存在短暫間隙時錯誤地將其分為兩個主題. 模型的生成過程如下:
1) 采樣出主題分布φz~Dirchlet(β);
2) 對于每篇文檔, 采樣出一個多項式分布θd~Dirchlet(α);
3) 對文檔中每個單詞, 采樣一個主題zdi~Mulitnomial(θd), 采樣一個單詞wdi~Mulitnomial(φzdi), 采樣一個時間數tdi~Beta(ψzdi).
模型采用Gibbs采樣進行近似推理, 需要計算條件概率為
p(zdiw,t,zdi,α,β,ψ)∝(mdz+αzdi-1)·nzdiwdi+βwdi-1
∑Vv=1(nzdi+βV)-1·(1-tdi)1zditdi
2zdi-1B(1zdi,2zdi),(5)
其中: tdi表示第d篇文檔中第i個單詞的時間截; V表示詞典大小; wdi表示第d篇文檔中第i個單詞; nzdiv表示第d篇文檔中第i個單詞v分配給主題z的次數; mdz表示文檔d中主題z出現的次數;1zdi,2zdi表示用于時間建模的Beta分布的兩個參數, 通過矩量法估計. 在時間建模部分, 上述過程中每個單詞都與一個時間戳相關聯. 在訓練數據擬合模型時, 每個訓練文檔中的所有單詞都將被賦予相同的時間戳.
2 動態主題情感模型的生成過程
2.1 參數估計
sToT模型是一個面向帶時間戳的文檔中的單詞的生成模型, 其通過Gibbs采樣過程對參數進行估計, 生成過程如下:
1) 從先驗參數β中采樣出維度為T×S的主題z情感l下的單詞分布φzl~Dirchlet(β);
2) 對每篇文檔d, 從先驗參數a中采樣得到一個主題的多項式分布θd~Dirchlet(α);
3) 對于文檔中的每個單詞wdi: 采樣生成一個主題z~Mulitnomial(θd),采樣生成文檔中每個主題下的情感分布πdz~Dirchlet(γ),
采樣生成情感標簽l~Bernoulli(πdz), 采樣生成單詞wa~Multnomial(4z), 采樣生成時間戳wdi~Multnomial(
φzl), 采樣生成時間戳tdi~Beta(ψzl).
重復步驟d次, 則生成一篇文檔, 整體步驟重復D次, 則生成一個文檔集. 根據sToT模型的生成過程及圖模型可見, 同一文檔中的不同單詞可能會生成不同的時間戳. 但在文檔中的所有單詞應該具有相同的時間戳. 主題模型的推理過程實際上是文檔生成過程的逆向推理. 在實際應用中, 很難精確求得概率分布, 此時需通過概率統計推導獲得文檔的隱含信息. 本文根據文檔的可觀測變量進行逆向推理, 得到主題-情感分布和主題-詞分布. 通常情況下, 主題模型采用近似推斷方法, 主要有Gibbs采樣和變分推斷兩種. 本文采用Gibbs采樣算法.
2.2 模型推導
Gibbs采樣是主題模型參數估計中的一種流行方法, 其通過迭代的方式對復雜的概率統計問題進行求解推導. 當模型經過足夠多次迭代后, 將達到收斂穩定的狀態, 此時再進行迭代就不會產生較大變化. 在穩定狀態下得到的主題-情感分布和主題-詞分布將最接近于文檔的真實分布. 本文通過使用Bayes條件概率公式求解聯合概率分布. 其中, 單詞、 主題、 情感和時間戳的聯合概率可分解為
p(w,t,l,zα,β,γ,μ)=p(wl,z,β)·p(lz,γ)·p(zα)·p(tl,z,ψ).(6)
通過對式(6)中第一項中的隱變量φ積分, 整理后可得
p(wl,z,β)=∫p(wz,l,φ)·p(φβ)dφ=Γ(Vβ)Γ(β)VT·S∏j∏k
∏iΓ(ni,j,k+β)Γ(nj,k+Vβ),(7)
其中Γ表示Gamma函數, i,j,k分別用于循環單詞、 主題、 情感. 以此類推, 第二項整理后可得
p(lz,γ)=∫p(lz,π)·p(πγ)dπ=Γ∑krk∏kΓ(rk)T
·D∏j∏d∏kΓ(nj,d,k+rk)Γ(nj,d+∑krk).(8)
第三項整理后可得
p(zα)=∫p(zθ)·p(θα)dθ
=Γ(T·α)Γ(α)TD∏d∏jΓ(nd,j+α)Γ(nd+T·α).(9)
在動態建模中, 本文未使用離散化時間, 而是采用了連續的Beta分布. 由于時間戳來自連續的Beta分布, 所以對ψ參數的估計, 稀疏性不是一個重要問題. 為簡化和加快計算, 本文在每次Gibbs采樣迭代中都通過矩量法更新Beta分布ψ, 用公式表示為
1zk=tzk·tzk(1-tzk)s2zk-1,(10)
2zk=(1-tzk)·tzk(1-tzk)s2zk-1,(11)
其中z,s分別表示屬于主題z和情感k的時間戳的樣本均值和樣本方差. 整理后并結合式(1), 可推導出第四項公式為
p(tl,z,ψ)=∏d∏i∏kp(tdiψzk)=∏d∏i∏k(1-tdi1zk-1·tdi2zk-1B(1zk,2zk).(12)
綜上, 通過給定所有其他變量, 對主題和情感采樣計算后驗概率分布, 用p表示當前文檔除位置p處單詞的統計次數, 利用式(6)推出后驗概率為
p(lp=k, zp=jw,t,lp,zp,α,β,γ,ψ)=p(w,t,l,zα,β,γ,ψ)p(
wp,tp,lp,zpα,β,γ,ψ)
∝ni,j,k+βnj,k+Vβ·nj,d,k+r
knj,d+∑krk·nd,j+αnd+T·α·(1-td,i)1zk-1·td,i
2zk-1B(1zk,2zk),(13)
其中ni,j,k表示單詞i分配給主題j和情感k的次數, nd,i表示分配給主題j情感k的次數, ni,d,k表示文檔d中分配給主題j和情感k的次數, nd,i表示文檔d中分配給主題j的次數, rk為情感k對應的先驗參數. 根據上述更新規則, 經過一系列Gibbs采樣后, 可根據得到的參數近似計算主題分布β、 主題情感詞分布φ和主題情感分布π, 用公式分別表示為
θd,j=nd,j+αnd+T·α,(14)φi,j,k=ni,j,k+βnj,k+V·β,(15)
πd,j,k=ni,j,k+γknj,d+S·γ.(16)
3 仿真實驗與結果分析
本文實驗中采用了Python語言和Numpy開源的數據計算模塊. 為驗證模型的有效性, 在定量分析方面進行多組對照實驗, 以證明本文設計的模型框架相對于其他模型在性能方面具有一定的優越性. 在定性分析方面, 通過可視化展示結果, 直觀顯示了主題及其對應情感隨時間的演變趨勢, 并結合實際生活進行分析.
3.1 數據集及模型評估指標
3.1.1 數據集獲取
本文實驗所用的數據來自Kaggle平臺中的英文新冠疫情Twitter數據集, 以設定關鍵詞如COVIDUSA,COVID19,Coronavinus,SARSCoV2SocialDistance,washhands,safehandsQuarantineLife在Twitter平臺上進行內容搜索, 結果包含了用戶發表的帖子和帖子建立的時間. 實驗共選擇29 585條文本, 時間跨度為2020-03-03—2020-04-29.對爬取原始文本數據進行遍歷構建停詞表去停詞、 詞性還原、 刪除標點符號并進行分詞操作. 經過上述操作的英文文本預處理和整合后, 英文Twitter數據集部分示例列于表2.
3.1.2 模型評估指標
為評估模型性能, 本文主要使用困惑度(Perplexity)作為評價指標. 在信息論的測量中, 困惑度被用來度量一個概率分布或概率模型對樣本的預測能力, 用于比較不同主題模型的性能. 模型困惑度越低, 表示主題模型性能越好. 困惑度的計算公式為
Perplexity(D)=exp-∑nw=1log p(w)∑Md=1Nd,(17)
其中D表示文檔集合, M表示文檔總數, p(w)表示文檔中單詞出現的概率, Nd表示第d篇文檔中的單詞數.
3.2 模型的評估
3.2.1 定量分析
主題情感模型的超參數值選擇十分重要. 在模型性能驗證對比實驗中, 采用常用的參數設置方法, 包括主題先驗參數、 主題情感詞先驗分布參數和情感先驗分布參數. 實驗主要對比本文模型與如下幾種當前挖掘主題情感的代表性主題模型的性能.
1) LDAM: 使用潛在Dirichlet分布的概率模型, 起到推測文檔主題分布的作用, 通過概率分布的方式呈現出文檔主題, 從而進行主題聚類.2) JSTP: 一個基于潛在Dirichlet分布的概率模型, 用于探討文檔主題情感的模型, 對文本中的主題和情感進行檢測, 研究文檔級情感分類的主題情感模型. 模型中, 情感標簽與文檔相關聯, 主題與情感標簽相關聯, 單詞與情感標簽和主題兩者相關聯.
3) Sentiment-LDA: 一個假設情感與主題相關的主題情感模型, 模型中一個單詞的情感特征取決于所屬的主題, 不僅可以對文檔的整體情感進行分類, 還可以計算每個主題的情感特征.實驗中, 本文比較了不同主題數對不同模型性能的影響. 設主題數分別為50,60,70,80,90和100. 圖4為本文模型與不同基線模型在不同主題數下的困惑度數值比較. 由圖4可見, 本文模型性能最好. 導致模型性能差異的主要原因是基線模型僅考慮了文本中的情感信息或主題, 而忽視了文本的時間屬性. 因此, 這些方法在建模過程中存在較大的困惑度. 而本文模型在主題情感模型的基礎上, 利用Beta分布對所有數據的時間戳信息進行建模, 使模型能更好地捕捉Twitter文本中的主題情感演化過程, 并進一步提高了模型性能.
3.2.2 定性分析
為進一步驗證主題情感模型的有效性, 下面從時間演化視角以及主題情感挖掘兩方面進行驗證. 定性分析結果顯示, 結合概率分布可以展示排名靠前的情感傾向、 情感詞和主題詞. 設主題數量為50個, 表3列出了從數據集中提取的部分主題情感詞示例. 由表3可見, 本文模型能很好地從文本數據中挖掘出主題及其情感特征.
其中許多熱點主題, 如戴口罩、 居家令以及疫情期間人們的恐慌等, 都得到很好地提取.經過可視化后, 圖5顯示了表3中4種主題-情感隨時間的演變過程.
結合表3中主題情感詞聚類示例結果可得以下信息:
1) 主題z1描述了在頒布居家隔離政策后, 人們的心理活動變化. 消極情感中出現了quaranti,challenge等詞, 可得出隔離是一種挑戰, 而積極情感中出現stayathome,music,love,listen,study, 可得出隔離可以聽音樂, 也可以學習, 并且人們十分享受這樣的狀態. 由圖5可見, 消極情感增長明顯比積極情感快, 并在3月底達到高峰, 遠高于積極情感, 說明人們隨著時間變化對居家隔離政策呈抵觸態度.2) 主題z2描述了人們對封城令的情感態度. 積極情感中出現了protect,reduce單詞, 得出封城有助于保護民眾健康, 減少了疫情的擴散. 而消極情感中出現了old,scari等詞, 得出封城政策使民眾感到害怕. 由圖5還可見, 兩者增長趨勢基本一致, 但在3月底時消極情緒顯然明顯高于積極情緒, 因此反應出人們更多的還是恐懼和害怕.3) 主題z3描述了疫情期間美國政府對2020年大選的態度, 積極情感中出現right,boost,belif, 得出對于大選持有支持態度, 而消極情感中出現warn,bad,improper, 得出這類情感認為大選不合時宜且十分糟糕. 由圖5可見, 兩種情緒無論是增長態勢還是高峰期都類似, 反應出人們對疫情下的美國大選無論是支持還是反對都顯現出對峙的形式.4) 主題z4描述了人們對疫情中商店關門的情感. 積極情感中出現love,survive,killcovid單詞, 可以得出民眾對遏制新冠和存活的渴望, 消極情感中出現march,pinch, 得出人們對商店關門的抵觸. 總體而言, 積極情感強度高于消極情感強度, 說明更多的人還是希望商店關門、 減少流動, 從而緩和疫情.
綜上所述, 針對目前已有的相關主題模型中, 對大眾情感因素考慮不足, 難以精準挖掘, 同時對社交文本的實時動態演化考慮弱化了模型聚類能力的問題, 本文提出了一種基于動態主題情感的文本聚類模型, 該模型在傳統主題模型的基礎上通過增加情感層提取文本中主題的情感極性特征, 增強了文本特征的情惑區分度. 此外, 引入了時間先驗分布函數, 使主題和對應的情感極性聯合生成觀察到的時間戮和單詞, 使模型建模了時間變化對主題的影響. 在真實新冠疫情Twitter文本數據集上的實驗結果表明, 本文模型性能優于基線模型, 從而驗證了本文模型的有效性.
參考文獻
[1]LI Y H, FENG L Q. Opinion Mining for Multiple Types of Emotion-Embedded Products/Services through Evolutionary Strategy[J].Expert Systems with Application, 2018, 61(4): 1874-1883.
[2]AVCI U. A Pattern Mining Approach for Improving Speech Emotion Recognition[J].International Journal of Pattern Recognition and Artificial Intelligence, 2022, 23(4): 37-45.
[3]ARYA A, SHUKLA V, NEGI A, et al. A Review: Sentiment Analysis and Opinion Mining[J].International Journal of Research in Engineering and Applied Science, 2016, 6(10): 16-21.
[4]GU Z Y, LIN Y, DAI Y H, et al. Research on Online Emotion of COVID-19 Based on Text Sentiment Analysis[J].International Journal of Computational Science and Engineering, 2022, 25(4): 460-466.
[5]LIU B Y, WANG C R, WANG Y R, et al. Microblog Topic Mining Based on FR-DATM[J].Chinese Journal of Electronics, 2018, 12(9): 241-246.
[6]RANGANATHAN J, TZACHEVA A. Emotion Mining in Social Media Data[J].Procedia Computer Science, 2019, 159(9): 58-66.
[7]LUNA D S, BERING J M. Varieties of Awe in Science Communication: Reflexive Thematic Analysis of Practitioners’ Experiences and Uses of This Emotion[J].Science Communication, 2022, 44(3): 347-374.
[8]ZHANG Y X, CHEN J R, LIU B Y, et al. COVID-19 Public Opinion and Emotion Monitoring System Based on Time Series Thermal New Word Mining[J].Computers, Materials amp; Continua, 2020, 64(3): 1415-1434.
[9]XUE R R, HUANG S, LUO X, et al. Semantic Emotion-Topic Model Based Social Emotion Mining[J].Journal of Web Engineering, 2018, 17: 73-92.
[10]MATHEW M K, SURYA R, ROSHAN J O, et al. Emotion Recognition Systems and Emotion Correlation Mining[J].International Journal of Engineering Research amp; Technology, 2021, 9(7): 24-28.
[11]VINLUAN A, GONEDA M, ATIENZA F A L, et al. Opinion to Emotion Mining: A Sentiment Analysis towards Super Typhoon Ompong[J].SSRN Electronic Journal, 2021, 11(1): 20-31.
[12]CASILLAS L A, ALEJANDRO R. Emotion Mining Mechanism over Texts in Social Media[J].Research in Computing Science, 2019, 148(7): 227-240.
[13]RAU' L O B, RAMN Z C, LUCA B E M, et al. Opinion Mining and Emotion Recognition in an Intelligent Learning Environment[J].Computer Applications in Engineering Education, 2019, 27(1): 90-101.
[14]BHAGATG V P. Emotion Extraction Using Ensemble Classification Model in Data Mining[J].International, Organization of Scientific Research, 2018, 8(12): 14-22.
[15]PLAZA-DEL-ARCO F M. Lexicon Adaptation for Spanish Emotion Mining[J].Procesamiento de Lenguaje Natural, 2018, 7(5): 661-671.
(責任編輯: 韓 嘯)