999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于HMM的話題風險狀態預測方法研究

2023-05-19 07:54:38蔡婷婷朱恒民
計算機技術與發展 2023年5期
關鍵詞:模型

蔡婷婷,朱恒民,2,魏 靜

(1.南京郵電大學 管理學院,江蘇 南京 210003;2.江蘇高校哲學社會科學重點研究基地—信息產業融合創新與應急管理研究中心,江蘇 南京 210003)

0 引 言

互聯網社交媒體是用戶發布、傳播和獲取海量話題信息的重要平臺。網絡話題是在不斷演化的,話題的迅速發酵與擴散會引發網絡輿論,甚至是輿情危機。話題的狀態可用于描述話題本身的發展趨勢和輿論爆發的風險性,對話題的狀態演化趨勢進行預測有助于輿論監管部門及時采取措施,避免引發輿情危機,進而實現社交網絡信息傳播的有效監管。

話題演化是對已有話題隨著時間演化情況進行的分析[1-2]。話題的狀態演化屬于話題演化分析的研究范疇,已有工作多是基于生命周期的視角來回溯話題狀態的演化過程。Chen等提出一種基于生命周期的老化理論,將話題發展分為萌芽、生長、衰退和消亡四個周期,并將其與傳統的single-pass聚類算法相結合,自適應地檢測和跟蹤在線序列話題事件[3];賈亞敏和曹樹金等結合話題生命周期理論將話題狀態分為起始、爆發、波動和平息四個階段,探索每個階段的話題演化規律[4-5]。部分學者通過定義指標來回溯話題所處的生命周期階段:Y.Tu等基于老化理論提出新穎指數,并結合已發表量指數來探測處于生命周期新生階段的熱點話題[6];Collon等基于共詞分析法提出了向心度和密度兩個指標,用于評價科技文獻主題的重要性和成熟度[7];劉自強等基于這兩個指標,通過平面坐標映射法將科技文獻主題劃分為新生、成長、收縮、消亡四個生命周期階段,以期描述主題在整個生命周期的演化過程[8]。相對于科技文獻中的專業詞匯,網絡自由文本中包含了大量同義、近義等具有復雜語義關系的詞匯,且詞之間的共現頻率較低,因此共詞分析法并不適用于復雜語義關系的自由文本。

關于話題演化趨勢的預測,現有工作多是通過時間序列預測話題熱度等指標來分析話題的演化趨勢:馬曉寧基于粒子群算法優化的BP神經網絡方法對話題熱度進行趨勢預測[9];劉晨等融合LSTM與卷積神經網絡方法預測話題的熱度趨勢[10]。然而關于話題在未來時刻狀態趨勢預測的已有研究相對較少。范云滿等在Y.Tu等[6]的研究基礎上新增被引量指標,并利用多項式擬合曲線的方法預測話題狀態趨勢[11];Kong等結合與話題相關的各動態因素的貢獻和模式匹配的方法,從微觀和宏觀兩個層面探索話題流行度狀態在未來的發展趨勢[12]。隱馬爾可夫模型(Hidden Markov Model,HMM)作為一種成熟的概率統計模型,能考慮時間序列的影響,在描述對象統計特性的動態隨機過程上面具有突出優勢[13],已經成功應用于手勢識別、壽命預測等領域[14-15]。話題狀態演化可看作是由話題內部狀態和外部觀測特征構成的一種雙重隨機過程,它適用于HMM模型,已有少量研究工作將HMM運用于話題狀態趨勢預測中。Zeng等基于話題內容相似度對輿情話題進行分類,并基于HMM構建話題預測模型來預測話題生命周期階段[16];Liu等以博文數量和增長率作為觀測指標,運用HMM對多個話題分別構建狀態預測模型并建立模型庫,通過人工判別待預測話題與模型庫中已有話題是否相似,從而選擇相應模型預測話題未來的生命周期階段[17]。上述工作提出的話題狀態預測模型人工干預量和預測誤差較大。而且,話題生命周期受多方面因素和偶發情況影響,準確預測話題未來的生命周期狀態具有較大的挑戰性。

綜上所述,目前相關工作多是從生命周期的視角來回溯話題狀態的演化過程,對演化中的話題在未來時刻的狀態趨勢預測研究較少。該文從話題預警的視角,基于向心度和密度指標將演化中的話題劃分為不同等級的風險狀態;基于word2vec模型[18]計量狀態指標,解決了共詞分析法不能有效處理網絡自由文本中的復雜語義這一問題;基于HMM提出話題未來時刻的風險狀態趨勢預測方法,為話題的有效預警提供科學依據。

1 話題風險狀態定義

話題狀態是對話題當前及潛在影響力的度量,它描述了話題本身的發展趨勢和引發輿論危機的風險性。從話題預警的視角將話題狀態劃分風險等級,可以直觀地刻畫話題引發輿論危機的風險程度,也是下一階段話題趨勢預測的目標。

Collon等[7]針對科技文獻主題提出向心度和密度兩個指標,向心度表示主題與其他主題關聯的強弱,向心度越大,該主題越接近議題的“中心”,因此向心度反映了主題的重要性。密度表示構成主題的特征詞之間的緊密程度,在主題演化的過程中,主題在內容上從分散逐漸收斂,密度也隨著增大,因此密度反映了主題的成熟度。向心度和密度可被借鑒來度量網絡話題當前及潛在的影響力,該文采用這兩個指標來刻畫話題的風險狀態,進而對話題可能引發輿論危機的風險等級進行劃分。考慮到網絡自由文本包含同義詞、近義詞等復雜語義關系,區別于文獻[7-8]中采用共詞分析法計算話題向心度和密度,該文基于word2vec模型計量兩個指標值。

1.1 向心度指標計量

在描述網絡話題時,向心度是指一個話題與其他話題關聯的強弱程度。向心度越大說明話題與其他話題關聯越強,該話題在所有話題中越接近于“中心”位置,越容易受到網民的關注,從而容易引發輿論危機,因此向心度可以反映話題的風險狀態。

基于word2vec模型,通過計算兩話題之間特征詞的相似度來衡量話題之間的關聯程度,話題與其他話題特征詞的相似度越高,話題的向心度值越大。假設Ti是基于LDA模型提取出的話題,則其可表示成Ti=[(wi1,ti1),(wi2,ti2),…,(wim,tim)],其中tik和wik分別表示構成話題Ti的第k個特征詞及其權重,m是特征詞的數量;令vik是由word2vec模型訓練出的特征詞tik對應的向量,則兩話題Ti與Tj之間的相似度Sim(Ti,Tj)可由式(1)計算可得。

Sim(vik,vjx)

(1)

其中,Sim(vik,vjx)為向量vik和vjx之間的余弦相似度,|Ti|和|Tj|分別為話題Ti和Tj的模,計算公式如下:

(2)

設Tset為所有話題的集合,即Tset={T1,T2,…,Tn},則話題Ti的向心度Ci可由話題Ti與其他話題之間相似度的均值求得,即:

(3)

由式(3)可知,話題向心度Ci的值域為[0,1]。當Ci=1時,表明話題Ti與其他所有話題均有強關聯,位于最“中心”;當Ci=0時,該話題與其他所有話題毫無關聯,為整個話題空間的孤立點。

1.2 密度指標計量

在描述網絡話題時,密度是指話題內特征詞之間的緊密程度。圍繞話題展開的討論越集中,話題會越聚焦,特征詞之間的緊密度越高,密度值越大,話題也會趨于成熟。因此,話題的密度反映了話題討論的集中程度,也是話題風險的表征指標之一。

該文采用話題內部特征詞之間的相似度來衡量其緊密程度,話題內特征詞之間的相似度越高,話題的密度值越大。話題Ti中第k個特征詞wik與其他特征詞之間的平均相似度Aik由式(4)計算可得。

(4)

話題的密度可用各個特征詞的加權平均相似度表示,如式(5)所示。

(5)

由式(5)可知,話題密度Di的值域為[0,1]。Di值越大,表明話題Ti中的特征詞語義越趨于集中;反之,則話題中的特征詞語義越趨于分散。

1.3 話題風險等級劃分

正如上文所述,向心度和密度分別從不同的角度反映了話題引發輿論危機的風險。借鑒科技文獻中劃分主題狀態的方法——平面坐標映射法,將話題的向心度和密度分別作為平面坐標系的橫軸和縱軸,并將兩個指標的均值作為坐標原點,則可以把話題的狀態空間劃分為四個象限,分別對應了話題的四種風險狀態,如圖1所示。

圖1 基于向心度、密度兩個特征劃分的話題狀態類別

(1)I級風險狀態:話題的向心度和密度均較低,意味著該話題與其他話題關聯弱,處于議題的邊緣位置,且話題討論分散,不聚焦,難以引發輿論危機,因此該類話題定義為I級風險狀態。

(3)III級風險狀態:話題的密度較低,但向心度較高,意味著雖然該話題討論不夠聚焦,尚未成熟,但與其他話題關聯強。隨著圍繞該話題展開的討論增多,話題內容趨向聚焦,很容易在全網范圍內引發輿論危機,因此該類話題定義為III級風險狀態。

(4)IV級風險狀態:話題的向心度和密度均較高,意味著該話題與其他話題關聯強,處于議題的“中心”位置,且話題聚焦,討論集中,極易引發全網范圍內的輿論危機,因此該類話題定義為IV級風險狀態。全民關注的熱點與焦點話題往往屬于該類風險狀態。

相對于I級和II級風險狀態,III級和IV級風險狀態話題引發輿論危機的可能性較大,政府和輿論監管部門需要格外關注話題走向,必要時采取預警措施,干預話題進一步擴散,營造良好的網絡輿論氛圍。

2 話題風險狀態預測方法

話題風險狀態預測方法是根據當前時刻的話題觀測數據預測出下一時刻話題所處的風險狀態。話題狀態隨著時間推移不斷演化,雖然無法直接觀察到話題狀態,但可以通過向心度、密度等觀測指標來反映。因此,話題狀態演化過程是由外部觀測指標反映內部話題狀態的雙重隨機過程,可用隱馬爾可夫模型描述。

2.1 模型構建

隱馬爾可夫模型是一個雙重隨機過程,一個過程是描述隱藏狀態轉移的馬爾可夫鏈,另一個過程是描述隱藏狀態與觀測狀態之間的映射關系[19]。圖2描述了一段時間內隱藏狀態之間的轉移關系及隱藏狀態與觀測狀態之間的對應關系。

圖2 話題風險狀態轉移序列與觀測序列關系

該文基于HMM構建話題風險狀態模型,模型參數描述如下:隱馬爾可夫模型可用參數λ={π,A,B}來表示,話題風險狀態預測模型參數選取及模型訓練的初始值設置描述如下:

(1)隱藏狀態集合S:S={s1,s2,s3,s4},s1、s2、s3、s4分別對應話題的I級、II級、III級、IV級風險狀態,狀態數量N=4。令話題在t時刻的狀態為qt,qt∈S。

總之,在小學體育課堂,運用情景教學的最終目的就是激發學生的體育學習熱情,讓體育教育真正受益于學生,而不只是讓小學體育課變成課程表上的一個擺設。因此,作為體育教師,要積極運用情景教學進行教學,同時還需要引導學生進入情景中,感受體育課堂的豐富與樂趣,鍛煉學生的體育技能,培養積極健康的心態以及形成正確良好的體育觀念。

(2)觀測序列O:O={o1,o2,…,ot},表示在1~t時間段內由話題各時刻二維觀測值組成的觀測序列,ot表示t時刻下話題T的向心度和密度值組成的二維觀測值。

(5)觀測狀態概率分布B:B={bi(ot)} ,bi(ot)=P(ot|qt=si)。其中,bi(ot)為t時刻隱藏狀態為si對應觀測狀態為ot的概率。當HMM的觀測值為連續值時,狀態si生成觀測狀態的概率可以用高斯模型 (Gaussian Model,GM)來擬合,即隱藏狀態si對應的觀測值服從均值為ui、協方差為Σi的二元高斯概率密度函數,如式(6)所示。該文將話題在四類風險狀態下對應的二維觀測數據的平均值和協方差作為模型初始均值和協方差。

(6)

文中話題風險狀態預測方法是將各個風險狀態下對應的觀測序列數據作為該狀態的表征,分別針對不同的話題風險狀態構建HMM模型,從而預測話題演化過程中風險狀態的變化趨勢,它能夠避免原有模型[17]對不同類型話題建模導致模型普適性較低的問題,彌補話題生命周期波動性較高帶來的模型穩定性較低的不足。根據平面坐標映射方法,提取出各個風險狀態下對應的多條觀測序列,作為HMM模型的訓練數據,對四類話題風險狀態進行模型訓練,以期提高模型穩定性和預測效果。

2.2 模型訓練

將風險狀態si下的全部觀測樣本序列表示為O(si),作為各話題風險狀態模型的訓練數據,并利用Baum-Welch算法(EM算法)訓練模型,得到模型集合為HMMs={HMM1,HMM2,HMM3,HMM4},對應參數集Ω={λ1,λ2,λ3,λ4},將EM算法的最大迭代次數設置為100,收斂閾值為0.001,經過多次迭代后得到每個模型的最優重估參數。模型訓練過程如圖3所示。

圖3 各個話題狀態的模型訓練過程

2.3 話題狀態預測

3 實驗與分析

3.1 數據來源及預處理

以“疫情、肺炎、新冠”為關鍵詞爬取微博數據,時間跨度為2019年12月31日至2020年5月19日,獲得微博數據共307 932條。對數據進行清洗、分詞等預處理,運用LDA算法進行話題識別,采用主題一致性指標確定最佳話題數為6。實驗以周為時間單位,計算每個話題在時間跨度為20周的向心度和密度指標值,得到總共120條數據。將120條數據映射到坐標系中,獲得屬于I級、II級、III級、IV級風險狀態的觀測序列數據分別為24條、35條、24條和37條。

3.2 實驗結果分析

觀測數據盡管不多,但基本上反映了國內疫情大范圍爆發那段時期的微博話題討論情況。實驗采取K折交叉驗證法(K-fold Cross Validation)對實驗結果進行評估,K取值為4。將120條數據序列分成4等份,每次都取其中的3份(90條觀測數據)作為訓練集,取剩下的1份(30條觀測數據)作為測試集。如此循環4次,在每一次交叉驗證中,利用訓練集數據中屬于各風險狀態的觀測數據對各個狀態訓練HMM模型,再利用測試集數據進行狀態預測。

表1 采用話題風險狀態方法的混淆矩陣

該文采用t+1時刻的二維觀測數據預測值與實際值的誤差來評估模型預測效果,選取平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為模型預測精度的評價指標。MAPE的計算方式如式(7)所示。

(7)

其中,n為預測次數,Rt+1為t+1時刻的實際值,Pt+1為t+1時刻的預測值。經過計算得出,模型預測的向心度值MAPE為14.13%,密度值MAPE為11.99%。向心度與密度的實際值與預測值對比如圖4所示,其中兩個指標的預測值與實際值趨勢一致,相比向心度,密度值的預測誤差更小。

圖4 話題狀態預測模型的向心度和密度 預測值與實際值對比

根據預測出的t+1時刻觀測值判別話題風險狀態后,得出話題風險狀態預測的混淆矩陣,如表1所示。該方法預測風險狀態的平均準確率為92.11%,其中,III級和IV級風險狀態更具現實意義,兩種狀態預測準確率均達到86%以上,說明該預測方法能夠有效捕捉話題引發輿論危機的風險性。

3.3 對比驗證

為驗證該研究方法的準確性和有效性,采用BP神經網絡(BPNN)模型、LSTM模型、RNN模型進行對比實驗。選取數據預處理得到的6個話題前10周觀測值為訓練集,將后10周觀測值作為測試集評估預測效果。實驗采用精確率、召回率與F1值進行模型評估,結果如表2所示。

表2 實驗模型效果對比

從實驗結果可以看出,對于文中的話題數據集,HMM、BPNN、LSTM和RNN模型得到的準確率、召回率和F1值均高于80%。其中,HMM模型得到的話題風險狀態預測的F1值達到90.26%,相較于適用較大數據量的神經網絡模型,HMM模型在預測話題風險狀態時更具有優勢。

4 結束語

為了預測處于演化過程中的話題狀態趨勢,從話題預警的視角,基于向心度和密度指標將演化中的話題劃分為不同等級的風險狀態,為話題狀態劃分提供了新思路。由于話題狀態演化過程是由外部觀測指標反映內部話題狀態的雙重隨機過程,該文基于HMM提出話題風險狀態預測方法,以新冠肺炎疫情事件為例進行了驗證。實驗結果表明,該方法預測風險狀態的平均準確率為92.11%,相對于BP神經網絡、LSTM以及RNN時間序列預測模型,該方法預測話題風險狀態的誤差更小。基于HMM的話題風險狀態預測方法為輿情監管部門及時預警話題風險性提供了科學依據。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 无码一区二区三区视频在线播放| 久久精品亚洲热综合一区二区| 亚洲综合欧美在线一区在线播放| 又大又硬又爽免费视频| 国产在线视频自拍| 在线a视频免费观看| 欧美日韩亚洲综合在线观看| 亚洲成人在线网| 日韩欧美中文| 免费A∨中文乱码专区| 99久久精品久久久久久婷婷| 99久久精品国产自免费| 国产视频大全| 亚洲人人视频| 久久婷婷六月| av大片在线无码免费| 亚洲美女久久| 亚洲第一色视频| 国产精品视频a| 中文纯内无码H| 国产欧美视频一区二区三区| 久久动漫精品| 国产福利拍拍拍| 久久人体视频| 毛片久久网站小视频| 天天综合网在线| 91偷拍一区| 亚洲欧美另类日本| 国产精品免费p区| h视频在线播放| 免费看a级毛片| 国产成人高精品免费视频| 亚洲天堂视频网站| 狼友av永久网站免费观看| 丁香六月激情综合| 亚洲av日韩av制服丝袜| 亚洲色无码专线精品观看| 亚洲国产黄色| 国产成人a在线观看视频| 久久亚洲日本不卡一区二区| 午夜小视频在线| 潮喷在线无码白浆| 亚洲国模精品一区| 91色在线观看| 日韩天堂网| 国产小视频在线高清播放| 欧美日韩精品一区二区视频| 成人午夜天| 亚洲视频在线网| 精品综合久久久久久97超人该| 亚洲v日韩v欧美在线观看| 国产18在线播放| 欧美午夜视频| 啪啪啪亚洲无码| 丝袜亚洲综合| 无码内射中文字幕岛国片| 欧美成人精品一级在线观看| 久久香蕉国产线看精品| 天堂中文在线资源| 亚洲国产高清精品线久久| 香蕉网久久| 又黄又爽视频好爽视频| 亚洲精品日产精品乱码不卡| 欧美一区二区三区不卡免费| 天堂亚洲网| 亚洲无码91视频| 欧美va亚洲va香蕉在线| 四虎精品黑人视频| 欧美性猛交xxxx乱大交极品| 亚洲欧洲日产无码AV| 亚洲a级毛片| 九色视频在线免费观看| 无码精品国产VA在线观看DVD| 综合人妻久久一区二区精品| 午夜色综合| 九色91在线视频| 日韩激情成人| 国产爽爽视频| 国产日韩丝袜一二三区| 国产精品女熟高潮视频| 久久精品人人做人人爽| 四虎影院国产|