999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯網絡的智能輿情分析監控技術研究

2021-06-14 13:02:36楊寒冰王春玲
電子設計工程 2021年10期
關鍵詞:特征文本情感

楊寒冰,王春玲

(西安航空職業技術學院,陜西西安 710089)

隨著各種智能移動終端設備的普及與移動無線技術的快速發展,人們可以隨時隨地使用各種類型的社交軟件分享實時新聞、自身的情緒等信息,尤其是在校學生等年輕群體[1-2]。近年來,高校擴招使得學生人數逐年增多,熱衷于網絡社交的大學生也成為了網絡輿情的主要傳播者之一。這些社交軟件的用戶在發布信息時,會通過社會關系網絡使信息得到快速傳播。這些信息不可避免地會夾雜著用戶對事件的感情傾向和政治傾向,一旦得到大多數人的關注便會形成輿情[3-5]。使用相關技術挖掘網絡社交軟件信息背后隱藏的情感傾向與政治傾向,對網絡輿情分析和監控具有重要意義[6-7]。

輿情分析與監控的目的是對人們日常生活中的熱點話題進行監督和檢測。高校匯集了大量的年輕人,他們對事物的判斷力有待提高,社會經驗相對不足,相似的學習經歷使得彼此之間具有極大的號召力。個別學生片面的評論和見解容易引發同齡人的追捧,甚至引發輿論。因此,高校成為輿情監控的重要環節之一。

輿情分析的關鍵在于分析網絡信息背后的情感,情感分析是融合統計學、計算機科學、文學等多門學科的技術[8-10]。由于網絡信息量較大,采用傳統人工統計的方式存在效率低等問題。此外,社交軟件上的信息主要為文本形式,對于文本數據的特征提取也影響信息挖掘效率[11-12]。近年來,機器學習技術被廣泛應用在大數據分析的場景中。作為人工智能的一個分支,機器學習進一步提高了處理海量、異構數據的效率。基于機器學習的情感分析主要分為兩種:有監督學習與無監督學習方法[13-16]。

針對該問題,文中首先對網絡社交信息情感類型進行分析,將情感傾向分為負面貶義、中立與正面褒義3 類。并對社交網絡的文本信息進行預處理,通過與情感詞典對比進行分詞操作;并使用樸素貝葉斯網絡做情感傾向分詞器;最終使用堆疊降噪自編碼器來進一步降低詞向量的維度,以提高輿情分析監控模型的運行速度和準確率。

1 技術總體框架

智能輿情分析與監控技術主要涉及兩個方面:網絡熱點話題的識別和情感傾向分析及判定。熱點話題被定義為在短時間內迅速成為公眾關注的對象,并保持著討論時間較長的話題。熱點話題一旦形成,其事件走向會引發眾多公眾的討論。當負面情緒積累到一定程度時,便會引發輿論。因此,智能輿情分析監控技術首先要將熱點話題的相關文本信息進行情感傾向分析與判定。

基于貝葉斯網絡的智能輿情分析監控技術總體框架如圖1 所示。社交網絡中的主要信息格式為文本,文本情感傾向性分析與判定則是對公眾文本形式的評論進行分析,從而判定某些群體對熱點話題的看法或情感傾向表達。首先,進行文本數據預處理;其次,進行特征提取并表達;最終,利用融合后的特征輸入至樸素貝葉斯網絡分類器中。針對輿情分析,文中將情感傾向分為負面貶義、中立與正面褒義3類。

圖1 基于貝葉斯網絡的智能輿情分析監控技術總體框架

2 智能輿情分析監控技術

2.1 文本信息預處理

文本預處理要保證獲取到的樣本有效信息比例高,并有利于進行文本特征的提取。文本信息預處理主要分為文本清洗、分詞、詞性標注及停用詞去除4 個部分。

文本清洗是指檢查文本內容,刪除無效、重復、錯誤的文本信息。在獲得文本樣本后,通常存在重復、無實際意義的文本、亂碼字符以及繁體字與簡體字混雜的現象。使用文本相似度計算算法來剔除重復的信息,通過正則表達式識別剔除無效的文字,調用Python 中的Opence 類庫進行繁體、簡體文本轉換。中文文本中最小情感表示單元為詞匯,因此,需要將每一個語句中的詞匯進行剖分與識別。

由于同一個詞匯在不同的上下文中有不同的詞性,因此,需要對每個詞匯進行詞性標注,文中使用Jieba 分詞器進行分詞與詞性標注。Jieba 分詞器采用基于詞典的字符串匹配分詞方法,具體流程如圖2所示。該方法對待分詞的語句樣本進行逐字掃描,掃描可分為正向與反向。將劃分出來的詞與詞典里的詞匯進行對比,匹配成功后匯入詞序列,匹配失敗則重新進行分詞。

圖2 基于詞典的字符串匹配分詞法流程

明確詞性后,需要去除語句中介詞、助詞、代詞及語氣詞,這些種類的詞語并不具有情感傾向,去除后有助于降低文本特征的維度。

進過預處理后,即可進行文本特征的提取。通常字與詞匯可構成語句最基本的特征,然而,此特征維數較高,不利于后面文本識別時運算與分類效率的提高。因此,需要將關鍵特征提取出來。文中采用互信息法來進行特征的提取,互信息被定義為某隨機變量中含有另一個隨機變量的信息量。根據概率學原理,當某個特征與分類為相互獨立關系時,這兩者的互信息為0。文中特征項x與分類c的互信息表示兩者的關聯程度,可用式(1)進行計算。

其中,I(x,c)表示x、c之間的互信息;P(x,c)表示x、c共同出現的概率;P(x)表示x出現的概率;P(c)表示c出現的概率。

使用互信息將關鍵特征提取后,還需要明確該特征對文本分類結果的重要程度,即特征權重。文中使用TF-IDF 算法來計算特征權重如式(2)所示。

式(2)中,tfik表示文檔中特征tk出現的比例,idfk表示在所有文檔中tk出現的比例倒數。

2.2 基于樸素貝葉斯的文本情感傾向分類器

為了適用于樸素貝葉斯網絡,文中改進了情感詞典的構建結構,如圖3 所示。文中將詞典情感分為3 類:褒義、中性與貶義。除了情感傾向的區分,還需考慮情感傾向的程度。對于待判斷的詞匯首先判斷其是否屬于已有情感詞典,若存在,則直接計算情感均值;若不存在,則先判斷情感極性,再計算情感權值,最終得到情感均值并更新至情感詞典中。

圖3 情感均值計算流程

假設一段文本D的情感分類集合為{c1,c2,…,cn},將其中文本條件概率最大的情感分類定義為該文本的類。布爾值在DF向量法中作為文本向量的分量,其數值可表征某特征是否在文本中出現,1 表示出現;0 表示未出現。因此,某情感類別c出現的概率如式(3)所示。

式(3)在計算時,若存在某個分類值在訓練集合中未與某個分類同時出現的情況,則計算得到的概率值為0。而這種情況與現實情況相矛盾,因此需要進行平滑處理。文中使用拉普拉斯修正法進行樸素貝葉斯網絡的平滑處理,如式(4)所示。

其中,N表示文本D中可能出現的情感分類總數,Ni表示第i個分類可能的概率取值。

2.3 輿情分析監控模型

上文利用樸素貝葉斯網絡構建了情感傾向分類器,使用該分類器可進行各個詞匯的情感傾向判斷,進而判斷輿情的走向,實現分析與監控。然而,若直接將文本中分好的詞匯提取到的特征輸入至分類器中,則會產生極大的計算量。因此,需要進一步構建輿情分析監控模型來降低特征的維度,并快速分析詞向量特征與情感傾向之間的聯系。

文中使用深度學習來降低詞向量特征的維度,同時,融合樸素貝葉斯網絡情感傾向分類器實現詞匯情感分類。由于社交文本數據經過預處理后仍會存在一定量的口語詞,即引入了一定的噪聲,因此,文中使用堆疊降噪自編碼器實現特征降維。降維后的數據被傳輸至樸素貝葉斯情感分類器中,通過將人工標注的數據傳入該情感分類器中來修正樸素貝葉斯網絡的權重參數,同時,通過反向傳輸來修正堆疊降噪自編碼器的權重參數。具體框架結構如圖4、圖5 所示。

圖5 融合堆疊降噪自編碼器的情感傾向識別模型

圖4 融合堆疊降噪自編碼器的情感傾向識別結構

融合堆疊降噪自編碼器的情感傾向識別模型含一層輸入層、多層隱藏層及兩層輸出層。由于社交網絡中信息量較大,需要多層隱藏層來深度挖掘詞向量特征暗含的信息。然而,為了避免模型過于復雜,則降低計算量。文中隱藏層采用三層堆疊降噪自編碼器的形式,即每一層隱藏層均是一個降噪自編碼器。輸出層融合了樸素貝葉斯情感分類器,有褒義、中性、貶義3 種情感極性輸出。

3 測試與驗證

為了驗證文中所述方案的有效性與可行性,使用Eclipse 平臺進行測試實驗。實驗采用的文本數據來自COAE-2020 微博數據測評集,其中情感傾向為褒義、中性與貶義的文本樣本均為500 條。實驗組設置成由文中所述的融合堆疊降噪自編碼器與樸素貝葉斯分類器的輿情分析監控模型,對照組為融合堆疊降噪自編碼器與Softmax 分類器的輿情分析監控模型。首先,驗證文中所述方案情感識別的有效性與準確率,分別抽取褒義、中性與貶義文本各100 條,進行人工標注訓練;另各抽取50 條文本做測試樣本,檢驗模型預測結果與人工判定結果的差異。具體結果如表1 所示。

表1 情感極性測試結果

從圖6 可以看出,文中所述融合堆疊降噪自編碼器與樸素貝葉斯分類器的輿情分析監控模型的準確率整體上優于對照組。隨著詞向量維數的增加,實驗組和對照組的準確率均有所下降;而維數增加到310 后,兩者的準確率又逐步上升。但使用樸素貝葉斯分類器模型處理高維數的特征向量時,具有更高的準確率。

圖6 文中所述樸素貝葉斯分類器與Softmax分類器不同詞向量維數準確率對比

4 結束語

文中通過分析社交網絡信息情感與輿情形成之間的關系,總結出當負面情緒比例較高時,容易引起輿論;利用樸素貝葉斯網絡作為文本情感傾向極性分類器,并使用堆疊降噪自編碼器作為詞向量特征學習網絡。經測試,文中算法有較高的準確率,證明了該方案的有效性。文中技術并不局限于微博,也可用于其他社交軟件。對于研究大學生等年輕人對網絡實時信息的情感傾向、政治態度均具有積極的參考意義,可用于高校輿情監督、穩定國內輿論環境。

猜你喜歡
特征文本情感
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 一级黄色片网| 亚洲第一成年免费网站| 看国产毛片| 久久一色本道亚洲| 99国产精品免费观看视频| 久久五月天国产自| 天天综合色天天综合网| 欧美福利在线播放| 色综合日本| 高潮爽到爆的喷水女主播视频 | 欧美性猛交一区二区三区 | 国产制服丝袜91在线| 亚洲国产成人无码AV在线影院L| 四虎国产在线观看| 日本少妇又色又爽又高潮| 国产亚洲欧美日韩在线一区| 欧美一级黄片一区2区| 国产在线观看成人91| 热re99久久精品国99热| 熟妇丰满人妻av无码区| 无码福利日韩神码福利片| 亚洲色无码专线精品观看| 欧亚日韩Av| 国产黄色爱视频| 免费视频在线2021入口| 国产大片喷水在线在线视频| 精品一区二区三区自慰喷水| 亚洲永久免费网站| 97国产一区二区精品久久呦| 亚洲色精品国产一区二区三区| 国外欧美一区另类中文字幕| 99视频在线免费| 国产精品一区在线麻豆| 国产精品主播| 亚洲国产成熟视频在线多多 | 一区二区三区高清视频国产女人| 亚洲黄网在线| 国产福利一区二区在线观看| 国产一区成人| 草逼视频国产| 99r在线精品视频在线播放| 国产女人18水真多毛片18精品 | 一级毛片在线免费视频| 一级全免费视频播放| 精品欧美一区二区三区久久久| 亚洲男人的天堂久久香蕉 | 久久亚洲国产视频| 99re免费视频| 中文无码影院| 日韩精品视频久久| 真实国产乱子伦高清| 亚洲无线一二三四区男男| 992tv国产人成在线观看| 欧美成人aⅴ| 亚洲中文在线看视频一区| 日韩欧美国产中文| 久久人妻xunleige无码| igao国产精品| 97在线国产视频| 秋霞国产在线| 专干老肥熟女视频网站| 国产欧美日韩18| 成人综合在线观看| 亚洲精品卡2卡3卡4卡5卡区| 亚洲国产精品人久久电影| av大片在线无码免费| 91精品国产自产91精品资源| AV在线麻免费观看网站| 色欲不卡无码一区二区| 亚洲无码高清免费视频亚洲 | 亚洲欧美日韩动漫| h视频在线播放| 在线视频97| 54pao国产成人免费视频| 成人在线亚洲| 精品国产成人三级在线观看| 亚洲综合片| 99在线小视频| 午夜国产理论| 免费国产黄线在线观看| 无码日韩视频| 欧美成人国产|