999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博話題檢測與輿情分析研究

2018-10-29 11:09:14吳財貴龔文輝付青
軟件導刊 2018年8期

吳財貴 龔文輝 付青

摘要:話題檢測與輿情分析是網絡輿情監控中的熱點問題,對熱點話題進行檢測并對輿情預警度進行分析將有助于輿情監控和管理。考慮話題的周期性,建立基于時間窗口的原始指標,利用主成分分析方法得到有關綜合指標,利用兩層隱含層的BP神經網絡方法建立輿情分析判別模型;利用MB-SinglePass算法對數據進行話題檢測,并選取10個話題進行輿情預警度判別,實現對微博話題的檢測與輿情分析。最后將話題檢測結果與人工標記話題結果進行比較分析,驗證了話題檢測算法的正確性和有效性。同時通過與其它輿情分析判別模型進行實驗比較,發現在實驗條件相同的情況下,該原始指標和分析判別模型得到的輿情預警度分類結果準確率更高,增加的時間成本代價也在可接受范圍內。

關鍵詞:話題檢測; 輿情分析; BP神經網絡模型; 主成分分析

DOIDOI:10.11907/rjdk.173265

中圖分類號:TP3-0

文獻標識碼:A 文章編號文章編號:1672-7800(2018)008-0085-05

英文摘要Abstract:Topic detection and public opinion analysis is the hot topic in network public opinion monitoring.The analysis of hot topics and public opinions are helpful to the public opinion monitoring and management.In this paper,we consider the topic periodicity,establish the original index based on the time window appiy the principal component analysis method to get the relevant comprehensive index and use two layers of hidden layer BP neural network method to establish public opinion analysis and judgment model.The MB-Single Pass algorithm is used to detect the topic data and selecte 10 topics for public opinion and early warning judgment,and microblogging topic detection and public opinion analysis are realized.The results of the topic test and the results of artificial markers are compared and analyzed,which validates the correctness and the effectiveness of the topic detection algorithm.The experimental results show that the experimental results are in the same experimental conditions,the original indicators and the public opininon analysis form judgment model are more accurate,the additional time costs in the acceptable range.

英文關鍵詞Key Words:topic detection; public opinion analysis; BP neural network model; principal component analysis

0 引言

微博作為用戶參與、傳播式的網絡信息交互平臺,能夠實時反映當前社會的焦點話題與民眾輿論傾向。對焦點話題進行輿論監測,有助于輿情監控部門進行相應的輿情分析。話題檢測技術是進行輿情分析的基礎與前提,針對微博話題的檢測研究主要從以下3個方面進行:①微博數據預處理;②微博數據特征選擇;③微博話題聚類算法研究。

微博數據預處理主要是對微博數據進行分詞操作及詞性標注,然后去除噪聲,目前使用最多的方法是中科院的ICTCLAS分詞方法[1-2]。微博數據的特征選取主要有文檔頻率、互信息和信息增益3種權值計算方式[1-3],通過計算有關特征詞的權值大小,選取權值大的前幾項作為數據特征項,從而實現數據特征的選取。微博話題聚類算法根據各微博話題提取的微博數據特征進行話題聚類,從而實現話題檢測,常用的有增量聚類算法[1]、基于主題模型的算法[4]以及增量K-means算法[5]等。周剛等[1]對該算法進行改進,將微博發布時間作為處理順序,從而降低了算法對處理順序的敏感度;姜曉偉等[6]針對特定主題進行話題發現與排序,引入LDA主題模型實現詞的聚類與特定主題挖掘。

在輿情分析研究方面,姚長青等[7]提出基于主題的輿情跟蹤方法,運用信息增益和互信息對特征項進行權值計算,采用Bayes、K近鄰和Rocchio方法分別對給定的主題事件進行輿情跟蹤,從而有效分析熱點事件的發展趨勢;李弼程等[8]采用軍事領域的戰場態勢分析與威脅估計思想對網絡輿情態勢分析與預警進行研究,在提出相應特征提取技術的同時,建立適合計算機實現的網絡輿情態勢分析模式;曾潤喜等[9]通過研究網絡輿情分級預警機制,構建出基于警源、警兆和警情3類指標的體系模型;孫玲芳等[10]建立3級指標體系,分別從輿情危險度、輿情擴散度和輿情熱度3個維度對事件進行考慮,提出基于云模型的網絡突發群體事件輿情危機預警方法;陳新杰等[11]通過傳播擴散、發布主體、內容要素和輿情受眾4個指標監測網絡輿情發展演變過程。

本文基于饒浩等[12]提出的方法進行改進,根據話題的周期性特點,引入基于時間窗口的原始指標,提出基于主成分分析和兩層隱含層BP神經網絡模型的微博話題輿情分析方法。首先對微博數據進行話題檢測,然后利用主成分分析方法對選取的指標參數進行主成分提取,將提取的主成分作為BP神經網絡輸入層,根據該模型進行話題輿情預警度學習分類,從而實現在線話題的輿情預警度判別。

1 話題檢測算法

1.1 數據采集與預處理

本文通過新浪微博提供的API接口對其平臺上的數據進行采集,利用中科院的分詞系統ICTCLAS對獲取的微博數據進行分詞及詞性標注。數據預處理目的是去除微博數據中的噪聲信息,本文根據微博數據特點,利用分詞得到的有關詞性將其中的URL、表情符號、標點符號等噪聲剔除。同時,為了降低特征向量維度,本文根據停用詞庫剔除數據中的停用詞。所得結果如圖1所示。

1.2 話題檢測

為了更好地描述話題間的相似度,選用文獻[1]使用的組合相似度計算方法和主題模型更新策略。在相似度計算方面,選用語義相似度、雅可比相似度和余弦相似度組合計算的方法,如式(1)所示。

話題檢測算法主要沿用文獻[1]中的方法,具體流程如下:①數據采集及預處理。對微博數據進行采集、分詞、去停用詞和有關詞項的信息增益權重計算等預處理操作;②話題主題模型建立。根據預處理和有關權重組成話題主題向量;③使用MB-SinglePass算法對話題主題向量進行話題聚類。若是第一條話題數據,則將其設為新話題類,否則進入下一步;④若后面話題與某一話題類別中的話題是轉發和評論關系,或其最大相似度大于MB-SinglePass算法設定的聚類閾值,則將其歸為一類并更新話題向量,進入第⑥步,否則進行第⑤步;⑤若最大相似度值小于MB-SinglePass算法中的創新閾值,則將其設為一個新話題類別,否則將其歸為同一話題類別。同時判斷該測試話題與最大相似度話題之間是否具有好友或粉絲關系,若是,則更新話題向量,否則不更新;⑥判斷是否是最后一條話題數據,若不是,進入第③步,否則結束該算法流程。

通過上述流程實現話題聚類,然后對每個類別中的話題特征向量進行特征項重復次數計算,并按降序排列,最后選取前10個特征項作為話題主題描述向量。

2 主成分分析與BP神經網絡模型

BP神經網絡模型分為信息的正向傳播子過程和誤差的反向傳播子過程兩部分,具有3個層次結構,分別為輸入層、隱含層和輸出層。輸入層將有關特征參數作為輸入節點分布于輸入層上;隱含層主要將輸入層的數據信息進行變換,其層數選取和節點數目可自主設定,但考慮各隱含層節點數目對BP神經網絡模型性能的影響,可根據公式(2)對節點個數進行調節;輸出層接收隱含層傳遞的信息,并完成一次正向傳播子過程。誤差的反向傳播子過程是當上述操作的輸出層結果與期望輸出結果不一致時,根據誤差函數(見式(3))計算誤差,然后利用梯度下降法按照輸出層-隱含層-輸入層反向傳播順序,對其各層次間的權值進行更新。上述兩個子過程反復、交替進行,直至其輸出誤差降低至可接受的閾值范圍內,或其學習過程達到預期設定的學習次數。

考慮微博網絡輿情預判指標間可能存在的相關性,本文采用以下兩種方式進行處理:①根據主成分分析方法消除指標間存在的相關性;②根據原始指標間的相關性,利用其組合形成的線性表達函數得到綜合指標。

本文利用主成分分析方法構建指標參數體系,選取特征值大于1且原始指標中大多數信息可被解釋的若干個綜合指標替代原始指標,從而減少指標數量并去除原始數據中的冗余信息,使數據更具代表性。將該綜合指標作為BP神經網絡模型的輸入層節點數據,通過信息的正向傳播子過程和誤差反向傳播子過程反復、交替進行,得到有關輸出層結果,實現話題等級分類。建立的BP神經網絡模型如圖2所示。

3 實驗及結果分析

本文通過新浪微博API提供的C#接口,對其微博數據進行采集,包括用戶名、用戶ID、微博數據內容、源微博ID、地點信息、相關微博評論信息等。本文實驗選用2016年10月24日、25日、26日、29日和30日5天的微博數據,對其中的140 202條數據進行人工標注(其中每日數據量分別為18 000、25 000、30 700、29 000、37 502條),對標注結果進行評價及分析。

本文沿用文獻[1]的話題組合相似度的加權系數值,即(α,β,γ)=(0.3,0.3,0.4)。

本文開發環境選用VS2012,采用C#語言進行數據獲取及C++語言進行數據處理與分析。

3.1 微博話題檢測結果分析

本文采用文獻[1]的方法對采集到的數據進行話題檢測,話題聚類結果如圖3所示。

由圖3可得實驗話題聚類結果與人工標記的話題聚類結果基本一致,僅存在較小差異。差異形成的部分原因是由于微博數據中存在類似“分享圖片”的無效微博,但在一定程度上不影響最終話題檢測結果。

話題聚類完成后,對該類話題進行主題描述,將描述結果與人工提取話題進行比較分析,如表1所示。

由表1可知微博話題描述結果與人工對微博話題描述結果基本一致,并發現其與對應話題的微博內容高度相似,說明本文方法能有效地對聚類的微博數據進行描述。

另外為測試本文使用方法的性能,選用采集到的2016年10月24日微博話題數據進行準確率P、召回率R及F值比較(見式(4)),結果如圖4所示。

其中,c為正確識別的熱點話題數,o為識別的熱點話題數,l為人工標記的該段時間內熱點話題數。

從圖4中可以看出,MB-SinglePass算法可得到較為滿意的結果,充分證明了算法的正確性和有效性。

3.2 主成分分析與BP神經網絡模型應用

3.2.1 話題集選取方式

目前,由于沒有輿情預警度評價標準庫,本文依照文獻[12]的訓練樣本和測試樣本選取方式,以驗證說明本文所使用指標和模型的有效性。具體說明如下:根據新浪微博提供的2013年年度及各月份熱門話題進行數據采集,將2013年年度熱門微博話題視為輿情預警度最嚴重的I級,各月份微博熱門話題排名在前的視為II級,排名在中間的視為III級,余下視為IV級,將以上數據作為訓練樣本集,如表2所示。同理將2014年的有關話題作為測試樣本集,如表3所示。

3.2.2 話題數據主成分分析及BP神經網絡模型構建

本文將用戶粉絲數followers_cont、用戶關注數friends_count、用戶微博數statuses_count、T1~T4共4個時間窗口下微博內容評論數comments_count_t1、comments_count_t2、comments_count_t3、comments_count_t4,微博內容轉發數reposts_count_t1、reposts_count_t2、reposts_count_t3、reposts_count_t4及評論速率hot_t1、hot_t2、hot_t3、hot_t4和轉發速率hotSpread_t1、hotSpread_t2、hotSpread_t3、hotSpread_t4共19個參數作為微博熱度評價的原始指標,其中本文4個時間窗口大小固定,都為12個小時,即T1=T2=T3=T4=12。對上述19個原始指標進行主成分分析,得到9個不相關的綜合指標X1、X2、X3、X4、X5、X6、X7、X8、X9,其包含了原始指標中91.591%的信息(見圖5),從而實現在盡量不損失信息的情況下,消除原始指標間的相關性并降低復雜度。

對19個原始指標進行線性組合,獲得各綜合指標相關系數如圖6所示。

將得到的9個綜合指標作為BP神經網絡模型的輸入層節點數據進行訓練學習,實現BP神經網絡模型構建。

3.2.3 輿情預警度分類結果分析

通過已建立的BP神經網絡模型對2013年各級訓練樣本集進行BP神經網絡的訓練學習,然后對2014年各級測試樣本集進行分類得出分類結果。通過與文獻[12]進行1~4級準確率的比較,結果分析如表4所示。

為了對本文采用的綜合指標進行結果驗證分析,采用的訓練樣本集和測試樣本集與文獻[12]相同,結果分析指標也相同。

從表4中可得出以下結論:與文獻[12]采用的綜合指標相比,當BP神經網絡隱含層都選用單層且訓練迭代次數同為297次時,本文方法訓練所花時間略低于文獻[12]方法,最終錯誤率都保證在e-05級別上,差異可忽略不計。在分類結果準確率上,本文所采用的綜合指標得到的結果要優于文獻[12],充分說明考慮話題周期性特點、基于時間窗口的指標參數選取優于文獻[12]提供的指標參數;與只選用單層隱含層的BP神經網絡相比,采用兩層和三層隱含層的BP神經網絡在訓練迭代次數一致時,其最終錯誤率同樣可忽略不計;采用兩層隱含層較之單層隱含層,訓練所花時間增加了0.274s,三層隱含層則增加了0.528s,這是采用多層隱含層需要付出的時間成本代價;使用兩層和三層隱含層的BP神經網絡在各級準確率方面都得到了較大提高,在一定程度上降低了輿情預警度誤差等級,保證了輿情預警度的準確率;采用三層隱含層的BP神經網絡較之兩層隱含層的BP神經網絡,其性能指標并未得到有效改變,反而增加了一定時間成本,說明采用兩層隱含層的BP神經網絡已達到最佳效果。

綜上分析可知,本文采用指標較之文獻[12]采用指標能夠更好地進行話題輿情分析。同時將BP神經網絡的隱含層設置為兩層時將得到最佳的分類效果,且增加的時間成本是可接受的。

3.3 微博話題輿情分析

本文利用上述BP神經網絡模型對話題數最多的前10個話題進行輿情預警度分類,選取各話題聚類結果中最靠前的話題進行原始指標數據采集,得出相應綜合指標,以此作為已訓練好的BP神經網絡輸入層節點閾值,通過測試得出其對應的輿情預警度,結果如表5所示。

由表5可得,對MB-SinglePass話題檢測算法得到的前10個話題進行輿情預警度分類,得出2個I級和II級,以及3個III級和IV級預警度話題。通過上述分類結果,可進行話題輿情預警度監控,重點關注輿情預警度達到III級及以上級別的話題走向,從而在話題輿情分析和管理方面發揮指導性作用。

4 結語

本文主要研究微博話題輿情分析模型的原始指標選取,通過對選取的19個原始指標進行主成分分析得到綜合指標,建立兩層隱含層的BP神經網絡模型,用于微博話題的輿情分析與判別。通過實驗結果分析得出,本文選用的原始指標及所構建的BP神經網絡模型較之文獻[12]在輿情預警度與準確度方面有較大提高。同時采用MB-SinglePass話題檢測算法進行微博話題檢測,運用建立的輿情分析判別模型對檢測出的話題進行輿情預警度判別,實現在線微博話題的輿情分析,為輿情監控部門等相關機構的話題輿情監控提供有效依據。

由于本文采集數據使用的新浪微博API接口限制,在進行數據采集時存在一定困難,因而在進行原始指標選取時不得不考慮數據獲取難度等問題。同時BP神經網絡本身存在的一些缺點和局限性,在一定程度上也影響了話題預警度的分類精度。因此,后期將致力于研究學習分類模型以及相關原始指標選取問題,旨在進一步提高話題輿情度的分類精度,同時研究話題變化趨勢與時間周期的相關性,以實現對話題的趨勢分析。

參考文獻:

[1] 周剛,鄒鴻程,熊小兵,等.MB-SinglePass:基于組合相似度的微博話題檢測[J].計算機科學,2012(10):198-202.

[2] WU P,LI S K.Social network analysis layout algorithm under ontology model[J].Journal of Software,2011,6 (7):1321-1328.

[3] LIU H.Internet public opinion hotspot detection and analysis based on K-means and SVM algorithm[C].Proc of International Conference on Information Science and Management Engineering,2010:257-261.

[4] PENNACCHIOTTI M,GURUMURTHY S.Investigating topic models for social media user recommendation[C].Proc of the 20th Int Conf Companion on World Wide Web.New York:ACM,2011:101-102.

[5] 李勝東,呂學強,施水才,等.基于話題檢測的自適應增量K-means算法[J].中文信息學報,2014(6):190-193.

[6] 姜曉偉,王建民,丁貴廣.基于主題模型的微博重要話題發現與排序方法[J].計算機研究與發展,2013(S1):179-185.

[7] 姚長青,杜永萍.基于主題的輿情跟蹤方法研究及性能評價[J].圖書情報工作,2012(18):50-53,109.

[8] 李弼程,林琛,周杰,等.網絡輿情態勢分析模式研究[J].情報科學,2010(7):1083-1088.

[9] 曾潤喜.網絡輿情突發事件預警指標體系構建[J].情報理論與實踐,2010(1):77-80.

[10] 孫玲芳,林偉健.基于云模型的網絡突發群體事件預警方法的研究[J].計算機與現代化,2016(5):61-66,72.

[11] 陳新杰,呼雨,蘭月新.網絡輿情監測指標體系構建研究[J].現代情報,2012(5):4-7,20.

[12] 饒浩,陳海媚.主成分分析與BP神經網絡在微博輿情預判中的應用[J].現代情報,2016(7):58-62,70.

(責任編輯:黃 健)

主站蜘蛛池模板: 欧美亚洲国产日韩电影在线| 欧美一级黄色影院| 91成人免费观看| 99人妻碰碰碰久久久久禁片| 天天婬欲婬香婬色婬视频播放| 在线欧美国产| 亚洲精选高清无码| 一级全免费视频播放| 婷婷色丁香综合激情| 亚洲an第二区国产精品| 99在线国产| 黄色污网站在线观看| 玖玖精品视频在线观看| 制服丝袜无码每日更新| 1024你懂的国产精品| 国产精品 欧美激情 在线播放 | 国产v精品成人免费视频71pao| 亚洲国产天堂久久综合| AV网站中文| 日韩精品久久无码中文字幕色欲| 国语少妇高潮| 精品国产乱码久久久久久一区二区| 国产理论精品| 午夜啪啪福利| 性色一区| 精品国产网站| 国产女人水多毛片18| 日韩免费中文字幕| 亚洲无码四虎黄色网站| 第一区免费在线观看| 亚洲婷婷在线视频| 成人国产精品网站在线看| 欧美日韩第三页| 国产在线视频导航| 亚洲一区无码在线| 亚洲第一页在线观看| 亚洲中文精品人人永久免费| 高清无码手机在线观看| 国产在线视频二区| 91无码人妻精品一区二区蜜桃| 国产精品手机在线播放| 91福利国产成人精品导航| 国产精品国产三级国产专业不| 毛片视频网址| 国产亚洲精品资源在线26u| 刘亦菲一区二区在线观看| 欧美激情福利| 麻豆精品久久久久久久99蜜桃| 青青青视频蜜桃一区二区| 亚洲成在人线av品善网好看| 久久久国产精品无码专区| 日韩二区三区无| 最近最新中文字幕免费的一页| 久青草国产高清在线视频| 国产一级在线观看www色| 国产成年女人特黄特色毛片免| 欧美一区二区自偷自拍视频| 国产青榴视频| 欧美亚洲国产精品第一页| 色偷偷男人的天堂亚洲av| 黄色三级网站免费| 国产在线八区| 99九九成人免费视频精品| 国产精品七七在线播放| 人人看人人鲁狠狠高清| 女人18毛片水真多国产| 亚洲国产欧美国产综合久久 | 日韩一级二级三级| 欧美国产另类| 国产99视频在线| 91精品网站| 国产午夜不卡| 国产夜色视频| 新SSS无码手机在线观看| 福利视频一区| 精品国产一区91在线| 伊在人亚洲香蕉精品播放| 丁香婷婷激情综合激情| 999在线免费视频| 久久精品一品道久久精品| 亚洲性视频网站| 国产成人超碰无码|