饒浩 陳海媚



〔摘要〕首先通過主成分分析消除原始指標之間的相關性,使指標數量變少且相互之間不相關,從而構建綜合預判指標,再利用BP神經網絡建立微博輿情預判模型。實驗選取2013年微博熱門話題作為訓練樣本,選取2014年的話題作為預測。實驗結果表明,主成分分析有助于去除原始樣本數據的冗余,簡化了網絡的復雜度,所得到的結果更加準確。因此,該模型較僅使用BP神經網絡的準確性更高。
〔關鍵詞〕主成分分析;BP神經網絡;微博輿情;預判模型
DOI:10.3969/j.issn.1008-0821.2016.07.011
〔中圖分類號〕G206〔文獻標識碼〕A〔文章編號〕1008-0821(2016)07-0058-05
針對輿情的研究,國外起步較早,從19世紀中期初級發展,到20世紀中期已經走向成熟[1]。在我國,專門針對輿情的研究,大致始于2004年,黨的十六屆四中全會提出:“建立輿情匯集和分析機制,暢通社情民意反映渠道”后,“輿情”這一詞才逐漸被社會各界所熟悉并使用,此后在我國成立了有關輿情的研究中心。
目前我國針對輿情分析指標的研究有很多,如曾潤喜等在建立網絡輿情分級預警機制的基礎上,構建了警源、警兆、警情3類指標體系[2]。高承實等結合信息空間模型構建了微博輿情的三維空間,建立了社會類指標與技術類指標、輿情主體與輿情受眾之間的關系[3]。方潔等從利益相關者的視角出發,結合信息空間模型分析微博輿情傳播的過程,構建微博輿情監測指標[4]。王長寧等分析微博輿情的傳播特點,在此基礎上建立微博輿情預警體系[5]。也有眾多學者針對預警模型進行研究,如張華采用離散的時間序列描述微博輿情的趨勢,對微博文本中的熱點話題進行提取、分析并對微博輿情進行預測[6]。曹帥等建立了微博輿情發展趨勢的直線修正模型,闡釋了移動平均法能夠初步分析微博輿情的發展趨勢并對其進行了預測[7]。張金偉等建立了一種基于性格、心情和情感空間的多層次心理預警模型,有效地實現了對微博情感的分析和描述[8]。邱智偉等對各維度包含的指標與微博輿情進行相關性檢驗,經回歸分析構建輿情微博數預測方程式,通過輿情微博數的增減確定微博輿情的漲落,從而構建微博輿情預警模型[9]。林琛設計了包含網絡輿情監測指標、網絡輿情評估指標與網絡輿情預警指標的三層網絡輿情指標體系[10]。
此外還有許多針對微博輿情的研究,例如李天龍等引入系統研究方法,界定了微博輿情生成機制[11]。張亞明等結合基于Vague集的AHP評估方法對輿情進行實證分析[12]。唐曉波提出用依存句法分析來改進傳統文本相似矩陣,以提高微博數據聚類準確性[13]。王洪亮等同時從情報學和傳染病學的角度來研究突發自然災害事件微博輿情蔓延特征[14]。高承實等結合信息空間模型構建了微博輿情的三維空間,運用層次分析法,建立了微博輿情監測指標體系[15]。
建立科學的微博監測指標是進行輿情預判的前提。雖然針對微博監測指標的研究已有很多,但是許多學者的研究只涉及到了定性的層面,而沒有更深入的進行定量分析。也有一些學者涉及到了定量的研究,但是研究所得到的指標難以獲取,導致很難進行預判監控;并且得到的定量的指標之間可能還會存在著一定的相關性,導致預判監控的結果準確率不夠高。
71主成分分析與BP神經網絡模型的建立
本研究嘗試建立基于主成分分析與BP神經網絡的微博網絡社群突發輿情預判模型,通過主成分分析消除指標之間的相關性,再利用BP神經網絡人工智能的特點,通過最速下降法的學習,輸出話題等級。主成分分析使指標數量變少且相互之間不相關,再利用BP神經網絡強大的非線性映射,有效處理這些內部機制復雜的輿情管控問題。研究以期幫助相關部門及時了解微博的輿情,有助于其對正面信息加大力度傳播,對負面信息加以預警,從而保障群眾對相關部門的信任與支持,利于國家和諧穩定可持續的發展[16]。
BP(Back Propagation)神經網絡,即誤差反傳誤差反向傳播算法的學習過程,由信息的正向傳播和誤差的反向傳播兩個過程組成。輸入層各節點接收輸入信息,并傳遞給隱含層各節點;隱含層負責信息變換,考慮到增加隱含層的節點數比增加隱含層的層數更便于計算,不會使網絡太過于復雜化,因此本文的隱含層為單隱層結構;隱含層傳遞信息到輸出層各節點,完成一次信息的正向傳播。當實際輸出與期望輸出不符時,誤差通過輸出層,按誤差梯度下降的方式修正各層權值,向隱含層、輸入層逐層反傳。信息正向傳播和誤差反向傳播的交替進行,使各層權值不斷調整,一直到網絡輸出的誤差減少到可以接受的范圍或者預先設定的學習次數為止[17]。
本研究采用主成分分析構建微博網絡輿情預判指標體系,盡可能多的考慮對預判結果有影響的指標。可是涉及的多個指標之間可能會存在一定的相關性,比如說:活躍粉絲多的微博用戶可能發出一條微博會有很多的評論量。因此找出幾個為原來指標的線性組合的綜合指標就顯得很重要了。綜合指標有以下幾個特點:(1)綜合指標是原始指標的線性組合,因此保留了原始指標的主要信息;(2)彼此之間不相關;(3)比原始指標具有某些優越性質。這使得在研究指標體系時更加容易[18]。
通過主成分分析可以消除指標之間的相關性,用原始指標的線性組合形成的相互之間不相關的綜合指標來代替原始指標,選取特征值大于1并且原始指標的大部分信息可被解釋的若干個綜合指標,此時得到的綜合指標的數量會少于原始指標,從而減少指標,去除原始樣本數據的冗余,利于數據的整理與計算;再利用BP神經網絡,分別用原始指標和綜合指標作為輸入,通過數據流的正向傳輸和反向傳輸兩個過程的交替進行,分別輸出話題等級,比較兩種輸入所得到的輸出結果[18]。所建立的綜合模型見圖1。圖1主成分分析與BP神經網絡模型
2主成分分析法與BP神經網絡的結合應用
21話題表
由于該類問題沒有Benchmark算例,此處選取的訓練樣本與預測樣本僅為說明模型使用過程,具體如下:根據新浪微博數據中心提供的2013年1月-2013年12月微博熱門話題盤點及新浪微博2013年熱門事件話題大盤點,選取2013年十大熱點話題為預警度最高的Ⅰ級(特別嚴重),在各月中排在前面但沒在十大話題出現的作為Ⅱ級(嚴重),在各月中排在中間位置的作為Ⅲ級(較重),在各月中排名相對較后的作為Ⅳ級(一般),訓練話題表如表1所示。以同樣的方法選取2014年的話題作為預測,預測話題表如表2所示。
22對數據進行主成分分析
微博熱度由廣播數x1、收聽數x2、聽眾數x3、平均轉播數 and 平均評論數x4、聽眾的平均收聽人數x5、聽眾的平均聽眾人數x6、聽眾的平均等級x7、收聽人的平均收聽人數x8、收聽人的平均聽眾人數x9、收聽人的平均等級x10、手機達人x11、QQ會員x12、轉播達人x13、天下無雙x14、微博勞模x15、青春正能量x16、秒微創意x17、事實派x18、微生活x19、微愛校園行x20、投票達人x21、禮物達人x22、新鮮達人x23、熱心達人x24、奇吃妙享x25、評論達人x26、點贊狂魔x27、心情簽到達人x28、動感勛章x29、新星主播x30、沙發王x31、蒲公英印記x32這32個原始指標組成。隨機選取324個名人,獲取上述數據。經過主成分分析處理之后得到綜合指標X1、X2、X3、X4、X5、X6,這6個綜合指標能概括32個原始指標7781%的信息,達到了降低復雜度的同時盡量保留大部分信息的目的。
23建立BP神經網絡模型
以話題為關鍵詞,獲取該話題轉發量最多的10位名人的32個原始指標(其中有些指標是該話題所特有的,比如:平均轉播數 and 平均評論數;還有一些指標是該名人所特有的,比如:廣播數、收聽數),分別計算32個原始指標的平均值作為該關鍵詞的相應原始指標。
(1)直接用32個原始指標x1、x2…x32作為BP神經網絡的輸入數據。以訓練樣本話題的數據為樣本對BP神經網絡進行訓練,然后用預測樣本的數據進行輸入,比較輸出結果與真實結果。
(2)32個原始指標先根據主成分分析得到的公式算出6個綜合指標,再把得到的6個綜合指標X1、X2、X3、X4、X5、X6作為BP神經網絡的輸入數據,經過訓練學習后把輸出結果與真實結果進行比較。
兩種方法的運行結果對比如圖2所示。
24結果分析
為了使結果看起來更直觀。將準確率分為一級準確率、二級準確率、三級準確率、四級準確率。其中,一級準確率:輸出結果與真實結果相同的話題數/總話題數;二級準確率:輸出結果與真實結果相差一個等級(例:真實結果為Ⅰ級預警,而預測結果為Ⅱ級預警,反過來亦然)的話題數/總話題數;三級準確率:輸出結果與真實結果相差兩個等級(例:真實結果為Ⅰ級預警,而預測結果為Ⅲ級預警)的話題數/總話題數;四級準確率:輸出結果與真實結果相差3個等級(例:真實結果為Ⅰ級預警,而預測結果為Ⅳ級預警)的話題數/總話題數。根據定義,計算出兩種方法所得結果的準確率:法一得到的一級準確率為22/40=55%,二級準確率為11/40=275%,三級準確率為4/40=10%,四級準確率為3/40=75%。而法二得到的輸出結果一級準確率為35/40=875%,二級準確率為2/40=5%,三級準確率為1/40=25%,四級準確率為2/40=5%。由此可以得到,經過主成分分析后預警結果的一級準確率比沒有進行主成分分析提高了325%;而誤差比較明顯的三級準確率和四級準確率比沒有進行主成分分析降低了10%。發圖2運行結果對比圖
現因為主成分分析有助于去除原始樣本數據的冗余,簡化了網絡的復雜度,所以所得到的結果更加準確。
另一方面,方法一訓練時間為1秒,進行了235次迭代,錯誤率為0308。方法二訓練時間為1秒,進行了297次迭代,錯誤率為185*10^(5)。雖然訓練時間與迭代次數都差不多,可是誤差卻是幾個數量級的區別。可見簡化網絡的復雜度可以在同樣的時間內進行更加有效的學習。
由此可以得出,為了實驗的準確性,需要獲取盡可能多的原始數據,可是過多的原始數據之間不可避免的可能會有一定的相關性,這就導致了矛盾的存在。而采用主成分分析的方法,可以有效的減少這種矛盾,使結果更加準確。
3結語
本研究結合主成分分析與BP神經網絡來構建微博網絡社群突發輿情危機預判模型,通過實例來驗證模型的準確性。此模型較僅使用BP神經網絡的準確性更高。此外,該模型也會存在著一些缺點。首先是進行主成分分析的324位名人是隨機選取的,在此進行改進(如把名人細分:體育類、新聞類、綜藝類等)并增加名人的數量,預判結果的準確性可能會有所增長。其次是以話題為關鍵詞獲取原始指標時為了獲取的方便,是以轉發量為考慮對象的,而沒有充分結合所有方面進行考慮,且獲取的名人數量不夠多。再次此刻獲取2013年某個關鍵詞的數據,獲取到的是當前的數據,用當前數據的值來分析2013年的情況,不可避免的存在一定的誤差。最后也存在BP神經網絡固有的缺點,就是容易陷入局部極小值點,結果也會根據隱含層的元素個數而改變。
該模型的預判結果的準確性將隨著原始指標的合理性、訓練集數量的增加而增長。研究所得到的結果可以為輿情的管理提供有效的指導。
參考文獻
[1]艾新革.國內外輿情研究述略[J].圖書館學刊,2011,(9):140-142.
[2]曾潤喜.網絡輿情突發事件預警指標體系構建[J].情報理論與實踐,2010,(1):77-80.
[3]高承實,榮星,陳越.微博輿情監測指標體系研究[J].情報雜志,2011,(9):66-70.
[4]方潔,龔立群,魏疆.基于利益相關者理論的微博輿情中的用戶分類研究[J].情報科學,2014,(1):18-22.
[5]王長寧,陳維勤,許浩.對微博輿情熱度監測及預警的指標體系的研究[J].計算機與現代化,2013,(1):126-129.
[6]張華.基于優化BP神經網絡的微博輿情預測模型研究[D].武漢:華中師范大學,2014.
[7]曹帥,蘭月新,蘇國強,等.基于移動平均法的微博輿情預測模型研究[J].湖北警官學院學報,2014,(3):40-42.
[8]張金偉,劉曉平.基于心理預警模型的微博情感識別研究[J].合肥工業大學學報:自然科學版,2013,(11):1318-1322.
[9]邱智偉.基于混沌理論的微博輿情預警模型研究[D].廣州:華南理工大學,2015.
[10]林琛.基于網絡輿論形成過程的輿情指標體系構建研究[J].情報科學,2015,(1):146-149.
[11]李天龍,李明德,張宏邦.微博輿情生成機制研究[J].情報雜志,2014,(9):117-122.
[12]張亞明,劉婉瑩,劉海鷗.基于Vague集的微博輿情評估體系研究[J].情報雜志,2014,(4):84-89.
[13]唐曉波,肖璐.基于依存句法分析的微博主題挖掘模型研究[J].情報科學,2015,(9):61-65.
[14]王洪亮,周海煒.突發自然災害事件微博輿情蔓延規律與控制研究[J].情報雜志,2013,(9):23-28.
[15]高承實,榮星,陳越.微博輿情監測指標體系研究[J].情報雜志,2011,(9):66-70.
[16]潘芳,張霞,仲偉俊.基于BP神經網絡的微博網絡社群突發輿情的預警監控[J].情報雜志,2014,(5):125-128.
[17]楊淑娥,黃禮.基于BP神經網絡的上市公司財務預警模型[J].系統工程理論與實踐,2005,(1):12-18.
[18]陳建宏,劉浪,周智勇,等.基于主成分分析與神經網絡的采礦方法優選[J].中南大學學報:自然科學版,2010,(5):1967-1972.
(本文責任編輯:郭沫含)