999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的網絡輿情傾向性分析研究

2019-07-04 10:25:00胡欣杰路雨楠
兵器裝備工程學報 2019年5期
關鍵詞:分析

胡欣杰,路雨楠,路 川

(1.航天工程大學, 北京 101416; 2.哥倫比亞大學, 美國 紐約 10027)

網絡輿情就是通過網絡表達或傳播的輿情,是指在互聯網上傳播的公眾對某一“焦點”和“熱點”話題所表現的有一定影響力和帶傾向性的意見或言論。

近年來,隨著國內外政府、企業和科研機構越來越重視網絡輿情的開發利用,輿情信息源的探測、獲取、處理、分析等關鍵技術取得了較大的發展,各個特定領域的網絡輿情分析模型日益完善,依托計算機軟件進行網絡輿情監測分析已經進入全面實用階段。

1 網絡輿情傾向性分析研究現狀

網絡輿情傾向性分析研究的歷史可以追溯到有了互聯網時代就有了網絡輿情研究并有相應的協會和組織,代表性的有英國坎特伯雷大學設立的歐洲輿情研究中心、美國的輿情研究協會以及歐盟輿情分析官方網站等;重要的會議和論壇有話題檢測與跟蹤會議(TDT)、情報檢索專業組會議(SIGIR)和文本信息檢索會議(TREC)等。

在網絡輿情傾向性分析系統研究方面,國內外的公司、大學和研究機構先后開發設計了多種系統,主要包含3種類型:調查問卷型、系統自動分析文本數據型、自動分析網頁數據型。調查問卷型主要設計調查軟件,其解決方案是通過對調查問卷的收集,利用計算機來自動分析問卷中的信息,最后得出所反映的事件傾向性分析進而給出輿情的熱點或焦點問題;系統自動分析文本數據型是指設計一個分析文本數據的軟件系統,通過系統分析判斷得出其事件的傾向性進而判斷出輿情熱點或焦點問題;隨著網絡技術的快速發展,網絡上的數據、信息快速增長,網絡信息數據發布平臺多樣,包括網頁、論壇、博客、微博、微信及各種APP軟件等,更有效和常用的方法是采用通過計算機自動分析互聯網上的數據,形成輿情傾向性分析,例如英國Coppola軟件公司發布的“感情色彩”軟件,通過讀取新聞資料并進行資料中相關語義的自動計算和分析,判斷所分析的文章中對預先設定的事件的情感傾向是正面的、負面的還是中立的,從而確定其輿情信息;IBM公司研發的話題檢測系統的工作原理是基于兩次聚類,首先計算兩篇新聞報道的相似性,然后把它先放入臨時分配的類別子話題簇中,在一定的時間延遲后,觀察話題類別是否變化,如果結果不變,再將該新聞報道歸入最后所在的類;谷歌公司研制的谷歌趨勢(Google Trends)軟件,用于分析用戶使用谷歌搜索引擎搜索過的關鍵詞并顯示該關鍵詞的被關注程度的服務,分析的結果會顯示出不同地區對于該關鍵詞關注度的差異等;我們國家的大學和研究院等也先后開展輿情分析研究??傊?,自動分析網頁數據的網絡輿情傾向性分析系統廣泛應用于網絡輿情傾向性分析實踐中[1]。

在網絡輿情傾向性分析關鍵技術研究方面,Martin 提出了一種以語言模型為基礎的話題檢測方法;以K-mean聚類算法為基礎的網絡輿情監測算法得到了較多的應用,通過計算相關話題的相似度,再將話題中的關鍵詞進行聚類就可以發現話題的特征表述;使用自然語言處理技術來幫助設計話題檢測的統計方法,使得之后話題檢測的正確率和追蹤的正確率都有很大程度的提高;James Allan 在話題追蹤的研究過程中使用了Rocchio算法,在一定程度上減少了進行話題追蹤所需要的時間,但其缺點是需要對閾值進行很精確地設置等。

總之,在網絡輿情傾向性分析研究方面,學者和工程技術人員做了大量的工作,但隨著網絡上大數據的產生,網絡輿情事件常常以較快的速度爆發,因此各種算法也在不斷的優化改進中。

2 網絡輿情傾向性聚類分析模型及算法

網絡輿情的傾向性分析是了解輿情產生和演化的重要手段,輿情傾向性分析主要是分析內容信息和行為信息,內容信息是網民情緒與態度的直接反映,行為信息是網民情緒與態度的數據反映,二者結合能夠有效的表征網絡輿情的傾向性和演化過程。其中網絡輿情內容信息包括時間、地點、人物、關鍵詞以及內容信息的變化趨勢等,行為信息包括信息發表時間,文檔數量、評論數、點贊數等內容。經過分析研究和實驗,根據聚類分析的特點,使用聚類分析方法判斷網絡輿情的傾向性、熱點和焦點問題取得了較好的效果。

聚類分析(clustering analysis)是依據數據相似度或相異度將數據分群歸屬到數個聚類的方法,使得同一群內的數據或個體相似程度大,而各群之間的相似程度小。相似度代表個體間的近似或相關程度,相似度越大,表示數據間的關聯程度越高,相似度越小,表示數據間的關聯程度越低,同一組樣本數據根據所選參數不同,特征屬性不同,判斷準則不同,形成不同的分群結果。因此,利用聚類分析適合于對網絡輿情樣本數據,通過選擇合理的特征屬性、判斷準則等參數的設置形成網絡輿情的傾向性分析結果。 網絡輿情傾向性分析模型建立在兩個度量參數上,一是距離,二是相似性。

2.1 距離模型

聚類分析(clustering analysis)是依據數據相似度或相異度將數據分群歸屬到數個聚類的方法,使得同一群內的數據或個體相似程度大,而各群之間的相似程度小。相似度代表個體間的近似或相關程度,相似度越大,表示數據間的關聯程度越高,相似度越小,表示數據間的關聯程度越低,同一組樣本數據根據所選參數不同,特征屬性不同,判斷準則不同,形成不同的分群結果。因此利用聚類分析適合于對網絡輿情樣本數據,通過選擇合理的特征屬性、判斷準則等參數的設置形成網絡輿情的傾向性分析結果。 網絡輿情傾向性分析模型建立在兩個度量參數上,一是距離,二是相似性。

距離用來衡量兩筆數據或兩個個體在一維或多維下的相異程度,距離越大,表示相異越大,反之則越小。距離衡量方式有多種,針對網絡輿情傾向性分析的特點,擬采用加權距離(weighted distance)和馬氏距離(mahalanobis distance)作為度量模型,其模型如下:

1) 加權距離。加權距離是指當各個變量的重要性不相同時,通過給定不同的相對權重wj進行加權,來衡量變量之間的距離的方法,加權距離的計算如式(1)所示:

(1)

其中:D(y1,y2)表示加權距離,所有加權權重wj總和為1,當權重都相同時,加權距離等價于歐式距離[2]。

2) 馬氏距離。當網絡變量之間不僅僅有尺度差異,變量間也有相關性時,用馬氏距離衡量數據點之間的距離更能反映實際情況,如式(2)所示:

D(y1,y2)=(x1-x2)′S-1(x1-x2)

(2)

其中:D(y1,y2)表示群體間的馬氏距離,x1=(x11,x12,…,x1p)與x2=(x21,x22,…,x2p)均為P×1的向量,S為P個變量的共變異矩陣,當變量間沒有相關性時(相關系數等于0),并且所有變量的方差都為1時,馬氏距離也就是標準化的歐式距離,馬氏距離的計算較為復雜,但其優點是可以考慮變數間的相關性。針對網絡輿情信息相關性強的特點,馬氏距離模型更適合網絡輿情話題的分析和預測[2-3]。

2.2 相關系數

相關系數使用兩隨機變量的變動方向與程度大小來衡量其相關性,是一個變量的相似度測量參數,在網絡輿情傾向性分析模型中,由于數據的類型具有一定的連續性,因此擬采用線性相關系數模型,對于V1和V2兩個變量,假設有M組數據(x11,x12)(x21,x22),…,(xM1,xM2)則其相關系數O(v1,v2)如式(3)所示:

(3)

相關系數值在-1與1之間,且與單位無關。

2.3 基于時間片的k中心點聚類分析算法

由于網絡信息具有不確定性、廣泛性和數據量巨大等特點,其輿情的傾向性和演化主題不明顯、演化過程不明確,因此通過改進k中心點(k-mediods method)聚類算法,挖掘輿情主題、變化規律及傾向性。k中心點算法使用距離作為衡量數據間的相似度,以聚類中最接近中心位置的數據點作為聚類的中心,研究最小化數據點與聚類中心點的總變異,因此k中心點算法容易去除噪聲使之不受異常值的影響,其算法如式(4)所示:

(4)

其中:xik為聚類k中的某一個數據點,xmk為聚類k中最接近中心的數據點,聚類劃分的原則是圍繞中心劃分。

使用k中心點聚類算法實現網絡輿情傾向性分析的步驟如下:

步驟1:選取k個具有代表性的數據作為聚類的中心點,在輿情系統中選擇聚類中離平均值最近的對象作為中心點;

步驟2:依據距離S(基于加權距離和馬氏距離模型進行驗證)的遠近,將數據分配到最近的聚類中;

步驟3:隨機選取一個非聚類中心的數據點y取代任意一個聚類中心點;計算用y取代中心點的聚類代價,即距離改變量S,當S為負數時,以數據y取代原有的聚類中心,形成新的中心點,當該S為正數時,則原有的聚類中心保持不變,不需要替代。

步驟4:重復步驟3,直到k個中心點不再變化為止[2-3]。

k中心點聚類算法的優點是,當數據存在噪聲與異常值時,k中心點法能形成較穩定的分群結果,不容易受到異常值的影響而產生偏差,擔當數據點與聚類數目增加時,k中心點法的計算成本將大量增加,而對網絡輿情數據量的不確定性,當輿情數據量增大時,需改進K中心點聚類算法,其方法是建立基于時間序列的K中心點聚類模型,在時間片上進行數據的分類整合,整合得到的數據代表著這個時間片內的演化主題[4-5]。

假設輿情的原始數據{x1,x2,…,xi},初始化k個隨機數據{o1,o2,…,ok},時間為{t0,t1,…,tn}。在一個時間片內根據下列K聚類的兩個迭代公式求出最終所有類的聚類中心o,步驟如下:

步驟1:求出時間片內所有數據和初始化的隨機數據的距離,找出距離每個初始數據最近的原始數據pi,如式(5)所示:

(5)

步驟2:計算初始數據和最近原始數據的距離,距離計算采用馬氏距離;

步驟3:隨機選取一個非聚類中心的數據點替代聚類中心點,計算取代聚類中心點的代價,不斷迭代,直至oj的大小不再變化為止,如式(6)所示:

(6)

通過上面的算法,提高了聚類的迭代時間效率和查全率,尤其當數據量巨大時,時間效率的提高效果顯著。

3 實驗結果分析及評估

使用聚類分析方法獲得的聚類中心是輿情產生傾向性分析的主要依據,也即是輿情的主題,在時間序列下聚類中心的變化情況代表了輿情的演變。以論壇和微博作為實驗數據抽取平臺[6],按照時間片進行信息的隨機抽取,時間間隔以天為單位,T{T1、T2、T3、T4、T5}表示{第1天、第2天、第3天、第4天、第5天},抽取數據樣本數量如表1所示。

表1 抽取數據樣本 篇

使用改進的基于時間片的k中心點聚類算法,得到的聚類中心如表2所示。

表2 聚類中心

從聚類結果看,使用k中心點聚類,聚類過程中加入了時間序列,反應出網絡輿情演化的傾向性,同時由于使用了時間片,按照時間片再進行聚類的迭代,降低了聚類的維數,增加了聚類的可靠性。同時k值相對集中,在第2和第3天相對較大,表明在輿情發生的第2天和第3天事件關注度及網民討論程度能達到最高峰。

為了衡量改進的基于時間片的k中心點聚類算法的有效性,使用查全率和時間效率兩個指標作為評價標準[7],設網絡輿情信息聚類查全率用P表示,P越大表示信息聚類覆蓋的越全面,P越小,表示樣本聚類覆蓋效果越差,與P相關的參數集如下:

P∝P{標題,作者,發布時間,網民數量,發帖數量,跟帖數量、網民數量變化率,發帖數量變化率,持續時間}

網民是事件討論的主體,統計每個階段參與事件討論的網民數量可以評估網民對此事件的參與程度;發帖數量加上跟帖數量反應了網絡輿情的熱度;網民數量變化率和發帖數量的變化率一定程度上反映了網絡輿情的傾向性。

時間效率Q用來衡量輿情信息聚類的效率,Q越大表示聚類成輿情信息越快,更有利于輿情的研判,與Q相關的參數集如下:

Q∝Q{樣本數,樣本屬性,分類數,時間片,主題詞,特征值,特征值權重,事件屬性}

針對表1和表2中的樣本數和聚類中心,設k中心點聚類P和Q均為1作為比較基準,表3列出了采用基于時間片的k中心點聚類的P和Q值。

表3中看出,經過改進的基于時間片的k中心點聚類從每一個時間片上其查全率P和時間效率Q比沒有改進時均有提升,當樣本數值越大時,時間效率Q提升就越大,在所有的時間段內T1~T5,如果不劃分時間片聚類,由于樣本數為T1~T5所有樣本的和,其時間效率會更低,而通過劃分時間片,在每個時間片上聚類,時間效率顯著提高。

表3 基于時間片的k中心點聚類查全率P和時間效率Q

比較基準為:k中心點的P和Q值均為1。

4 結論

本文提出的基于時間片的k中心點聚類分析算法,提供了網絡輿情分析的有效途徑,這些方法在開發研制網絡輿情系統中得到了很好的應用,取得了較好的效果,今后隨著網絡平臺不斷增多,智能手機的廣泛應用,網絡輿情產生的渠道會越來越廣,基于時間片的k中心點聚類分析算法還要進一步的完善,以應用于更多的平臺。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产精品一区二区久久精品无码| 曰韩人妻一区二区三区| 91免费国产高清观看| 欧美激情二区三区| 在线亚洲精品自拍| 毛片免费观看视频| 日韩在线网址| 国产 日韩 欧美 第二页| 亚洲国产成人精品无码区性色| 国产在线精品人成导航| 54pao国产成人免费视频| 伊人久久婷婷五月综合97色| 中国丰满人妻无码束缚啪啪| 丁香六月综合网| 青青青国产精品国产精品美女| 99久久国产综合精品2020| 国产精品视频系列专区| 午夜国产大片免费观看| 欧美人人干| 美女一级毛片无遮挡内谢| 亚洲成人www| 欧美午夜网站| 久久福利片| 欧美一区二区精品久久久| 天天操精品| 啪啪免费视频一区二区| 国产香蕉97碰碰视频VA碰碰看| 亚洲欧美成人影院| 91精品国产自产在线观看| 免费毛片全部不收费的| 精品少妇人妻无码久久| 香蕉国产精品视频| 国产成人乱无码视频| 狠狠色综合久久狠狠色综合| 久久国产黑丝袜视频| 91免费国产在线观看尤物| 综合亚洲色图| aⅴ免费在线观看| 日本成人福利视频| 欧美一级夜夜爽www| 久久久久国产一级毛片高清板| 色综合天天视频在线观看| 谁有在线观看日韩亚洲最新视频| 一级毛片高清| 秋霞一区二区三区| 91成人免费观看| 天堂久久久久久中文字幕| 日本爱爱精品一区二区| Aⅴ无码专区在线观看| 亚洲全网成人资源在线观看| 亚洲国产中文精品va在线播放 | 色首页AV在线| 91毛片网| 成人一级黄色毛片| 国产网友愉拍精品| 国产成人禁片在线观看| 成人午夜免费观看| 婷婷在线网站| 日本午夜视频在线观看| 丁香亚洲综合五月天婷婷| 58av国产精品| 天天综合色网| 亚洲福利网址| 成人综合在线观看| 十八禁美女裸体网站| 亚洲国产中文在线二区三区免| 午夜福利视频一区| 久久熟女AV| 国产又粗又爽视频| 欧美精品高清| 国产精品无码制服丝袜| 熟妇丰满人妻| 91成人在线免费视频| 精品人妻一区无码视频| 亚洲永久精品ww47国产| 久久久久久国产精品mv| 亚洲水蜜桃久久综合网站| 国产微拍一区二区三区四区| 在线va视频| 国产成人高清在线精品| 国产主播在线观看| 久久青草视频|