999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于熱點話題分析的網絡輿情信息挖掘方法

2021-02-27 07:49:56文銀娟李文娟趙靜魏彩霞郭文龍馮月華
網絡安全技術與應用 2021年2期
關鍵詞:分類信息

◆文銀娟 李文娟 趙靜 魏彩霞 郭文龍 馮月華

基于熱點話題分析的網絡輿情信息挖掘方法

◆文銀娟 李文娟 趙靜 魏彩霞 郭文龍 馮月華

(甘肅中醫藥大學定西校區理科教學部 甘肅 743000)

網絡輿情熱點話題在提取的時候需要運用到復雜的網絡理論,同時需要使用復雜的算法羅列出其中的重點信息。網絡輿情領域當中的分析技術主要分為兩個方面的內容。其一是根據具體內容進行分析,其二是依據信息數據進行分析,這兩種技術是極為傳統的,在運營的過程中也沒有結合現代網絡特性而加以完善。針對以上的問題,需要對輿情分析領域進行更加具體的拓展,積極應用網絡化的方法來解決相關問題。頁面節點的設置將以輿情網絡為重點內容,并將鏈接關系作為主要的支撐點,這樣才能從根本上構建出符合當代復雜網絡情況的輿情傳播網。工作人員能夠及時發現網絡中的輿情熱點。將維基百科中所存在的各項數據作為所使用的仿真數據集合,機采用新穎的數據提出方法,能夠將其中潛在的相關領域熱點內容挖掘出來。從仿真結果上能夠了解到,兩種方法在使用的時候都能夠有效完成網絡輿情熱點的收集工作。真正獲得具有實際價值的輿情熱點話題。

網絡輿情;熱點話題分析;下載數據;信息挖掘

隨著互聯網技術在社會中的積極運用,各種形式的信息技術均得到了完善。網絡在這樣的發展環境中逐步凸顯出了隱蔽性的特點,同時具有虛擬性和開放性。所以,輿情信息的收集需要運用更加復雜的計算程序。僅僅依靠人工進行相關信息的統計和監測將難以獲得更加精確的信息。因此,怎樣才能夠在海量的信息數據中搜集到最有價值的輿情信息,需要相關領域的學者進行多方面的思考。將寶貴的工作經驗和嶄新的技術手段加以有機融合。讓關鍵性的輿情信息能夠在最短的時間內搜集起來。在近些年中,網絡領域的輿情信息挖掘技術已經得到了社會各界的重點關注。其具有的優勢是十分鮮明的,運用的范圍也極為廣泛,無論是進行各種信息的安全保護處理,還是對主題輿情信息加以跟蹤,都能夠積極利用這種信息技術,同時還能夠對熱點話題加以監測。本文針對網絡領域的輿情信息挖掘技術加以多方面的考究,為輿情監測工作提供最有參考價的信息。

1 信息采集與分析過程

1.1 采集數據,提取熱點話題

在進行信息挖掘工作之前,技術人員首先要做的便是對樣本數據進行精細化的分析。這樣才能夠為接下來的工作打好堅實的基礎。工作人員需要進行數據信息的統計,并根據文件類型的不同將其分為兩類。一類是能夠反映輿情主題的關鍵性文件,也就是所謂的熱點話題文件,它其中所包含的內容能夠真正體現出當前形勢下的輿情關鍵點,其展現出的發展曲線也能夠真正符合現階段的輿情發展趨勢。這種文件對于信息挖掘是具有重要意義的,需要相關工作人員進行重點關注。而另一類則是普通的下載文件,其中所包含的內容也是五花八門的,但是并不能彰顯出現階段的輿情特點。這類文件的下載曲線處于較為平緩的狀態。并不會存在熱點話題所具有的明顯曲線特征。因此,在進行樣本數據準備工作的時候,工作人員一定要根據曲線特征來判斷下載文件的類型。這樣才能夠在眾多的下載文件當中真正提取到熱點話題文件,從原有的基礎上提升工作效率,讓樣本數據準備工作能夠開展得更為迅速。

1.2 數據整理、分類評估

在做好了樣本數據采集工作后,工作人員所需要做的便是進行數據挖掘的訓練。在廣泛搜集到熱點話題相關信息后,工作人員還要利用更加先進的技術提取其中所涵蓋的重點信息,這樣才能夠將原本復雜無序的數據信息內容整合成規律性的訓練集。持續鏈級的價值是極為重要的,能夠為后續的工作打好基礎。將各類測試數據進行合理分類,并對其中存在的價值進行科學評估。

1.3 開展數據信息測試工作

接下來,工作人員所需要做的便是對互聯網上的熱點話題文件信息進行挖掘,并對文件類型加以分類。在實施分類標準的時候,便可以將文件系統化的組合成不同的訓練集,進而更加科學合理的對所有需要測試的數據加以歸納,在實施完信息挖掘工作后,互聯網領域的熱點話題都會自動生成一個分類標簽。這樣工作人員便可以極為直觀了解到每種文件的主要類型,提取熱點話題文件的工作效率將會得到顯著提升。

2 常用輿情信息挖掘方法

依據上述的信息挖掘步驟,工作人員在實施輿情挖掘的時候能夠使用的技術有以下幾種類型。其一是爬蟲網頁解析技術,其二是分類技術,其三是聚類技術,其四是數據處理技術[5]。在這些技術當中,分類技術使用效率是較高的,在分類技術當中還有諸多的應用方法供工作人員進行使用,經常使用的有中心法、支持向量機法,以及k最近鄰算法等。本文主要針對k最近鄰算法進行重點分析。

K最近鄰算法又稱之為KNN算法。根據這種算法所具有的性質,可以將其分類為非參數性的分類算法。在當今社會當中,這種算法已經被積極應用到了各種數據信息的挖掘工作當中。該技術所包含的核心思想可以簡單地闡釋為假設每一類信息當中包含的數據樣本數量是巨大的,同時每個數據樣本又有唯一的評判標準將其進行合理分類。此時便需要計算等待分類的樣本X相似程度與訓練樣本中的數據信息呈現出怎樣的狀態,并且尋找與X最為相近的樣本數量k。這樣工作人員便能夠依據k個樣本的類別進而確定X應該歸屬到哪個類別當中。

KNN算法所具有的優勢是極為顯著的。首先,這種算法的原理十分通俗易懂。在實施的時候也不會讓工作人員面臨很大的工作挑戰。其次,KNN算法在使用的過程中,雖然嚴格遵守了極限定理,但是待分類文件所具有的相似度特點只與相關的相似樣本文件有關聯性,所以此類算法在使用的過程中能夠從根本上避免樣本不平衡情況的出現。另外,相似度在計算的時候能夠根據樣本所具有的特征加以考量,進而在最大程度上減少了工作人員采用特征不當所造成的計算誤差。

但是,KNN技術在本質上依舊屬于一種具有懶惰性質的學習方式。當所要分析的數據信息分布情況并不均勻的時候,或者存在嚴重的傾斜現象的時候,其中涵蓋的樣本信息數據的特征會呈現出頻率增長的特點,這會直接影響到KNN算法的精確程度。另外,KNN技術在使用的過程中需要對訓練樣本進行逐個計算。

3 網絡輿情熱點話題的曲線相似度

3.1 統計日信息增長量

工作人員需要對每天的數據信息增長量加以統計,并將該日的信息數據量與前一天的信息數據量加以比對,這樣才能夠真正消除兩種曲線的量級差別。信息日增長率的計算方式為:

公式中N表示時間點的信息量。

3.2 增長向量

工作人員依據曲線所呈現出的特點能夠將每日增長率計算出來,同時可以將曲線變化一個周期所需要消耗的時間作為向量(設10天為一個周期)。因而定義曲線增長向量為:

={1,2,…,R,…,10}

上式反應了10天內的信息曲線增長情況,公式中R=(|)表示到時間段的信息增長量。

3.3 輿情信息熱點話題曲線相似度

在計算曲線相似度的時候,工作人員采用日常工作中廣泛應用的余弦夾角算法。該算法在使用的過程中,將每個文件夾中的向量信息進行單位化處理,隨后就要進行內積計算,計算出的數據信息結果可以嚴格控制在0-1之間。曲線相似度的計算方法為:

公式中RZL表示熱點話題文件曲線向量,YZL表示網絡輿情文件曲線向量。通過精細化的計算后可以了解到,熱點話題的曲線增長趨勢于網絡輿情文件的曲線增長趨勢具有很大的相似性[5]。由此可以得出一個結論,熱點話題文件和輿情文件之間存在必然的關聯性。因此工作人員在今后的工作過程中,需要對熱點話題進行深刻分析,將其中所具有的數據信息加以精細化了解。這樣能夠從根本上判斷出輿情的發展趨勢走向。在今后的工作過程中,也能夠積極利用這些話題信息當中的各項數據來挖掘真正具有價值的輿情信息。

3.4 改進KNN算法

KNN算法需要進行進一步的改進,這樣才能夠更加精準的搜集到熱點話題,并了解這些話題文件的下載走勢,更好地挖掘到網絡輿情信息。其主要的改進步驟如下。首先,工作人員需要計算出待分類數據所具有的特點,并將其余樣本數據進行相似度(XSD)上的比較。其次,工作人員需要在了解到相似度特點后,在樣本數據中尋找出十個與待分類數據信息相似度最高的數據,隨后需要將這十個樣本數據進行具體分類。最后,這一數據分類便是待分類數據樣本所應該歸納到的分類類別。

4 輿情信息挖掘的實驗結果

工作人員在執行輿情挖掘工作的時候,可以將其中的數據信息記錄在WEKA平臺上。WEKA平臺上包含了大量的學習算法,并且能夠將各項數據信息進行預處理,隨后將信息進行分類,歸納總結。測試數據的運用能夠進行輿情信息的挖掘,并且可以將各個數據進行精細化的分類。讓工作人員能夠直觀察覺到各個文件的類別,工作人員能夠在眾多的文件當中尋找到最為需要的熱點話題,切實了解到現階段的網絡輿情現象,了解到輿情事件的發展趨勢。

因此,熱點話題所具有的特點能夠彰顯出網絡輿論的走勢,讓受眾能夠了解到真正的網絡輿情現狀。工作人員需要竭盡所能地在眾多的網絡信息中挖掘出最具有價值的數據信息。同時工作人員還需要具有敏銳的判斷能力,這樣才能夠在諸多的信息當中了解到何種輿情信息是真實可靠的。最后,有一部分輿情文件的下載發展曲線特點,雖然能夠和網絡輿論事件的發展趨勢相吻合,但其并不屬于網絡輿情,輿情發掘結果也會存在一定的誤差性。造成這種現象的主要原因可能是熱點音視頻文件數量的激增,但這種情況是極少數的。工作人員在實行工作任務的時候,只是要注意將這類文件篩選過濾即可,這樣就能從根本上保證輿情信息的真實準確性,讓熱點話題分析工作可以具有實際的效果。

5 結語

綜上所述,在網絡輿情信息挖掘工作的基礎上,本文主要對熱點話題文件的下載工作流程和意義進行了分析,并將其與網絡輿情所具有的關聯性加以科學合理的整合,詳細介紹了KNN算法在此項工作中的重要價值。讓輿情信息發掘工作能夠開展得更加順利。通過對熱點話題下載趨勢的分析,可以尋找到最具有實際價值的輿情主題,促進了網絡領域輿情監測工作的進步。

[1]劉潤奇,賀興時,南夷非,王博.網絡多媒體數據中輿情關聯主題的挖掘方法[J].深圳大學學報(理工版),2020,37(01):72-78.

[2]高賓,王蘭成. 基于Apriori數據挖掘算法的網絡輿情信息索引研究[C]. 中國索引學會、復旦大學圖書館.2019年中國索引學會年會暨學術研討會論文集.中國索引學會、復旦大學圖書館:中國索引學會,2019:72-77.

[3]姜玉坤. 輿情熱點信息挖掘技術的研究與應用[D].天津大學,2017.

[4]劉繼,李磊.大數據時代網絡輿情信息集成機制研究[J].電子政務,2015(02):39-45.

[5]楊琳,張德賢,唐亞娟.基于熱點文件下載的網絡輿情信息挖掘方法研究[J].中國新通信,2014,16(14):116-118.

[6]衣波.網絡輿情信息的話題發現和追蹤技術的研究與應用[D].廣東工業大學2013.

甘肅省高等學校科研項目(項目編號:2018A-179)

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 男人的天堂久久精品激情| 久久夜色精品| 亚洲欧美综合另类图片小说区| 美女一级毛片无遮挡内谢| 精品一区二区三区视频免费观看| 国产高潮流白浆视频| 日韩精品一区二区三区中文无码 | 久久这里只有精品66| 黄色国产在线| 国产香蕉在线视频| 五月天婷婷网亚洲综合在线| 国产在线自在拍91精品黑人| 视频二区欧美| 精品少妇人妻一区二区| 亚洲欧美日本国产专区一区| 啦啦啦网站在线观看a毛片| 国产色伊人| 国产激爽大片高清在线观看| 国产一级毛片高清完整视频版| 成年A级毛片| 亚洲精品男人天堂| 亚洲黄色片免费看| 国产浮力第一页永久地址| 免费人成在线观看视频色| 一区二区三区国产| 国产成人av一区二区三区| 国产日本一区二区三区| 国产精品久久自在自2021| 国产高清无码麻豆精品| 婷婷丁香在线观看| 国产精品男人的天堂| 亚洲成人精品久久| 国产精品久久久久久影院| www.狠狠| 国产成人禁片在线观看| jijzzizz老师出水喷水喷出| 2020国产免费久久精品99| 精品视频一区二区三区在线播| 国产视频a| 国产精品极品美女自在线网站| 国产精品久线在线观看| 久久综合丝袜长腿丝袜| 久热这里只有精品6| 欧美综合区自拍亚洲综合天堂| 国产女人在线| 91在线精品免费免费播放| 女人18毛片一级毛片在线 | 51国产偷自视频区视频手机观看| 日本午夜影院| 亚洲欧美精品一中文字幕| 国产在线一区二区视频| 色成人亚洲| 久久人与动人物A级毛片| 99久久国产自偷自偷免费一区| 国产精品久久久久久久伊一| 欧美人人干| 亚洲国产理论片在线播放| 亚洲五月激情网| 国产成人亚洲毛片| 91在线高清视频| 精品人妻无码中字系列| 国产精品永久在线| 欧美黄网站免费观看| 精品91视频| 一区二区在线视频免费观看| 丰满人妻被猛烈进入无码| 熟妇人妻无乱码中文字幕真矢织江| 久久国产黑丝袜视频| 国产亚洲精品自在线| 一本大道香蕉久中文在线播放| 成人在线综合| 国产成人精品亚洲日本对白优播| 午夜不卡福利| 国产精品美女网站| a级高清毛片| 亚洲视频免| 国产男女免费视频| 欧美日韩精品一区二区视频| 小13箩利洗澡无码视频免费网站| 久久亚洲综合伊人| 一级毛片在线播放| 国产成人艳妇AA视频在线|