999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于熱點文件下載的網絡輿情信息挖掘方法研究

2014-04-29 11:19:37楊琳張德賢唐亞娟
中國新通信 2014年14期

楊琳 張德賢 唐亞娟

【摘要】 網絡信息量的逐年增長,使得獲取網絡敏感的輿情信息并做出相應的監控處理變得十分重要,網絡輿情信息挖掘技術研究十分活躍。本文介紹輿情挖掘步驟及其核心算法,分析互聯網熱點文件下載曲線與網絡輿情發展曲線的關聯,通過關聯關系對互聯網文件下載數據進行信息挖掘,從中找出是否存在符合曲線發展規律的熱點文件,最終將文件的主題與當時的網絡輿情信息進行比對,對結果進行驗證,為網絡輿情的監測提出了一種新的方法。

【關鍵詞】 熱點文件 下載數據 曲線 網絡輿情 信息挖掘

隨著互聯網的快速發展,網絡信息變得多樣化,網絡的虛擬性、隱蔽性、開放性等特點,使網絡輿情信息僅靠人工統計監測更加困難。因此,如何從海量的網絡數據中自動提取數據,成為國內外學者研究的熱點。近年來,網絡輿情信息挖掘技術作為一種跨學科技術受到人們越來越多的關注,其應用范圍被用于信息安全、主題跟蹤、熱點話題檢測與預警等方面。本文基于網絡輿情信息挖掘技術,通過分析熱點文件發展曲線與輿情文件發展曲線的特點,對下載數據進一步挖掘分析,為網絡輿情的監測提供了一種新的參考。

一、信息挖掘步驟

首先介紹互聯網文件下載的網絡輿情信息挖掘的主要步驟,其流程圖如下:

圖1 網絡輿情信息挖掘流程

如上圖(圖1)所示,基于互聯網文件下載的網絡輿情信息挖掘共分3個步驟:樣本數據的準備階段、樣本數據的訓練階段、測試數據的挖掘階段,最終得到數據挖掘結果。下面針對各個階段的內容進行介紹[1]。

1.1 樣本數據準備階段

采集一段時間內的互聯網文件下載的數據,并將其分為兩類:一類是包含輿情主題的熱點文件,它包含當時相關的輿情主題,其發展曲線也和網絡輿情發展曲線類似。一類是普通下載文件,它是任何類型文件,其下載發展曲線較平穩,沒有熱點文件的特征。

1.2 樣本數據的訓練階段

根據采集的樣本數據進行數據挖掘訓練,形成訓練集,該訓練集將成為后續測試數據信息挖掘的分類評判標準。

1.3 測試數據信息挖掘階段

對大量的互聯網文件下載的數據進行信息挖掘,分類的評判標準采用上一階段所生成的訓練集,將所有測試數據進行分類。信息挖掘過后對于每個互聯網下載文件將產生一個類型標簽,代表該下載文件是屬于互聯網熱點文件還是普通下載文件。

二、網絡輿情信息挖掘技術

根據信息挖掘步驟,網絡輿情挖掘技術分為爬蟲技術、網頁解析技術、分類技術、聚類技術及數據處理技術。其中常用的分類技術有中心法(向量空間模型)、樸素貝葉斯分類、支持向量機(SVM)、K最近鄰算法(KNN)等。下面將主要介紹本文選用的KNN算法。

KNN 算法是一種非參數分類算法,現已廣泛應用于數據挖掘的各種領域[2]。算法的基本思想可以簡單定義為:假定每一個類包含多個數據樣本,每個數據都有唯一的類標記表示這些樣本屬于哪一個分類。通過計算待分類的樣本x與訓練樣本中每個文本的相似度,找出與x最接近的k個樣本,然后根據這k個樣本的類別標簽確定x的類別。

KNN算法的優點:首先,原理簡單,易于實現;其次,KNN雖遵守極限定理,但是待分類文本只與相近樣本有關,因此很好的避免了樣本不平衡,同時相似度根據樣本的所有特征值計算,也減少了由于特征選擇不當造成的誤差。

然而,KNN本質上屬于一種懶惰的學習方法,當數據分布不均勻、傾斜現象嚴重時,大類別樣本的特征參數出現的頻率增長,這會影響KNN分類的性能。同時,KNN的相似度需要對待分類樣本與訓練樣本逐個計算,因此,距離機制是KNN算法實現的關鍵[3]。

三、基于熱點文件下載的相似度計算

直觀分析熱點文件下載曲線和網絡輿情發展曲線(如圖2),對兩條曲線進行相似度計算,這里引入增長率、增長向量、曲線相似度的概念。

其中,上式中Rise(t1|t2)為從tl到t2這段時間的曲線增長率,Numt1為tl時間點的數量,Numt2為t2時間點的數量,通過計算增長率完成單純的增長情況的目的[4]。

3.2增長向量:在計算出兩條曲線每日的增長率后,以曲線的一個周期時間為向量的維數。從曲線圖(圖3)中可以看出,設定曲線的周期為30天,由此定義一條曲線的增長向量如下:

其中,上式中Rise(ti|tj)代表ti到tj這段時間的增長率,所以上式中增長率向量GN表示的是30天內曲線的增長情況。

3.3曲線相似度:常用計算相似度的算法有余弦夾角、內積、Jaccard系數等。余弦相似度就是簡單的對每個文檔的向量進行單位化,然后進行內積計算,得出的結果可以嚴格控制在[0,1]之間,這不僅易于判斷,而且降低了處理較大數據的計算代價[5]。因此,余弦相似度在目前得到了廣泛的應用。余弦夾角計算相似度的公式如下:

(I)

這里,DN代表熱點文件的曲線向量,RN代表網絡輿情的曲線向量。根據兩條曲線的相似度進行計算,兩條曲線的增長向量如下:

DN = ( 5.0000, 2.3333, 1.0000, 1.5000, 0.6358, 0.5000, 0.3333, 0.3750, 0.2727, 0.2857, 0.3889, 0.1600, 0.0690, 0.0484, 0.0309, 0.0149, 0.0296, 0.0146, 0.0136, 0.0286, 0.0069, 0.0130, 0.0070, 0.0042, 0.0040, 0.0069, 0.0052, 0.0063, 0.0016);

RN = (4.0000, 1.4000, 0.7500, 0.4286, 0.3000, 0.2308, 0.1875, 0.0947, 0.6899, 0.8397, 0.5869, 0.4426, 0.3947, 0.3200, 0.2564, 0.0126, 0.0968, 0.0769, 0.0635, 0.0536, 0.0536, 0.0432, 0.0369, 0.0210, 0.0128, 0.0048, 0.0053, 0.0045, 0.0043)

計算得出熱點文件與網絡輿情文件的曲線相似度:

可以看出,兩條曲線在增長趨勢上有著很大的相似性,曲線發展趨勢大致相同,因此兩者間存在著相應的聯系,通過對熱點文件數據進行分析,可以判別出其相應的輿情發展趨勢,對于輿情信息挖掘具有重要的作用。

3.4基于KNN算法及曲線相似度的改進,得到對熱點文件下載的網絡輿情挖掘算法的步驟如下:

(1)計算出待分類數據和樣本數據的距離,即曲線相似度,計算公式為公式(I)。

(2)在計算出的距離后找出10個離這個待分類數據最近的樣本數據。

(3)統計出這10個樣本數據大多屬于的分類。

(4)這個分類就是這個待分類樣本數據所屬的分類。

四、輿情挖掘實驗與結果

將輿情挖掘步驟與輿情挖掘算法應用在WEKA平臺。WEKA集合大量機器學習算法,包括數據的預處理、分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。同時,實驗階段采用的是SQL Server2005。

下面利用測試數據進行數據挖掘,得到測試數據的各個分類標簽,即該文件是屬于網絡輿情文件或者普通文件。從屬于網絡輿情文件的結果中找到屬于符合輿情發展類的數據,查看其文件主題可以得到如下(表1):

可以看出,基于熱點文件下載所得的挖掘結果(表1)中,如“白靜事件”等均與2012年3月份的網絡輿情熱點(表2)相符,說明基于熱點文件下載數據可以挖掘出相應輿情信息。將挖掘結果分析如下:

第一,能夠根據互聯網下載數據挖掘出正確的網絡輿情。這類網絡輿情可以通過互聯網下載數據挖掘得出,該類網絡輿情通過互聯網下載文件進行傳播,人們對該文件下載以及上傳達到傳播的目的。

第二,不能根據互聯網下載數據挖掘出正確的網絡輿情。該類網絡輿情無法從互聯網下載數據中挖掘出來,例如表2中的“麥當勞過期食品遭央視3.15曝光”等。其原因是這類輿情主要通過網頁傳播,一些新聞網站對其進行大量報道,導致不能根據下載數據準確的將其挖掘出來。

第三,根據互聯網下載數據挖掘出錯誤的網絡輿情結果。這類輿情的文件下載發展曲線雖然符合網絡輿情的發展,但并不是網絡輿情。如表1中“大偵探福爾摩斯2:詭影游戲.rmvb”等,它們屬于電影類文件,不能表現為網絡輿情主題,所以是錯誤的挖掘結果。其原因可能是由于某時刻的熱點電影類文件的突發出現,但其數量較少,可進行過濾操作。

五、結束語

在網絡輿情信息挖掘的技術的基礎上,本文結合熱點文件的下載與網絡輿情關聯的分析,歸納對比兩者發展曲線尋找其中關聯,對KNN算法的距離公式進行研究,使得更適用熱點文件下載的網絡輿情信息挖掘。針對采集的互聯網文件下載數據,通過對熱點文件下載的進一步挖掘,尋找其中的網絡輿情主題,分析最后的挖掘結果,為網絡輿情監測提供了新的參考。

參考文獻

[1]吳健.基于Hadoop的上市公司輿情挖掘系統的研究與實現[D].電子科技大學2013

[2] Yang Y, An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999, 1(1): 76 -88

[3]周靖,劉晉勝.一種采用類相關度優化距離的KNN算法[J].微計算機應用.2010.第31卷-第11期

[4]鄭燕.基于增量學習的自適應話題追蹤技術研究[D].山東師范大學2013

[5]劉恒文.基于網絡語義挖掘的輿情監測預警研究[D].武漢理工大學2010

[6]周小麗.基于網絡爬蟲和Lucene索引的互聯網輿情監測系統設計與實現[D].吉林大學2013

[7]衣波.網絡輿情信息的話題發現和追蹤技術的研究與應用[D].廣東工業大學2013

[8]梁越嶺.互聯網輿情信息挖掘與群體行為分析[D].武漢理工大學2010

[9]唐勇.互聯網輿情監控系統的設計與實現[D].北京郵電大學2013

[10]周民.海量web輿情挖掘算法研究[D].電子科技大學2011

[11]曾奉堯.基于社會網絡的網絡輿情挖掘技術與研究[D].電子科技大學2011

主站蜘蛛池模板: 精品国产网| 国产精品自在在线午夜| 国产午夜一级毛片| 国产又粗又猛又爽视频| 丝袜无码一区二区三区| 无套av在线| 亚洲乱码视频| 国内熟女少妇一线天| 影音先锋丝袜制服| 国产新AV天堂| 国产视频 第一页| 色妞www精品视频一级下载| av在线手机播放| 国产午夜在线观看视频| 91福利在线观看视频| 国产中文一区二区苍井空| 欧洲高清无码在线| 国产成人免费视频精品一区二区| 色噜噜狠狠狠综合曰曰曰| 日韩国产高清无码| 国产精品lululu在线观看| 亚洲资源站av无码网址| 美女国产在线| 欧美色图久久| m男亚洲一区中文字幕| 在线观看国产黄色| 欧美一级99在线观看国产| 乱色熟女综合一区二区| 一级一级一片免费| 日本精品影院| 亚洲精品无码在线播放网站| 国产黄色片在线看| 午夜一级做a爰片久久毛片| 亚洲国产一成久久精品国产成人综合| 亚洲第一视频免费在线| 97久久人人超碰国产精品| 青青青伊人色综合久久| 久久精品一卡日本电影| 久久精品视频一| 亚洲无码37.| 欧美.成人.综合在线| 亚欧成人无码AV在线播放| 亚洲小视频网站| 日韩无码真实干出血视频| 91蝌蚪视频在线观看| 又黄又湿又爽的视频| 毛片免费在线视频| 一级福利视频| 91美女视频在线| 免费a在线观看播放| 国产欧美日韩综合在线第一| 久久久久88色偷偷| 国产草草影院18成年视频| 久久国产精品无码hdav| 亚洲成A人V欧美综合天堂| 99视频免费观看| 国产一区二区三区日韩精品| 91精品国产91久久久久久三级| 麻豆AV网站免费进入| 天堂在线视频精品| 成人第一页| 超碰aⅴ人人做人人爽欧美 | 亚洲福利一区二区三区| 综合网天天| 婷婷五月在线| 国产福利一区在线| 国产综合色在线视频播放线视| 久久毛片基地| 国产成人精品三级| 色综合热无码热国产| 亚洲精品中文字幕无乱码| 色亚洲成人| 欧美国产日产一区二区| 欧美精品v欧洲精品| 日本福利视频网站| 日韩精品少妇无码受不了| 日本午夜精品一本在线观看| 性喷潮久久久久久久久| 久久国产高潮流白浆免费观看| 狠狠色狠狠综合久久| 一级看片免费视频| 国产精品午夜福利麻豆|