楊琳 張德賢 唐亞娟
【摘要】 網絡信息量的逐年增長,使得獲取網絡敏感的輿情信息并做出相應的監控處理變得十分重要,網絡輿情信息挖掘技術研究十分活躍。本文介紹輿情挖掘步驟及其核心算法,分析互聯網熱點文件下載曲線與網絡輿情發展曲線的關聯,通過關聯關系對互聯網文件下載數據進行信息挖掘,從中找出是否存在符合曲線發展規律的熱點文件,最終將文件的主題與當時的網絡輿情信息進行比對,對結果進行驗證,為網絡輿情的監測提出了一種新的方法。
【關鍵詞】 熱點文件 下載數據 曲線 網絡輿情 信息挖掘
隨著互聯網的快速發展,網絡信息變得多樣化,網絡的虛擬性、隱蔽性、開放性等特點,使網絡輿情信息僅靠人工統計監測更加困難。因此,如何從海量的網絡數據中自動提取數據,成為國內外學者研究的熱點。近年來,網絡輿情信息挖掘技術作為一種跨學科技術受到人們越來越多的關注,其應用范圍被用于信息安全、主題跟蹤、熱點話題檢測與預警等方面。本文基于網絡輿情信息挖掘技術,通過分析熱點文件發展曲線與輿情文件發展曲線的特點,對下載數據進一步挖掘分析,為網絡輿情的監測提供了一種新的參考。
一、信息挖掘步驟
首先介紹互聯網文件下載的網絡輿情信息挖掘的主要步驟,其流程圖如下:
圖1 網絡輿情信息挖掘流程
如上圖(圖1)所示,基于互聯網文件下載的網絡輿情信息挖掘共分3個步驟:樣本數據的準備階段、樣本數據的訓練階段、測試數據的挖掘階段,最終得到數據挖掘結果。下面針對各個階段的內容進行介紹[1]。
1.1 樣本數據準備階段
采集一段時間內的互聯網文件下載的數據,并將其分為兩類:一類是包含輿情主題的熱點文件,它包含當時相關的輿情主題,其發展曲線也和網絡輿情發展曲線類似。一類是普通下載文件,它是任何類型文件,其下載發展曲線較平穩,沒有熱點文件的特征。
1.2 樣本數據的訓練階段
根據采集的樣本數據進行數據挖掘訓練,形成訓練集,該訓練集將成為后續測試數據信息挖掘的分類評判標準。
1.3 測試數據信息挖掘階段
對大量的互聯網文件下載的數據進行信息挖掘,分類的評判標準采用上一階段所生成的訓練集,將所有測試數據進行分類。信息挖掘過后對于每個互聯網下載文件將產生一個類型標簽,代表該下載文件是屬于互聯網熱點文件還是普通下載文件。
二、網絡輿情信息挖掘技術
根據信息挖掘步驟,網絡輿情挖掘技術分為爬蟲技術、網頁解析技術、分類技術、聚類技術及數據處理技術。其中常用的分類技術有中心法(向量空間模型)、樸素貝葉斯分類、支持向量機(SVM)、K最近鄰算法(KNN)等。下面將主要介紹本文選用的KNN算法。
KNN 算法是一種非參數分類算法,現已廣泛應用于數據挖掘的各種領域[2]。算法的基本思想可以簡單定義為:假定每一個類包含多個數據樣本,每個數據都有唯一的類標記表示這些樣本屬于哪一個分類。通過計算待分類的樣本x與訓練樣本中每個文本的相似度,找出與x最接近的k個樣本,然后根據這k個樣本的類別標簽確定x的類別。
KNN算法的優點:首先,原理簡單,易于實現;其次,KNN雖遵守極限定理,但是待分類文本只與相近樣本有關,因此很好的避免了樣本不平衡,同時相似度根據樣本的所有特征值計算,也減少了由于特征選擇不當造成的誤差。
然而,KNN本質上屬于一種懶惰的學習方法,當數據分布不均勻、傾斜現象嚴重時,大類別樣本的特征參數出現的頻率增長,這會影響KNN分類的性能。同時,KNN的相似度需要對待分類樣本與訓練樣本逐個計算,因此,距離機制是KNN算法實現的關鍵[3]。
三、基于熱點文件下載的相似度計算
直觀分析熱點文件下載曲線和網絡輿情發展曲線(如圖2),對兩條曲線進行相似度計算,這里引入增長率、增長向量、曲線相似度的概念。
其中,上式中Rise(t1|t2)為從tl到t2這段時間的曲線增長率,Numt1為tl時間點的數量,Numt2為t2時間點的數量,通過計算增長率完成單純的增長情況的目的[4]。
3.2增長向量:在計算出兩條曲線每日的增長率后,以曲線的一個周期時間為向量的維數。從曲線圖(圖3)中可以看出,設定曲線的周期為30天,由此定義一條曲線的增長向量如下:
其中,上式中Rise(ti|tj)代表ti到tj這段時間的增長率,所以上式中增長率向量GN表示的是30天內曲線的增長情況。
3.3曲線相似度:常用計算相似度的算法有余弦夾角、內積、Jaccard系數等。余弦相似度就是簡單的對每個文檔的向量進行單位化,然后進行內積計算,得出的結果可以嚴格控制在[0,1]之間,這不僅易于判斷,而且降低了處理較大數據的計算代價[5]。因此,余弦相似度在目前得到了廣泛的應用。余弦夾角計算相似度的公式如下:
(I)
這里,DN代表熱點文件的曲線向量,RN代表網絡輿情的曲線向量。根據兩條曲線的相似度進行計算,兩條曲線的增長向量如下:
DN = ( 5.0000, 2.3333, 1.0000, 1.5000, 0.6358, 0.5000, 0.3333, 0.3750, 0.2727, 0.2857, 0.3889, 0.1600, 0.0690, 0.0484, 0.0309, 0.0149, 0.0296, 0.0146, 0.0136, 0.0286, 0.0069, 0.0130, 0.0070, 0.0042, 0.0040, 0.0069, 0.0052, 0.0063, 0.0016);
RN = (4.0000, 1.4000, 0.7500, 0.4286, 0.3000, 0.2308, 0.1875, 0.0947, 0.6899, 0.8397, 0.5869, 0.4426, 0.3947, 0.3200, 0.2564, 0.0126, 0.0968, 0.0769, 0.0635, 0.0536, 0.0536, 0.0432, 0.0369, 0.0210, 0.0128, 0.0048, 0.0053, 0.0045, 0.0043)
計算得出熱點文件與網絡輿情文件的曲線相似度:
可以看出,兩條曲線在增長趨勢上有著很大的相似性,曲線發展趨勢大致相同,因此兩者間存在著相應的聯系,通過對熱點文件數據進行分析,可以判別出其相應的輿情發展趨勢,對于輿情信息挖掘具有重要的作用。
3.4基于KNN算法及曲線相似度的改進,得到對熱點文件下載的網絡輿情挖掘算法的步驟如下:
(1)計算出待分類數據和樣本數據的距離,即曲線相似度,計算公式為公式(I)。
(2)在計算出的距離后找出10個離這個待分類數據最近的樣本數據。
(3)統計出這10個樣本數據大多屬于的分類。
(4)這個分類就是這個待分類樣本數據所屬的分類。
四、輿情挖掘實驗與結果
將輿情挖掘步驟與輿情挖掘算法應用在WEKA平臺。WEKA集合大量機器學習算法,包括數據的預處理、分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化。同時,實驗階段采用的是SQL Server2005。
下面利用測試數據進行數據挖掘,得到測試數據的各個分類標簽,即該文件是屬于網絡輿情文件或者普通文件。從屬于網絡輿情文件的結果中找到屬于符合輿情發展類的數據,查看其文件主題可以得到如下(表1):
可以看出,基于熱點文件下載所得的挖掘結果(表1)中,如“白靜事件”等均與2012年3月份的網絡輿情熱點(表2)相符,說明基于熱點文件下載數據可以挖掘出相應輿情信息。將挖掘結果分析如下:
第一,能夠根據互聯網下載數據挖掘出正確的網絡輿情。這類網絡輿情可以通過互聯網下載數據挖掘得出,該類網絡輿情通過互聯網下載文件進行傳播,人們對該文件下載以及上傳達到傳播的目的。
第二,不能根據互聯網下載數據挖掘出正確的網絡輿情。該類網絡輿情無法從互聯網下載數據中挖掘出來,例如表2中的“麥當勞過期食品遭央視3.15曝光”等。其原因是這類輿情主要通過網頁傳播,一些新聞網站對其進行大量報道,導致不能根據下載數據準確的將其挖掘出來。
第三,根據互聯網下載數據挖掘出錯誤的網絡輿情結果。這類輿情的文件下載發展曲線雖然符合網絡輿情的發展,但并不是網絡輿情。如表1中“大偵探福爾摩斯2:詭影游戲.rmvb”等,它們屬于電影類文件,不能表現為網絡輿情主題,所以是錯誤的挖掘結果。其原因可能是由于某時刻的熱點電影類文件的突發出現,但其數量較少,可進行過濾操作。
五、結束語
在網絡輿情信息挖掘的技術的基礎上,本文結合熱點文件的下載與網絡輿情關聯的分析,歸納對比兩者發展曲線尋找其中關聯,對KNN算法的距離公式進行研究,使得更適用熱點文件下載的網絡輿情信息挖掘。針對采集的互聯網文件下載數據,通過對熱點文件下載的進一步挖掘,尋找其中的網絡輿情主題,分析最后的挖掘結果,為網絡輿情監測提供了新的參考。
參考文獻
[1]吳健.基于Hadoop的上市公司輿情挖掘系統的研究與實現[D].電子科技大學2013
[2] Yang Y, An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999, 1(1): 76 -88
[3]周靖,劉晉勝.一種采用類相關度優化距離的KNN算法[J].微計算機應用.2010.第31卷-第11期
[4]鄭燕.基于增量學習的自適應話題追蹤技術研究[D].山東師范大學2013
[5]劉恒文.基于網絡語義挖掘的輿情監測預警研究[D].武漢理工大學2010
[6]周小麗.基于網絡爬蟲和Lucene索引的互聯網輿情監測系統設計與實現[D].吉林大學2013
[7]衣波.網絡輿情信息的話題發現和追蹤技術的研究與應用[D].廣東工業大學2013
[8]梁越嶺.互聯網輿情信息挖掘與群體行為分析[D].武漢理工大學2010
[9]唐勇.互聯網輿情監控系統的設計與實現[D].北京郵電大學2013
[10]周民.海量web輿情挖掘算法研究[D].電子科技大學2011
[11]曾奉堯.基于社會網絡的網絡輿情挖掘技術與研究[D].電子科技大學2011