基于熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究

2014-04-29 11:19:37楊琳張德賢唐亞娟

中國(guó)新通信 2014年14期

楊琳張德賢唐亞娟

【摘要】網(wǎng)絡(luò)信息量的逐年增長(zhǎng)，使得獲取網(wǎng)絡(luò)敏感的輿情信息并做出相應(yīng)的監(jiān)控處理變得十分重要，網(wǎng)絡(luò)輿情信息挖掘技術(shù)研究十分活躍。本文介紹輿情挖掘步驟及其核心算法，分析互聯(lián)網(wǎng)熱點(diǎn)文件下載曲線與網(wǎng)絡(luò)輿情發(fā)展曲線的關(guān)聯(lián)，通過(guò)關(guān)聯(lián)關(guān)系對(duì)互聯(lián)網(wǎng)文件下載數(shù)據(jù)進(jìn)行信息挖掘，從中找出是否存在符合曲線發(fā)展規(guī)律的熱點(diǎn)文件，最終將文件的主題與當(dāng)時(shí)的網(wǎng)絡(luò)輿情信息進(jìn)行比對(duì)，對(duì)結(jié)果進(jìn)行驗(yàn)證，為網(wǎng)絡(luò)輿情的監(jiān)測(cè)提出了一種新的方法。

【關(guān)鍵詞】熱點(diǎn)文件下載數(shù)據(jù) 曲線網(wǎng)絡(luò)輿情信息挖掘

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)信息變得多樣化，網(wǎng)絡(luò)的虛擬性、隱蔽性、開放性等特點(diǎn)，使網(wǎng)絡(luò)輿情信息僅靠人工統(tǒng)計(jì)監(jiān)測(cè)更加困難。因此，如何從海量的網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)提取數(shù)據(jù)，成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。近年來(lái)，網(wǎng)絡(luò)輿情信息挖掘技術(shù)作為一種跨學(xué)科技術(shù)受到人們?cè)絹?lái)越多的關(guān)注，其應(yīng)用范圍被用于信息安全、主題跟蹤、熱點(diǎn)話題檢測(cè)與預(yù)警等方面。本文基于網(wǎng)絡(luò)輿情信息挖掘技術(shù)，通過(guò)分析熱點(diǎn)文件發(fā)展曲線與輿情文件發(fā)展曲線的特點(diǎn)，對(duì)下載數(shù)據(jù)進(jìn)一步挖掘分析，為網(wǎng)絡(luò)輿情的監(jiān)測(cè)提供了一種新的參考。

一、信息挖掘步驟

首先介紹互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘的主要步驟，其流程圖如下：

圖1 網(wǎng)絡(luò)輿情信息挖掘流程

如上圖（圖1）所示，基于互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘共分3個(gè)步驟：樣本數(shù)據(jù)的準(zhǔn)備階段、樣本數(shù)據(jù)的訓(xùn)練階段、測(cè)試數(shù)據(jù)的挖掘階段，最終得到數(shù)據(jù)挖掘結(jié)果。下面針對(duì)各個(gè)階段的內(nèi)容進(jìn)行介紹[1]。

1.1 樣本數(shù)據(jù)準(zhǔn)備階段

采集一段時(shí)間內(nèi)的互聯(lián)網(wǎng)文件下載的數(shù)據(jù)，并將其分為兩類：一類是包含輿情主題的熱點(diǎn)文件，它包含當(dāng)時(shí)相關(guān)的輿情主題，其發(fā)展曲線也和網(wǎng)絡(luò)輿情發(fā)展曲線類似。一類是普通下載文件，它是任何類型文件，其下載發(fā)展曲線較平穩(wěn)，沒(méi)有熱點(diǎn)文件的特征。

1.2 樣本數(shù)據(jù)的訓(xùn)練階段

根據(jù)采集的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘訓(xùn)練，形成訓(xùn)練集，該訓(xùn)練集將成為后續(xù)測(cè)試數(shù)據(jù)信息挖掘的分類評(píng)判標(biāo)準(zhǔn)。

1.3 測(cè)試數(shù)據(jù)信息挖掘階段

對(duì)大量的互聯(lián)網(wǎng)文件下載的數(shù)據(jù)進(jìn)行信息挖掘，分類的評(píng)判標(biāo)準(zhǔn)采用上一階段所生成的訓(xùn)練集，將所有測(cè)試數(shù)據(jù)進(jìn)行分類。信息挖掘過(guò)后對(duì)于每個(gè)互聯(lián)網(wǎng)下載文件將產(chǎn)生一個(gè)類型標(biāo)簽，代表該下載文件是屬于互聯(lián)網(wǎng)熱點(diǎn)文件還是普通下載文件。

二、網(wǎng)絡(luò)輿情信息挖掘技術(shù)

根據(jù)信息挖掘步驟，網(wǎng)絡(luò)輿情挖掘技術(shù)分為爬蟲技術(shù)、網(wǎng)頁(yè)解析技術(shù)、分類技術(shù)、聚類技術(shù)及數(shù)據(jù)處理技術(shù)。其中常用的分類技術(shù)有中心法（向量空間模型）、樸素貝葉斯分類、支持向量機(jī)（SVM）、K最近鄰算法（KNN）等。下面將主要介紹本文選用的KNN算法。

KNN 算法是一種非參數(shù)分類算法，現(xiàn)已廣泛應(yīng)用于數(shù)據(jù)挖掘的各種領(lǐng)域[2]。算法的基本思想可以簡(jiǎn)單定義為：假定每一個(gè)類包含多個(gè)數(shù)據(jù)樣本，每個(gè)數(shù)據(jù)都有唯一的類標(biāo)記表示這些樣本屬于哪一個(gè)分類。通過(guò)計(jì)算待分類的樣本x與訓(xùn)練樣本中每個(gè)文本的相似度，找出與x最接近的k個(gè)樣本，然后根據(jù)這k個(gè)樣本的類別標(biāo)簽確定x的類別。

KNN算法的優(yōu)點(diǎn)：首先，原理簡(jiǎn)單，易于實(shí)現(xiàn)；其次，KNN雖遵守極限定理，但是待分類文本只與相近樣本有關(guān)，因此很好的避免了樣本不平衡，同時(shí)相似度根據(jù)樣本的所有特征值計(jì)算，也減少了由于特征選擇不當(dāng)造成的誤差。

然而，KNN本質(zhì)上屬于一種懶惰的學(xué)習(xí)方法，當(dāng)數(shù)據(jù)分布不均勻、傾斜現(xiàn)象嚴(yán)重時(shí)，大類別樣本的特征參數(shù)出現(xiàn)的頻率增長(zhǎng)，這會(huì)影響KNN分類的性能。同時(shí)，KNN的相似度需要對(duì)待分類樣本與訓(xùn)練樣本逐個(gè)計(jì)算，因此，距離機(jī)制是KNN算法實(shí)現(xiàn)的關(guān)鍵[3]。

三、基于熱點(diǎn)文件下載的相似度計(jì)算

直觀分析熱點(diǎn)文件下載曲線和網(wǎng)絡(luò)輿情發(fā)展曲線（如圖2），對(duì)兩條曲線進(jìn)行相似度計(jì)算，這里引入增長(zhǎng)率、增長(zhǎng)向量、曲線相似度的概念。

其中，上式中Rise（t1|t2）為從tl到t2這段時(shí)間的曲線增長(zhǎng)率，Numt1為tl時(shí)間點(diǎn)的數(shù)量，Numt2為t2時(shí)間點(diǎn)的數(shù)量，通過(guò)計(jì)算增長(zhǎng)率完成單純的增長(zhǎng)情況的目的[4]。

3.2增長(zhǎng)向量：在計(jì)算出兩條曲線每日的增長(zhǎng)率后，以曲線的一個(gè)周期時(shí)間為向量的維數(shù)。從曲線圖（圖3）中可以看出，設(shè)定曲線的周期為30天，由此定義一條曲線的增長(zhǎng)向量如下：

其中，上式中Rise（ti|tj）代表ti到tj這段時(shí)間的增長(zhǎng)率，所以上式中增長(zhǎng)率向量GN表示的是30天內(nèi)曲線的增長(zhǎng)情況。

3.3曲線相似度：常用計(jì)算相似度的算法有余弦?jiàn)A角、內(nèi)積、Jaccard系數(shù)等。余弦相似度就是簡(jiǎn)單的對(duì)每個(gè)文檔的向量進(jìn)行單位化，然后進(jìn)行內(nèi)積計(jì)算，得出的結(jié)果可以嚴(yán)格控制在[0，1]之間，這不僅易于判斷，而且降低了處理較大數(shù)據(jù)的計(jì)算代價(jià)[5]。因此，余弦相似度在目前得到了廣泛的應(yīng)用。余弦?jiàn)A角計(jì)算相似度的公式如下：

（I）

這里，DN代表熱點(diǎn)文件的曲線向量，RN代表網(wǎng)絡(luò)輿情的曲線向量。根據(jù)兩條曲線的相似度進(jìn)行計(jì)算，兩條曲線的增長(zhǎng)向量如下：

DN = （ 5.0000， 2.3333， 1.0000， 1.5000， 0.6358， 0.5000， 0.3333， 0.3750， 0.2727， 0.2857， 0.3889， 0.1600， 0.0690， 0.0484， 0.0309， 0.0149， 0.0296， 0.0146， 0.0136， 0.0286， 0.0069， 0.0130， 0.0070， 0.0042， 0.0040， 0.0069， 0.0052， 0.0063， 0.0016）；

RN = （4.0000， 1.4000， 0.7500， 0.4286， 0.3000， 0.2308， 0.1875， 0.0947， 0.6899， 0.8397， 0.5869， 0.4426， 0.3947， 0.3200， 0.2564， 0.0126， 0.0968， 0.0769， 0.0635， 0.0536， 0.0536， 0.0432， 0.0369， 0.0210， 0.0128， 0.0048， 0.0053， 0.0045， 0.0043）

計(jì)算得出熱點(diǎn)文件與網(wǎng)絡(luò)輿情文件的曲線相似度：

可以看出，兩條曲線在增長(zhǎng)趨勢(shì)上有著很大的相似性，曲線發(fā)展趨勢(shì)大致相同，因此兩者間存在著相應(yīng)的聯(lián)系，通過(guò)對(duì)熱點(diǎn)文件數(shù)據(jù)進(jìn)行分析，可以判別出其相應(yīng)的輿情發(fā)展趨勢(shì)，對(duì)于輿情信息挖掘具有重要的作用。

3.4基于KNN算法及曲線相似度的改進(jìn)，得到對(duì)熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情挖掘算法的步驟如下：

（1）計(jì)算出待分類數(shù)據(jù)和樣本數(shù)據(jù)的距離，即曲線相似度，計(jì)算公式為公式（I）。

（2）在計(jì)算出的距離后找出10個(gè)離這個(gè)待分類數(shù)據(jù)最近的樣本數(shù)據(jù)。

（3）統(tǒng)計(jì)出這10個(gè)樣本數(shù)據(jù)大多屬于的分類。

（4）這個(gè)分類就是這個(gè)待分類樣本數(shù)據(jù)所屬的分類。

四、輿情挖掘?qū)嶒?yàn)與結(jié)果

將輿情挖掘步驟與輿情挖掘算法應(yīng)用在WEKA平臺(tái)。WEKA集合大量機(jī)器學(xué)習(xí)算法，包括數(shù)據(jù)的預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。同時(shí)，實(shí)驗(yàn)階段采用的是SQL Server2005。

下面利用測(cè)試數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，得到測(cè)試數(shù)據(jù)的各個(gè)分類標(biāo)簽，即該文件是屬于網(wǎng)絡(luò)輿情文件或者普通文件。從屬于網(wǎng)絡(luò)輿情文件的結(jié)果中找到屬于符合輿情發(fā)展類的數(shù)據(jù)，查看其文件主題可以得到如下（表1）：

可以看出，基于熱點(diǎn)文件下載所得的挖掘結(jié)果（表1）中，如“白靜事件”等均與2012年3月份的網(wǎng)絡(luò)輿情熱點(diǎn)（表2）相符，說(shuō)明基于熱點(diǎn)文件下載數(shù)據(jù)可以挖掘出相應(yīng)輿情信息。將挖掘結(jié)果分析如下：

第一，能夠根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。這類網(wǎng)絡(luò)輿情可以通過(guò)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘得出，該類網(wǎng)絡(luò)輿情通過(guò)互聯(lián)網(wǎng)下載文件進(jìn)行傳播，人們對(duì)該文件下載以及上傳達(dá)到傳播的目的。

第二，不能根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。該類網(wǎng)絡(luò)輿情無(wú)法從互聯(lián)網(wǎng)下載數(shù)據(jù)中挖掘出來(lái)，例如表2中的“麥當(dāng)勞過(guò)期食品遭央視3.15曝光”等。其原因是這類輿情主要通過(guò)網(wǎng)頁(yè)傳播，一些新聞網(wǎng)站對(duì)其進(jìn)行大量報(bào)道，導(dǎo)致不能根據(jù)下載數(shù)據(jù)準(zhǔn)確的將其挖掘出來(lái)。

第三，根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出錯(cuò)誤的網(wǎng)絡(luò)輿情結(jié)果。這類輿情的文件下載發(fā)展曲線雖然符合網(wǎng)絡(luò)輿情的發(fā)展，但并不是網(wǎng)絡(luò)輿情。如表1中“大偵探福爾摩斯2：詭影游戲.rmvb”等，它們屬于電影類文件，不能表現(xiàn)為網(wǎng)絡(luò)輿情主題，所以是錯(cuò)誤的挖掘結(jié)果。其原因可能是由于某時(shí)刻的熱點(diǎn)電影類文件的突發(fā)出現(xiàn)，但其數(shù)量較少，可進(jìn)行過(guò)濾操作。

五、結(jié)束語(yǔ)

在網(wǎng)絡(luò)輿情信息挖掘的技術(shù)的基礎(chǔ)上，本文結(jié)合熱點(diǎn)文件的下載與網(wǎng)絡(luò)輿情關(guān)聯(lián)的分析，歸納對(duì)比兩者發(fā)展曲線尋找其中關(guān)聯(lián)，對(duì)KNN算法的距離公式進(jìn)行研究，使得更適用熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘。針對(duì)采集的互聯(lián)網(wǎng)文件下載數(shù)據(jù)，通過(guò)對(duì)熱點(diǎn)文件下載的進(jìn)一步挖掘，尋找其中的網(wǎng)絡(luò)輿情主題，分析最后的挖掘結(jié)果，為網(wǎng)絡(luò)輿情監(jiān)測(cè)提供了新的參考。

參考文獻(xiàn)

[1]吳健.基于Hadoop的上市公司輿情挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué)2013

[2] Yang Y， An evaluation of statistical approaches to text categorization[J].Information Retrieval， 1999， 1（1）： 76 -88

[3]周靖，劉晉勝.一種采用類相關(guān)度優(yōu)化距離的KNN算法[J].微計(jì)算機(jī)應(yīng)用.2010.第31卷-第11期

[4]鄭燕.基于增量學(xué)習(xí)的自適應(yīng)話題追蹤技術(shù)研究[D].山東師范大學(xué)2013

[5]劉恒文.基于網(wǎng)絡(luò)語(yǔ)義挖掘的輿情監(jiān)測(cè)預(yù)警研究[D].武漢理工大學(xué)2010

[6]周小麗.基于網(wǎng)絡(luò)爬蟲和Lucene索引的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].吉林大學(xué)2013

[7]衣波.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D].廣東工業(yè)大學(xué)2013

[8]梁越嶺.互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D].武漢理工大學(xué)2010

[9]唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)2013

[10]周民.海量web輿情挖掘算法研究[D].電子科技大學(xué)2011

[11]曾奉堯.基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情挖掘技術(shù)與研究[D].電子科技大學(xué)2011

中國(guó)新通信2014年14期

中國(guó)新通信的其它文章: 基于多級(jí)交換網(wǎng)絡(luò)的高性能路由器設(shè)計(jì)分析; LTE-FDD 通信系統(tǒng)優(yōu)化分析研究; 基于PDM的項(xiàng)目管理技術(shù)研究; 公安消防部隊(duì)網(wǎng)絡(luò)考試系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); MSTP核心技術(shù)的發(fā)展與應(yīng)用; 陳列平臺(tái)姿態(tài)的測(cè)量原理及方法