999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘方法研究

2014-04-29 11:19:37楊琳張德賢唐亞娟
中國(guó)新通信 2014年14期

楊琳 張德賢 唐亞娟

【摘要】 網(wǎng)絡(luò)信息量的逐年增長(zhǎng),使得獲取網(wǎng)絡(luò)敏感的輿情信息并做出相應(yīng)的監(jiān)控處理變得十分重要,網(wǎng)絡(luò)輿情信息挖掘技術(shù)研究十分活躍。本文介紹輿情挖掘步驟及其核心算法,分析互聯(lián)網(wǎng)熱點(diǎn)文件下載曲線與網(wǎng)絡(luò)輿情發(fā)展曲線的關(guān)聯(lián),通過(guò)關(guān)聯(lián)關(guān)系對(duì)互聯(lián)網(wǎng)文件下載數(shù)據(jù)進(jìn)行信息挖掘,從中找出是否存在符合曲線發(fā)展規(guī)律的熱點(diǎn)文件,最終將文件的主題與當(dāng)時(shí)的網(wǎng)絡(luò)輿情信息進(jìn)行比對(duì),對(duì)結(jié)果進(jìn)行驗(yàn)證,為網(wǎng)絡(luò)輿情的監(jiān)測(cè)提出了一種新的方法。

【關(guān)鍵詞】 熱點(diǎn)文件 下載數(shù)據(jù) 曲線 網(wǎng)絡(luò)輿情 信息挖掘

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息變得多樣化,網(wǎng)絡(luò)的虛擬性、隱蔽性、開放性等特點(diǎn),使網(wǎng)絡(luò)輿情信息僅靠人工統(tǒng)計(jì)監(jiān)測(cè)更加困難。因此,如何從海量的網(wǎng)絡(luò)數(shù)據(jù)中自動(dòng)提取數(shù)據(jù),成為國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。近年來(lái),網(wǎng)絡(luò)輿情信息挖掘技術(shù)作為一種跨學(xué)科技術(shù)受到人們?cè)絹?lái)越多的關(guān)注,其應(yīng)用范圍被用于信息安全、主題跟蹤、熱點(diǎn)話題檢測(cè)與預(yù)警等方面。本文基于網(wǎng)絡(luò)輿情信息挖掘技術(shù),通過(guò)分析熱點(diǎn)文件發(fā)展曲線與輿情文件發(fā)展曲線的特點(diǎn),對(duì)下載數(shù)據(jù)進(jìn)一步挖掘分析,為網(wǎng)絡(luò)輿情的監(jiān)測(cè)提供了一種新的參考。

一、信息挖掘步驟

首先介紹互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘的主要步驟,其流程圖如下:

圖1 網(wǎng)絡(luò)輿情信息挖掘流程

如上圖(圖1)所示,基于互聯(lián)網(wǎng)文件下載的網(wǎng)絡(luò)輿情信息挖掘共分3個(gè)步驟:樣本數(shù)據(jù)的準(zhǔn)備階段、樣本數(shù)據(jù)的訓(xùn)練階段、測(cè)試數(shù)據(jù)的挖掘階段,最終得到數(shù)據(jù)挖掘結(jié)果。下面針對(duì)各個(gè)階段的內(nèi)容進(jìn)行介紹[1]。

1.1 樣本數(shù)據(jù)準(zhǔn)備階段

采集一段時(shí)間內(nèi)的互聯(lián)網(wǎng)文件下載的數(shù)據(jù),并將其分為兩類:一類是包含輿情主題的熱點(diǎn)文件,它包含當(dāng)時(shí)相關(guān)的輿情主題,其發(fā)展曲線也和網(wǎng)絡(luò)輿情發(fā)展曲線類似。一類是普通下載文件,它是任何類型文件,其下載發(fā)展曲線較平穩(wěn),沒(méi)有熱點(diǎn)文件的特征。

1.2 樣本數(shù)據(jù)的訓(xùn)練階段

根據(jù)采集的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘訓(xùn)練,形成訓(xùn)練集,該訓(xùn)練集將成為后續(xù)測(cè)試數(shù)據(jù)信息挖掘的分類評(píng)判標(biāo)準(zhǔn)。

1.3 測(cè)試數(shù)據(jù)信息挖掘階段

對(duì)大量的互聯(lián)網(wǎng)文件下載的數(shù)據(jù)進(jìn)行信息挖掘,分類的評(píng)判標(biāo)準(zhǔn)采用上一階段所生成的訓(xùn)練集,將所有測(cè)試數(shù)據(jù)進(jìn)行分類。信息挖掘過(guò)后對(duì)于每個(gè)互聯(lián)網(wǎng)下載文件將產(chǎn)生一個(gè)類型標(biāo)簽,代表該下載文件是屬于互聯(lián)網(wǎng)熱點(diǎn)文件還是普通下載文件。

二、網(wǎng)絡(luò)輿情信息挖掘技術(shù)

根據(jù)信息挖掘步驟,網(wǎng)絡(luò)輿情挖掘技術(shù)分為爬蟲技術(shù)、網(wǎng)頁(yè)解析技術(shù)、分類技術(shù)、聚類技術(shù)及數(shù)據(jù)處理技術(shù)。其中常用的分類技術(shù)有中心法(向量空間模型)、樸素貝葉斯分類、支持向量機(jī)(SVM)、K最近鄰算法(KNN)等。下面將主要介紹本文選用的KNN算法。

KNN 算法是一種非參數(shù)分類算法,現(xiàn)已廣泛應(yīng)用于數(shù)據(jù)挖掘的各種領(lǐng)域[2]。算法的基本思想可以簡(jiǎn)單定義為:假定每一個(gè)類包含多個(gè)數(shù)據(jù)樣本,每個(gè)數(shù)據(jù)都有唯一的類標(biāo)記表示這些樣本屬于哪一個(gè)分類。通過(guò)計(jì)算待分類的樣本x與訓(xùn)練樣本中每個(gè)文本的相似度,找出與x最接近的k個(gè)樣本,然后根據(jù)這k個(gè)樣本的類別標(biāo)簽確定x的類別。

KNN算法的優(yōu)點(diǎn):首先,原理簡(jiǎn)單,易于實(shí)現(xiàn);其次,KNN雖遵守極限定理,但是待分類文本只與相近樣本有關(guān),因此很好的避免了樣本不平衡,同時(shí)相似度根據(jù)樣本的所有特征值計(jì)算,也減少了由于特征選擇不當(dāng)造成的誤差。

然而,KNN本質(zhì)上屬于一種懶惰的學(xué)習(xí)方法,當(dāng)數(shù)據(jù)分布不均勻、傾斜現(xiàn)象嚴(yán)重時(shí),大類別樣本的特征參數(shù)出現(xiàn)的頻率增長(zhǎng),這會(huì)影響KNN分類的性能。同時(shí),KNN的相似度需要對(duì)待分類樣本與訓(xùn)練樣本逐個(gè)計(jì)算,因此,距離機(jī)制是KNN算法實(shí)現(xiàn)的關(guān)鍵[3]。

三、基于熱點(diǎn)文件下載的相似度計(jì)算

直觀分析熱點(diǎn)文件下載曲線和網(wǎng)絡(luò)輿情發(fā)展曲線(如圖2),對(duì)兩條曲線進(jìn)行相似度計(jì)算,這里引入增長(zhǎng)率、增長(zhǎng)向量、曲線相似度的概念。

其中,上式中Rise(t1|t2)為從tl到t2這段時(shí)間的曲線增長(zhǎng)率,Numt1為tl時(shí)間點(diǎn)的數(shù)量,Numt2為t2時(shí)間點(diǎn)的數(shù)量,通過(guò)計(jì)算增長(zhǎng)率完成單純的增長(zhǎng)情況的目的[4]。

3.2增長(zhǎng)向量:在計(jì)算出兩條曲線每日的增長(zhǎng)率后,以曲線的一個(gè)周期時(shí)間為向量的維數(shù)。從曲線圖(圖3)中可以看出,設(shè)定曲線的周期為30天,由此定義一條曲線的增長(zhǎng)向量如下:

其中,上式中Rise(ti|tj)代表ti到tj這段時(shí)間的增長(zhǎng)率,所以上式中增長(zhǎng)率向量GN表示的是30天內(nèi)曲線的增長(zhǎng)情況。

3.3曲線相似度:常用計(jì)算相似度的算法有余弦?jiàn)A角、內(nèi)積、Jaccard系數(shù)等。余弦相似度就是簡(jiǎn)單的對(duì)每個(gè)文檔的向量進(jìn)行單位化,然后進(jìn)行內(nèi)積計(jì)算,得出的結(jié)果可以嚴(yán)格控制在[0,1]之間,這不僅易于判斷,而且降低了處理較大數(shù)據(jù)的計(jì)算代價(jià)[5]。因此,余弦相似度在目前得到了廣泛的應(yīng)用。余弦?jiàn)A角計(jì)算相似度的公式如下:

(I)

這里,DN代表熱點(diǎn)文件的曲線向量,RN代表網(wǎng)絡(luò)輿情的曲線向量。根據(jù)兩條曲線的相似度進(jìn)行計(jì)算,兩條曲線的增長(zhǎng)向量如下:

DN = ( 5.0000, 2.3333, 1.0000, 1.5000, 0.6358, 0.5000, 0.3333, 0.3750, 0.2727, 0.2857, 0.3889, 0.1600, 0.0690, 0.0484, 0.0309, 0.0149, 0.0296, 0.0146, 0.0136, 0.0286, 0.0069, 0.0130, 0.0070, 0.0042, 0.0040, 0.0069, 0.0052, 0.0063, 0.0016);

RN = (4.0000, 1.4000, 0.7500, 0.4286, 0.3000, 0.2308, 0.1875, 0.0947, 0.6899, 0.8397, 0.5869, 0.4426, 0.3947, 0.3200, 0.2564, 0.0126, 0.0968, 0.0769, 0.0635, 0.0536, 0.0536, 0.0432, 0.0369, 0.0210, 0.0128, 0.0048, 0.0053, 0.0045, 0.0043)

計(jì)算得出熱點(diǎn)文件與網(wǎng)絡(luò)輿情文件的曲線相似度:

可以看出,兩條曲線在增長(zhǎng)趨勢(shì)上有著很大的相似性,曲線發(fā)展趨勢(shì)大致相同,因此兩者間存在著相應(yīng)的聯(lián)系,通過(guò)對(duì)熱點(diǎn)文件數(shù)據(jù)進(jìn)行分析,可以判別出其相應(yīng)的輿情發(fā)展趨勢(shì),對(duì)于輿情信息挖掘具有重要的作用。

3.4基于KNN算法及曲線相似度的改進(jìn),得到對(duì)熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情挖掘算法的步驟如下:

(1)計(jì)算出待分類數(shù)據(jù)和樣本數(shù)據(jù)的距離,即曲線相似度,計(jì)算公式為公式(I)。

(2)在計(jì)算出的距離后找出10個(gè)離這個(gè)待分類數(shù)據(jù)最近的樣本數(shù)據(jù)。

(3)統(tǒng)計(jì)出這10個(gè)樣本數(shù)據(jù)大多屬于的分類。

(4)這個(gè)分類就是這個(gè)待分類樣本數(shù)據(jù)所屬的分類。

四、輿情挖掘?qū)嶒?yàn)與結(jié)果

將輿情挖掘步驟與輿情挖掘算法應(yīng)用在WEKA平臺(tái)。WEKA集合大量機(jī)器學(xué)習(xí)算法,包括數(shù)據(jù)的預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。同時(shí),實(shí)驗(yàn)階段采用的是SQL Server2005。

下面利用測(cè)試數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,得到測(cè)試數(shù)據(jù)的各個(gè)分類標(biāo)簽,即該文件是屬于網(wǎng)絡(luò)輿情文件或者普通文件。從屬于網(wǎng)絡(luò)輿情文件的結(jié)果中找到屬于符合輿情發(fā)展類的數(shù)據(jù),查看其文件主題可以得到如下(表1):

可以看出,基于熱點(diǎn)文件下載所得的挖掘結(jié)果(表1)中,如“白靜事件”等均與2012年3月份的網(wǎng)絡(luò)輿情熱點(diǎn)(表2)相符,說(shuō)明基于熱點(diǎn)文件下載數(shù)據(jù)可以挖掘出相應(yīng)輿情信息。將挖掘結(jié)果分析如下:

第一,能夠根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。這類網(wǎng)絡(luò)輿情可以通過(guò)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘得出,該類網(wǎng)絡(luò)輿情通過(guò)互聯(lián)網(wǎng)下載文件進(jìn)行傳播,人們對(duì)該文件下載以及上傳達(dá)到傳播的目的。

第二,不能根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出正確的網(wǎng)絡(luò)輿情。該類網(wǎng)絡(luò)輿情無(wú)法從互聯(lián)網(wǎng)下載數(shù)據(jù)中挖掘出來(lái),例如表2中的“麥當(dāng)勞過(guò)期食品遭央視3.15曝光”等。其原因是這類輿情主要通過(guò)網(wǎng)頁(yè)傳播,一些新聞網(wǎng)站對(duì)其進(jìn)行大量報(bào)道,導(dǎo)致不能根據(jù)下載數(shù)據(jù)準(zhǔn)確的將其挖掘出來(lái)。

第三,根據(jù)互聯(lián)網(wǎng)下載數(shù)據(jù)挖掘出錯(cuò)誤的網(wǎng)絡(luò)輿情結(jié)果。這類輿情的文件下載發(fā)展曲線雖然符合網(wǎng)絡(luò)輿情的發(fā)展,但并不是網(wǎng)絡(luò)輿情。如表1中“大偵探福爾摩斯2:詭影游戲.rmvb”等,它們屬于電影類文件,不能表現(xiàn)為網(wǎng)絡(luò)輿情主題,所以是錯(cuò)誤的挖掘結(jié)果。其原因可能是由于某時(shí)刻的熱點(diǎn)電影類文件的突發(fā)出現(xiàn),但其數(shù)量較少,可進(jìn)行過(guò)濾操作。

五、結(jié)束語(yǔ)

在網(wǎng)絡(luò)輿情信息挖掘的技術(shù)的基礎(chǔ)上,本文結(jié)合熱點(diǎn)文件的下載與網(wǎng)絡(luò)輿情關(guān)聯(lián)的分析,歸納對(duì)比兩者發(fā)展曲線尋找其中關(guān)聯(lián),對(duì)KNN算法的距離公式進(jìn)行研究,使得更適用熱點(diǎn)文件下載的網(wǎng)絡(luò)輿情信息挖掘。針對(duì)采集的互聯(lián)網(wǎng)文件下載數(shù)據(jù),通過(guò)對(duì)熱點(diǎn)文件下載的進(jìn)一步挖掘,尋找其中的網(wǎng)絡(luò)輿情主題,分析最后的挖掘結(jié)果,為網(wǎng)絡(luò)輿情監(jiān)測(cè)提供了新的參考。

參考文獻(xiàn)

[1]吳健.基于Hadoop的上市公司輿情挖掘系統(tǒng)的研究與實(shí)現(xiàn)[D].電子科技大學(xué)2013

[2] Yang Y, An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999, 1(1): 76 -88

[3]周靖,劉晉勝.一種采用類相關(guān)度優(yōu)化距離的KNN算法[J].微計(jì)算機(jī)應(yīng)用.2010.第31卷-第11期

[4]鄭燕.基于增量學(xué)習(xí)的自適應(yīng)話題追蹤技術(shù)研究[D].山東師范大學(xué)2013

[5]劉恒文.基于網(wǎng)絡(luò)語(yǔ)義挖掘的輿情監(jiān)測(cè)預(yù)警研究[D].武漢理工大學(xué)2010

[6]周小麗.基于網(wǎng)絡(luò)爬蟲和Lucene索引的互聯(lián)網(wǎng)輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].吉林大學(xué)2013

[7]衣波.網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D].廣東工業(yè)大學(xué)2013

[8]梁越嶺.互聯(lián)網(wǎng)輿情信息挖掘與群體行為分析[D].武漢理工大學(xué)2010

[9]唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京郵電大學(xué)2013

[10]周民.海量web輿情挖掘算法研究[D].電子科技大學(xué)2011

[11]曾奉堯.基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情挖掘技術(shù)與研究[D].電子科技大學(xué)2011

主站蜘蛛池模板: 色呦呦手机在线精品| 91麻豆国产精品91久久久| 国产高清不卡| 国产精品网址你懂的| 国产AV无码专区亚洲A∨毛片| 亚洲精品国产自在现线最新| 欧美性精品不卡在线观看| 精品欧美日韩国产日漫一区不卡| 亚洲欧美日本国产综合在线| 免费啪啪网址| 亚洲中文字幕23页在线| 2021国产精品自产拍在线观看| 91小视频在线观看免费版高清 | 激情综合网激情综合| 久久一色本道亚洲| 国产精品久久久精品三级| 国产在线一区视频| 人禽伦免费交视频网页播放| 91青青草视频在线观看的| 污污网站在线观看| 高清不卡毛片| 伊人色在线视频| 国产91av在线| 国产精品爆乳99久久| 国产成人久久综合一区| 久无码久无码av无码| 国产超碰在线观看| 亚洲天堂视频网站| 精品国产免费第一区二区三区日韩| 福利小视频在线播放| 国产精品久久精品| 美女免费黄网站| 四虎永久在线| 91精品国产无线乱码在线| 911亚洲精品| 国产丝袜啪啪| 波多野结衣久久精品| 欧美中文一区| 草草影院国产第一页| 免费A级毛片无码免费视频| 久久精品日日躁夜夜躁欧美| 她的性爱视频| 精品视频一区二区三区在线播| 91系列在线观看| 国产成人综合在线观看| 久久人妻系列无码一区| 久热re国产手机在线观看| 国产免费观看av大片的网站| 99re这里只有国产中文精品国产精品| 欧美日韩在线观看一区二区三区| 国产高清色视频免费看的网址| 国产经典在线观看一区| 亚洲无码免费黄色网址| 亚洲资源站av无码网址| 欧美一级高清免费a| 四虎影视库国产精品一区| 国产小视频在线高清播放| 人妻丰满熟妇αv无码| 国产黑丝视频在线观看| 露脸国产精品自产在线播| 久久情精品国产品免费| 狠狠色噜噜狠狠狠狠色综合久 | av免费在线观看美女叉开腿| 在线观看欧美精品二区| 国产精品亚洲а∨天堂免下载| 自拍中文字幕| 国产伦片中文免费观看| 欧美精品v欧洲精品| av无码久久精品| 久久天天躁狠狠躁夜夜躁| 欧美日韩激情在线| 日韩少妇激情一区二区| www.日韩三级| 日韩色图区| www.99精品视频在线播放| 亚洲福利网址| 成人中文字幕在线| 国产精品流白浆在线观看| 免费国产不卡午夜福在线观看| 欧美日本视频在线观看| 欧美午夜在线视频| 制服无码网站|