999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)輿情中的大數(shù)據(jù)分析方法研究

2017-12-29 23:48:59常衛(wèi)東劉完芳
求知導(dǎo)刊 2017年28期

常衛(wèi)東+劉完芳

摘 要:網(wǎng)絡(luò)輿情是指在網(wǎng)絡(luò)空間中對(duì)網(wǎng)民和生活中的社會(huì)事件尤其是一些突發(fā)事件的看法和態(tài)度。網(wǎng)絡(luò)輿情通常涉及社會(huì)的熱點(diǎn)事件,因而經(jīng)常在網(wǎng)絡(luò)中快速傳播,成為人們談?wù)摰慕裹c(diǎn)。因而,對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和正確的引導(dǎo)顯得尤為重要。文章采用大數(shù)據(jù)分析方法分析網(wǎng)絡(luò)數(shù)據(jù),通過(guò)聚類(lèi)的方法發(fā)掘網(wǎng)絡(luò)輿情中的熱點(diǎn)問(wèn)題。實(shí)驗(yàn)證明該分析方法具有較高的熱點(diǎn)挖掘能力和及時(shí)的能力。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;大數(shù)據(jù)分析;統(tǒng)計(jì)方法

一、輿情信息的獲取

輿情分析的第一步是要對(duì)網(wǎng)頁(yè)中的信息進(jìn)行抓取,第二步是對(duì)抓取的網(wǎng)頁(yè)的信息進(jìn)行預(yù)處理。

對(duì)網(wǎng)頁(yè)信息抓取主要采用網(wǎng)絡(luò)爬蟲(chóng),爬蟲(chóng)的主要作用是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。它既可以爬取網(wǎng)頁(yè)鏈接,又可以爬取網(wǎng)頁(yè)的文本信息和圖像信息。它通過(guò)關(guān)鍵字的搜索將對(duì)應(yīng)的統(tǒng)一資源定位為相關(guān)的網(wǎng)頁(yè)頁(yè)面進(jìn)行抓取,通過(guò)對(duì)其進(jìn)行文本和圖像的解析,提取對(duì)應(yīng)網(wǎng)頁(yè)的文本和圖像信息并進(jìn)行保存。 本文中主要提取的是網(wǎng)頁(yè)的文本信息。

而中文分詞是把中文中的漢字系列分割為一個(gè)個(gè)獨(dú)立的中文詞匯。由于中文詞匯與詞匯之間的界限遠(yuǎn)不如英文單詞那樣清晰,因此,中文分詞也是一個(gè)技術(shù)難點(diǎn)。當(dāng)前中文分詞主要是從主要包括字符串匹配分詞方法和機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法。字符串匹配分詞方法是事先通過(guò)一定的方法建立一個(gè)龐大的數(shù)據(jù)庫(kù)字典,按照一定的方法把待分詞的詞匯與數(shù)據(jù)庫(kù)字典中的詞進(jìn)行匹配從而實(shí)現(xiàn)分詞的方法。機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法是通過(guò)詞匯出現(xiàn)的頻率和在文中的含義等信息對(duì)漢字的這些特征進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)分詞。字符串匹配分詞方法比較準(zhǔn)確,但缺乏靈活性,機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分詞方法能對(duì)詞的語(yǔ)意進(jìn)行識(shí)別,但由于算法的不完善,準(zhǔn)確率不高,因此,在實(shí)際中通常是將這兩種結(jié)合來(lái)實(shí)現(xiàn)分詞。

中文分詞的詞性主要包括名詞、動(dòng)詞、形容詞和副詞等,形容詞和副詞常表示事物的狀態(tài)和特征,因而經(jīng)常能表明作者對(duì)事件的喜怒哀樂(lè)之情;動(dòng)詞一般就是用來(lái)表示動(dòng)作或狀態(tài),它是對(duì)事物采取的動(dòng)作的直接體現(xiàn)。這些詞在輿情分析中就顯得尤為重要。

二、文檔特征的提取

一個(gè)網(wǎng)頁(yè)的文本通過(guò)分詞后會(huì)有成百上千個(gè)中文詞匯,如果直接對(duì)其分類(lèi)會(huì)影響分類(lèi)的效率和準(zhǔn)確性。因此,在分類(lèi)前要去除一些無(wú)關(guān)的詞語(yǔ),留下最能代表文檔特征的一些分詞作為文檔的特征。文檔特征提取最主要的方法是把文檔的內(nèi)容和詞頻進(jìn)行結(jié)合。

文檔特征提取的是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),從而降低向量空間維數(shù)。其中最重要的方法是分析詞頻。其基本原理是一個(gè)詞在一個(gè)文本中出現(xiàn)的次數(shù)越多,通常它在文本中就越重要。因此,可以計(jì)算詞在文檔中出現(xiàn)的概率即詞頻,來(lái)對(duì)文檔的特征進(jìn)行提取。另外,如果一個(gè)詞在很多的文檔中出現(xiàn),表明它在該文檔中的重要性越低,這個(gè)詞就不能代表該文檔的特征,文檔的貢獻(xiàn)度應(yīng)該就越小,也就是通過(guò)這個(gè)詞來(lái)區(qū)分文檔的區(qū)分度越小,可以用逆文檔頻率(idf)來(lái)度量詞在該文檔中的重要性。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。

設(shè)文檔d中詞w出現(xiàn)次數(shù)為count(w, d),文檔d中總詞數(shù)為size(d),則詞w在文檔d中的詞頻tf由下式計(jì)算。

即tf(w,d) = count(w, d) / size(d)。

詞w在整個(gè)文檔中的逆向詞頻idf為文檔總數(shù)n與詞w所出現(xiàn)文檔數(shù)docs(w,d)比值的對(duì)數(shù)。

即idf = log(n / docs(w,d))。

如果要對(duì)逆向詞頻歸一化可以采用如下的公式:

idf = log((n+0.5) / docs(w,d))/log(n+1)

tf-idf模型根據(jù)tf和idf為每一個(gè)文檔d和由關(guān)鍵詞w[1]...w[k]組成的查詢(xún)串q計(jì)算一個(gè)權(quán)值,用于表示查詢(xún)串q與文檔d的匹配度

tf-idf(q, d)

= sum { i = 1...k | tf-idf(w[i],d) }

= sum { i = 1...k | tf(w[i],d) * idf(w[i])}

三、文檔特征的分類(lèi)

文本特征的分類(lèi)是在事先確定的分類(lèi)標(biāo)準(zhǔn)下,根據(jù)文本的內(nèi)容確定待分類(lèi)的文本已知文本之間的類(lèi)型關(guān)聯(lián)。它和普通的數(shù)據(jù)分類(lèi)方法是一致的,原則上現(xiàn)有的數(shù)據(jù)分類(lèi)方法都可以實(shí)現(xiàn)這一功能。這一具體過(guò)程主要包括輸入訓(xùn)練和分類(lèi)兩個(gè)步驟,對(duì)應(yīng)的數(shù)據(jù)庫(kù)包括訓(xùn)練數(shù)據(jù)庫(kù)和檢測(cè)數(shù)據(jù)庫(kù)。訓(xùn)練數(shù)據(jù)庫(kù)為帶有分類(lèi)標(biāo)記的n個(gè)特征的若干個(gè)向量X組成的集合, x=(w1,... wi ...,wn,y),其中 wi 是文檔向量的一個(gè)特征,y為該文檔的分類(lèi)標(biāo)記。檢測(cè)數(shù)據(jù)庫(kù)同樣是帶有n個(gè)特征的若干個(gè)向量X組成的集合只是缺少分類(lèi)標(biāo)記。輸出數(shù)據(jù)為標(biāo)記號(hào)的集合即檢測(cè)數(shù)據(jù)的分類(lèi)標(biāo)記。本文采用SVM分類(lèi)方法對(duì)文本分類(lèi),對(duì)于一組訓(xùn)練數(shù)據(jù) x=(w1,... wi ...,wn,y),在線(xiàn)性可分的情況下會(huì)有一個(gè)超平面,將這兩類(lèi)樣本完全分開(kāi),并且離超平面最近的向量與超平面之間的距離最大。

四、實(shí)驗(yàn)與分析

本實(shí)驗(yàn)數(shù)據(jù)來(lái)源于天涯社區(qū),它主要通過(guò)論壇、博客、微博為基礎(chǔ)提供一系列網(wǎng)友和網(wǎng)站之間,網(wǎng)友和網(wǎng)友之間互動(dòng)的虛擬綜合平臺(tái)。網(wǎng)友通過(guò)在其中發(fā)各種帖子能發(fā)表對(duì)各種事件的看法。實(shí)驗(yàn)中數(shù)據(jù)是從中獲取的1500個(gè)帖子,其中1200個(gè)帖子作為訓(xùn)練數(shù)據(jù),另外300個(gè)帖子作為測(cè)試數(shù)據(jù)。這1500個(gè)帖子包含六個(gè)話(huà)題,即經(jīng)濟(jì)、房產(chǎn)、體育、軍事、時(shí)尚和汽車(chē),每個(gè)帖子均帶有話(huà)題類(lèi)型的標(biāo)記以方便訓(xùn)練和測(cè)試。實(shí)驗(yàn)中采用SVM分類(lèi)方法對(duì)文本進(jìn)行分類(lèi)。

在信息檢索中通常采用召回率和精度衡量分類(lèi)系統(tǒng)對(duì)數(shù)據(jù)分類(lèi)的能力。召回率是檢索出的某一類(lèi)型的文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,它表明該文檔類(lèi)型的查全率。精度即正確率是在所有相關(guān)話(huà)題文檔中,檢索到的正確分類(lèi)文檔所占的比例,它表示分類(lèi)的準(zhǔn)確程度。上述六類(lèi)文檔分類(lèi)的召回率和精度如下表所示。

五、結(jié)束語(yǔ)

綜上所述,網(wǎng)絡(luò)輿情的分析在維護(hù)互聯(lián)網(wǎng)安全方面起到了重要的作用,通過(guò)網(wǎng)絡(luò)輿情分析挖掘網(wǎng)民所關(guān)心的熱點(diǎn)問(wèn)題,發(fā)現(xiàn)其中的意見(jiàn)領(lǐng)袖,對(duì)網(wǎng)絡(luò)輿情進(jìn)行正確的引導(dǎo)是工作的重點(diǎn)。同時(shí)要根據(jù)這些數(shù)據(jù)的實(shí)際情況,采用高效的算法保證輿情分析具有較快的響應(yīng)速度和較低的誤報(bào)率。

參考文獻(xiàn):

[1]夏火松,甄化春.大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻(xiàn)綜述[J].情報(bào)雜志,2015,34(2):1-5.

[2]江華麗.中文分詞算法研究與分析 [J]. 物聯(lián)網(wǎng)技術(shù),2016(1):87-89.

[3]張鵬高,畢 曦.基于大數(shù)據(jù)的教育網(wǎng)絡(luò)輿情監(jiān)控與分析[J].中國(guó)教育信息化,2015(15):7-9.

主站蜘蛛池模板: 日韩免费中文字幕| 一本大道香蕉高清久久| 91成人精品视频| 亚洲久悠悠色悠在线播放| 无码 在线 在线| 99久久精品国产麻豆婷婷| 色有码无码视频| 亚洲AⅤ永久无码精品毛片| 一级福利视频| 岛国精品一区免费视频在线观看| 日本久久网站| 天天激情综合| 超清无码一区二区三区| 精品乱码久久久久久久| 亚洲永久视频| 国产视频a| 国产亚洲精| 无码AV日韩一二三区| 国产麻豆永久视频| 免费观看欧美性一级| 99在线视频免费观看| 国产成人高清在线精品| 欧美在线导航| 欧美精品亚洲日韩a| 一级毛片高清| 一级片一区| 成人久久精品一区二区三区| 国产成人精品日本亚洲77美色| 福利在线一区| 亚洲国产看片基地久久1024| 国产精品冒白浆免费视频| 成人免费黄色小视频| 国产亚洲精久久久久久久91| 色首页AV在线| 99九九成人免费视频精品| 狠狠操夜夜爽| 97精品伊人久久大香线蕉| 成人午夜免费观看| 最新国产高清在线| 国产91丝袜在线播放动漫| 精品91视频| 黑人巨大精品欧美一区二区区| 天天躁夜夜躁狠狠躁图片| 黄色网址免费在线| 久久人人爽人人爽人人片aV东京热 | 97国产在线播放| AV网站中文| 人妻免费无码不卡视频| 亚州AV秘 一区二区三区| 色窝窝免费一区二区三区 | 人妻无码中文字幕第一区| 久久99精品久久久久久不卡| 国产欧美日韩精品第二区| 国产无码制服丝袜| 婷婷激情五月网| 精品国产成人三级在线观看| 伊人激情综合| 亚洲一区波多野结衣二区三区| 国产精品视频999| 久久国产亚洲偷自| 免费无码网站| 97精品久久久大香线焦| 亚洲国产欧洲精品路线久久| 国产一级在线播放| 自偷自拍三级全三级视频| 人妻一区二区三区无码精品一区| 99视频在线精品免费观看6| 无码精品一区二区久久久| 欧美成在线视频| 毛片一区二区在线看| 9啪在线视频| 乱人伦中文视频在线观看免费| 99re这里只有国产中文精品国产精品| 国内精品自在自线视频香蕉| 亚洲人成日本在线观看| 97综合久久| 国内视频精品| 国产成人精品高清不卡在线| 国产福利免费视频| 国产精品一区二区国产主播| 国产91丝袜在线播放动漫 | 91成人精品视频|