999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析技術(shù)研究

2021-04-29 06:56:24黃德勝
微型電腦應(yīng)用 2021年4期
關(guān)鍵詞:分析方法

黃德勝

(廣州衛(wèi)生職業(yè)技術(shù)學(xué)院 基礎(chǔ)學(xué)院, 廣東 廣州 510925)

0 引言

實(shí)現(xiàn)快速準(zhǔn)確的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析,有利于及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。眾所周知,社交網(wǎng)絡(luò)是用戶在線交流、傳播信息的重要場(chǎng)所。社交網(wǎng)絡(luò)可以讓所有用戶都能夠自由注冊(cè)賬戶,與其他人建立聯(lián)絡(luò),同時(shí)還能夠查看其他好友的動(dòng)態(tài),為人們帶來了很大便利。然而任何事情都有兩面性,在社交網(wǎng)絡(luò)用戶以及信息不斷增長(zhǎng)的同時(shí),去中心化問題也尤為突出。社交網(wǎng)絡(luò)中的信息具有稀疏性、高維性、主題不均勻等特點(diǎn),這些特點(diǎn)導(dǎo)致用戶難以獲取自己感興趣的話題以及某一時(shí)間段內(nèi)的熱點(diǎn)話題。因此,如何從雜亂無章的海量社交網(wǎng)絡(luò)信息中提取到熱點(diǎn)話題是一個(gè)巨大的挑戰(zhàn)。

當(dāng)前常使用的關(guān)于社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析的方法有兩種,一種是基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法;另一種是基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法。其中基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法主要是將一定情況、場(chǎng)景或者某一個(gè)統(tǒng)計(jì)維度在不同時(shí)刻點(diǎn)上的各個(gè)數(shù)據(jù),按照時(shí)間的先后順序排列而成的序列,能夠研究隨機(jī)數(shù)據(jù)序列所服從的統(tǒng)計(jì)特征,從而對(duì)社交網(wǎng)絡(luò)的熱點(diǎn)進(jìn)行分析。基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法主要對(duì)采集的大量網(wǎng)絡(luò)安全事件信息進(jìn)行分析,從中查找到關(guān)聯(lián)數(shù)據(jù),從而分析社交網(wǎng)站數(shù)據(jù)熱點(diǎn)。

盡管這兩種方法在社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析中分別具有一定優(yōu)勢(shì),但依舊存在部分問題,為了提高社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析的速度以及準(zhǔn)確性,本研究設(shè)計(jì)了一種社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法。首先進(jìn)行社交網(wǎng)絡(luò)數(shù)據(jù)的采集與預(yù)處理,再通過計(jì)算社交網(wǎng)站數(shù)據(jù)語義相似度對(duì)相關(guān)數(shù)據(jù)進(jìn)行檢索,最后計(jì)算社交網(wǎng)站中的數(shù)據(jù)熱度,完成社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析。實(shí)驗(yàn)證明,本研究設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法能夠及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。

1 社交網(wǎng)絡(luò)數(shù)據(jù)采集

數(shù)據(jù)采集通過網(wǎng)絡(luò)爬蟲抓取指定社交網(wǎng)絡(luò)平臺(tái)上的原始數(shù)據(jù)[1-2],下載到計(jì)算機(jī)中作為社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析的數(shù)據(jù)源,并從這些數(shù)據(jù)源中抽取有價(jià)值的信息,主要包括用戶信息、發(fā)布時(shí)間、文本內(nèi)容、評(píng)論信息以及關(guān)注人數(shù)等,將這些信息轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。網(wǎng)絡(luò)爬蟲可以自動(dòng)采集所有其能夠訪問到的頁面內(nèi)容,為搜索引擎和大數(shù)據(jù)分析提供數(shù)據(jù)來源。在抓取工作中,首先選取一部分種子統(tǒng)一資源定位符(Uniform Resource Location、URL),將其放入待抓取URL隊(duì)列中,從中取出待抓取URL,解析DNS得到主機(jī)的IP地址,并將URL對(duì)應(yīng)的網(wǎng)頁下載下來存儲(chǔ)到已下載網(wǎng)頁庫中。此外,將以上URL放進(jìn)已抓取URL隊(duì)列,再分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊(duì)列,在此基礎(chǔ)上進(jìn)入下一個(gè)循環(huán)。網(wǎng)絡(luò)爬蟲工作流程,如圖1所示。

圖1 網(wǎng)絡(luò)爬蟲工作流程

由于本研究采集的數(shù)據(jù)中包含重復(fù)數(shù)據(jù),因此需要對(duì)采集的數(shù)據(jù)進(jìn)行分詞處理與過濾。處理流程,如圖2所示。

圖2 社交網(wǎng)站數(shù)據(jù)分詞處理流程圖

在此基礎(chǔ)上,選取社交網(wǎng)站數(shù)據(jù)特征,其處理流程如下所示。

Step1:采用TF-IDF(Term Frequency-inverse Document Frequency)權(quán)值計(jì)算方法,計(jì)算經(jīng)過分詞的社交網(wǎng)站數(shù)據(jù)詞頻。其中TF-IDF權(quán)值計(jì)算方法的主要思想是分析某個(gè)數(shù)據(jù)在一個(gè)網(wǎng)站中出現(xiàn)的頻率值[4],如果該數(shù)據(jù)在其他數(shù)據(jù)中很少出現(xiàn),則認(rèn)為此數(shù)據(jù)具有很好的類別區(qū)分能力;

Step2:將數(shù)據(jù)高維向量空間[5]進(jìn)行降維縮減;

Step3:提取最能反映社交網(wǎng)站數(shù)據(jù)的特征向量;

Step4:存儲(chǔ)特征數(shù)據(jù)。

以此,通過上述過程完成社交網(wǎng)絡(luò)數(shù)據(jù)分詞的處理,通過分詞可得到每個(gè)數(shù)據(jù)對(duì)應(yīng)句子的權(quán)重,其流程如下所示。

第一:特征數(shù)據(jù)存儲(chǔ);

第二:社交網(wǎng)站特征數(shù)據(jù)加權(quán)處理;

第三:按照上述權(quán)重計(jì)算結(jié)果對(duì)原文數(shù)據(jù)排序,完成數(shù)據(jù)分詞權(quán)重的處理。

2 社交網(wǎng)站數(shù)據(jù)熱點(diǎn)分析

2.1 數(shù)據(jù)語義相似度計(jì)算

在上述社交網(wǎng)站數(shù)據(jù)采集的基礎(chǔ)上,對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)進(jìn)行分析。在分析過程中,需要將獲取的數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)內(nèi)部能理解的形式以進(jìn)行數(shù)值運(yùn)算[6]。因此建立向量空間模型,即對(duì)文本數(shù)據(jù)建模[7]。向量空間模型的主要思想是將數(shù)據(jù)看成孤立的、互不相關(guān)的部分,以將文本數(shù)據(jù)轉(zhuǎn)化為多維度的空間向量。向量空間模型中文本與空間存在的關(guān)系,如圖3所示。

圖3 向量空間模型中文本與空間存在的關(guān)系

將社交網(wǎng)站文本數(shù)據(jù)轉(zhuǎn)換為空間向量后,就可以進(jìn)行相關(guān)計(jì)算,通過向量空間模型將整個(gè)數(shù)據(jù)映射為一個(gè)特征向量,如式(1)。

Q=D+R/x

(1)

式中,D表示社交網(wǎng)站文本數(shù)據(jù)中互不相同的詞條項(xiàng);R表示社交網(wǎng)站文本數(shù)據(jù)詞頻函數(shù);x表示數(shù)據(jù)在文檔中出現(xiàn)的次數(shù)。

在此基礎(chǔ)上,計(jì)算數(shù)據(jù)語義相似度[8],這是由于社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析過程中,數(shù)據(jù)之間具有相關(guān)性,因此采用語義相似度的方法度量數(shù)據(jù)相關(guān)性。語義相似度方法主要以信息特征為計(jì)算基礎(chǔ),通過分析兩個(gè)概念在知識(shí)庫中共享信息情況,計(jì)算二者所有信息的比率[9],如式(2)。

(2)

式中,X表示最小上層詞語的深度;y表示詞語包含的語義信息;d表示同義詞集合中元素集合中的部分。

2.2 相關(guān)數(shù)據(jù)檢索

尋找社交網(wǎng)站中熱點(diǎn)數(shù)據(jù),需要依據(jù)語義相似度計(jì)算結(jié)果建立事件關(guān)聯(lián)圖[10],以分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。對(duì)相關(guān)數(shù)據(jù)檢索通過兩個(gè)方面展開,如圖4所示。

圖4 相關(guān)數(shù)據(jù)檢索流程

本地事件檢索主要應(yīng)用了特征詞提取技術(shù)[11],其具體表達(dá)式,如式(3)。

F=H/k+l

(3)

式中,H表示社交網(wǎng)站數(shù)據(jù)詞頻;k表示數(shù)據(jù)長(zhǎng)度;l表示數(shù)據(jù)特征參數(shù)。

在互聯(lián)網(wǎng)事件檢索上,借助互聯(lián)網(wǎng)上的搜索引擎[12]對(duì)數(shù)據(jù)進(jìn)行處理,將檢索到的文檔分類到在本地?cái)?shù)據(jù)庫中獲得的相關(guān)話題中,從而獲得新的相關(guān)話題。

2.3 數(shù)據(jù)熱度計(jì)算

將上述獲得的相關(guān)話題文檔按照時(shí)間進(jìn)行劃分,根據(jù)各個(gè)事件的數(shù)據(jù)文檔衡量數(shù)據(jù)的熱度[13]。數(shù)據(jù)熱度計(jì)算涉及的主要內(nèi)容,如圖5所示。

圖5 數(shù)據(jù)熱度計(jì)算主要內(nèi)容

從圖5可知,社交網(wǎng)站的數(shù)據(jù)紛繁復(fù)雜,數(shù)據(jù)量極為龐大,而且各種各樣的話題涉及到的內(nèi)容不同,但只有部分?jǐn)?shù)據(jù)是用戶重點(diǎn)關(guān)注的話題。因此以衡量數(shù)據(jù)的重要度來確定數(shù)據(jù)的影響力[14],綜合考慮網(wǎng)民關(guān)注度與媒體關(guān)注度[15],計(jì)算數(shù)據(jù)熱度,如式(4)。

w=At*Et+B

(4)

式中,At表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的總點(diǎn)擊次數(shù),即表示數(shù)據(jù)的評(píng)論數(shù);w表示社交網(wǎng)站數(shù)據(jù)的權(quán)威度;Et表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的報(bào)道總數(shù);B表示調(diào)整因子。

通過上述過程,完成社交網(wǎng)站中數(shù)據(jù)熱點(diǎn)的分析。

3 實(shí)驗(yàn)對(duì)比

為了更好地證明本研究方法的有效性,本研究使用Chrome瀏覽器,并利用網(wǎng)上一綜合性大型網(wǎng)站為實(shí)驗(yàn)對(duì)象進(jìn)行相關(guān)實(shí)驗(yàn),通過網(wǎng)絡(luò)爬蟲抓取實(shí)驗(yàn)使用的4個(gè)數(shù)據(jù)集,其中主要包括娛樂類數(shù)據(jù)、體育類數(shù)據(jù)、美食類數(shù)據(jù)和美妝類數(shù)據(jù),其大小分別為45 kB、125 kB、256 kB和452 kB,實(shí)驗(yàn)分析了該網(wǎng)站總計(jì)8天的數(shù)據(jù)。將每小時(shí)對(duì)該帖子的評(píng)論數(shù)作為熱度值,采用此次設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法識(shí)別這4個(gè)數(shù)據(jù)集中的熱點(diǎn)話題。為了增強(qiáng)實(shí)驗(yàn)的對(duì)比性,將傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法對(duì)比。此次設(shè)計(jì)的方法發(fā)現(xiàn)在這4個(gè)數(shù)據(jù)集上的熱點(diǎn)數(shù)據(jù)的時(shí)間。

3.1 娛樂類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

三種方法發(fā)現(xiàn)娛樂數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表1所示。

表1 娛樂類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

由表1可知,所設(shè)計(jì)的方法能夠在短時(shí)間內(nèi)識(shí)別社交網(wǎng)站的數(shù)據(jù)。傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法的娛樂類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間顯著高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。

3.2 美食類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

三種方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表2所示。

表2 美食類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

由表2可知,美食類數(shù)據(jù)多于娛樂類數(shù)據(jù),在此類數(shù)據(jù)識(shí)別上,傳統(tǒng)兩種方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)的時(shí)間呈增加的趨勢(shì)。并經(jīng)過對(duì)比可知,所設(shè)計(jì)方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間較短。

3.3 美妝類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

美妝類數(shù)據(jù)為452 kB,數(shù)據(jù)量多于上述兩種對(duì)比內(nèi)容的數(shù)據(jù),三種方法在此數(shù)據(jù)下的發(fā)現(xiàn)時(shí)間,如表3所示。

表3 美妝類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

由表3可知,此次設(shè)計(jì)的方法發(fā)現(xiàn)熱點(diǎn)的時(shí)間沒有明顯變化,花費(fèi)時(shí)間依舊較少。而傳統(tǒng)兩種方法的美妝類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間仍然高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。

3.4 體育類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

三種方法發(fā)現(xiàn)體育類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表4所示。

表4 體育類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間

由表4可知,所設(shè)計(jì)方法發(fā)現(xiàn)體育類數(shù)據(jù)熱點(diǎn)的時(shí)間較短,明顯低于傳統(tǒng)兩種方法。或許是傳統(tǒng)方法在分詞、特征提取、權(quán)重計(jì)算與聚類處理等方面上耗費(fèi)了大量時(shí)間,導(dǎo)致數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間延長(zhǎng)。因此,通過上述實(shí)驗(yàn)?zāi)軌蜃C明,所設(shè)計(jì)的方法數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間短于傳統(tǒng)兩種分析方法,能夠及時(shí)向社交網(wǎng)站用戶推送熱門內(nèi)容。

4 總結(jié)

社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析是一個(gè)隨著時(shí)代變化不斷發(fā)展的研究領(lǐng)域,還有許多問題有待進(jìn)一步探索與研究。針對(duì)此次研究?jī)?nèi)容的不足,今后將重點(diǎn)研究三方面內(nèi)容,分別為如何有效及時(shí)獲取網(wǎng)絡(luò)中的最新消息;如何挖掘社交網(wǎng)站數(shù)據(jù)中蘊(yùn)含的語義信息以提高熱點(diǎn)數(shù)據(jù)挖掘能力;如何對(duì)音頻、視頻等多媒體信息進(jìn)行處理以進(jìn)一步提高社交網(wǎng)站數(shù)據(jù)熱點(diǎn)分析效果,及時(shí)為用戶提供熱點(diǎn)數(shù)據(jù)。

猜你喜歡
分析方法
隱蔽失效適航要求符合性驗(yàn)證分析
學(xué)習(xí)方法
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
中西醫(yī)結(jié)合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 69综合网| 中文字幕伦视频| 日韩成人在线一区二区| 中文字幕1区2区| 国产手机在线小视频免费观看 | 国产一区二区网站| 一级福利视频| 亚洲第一视频网| 露脸真实国语乱在线观看| …亚洲 欧洲 另类 春色| 无码视频国产精品一区二区| 欧美另类第一页| 亚洲av无码专区久久蜜芽| 999精品在线视频| 鲁鲁鲁爽爽爽在线视频观看| 日韩av无码精品专区| 国产在线视频福利资源站| 色吊丝av中文字幕| 日本精品αv中文字幕| 中文国产成人精品久久| 九色视频线上播放| 国产精欧美一区二区三区| 成人毛片在线播放| 国产香蕉在线| 2024av在线无码中文最新| 国产精品漂亮美女在线观看| 播五月综合| 四虎成人免费毛片| 国产精品永久免费嫩草研究院| 永久免费av网站可以直接看的| 欧美日韩在线国产| 54pao国产成人免费视频| 国产高清国内精品福利| 日韩国产欧美精品在线| 久久精品视频一| 99偷拍视频精品一区二区| 丝袜国产一区| 国产综合在线观看视频| 欧美在线网| 伊人久久综在合线亚洲2019| av手机版在线播放| 久久国产精品77777| 亚洲娇小与黑人巨大交| 香蕉视频国产精品人| 91福利在线看| 青青热久免费精品视频6| 欧美国产日韩在线| 欧美日韩精品在线播放| 97国产精品视频自在拍| 黄色福利在线| 亚洲天堂精品视频| 国产精品美女自慰喷水| 色综合激情网| 99re热精品视频国产免费| 网友自拍视频精品区| 都市激情亚洲综合久久| 免费激情网站| 亚洲美女AV免费一区| 日韩无码白| 久久91精品牛牛| 国产免费福利网站| 日韩第九页| 国产在线观看人成激情视频| 97综合久久| 天天躁夜夜躁狠狠躁躁88| 制服丝袜国产精品| 久久久久无码精品| 精品一区二区无码av| 欧美日韩免费| 欧美精品影院| 精品国产黑色丝袜高跟鞋| 中文字幕在线观| 中国国语毛片免费观看视频| 狂欢视频在线观看不卡| 强乱中文字幕在线播放不卡| 欧洲欧美人成免费全部视频 | 亚洲成人免费看| www.狠狠| 国产Av无码精品色午夜| 2020极品精品国产| 国产本道久久一区二区三区| 久久国产精品娇妻素人|