999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

2016-08-09 02:12:08王亮
大科技 2016年33期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶分析

王亮

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

王亮

(貴州江南航天信息網(wǎng)絡(luò)通信有限公司 貴州遵義 563000)

在互聯(lián)網(wǎng)時代進(jìn)一步發(fā)展普及的過程中,大數(shù)據(jù)時代隨之到來,主要體現(xiàn)為大數(shù)據(jù)計(jì)算。常見的大數(shù)據(jù)計(jì)算主要有兩種形態(tài),即有批量計(jì)算與流式計(jì)算,這些新技術(shù)的發(fā)展為現(xiàn)代化的互聯(lián)網(wǎng)數(shù)據(jù)采集與處理奠定了基礎(chǔ)。本文即探討了互聯(lián)網(wǎng)大數(shù)據(jù)的采集與處理技術(shù)要點(diǎn),以供參考。

互聯(lián)網(wǎng);大數(shù)據(jù);采集;處理

1 引言

當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)正迅速走入人們的日常生產(chǎn)生活,以及社會的各行各業(yè)中,影響著大眾的學(xué)習(xí)、工作與生活,深刻影響并改變了常規(guī)的、傳統(tǒng)的生活方式。為了嗯嗯鞏固將網(wǎng)絡(luò)大數(shù)據(jù)的作用發(fā)揮到極致,必須掌握網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理技術(shù),從而使其服務(wù)于現(xiàn)代化發(fā)展的社會生產(chǎn)與生活。

2 互聯(lián)網(wǎng)大數(shù)據(jù)概述

2.1 互聯(lián)網(wǎng)大數(shù)據(jù)

在互聯(lián)網(wǎng)新興技術(shù)的逐漸普及過程中,產(chǎn)生了越來越多的用戶數(shù)據(jù),以及大體量、多樣化、高速度和低價值的大數(shù)據(jù)概念(big data),并逐漸滲透入每一個行業(yè)、業(yè)務(wù)的職能領(lǐng)域中,進(jìn)而能夠?yàn)樯虡I(yè)、金融服務(wù)創(chuàng)新浪潮,奠定相應(yīng)的數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)等,用以獲取用戶消費(fèi)、交易、產(chǎn)品評價信息和其他社交信息等的重要途徑,因此,互聯(lián)網(wǎng)網(wǎng)頁的大數(shù)據(jù)采集與處理技術(shù)的探討,具有重要的意義。

2.2 大數(shù)據(jù)采集和處理的基本流程

互聯(lián)網(wǎng)大數(shù)據(jù)的采集,就是在互聯(lián)網(wǎng)中獲取并抽取用戶所需要的屬性內(nèi)容,針對其內(nèi)容、格式等進(jìn)行轉(zhuǎn)換和加工處理,使之能夠適應(yīng)用戶需求,并存儲起來以供后用。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)采集、處理整體過程如圖1所示,其中包含了四個主要模塊:①爬蟲(Spider):從Internet上選擇網(wǎng)頁內(nèi)容,并從中抽取相應(yīng)的屬性內(nèi)容;②數(shù)據(jù)處理(Dp-data Process):對爬蟲所采集的內(nèi)容信息進(jìn)行加工處理;③URL隊(duì)列(Url Queue):為爬蟲提供所要求采集數(shù)據(jù)網(wǎng)站的url;④數(shù)據(jù)(Data):a.Site Url,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;b.Spider Data,爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);c.Dp Data,經(jīng)過dp處理之后的數(shù)據(jù)。

圖1 web數(shù)據(jù)采集和處理

3 網(wǎng)絡(luò)大數(shù)據(jù)的采集技術(shù)分析

3.1 采集技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)技術(shù)的提高,數(shù)據(jù)類型呈現(xiàn)多樣化。從原始的數(shù)據(jù)、圖片形式,到如今的文本、媒體、影像技術(shù)都成為了信息傳播的新形式。為了能夠快速且有效的采集網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)當(dāng)重視以下要點(diǎn):

(1)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有一致性。不同工作人員所采集的數(shù)據(jù)必須具有一致性,用以防止數(shù)據(jù)的混雜。那么對于采集大數(shù)據(jù)的程序而言,對它的性能要求更是不可馬虎。

(2)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有正確性。數(shù)據(jù)的正確性是一切工作的核心,也是工作能否繼續(xù)的前提更是保障工作正確運(yùn)行的關(guān)鍵。數(shù)據(jù)來源必須明確,數(shù)據(jù)采集過程必須準(zhǔn)確無誤。

(3)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有完整性。對于采集數(shù)據(jù)者來說理應(yīng)擁有實(shí)事求是的態(tài)度,不應(yīng)該抱有個人觀點(diǎn),更不應(yīng)該隨意篡改數(shù)據(jù)或不完整的采集大數(shù)據(jù),但是對于機(jī)器采集數(shù)據(jù)達(dá)到此要求而言,則要求采集工作高精度運(yùn)行。面對網(wǎng)絡(luò)大數(shù)據(jù)的多元性,人工錯誤很難免除。工作程序的高精度運(yùn)行更是不可忽視的問題。

3.2 互聯(lián)網(wǎng)大數(shù)據(jù)采集關(guān)鍵技術(shù)

3.2.1 實(shí)時數(shù)據(jù)挖掘技術(shù)

互聯(lián)網(wǎng)的大數(shù)據(jù)環(huán)境本身較為復(fù)雜,且針對不同的使用目的,會存在不同的實(shí)時數(shù)據(jù)挖掘技術(shù)。關(guān)注運(yùn)營商對網(wǎng)絡(luò)的維護(hù)和業(yè)務(wù)推廣兩個重要功能,對無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析。

3.2.2 無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)

網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,主要體現(xiàn)在網(wǎng)元多、多種無線技術(shù)共存、網(wǎng)絡(luò)故障診斷、干擾用戶體驗(yàn)因素等方面。無線網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊能夠針對網(wǎng)絡(luò)中產(chǎn)生的各類日志文件、信令采集系統(tǒng)、計(jì)費(fèi)信息、用戶簽約信息等,進(jìn)行綜合大數(shù)據(jù)分析,并通過統(tǒng)計(jì)和數(shù)據(jù)挖掘,生成報(bào)表。

具體可以提供的信息包括:①網(wǎng)絡(luò)分析:分析內(nèi)容有全網(wǎng)的使用流量、會話與告警、漫游、網(wǎng)絡(luò)使用變化以及網(wǎng)絡(luò)性能的KPI分析等。②網(wǎng)元分析:包括網(wǎng)元對比分析、網(wǎng)元組對比分析、網(wǎng)元時間變化趨勢分析、全網(wǎng)Cell累計(jì)分布分析和RNC性能負(fù)載分析。③終端分析:終端設(shè)備使用趨勢分析、終端設(shè)備每天小時時段變化趨勢的分析、終端設(shè)備的性能指標(biāo)分析等。④用戶分析:用戶比較分析、無線共享路由用戶對比分析、無線共享路由用戶的資源使用、無線共享路由用戶的設(shè)備型號/操作系統(tǒng)構(gòu)成分析、用戶組的比較分析、全網(wǎng)用戶累積分布分析、單用戶時間變化趨勢分析等。⑤應(yīng)用分析:應(yīng)用的業(yè)務(wù)主要包括整體、小時段中變化趨勢的分析、指定終端設(shè)備類型上TopN應(yīng)用業(yè)務(wù)分析、應(yīng)用業(yè)務(wù)性能分析、應(yīng)用業(yè)務(wù)系統(tǒng)分組的性能KPI分析、應(yīng)用業(yè)務(wù)組使用趨勢分析、應(yīng)用業(yè)務(wù)組每天小時時段趨勢變化分析。

4 處理網(wǎng)絡(luò)大數(shù)據(jù)的處理技術(shù)分析

4.1 處理技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)時代的到來,電腦、智能手機(jī)等電子設(shè)備在實(shí)際生活中得到應(yīng)用,并成為日常生活的重要組成部分,人們所接受到的信息越來越豐富,圖像、文本、視頻活躍在生活與交流之中。

4.1.1 數(shù)據(jù)處理整體框架

數(shù)據(jù)處理主要包括以下模塊:①分詞:對在互聯(lián)網(wǎng)中獲取的網(wǎng)頁內(nèi)容,采取切詞處理;②排重:對眾多網(wǎng)頁內(nèi)容實(shí)施排重措施;③整合:針對不同來源數(shù)據(jù)的格式進(jìn)行整合;④數(shù)據(jù):有兩方面數(shù)據(jù),即Spider Data(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和Dp Data(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。

4.1.2 數(shù)據(jù)處理的基本流程

數(shù)據(jù)的處理過程如下:①將抓取來的網(wǎng)頁內(nèi)容進(jìn)行分詞處理;②將分詞處理成果寫入數(shù)據(jù)庫中;③將所抓取來的網(wǎng)頁內(nèi)容排重;④將排重處理的成果寫入數(shù)據(jù)庫中;⑤依據(jù)前面的處理結(jié)果,對數(shù)據(jù)進(jìn)行二次整合;⑥將整合成果寫入數(shù)據(jù)庫中。

4.2 數(shù)據(jù)處理的關(guān)鍵技術(shù)

4.2.1 排重

所謂排重處理,就是將與主題相重復(fù)的項(xiàng)排除掉的過程,而網(wǎng)頁排重即是指通過兩個網(wǎng)頁間相似度因素為依據(jù),進(jìn)行重復(fù)項(xiàng)的排除。Simhash算法屬于一種高效海量文本排重算法,相較于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash能夠有效避免進(jìn)行文本兩兩的相似度比較復(fù)雜過程,從而得以大大提高計(jì)算效率。因此,運(yùn)用Simhash算法實(shí)施網(wǎng)頁內(nèi)容的排重工作,可容納更大數(shù)據(jù)量,提供更快數(shù)據(jù)處理速度,最終實(shí)現(xiàn)大數(shù)據(jù)的迅速處理。

4.2.2 整合

所謂整合,即是指將抓取的網(wǎng)頁內(nèi)容,與各公司之間構(gòu)建彼此對應(yīng)的關(guān)系。對于公司而言,可使用一組關(guān)鍵詞對自身進(jìn)行描述,同樣,經(jīng)過dp處理后的網(wǎng)頁內(nèi)容也可使用一組關(guān)鍵詞進(jìn)行描述。通過整合,即可形成兩組關(guān)鍵詞的匹配。

網(wǎng)頁內(nèi)容分詞結(jié)果有以下問題:①分詞結(jié)果數(shù)量較大;②大多數(shù)分詞對于描述該網(wǎng)頁的內(nèi)容而言沒有貢獻(xiàn)。所以,必要的情況下可對網(wǎng)頁分詞結(jié)果實(shí)施簡化,采用詞頻最高的若干詞匯進(jìn)行描述即可。經(jīng)簡化后,兩組關(guān)鍵詞不僅可以大大提高彼此的匹配效率,還可以保證其采集的準(zhǔn)確度,而在經(jīng)過整合后,所抓取的網(wǎng)頁內(nèi)容和公司之間,也會建立其一個對應(yīng)關(guān)系,便于知道某個具體的公司包含怎樣的數(shù)據(jù)信息。

5 結(jié)語

在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,客戶處理業(yè)務(wù)也日益復(fù)雜起來,與其相關(guān)的大數(shù)據(jù)更是呈現(xiàn)逐漸增長的趨勢,對于大數(shù)據(jù)的分析處理技術(shù),成為重點(diǎn)關(guān)注內(nèi)容之一。如果能夠合理發(fā)揮大數(shù)據(jù)作用,使其服務(wù)于光蛋用戶,能夠?yàn)槠髽I(yè)的發(fā)展,提供更為完整清晰的指引。

[1]齊 志.4G網(wǎng)絡(luò)時代大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].商,2015(48):206.

[2]吳純青,任沛閣,王小峰.基于語義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1~17.

[3]康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014(1):108~110.

TP274.2

A

1004-7344(2016)33-0254-02

2016-11-8

猜你喜歡
數(shù)據(jù)挖掘用戶分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何獲取一億海外用戶
主站蜘蛛池模板: 91在线无码精品秘九色APP| 日韩成人免费网站| 免费观看欧美性一级| 精品夜恋影院亚洲欧洲| 国产免费福利网站| 夜夜爽免费视频| 色香蕉影院| 国产精品jizz在线观看软件| 国产性猛交XXXX免费看| 午夜丁香婷婷| 亚洲成人黄色在线观看| 亚洲va欧美va国产综合下载| 亚洲男人天堂久久| 久久精品国产在热久久2019| 欧美日韩一区二区三区在线视频| 久久国产成人精品国产成人亚洲 | 玖玖精品视频在线观看| 91成人免费观看在线观看| 99re视频在线| 国产青青操| 亚洲91在线精品| 国产又爽又黄无遮挡免费观看| 手机看片1024久久精品你懂的| 2020亚洲精品无码| 99福利视频导航| 九九香蕉视频| 激情网址在线观看| 国产精品无码制服丝袜| 中文国产成人精品久久| 欧美一级高清免费a| 人妻出轨无码中文一区二区| 中文字幕欧美日韩| 成人免费一区二区三区| 99热最新网址| 91在线国内在线播放老师| 午夜高清国产拍精品| 国产亚洲精久久久久久无码AV| 国产91av在线| 久久久噜噜噜久久中文字幕色伊伊| 日韩黄色在线| 亚洲成人在线网| 综合久久久久久久综合网| 亚洲av无码久久无遮挡| 99在线视频精品| 国产97区一区二区三区无码| 亚洲狠狠婷婷综合久久久久| 国产你懂得| 亚洲综合色婷婷| 中文字幕 欧美日韩| 四虎成人在线视频| 亚洲色图狠狠干| 国产丝袜精品| 啪啪国产视频| 最新日本中文字幕| 在线中文字幕网| 国产性猛交XXXX免费看| 激情午夜婷婷| 国产色偷丝袜婷婷无码麻豆制服| 欧美精品亚洲日韩a| 亚洲第一成年免费网站| 亚洲天堂色色人体| 国产精品熟女亚洲AV麻豆| 少妇精品网站| 亚洲有无码中文网| 色偷偷综合网| 99在线观看视频免费| 全部无卡免费的毛片在线看| 亚洲国产精品美女| 中文字幕调教一区二区视频| 精品国产一二三区| 色屁屁一区二区三区视频国产| 韩国福利一区| 无码网站免费观看| 视频一区视频二区日韩专区| 22sihu国产精品视频影视资讯| 欧美精品一区二区三区中文字幕| 欧洲亚洲欧美国产日本高清| 国产91精品久久| 久久黄色免费电影| 午夜福利亚洲精品| 成人在线综合| a网站在线观看|