999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

2016-08-09 02:12:08王亮
大科技 2016年33期
關(guān)鍵詞:數(shù)據(jù)挖掘用戶分析

王亮

互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)

王亮

(貴州江南航天信息網(wǎng)絡(luò)通信有限公司 貴州遵義 563000)

在互聯(lián)網(wǎng)時代進(jìn)一步發(fā)展普及的過程中,大數(shù)據(jù)時代隨之到來,主要體現(xiàn)為大數(shù)據(jù)計(jì)算。常見的大數(shù)據(jù)計(jì)算主要有兩種形態(tài),即有批量計(jì)算與流式計(jì)算,這些新技術(shù)的發(fā)展為現(xiàn)代化的互聯(lián)網(wǎng)數(shù)據(jù)采集與處理奠定了基礎(chǔ)。本文即探討了互聯(lián)網(wǎng)大數(shù)據(jù)的采集與處理技術(shù)要點(diǎn),以供參考。

互聯(lián)網(wǎng);大數(shù)據(jù);采集;處理

1 引言

當(dāng)前,網(wǎng)絡(luò)大數(shù)據(jù)正迅速走入人們的日常生產(chǎn)生活,以及社會的各行各業(yè)中,影響著大眾的學(xué)習(xí)、工作與生活,深刻影響并改變了常規(guī)的、傳統(tǒng)的生活方式。為了嗯嗯鞏固將網(wǎng)絡(luò)大數(shù)據(jù)的作用發(fā)揮到極致,必須掌握網(wǎng)絡(luò)大數(shù)據(jù)的采集和處理技術(shù),從而使其服務(wù)于現(xiàn)代化發(fā)展的社會生產(chǎn)與生活。

2 互聯(lián)網(wǎng)大數(shù)據(jù)概述

2.1 互聯(lián)網(wǎng)大數(shù)據(jù)

在互聯(lián)網(wǎng)新興技術(shù)的逐漸普及過程中,產(chǎn)生了越來越多的用戶數(shù)據(jù),以及大體量、多樣化、高速度和低價值的大數(shù)據(jù)概念(big data),并逐漸滲透入每一個行業(yè)、業(yè)務(wù)的職能領(lǐng)域中,進(jìn)而能夠?yàn)樯虡I(yè)、金融服務(wù)創(chuàng)新浪潮,奠定相應(yīng)的數(shù)據(jù)基礎(chǔ)。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)已經(jīng)成為互聯(lián)網(wǎng)公司、金融機(jī)構(gòu)等,用以獲取用戶消費(fèi)、交易、產(chǎn)品評價信息和其他社交信息等的重要途徑,因此,互聯(lián)網(wǎng)網(wǎng)頁的大數(shù)據(jù)采集與處理技術(shù)的探討,具有重要的意義。

2.2 大數(shù)據(jù)采集和處理的基本流程

互聯(lián)網(wǎng)大數(shù)據(jù)的采集,就是在互聯(lián)網(wǎng)中獲取并抽取用戶所需要的屬性內(nèi)容,針對其內(nèi)容、格式等進(jìn)行轉(zhuǎn)換和加工處理,使之能夠適應(yīng)用戶需求,并存儲起來以供后用。互聯(lián)網(wǎng)網(wǎng)頁大數(shù)據(jù)采集、處理整體過程如圖1所示,其中包含了四個主要模塊:①爬蟲(Spider):從Internet上選擇網(wǎng)頁內(nèi)容,并從中抽取相應(yīng)的屬性內(nèi)容;②數(shù)據(jù)處理(Dp-data Process):對爬蟲所采集的內(nèi)容信息進(jìn)行加工處理;③URL隊(duì)列(Url Queue):為爬蟲提供所要求采集數(shù)據(jù)網(wǎng)站的url;④數(shù)據(jù)(Data):a.Site Url,需要抓取數(shù)據(jù)網(wǎng)站的Url信息;b.Spider Data,爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);c.Dp Data,經(jīng)過dp處理之后的數(shù)據(jù)。

圖1 web數(shù)據(jù)采集和處理

3 網(wǎng)絡(luò)大數(shù)據(jù)的采集技術(shù)分析

3.1 采集技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)技術(shù)的提高,數(shù)據(jù)類型呈現(xiàn)多樣化。從原始的數(shù)據(jù)、圖片形式,到如今的文本、媒體、影像技術(shù)都成為了信息傳播的新形式。為了能夠快速且有效的采集網(wǎng)絡(luò)大數(shù)據(jù),應(yīng)當(dāng)重視以下要點(diǎn):

(1)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有一致性。不同工作人員所采集的數(shù)據(jù)必須具有一致性,用以防止數(shù)據(jù)的混雜。那么對于采集大數(shù)據(jù)的程序而言,對它的性能要求更是不可馬虎。

(2)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有正確性。數(shù)據(jù)的正確性是一切工作的核心,也是工作能否繼續(xù)的前提更是保障工作正確運(yùn)行的關(guān)鍵。數(shù)據(jù)來源必須明確,數(shù)據(jù)采集過程必須準(zhǔn)確無誤。

(3)網(wǎng)絡(luò)大數(shù)據(jù)的采集應(yīng)該具有完整性。對于采集數(shù)據(jù)者來說理應(yīng)擁有實(shí)事求是的態(tài)度,不應(yīng)該抱有個人觀點(diǎn),更不應(yīng)該隨意篡改數(shù)據(jù)或不完整的采集大數(shù)據(jù),但是對于機(jī)器采集數(shù)據(jù)達(dá)到此要求而言,則要求采集工作高精度運(yùn)行。面對網(wǎng)絡(luò)大數(shù)據(jù)的多元性,人工錯誤很難免除。工作程序的高精度運(yùn)行更是不可忽視的問題。

3.2 互聯(lián)網(wǎng)大數(shù)據(jù)采集關(guān)鍵技術(shù)

3.2.1 實(shí)時數(shù)據(jù)挖掘技術(shù)

互聯(lián)網(wǎng)的大數(shù)據(jù)環(huán)境本身較為復(fù)雜,且針對不同的使用目的,會存在不同的實(shí)時數(shù)據(jù)挖掘技術(shù)。關(guān)注運(yùn)營商對網(wǎng)絡(luò)的維護(hù)和業(yè)務(wù)推廣兩個重要功能,對無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行了分析。

3.2.2 無線網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)

網(wǎng)絡(luò)結(jié)構(gòu)日益復(fù)雜,主要體現(xiàn)在網(wǎng)元多、多種無線技術(shù)共存、網(wǎng)絡(luò)故障診斷、干擾用戶體驗(yàn)因素等方面。無線網(wǎng)絡(luò)數(shù)據(jù)挖掘模塊能夠針對網(wǎng)絡(luò)中產(chǎn)生的各類日志文件、信令采集系統(tǒng)、計(jì)費(fèi)信息、用戶簽約信息等,進(jìn)行綜合大數(shù)據(jù)分析,并通過統(tǒng)計(jì)和數(shù)據(jù)挖掘,生成報(bào)表。

具體可以提供的信息包括:①網(wǎng)絡(luò)分析:分析內(nèi)容有全網(wǎng)的使用流量、會話與告警、漫游、網(wǎng)絡(luò)使用變化以及網(wǎng)絡(luò)性能的KPI分析等。②網(wǎng)元分析:包括網(wǎng)元對比分析、網(wǎng)元組對比分析、網(wǎng)元時間變化趨勢分析、全網(wǎng)Cell累計(jì)分布分析和RNC性能負(fù)載分析。③終端分析:終端設(shè)備使用趨勢分析、終端設(shè)備每天小時時段變化趨勢的分析、終端設(shè)備的性能指標(biāo)分析等。④用戶分析:用戶比較分析、無線共享路由用戶對比分析、無線共享路由用戶的資源使用、無線共享路由用戶的設(shè)備型號/操作系統(tǒng)構(gòu)成分析、用戶組的比較分析、全網(wǎng)用戶累積分布分析、單用戶時間變化趨勢分析等。⑤應(yīng)用分析:應(yīng)用的業(yè)務(wù)主要包括整體、小時段中變化趨勢的分析、指定終端設(shè)備類型上TopN應(yīng)用業(yè)務(wù)分析、應(yīng)用業(yè)務(wù)性能分析、應(yīng)用業(yè)務(wù)系統(tǒng)分組的性能KPI分析、應(yīng)用業(yè)務(wù)組使用趨勢分析、應(yīng)用業(yè)務(wù)組每天小時時段趨勢變化分析。

4 處理網(wǎng)絡(luò)大數(shù)據(jù)的處理技術(shù)分析

4.1 處理技術(shù)要點(diǎn)

隨著網(wǎng)絡(luò)時代的到來,電腦、智能手機(jī)等電子設(shè)備在實(shí)際生活中得到應(yīng)用,并成為日常生活的重要組成部分,人們所接受到的信息越來越豐富,圖像、文本、視頻活躍在生活與交流之中。

4.1.1 數(shù)據(jù)處理整體框架

數(shù)據(jù)處理主要包括以下模塊:①分詞:對在互聯(lián)網(wǎng)中獲取的網(wǎng)頁內(nèi)容,采取切詞處理;②排重:對眾多網(wǎng)頁內(nèi)容實(shí)施排重措施;③整合:針對不同來源數(shù)據(jù)的格式進(jìn)行整合;④數(shù)據(jù):有兩方面數(shù)據(jù),即Spider Data(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和Dp Data(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。

4.1.2 數(shù)據(jù)處理的基本流程

數(shù)據(jù)的處理過程如下:①將抓取來的網(wǎng)頁內(nèi)容進(jìn)行分詞處理;②將分詞處理成果寫入數(shù)據(jù)庫中;③將所抓取來的網(wǎng)頁內(nèi)容排重;④將排重處理的成果寫入數(shù)據(jù)庫中;⑤依據(jù)前面的處理結(jié)果,對數(shù)據(jù)進(jìn)行二次整合;⑥將整合成果寫入數(shù)據(jù)庫中。

4.2 數(shù)據(jù)處理的關(guān)鍵技術(shù)

4.2.1 排重

所謂排重處理,就是將與主題相重復(fù)的項(xiàng)排除掉的過程,而網(wǎng)頁排重即是指通過兩個網(wǎng)頁間相似度因素為依據(jù),進(jìn)行重復(fù)項(xiàng)的排除。Simhash算法屬于一種高效海量文本排重算法,相較于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash能夠有效避免進(jìn)行文本兩兩的相似度比較復(fù)雜過程,從而得以大大提高計(jì)算效率。因此,運(yùn)用Simhash算法實(shí)施網(wǎng)頁內(nèi)容的排重工作,可容納更大數(shù)據(jù)量,提供更快數(shù)據(jù)處理速度,最終實(shí)現(xiàn)大數(shù)據(jù)的迅速處理。

4.2.2 整合

所謂整合,即是指將抓取的網(wǎng)頁內(nèi)容,與各公司之間構(gòu)建彼此對應(yīng)的關(guān)系。對于公司而言,可使用一組關(guān)鍵詞對自身進(jìn)行描述,同樣,經(jīng)過dp處理后的網(wǎng)頁內(nèi)容也可使用一組關(guān)鍵詞進(jìn)行描述。通過整合,即可形成兩組關(guān)鍵詞的匹配。

網(wǎng)頁內(nèi)容分詞結(jié)果有以下問題:①分詞結(jié)果數(shù)量較大;②大多數(shù)分詞對于描述該網(wǎng)頁的內(nèi)容而言沒有貢獻(xiàn)。所以,必要的情況下可對網(wǎng)頁分詞結(jié)果實(shí)施簡化,采用詞頻最高的若干詞匯進(jìn)行描述即可。經(jīng)簡化后,兩組關(guān)鍵詞不僅可以大大提高彼此的匹配效率,還可以保證其采集的準(zhǔn)確度,而在經(jīng)過整合后,所抓取的網(wǎng)頁內(nèi)容和公司之間,也會建立其一個對應(yīng)關(guān)系,便于知道某個具體的公司包含怎樣的數(shù)據(jù)信息。

5 結(jié)語

在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的背景下,客戶處理業(yè)務(wù)也日益復(fù)雜起來,與其相關(guān)的大數(shù)據(jù)更是呈現(xiàn)逐漸增長的趨勢,對于大數(shù)據(jù)的分析處理技術(shù),成為重點(diǎn)關(guān)注內(nèi)容之一。如果能夠合理發(fā)揮大數(shù)據(jù)作用,使其服務(wù)于光蛋用戶,能夠?yàn)槠髽I(yè)的發(fā)展,提供更為完整清晰的指引。

[1]齊 志.4G網(wǎng)絡(luò)時代大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].商,2015(48):206.

[2]吳純青,任沛閣,王小峰.基于語義的網(wǎng)絡(luò)大數(shù)據(jù)組織與搜索[J].計(jì)算機(jī)學(xué)報(bào),2015,38(1):1~17.

[3]康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014(1):108~110.

TP274.2

A

1004-7344(2016)33-0254-02

2016-11-8

猜你喜歡
數(shù)據(jù)挖掘用戶分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
如何獲取一億海外用戶
主站蜘蛛池模板: 国内精品自在自线视频香蕉| 久久伊人操| 亚洲国产日韩在线成人蜜芽| 一本大道香蕉中文日本不卡高清二区 | 国产在线麻豆波多野结衣| 91成人在线免费视频| 亚洲bt欧美bt精品| 亚洲欧美h| 国产女人综合久久精品视| 欧美另类视频一区二区三区| 国产乱码精品一区二区三区中文| 自拍偷拍欧美| 全部免费特黄特色大片视频| 毛片网站免费在线观看| 国产不卡国语在线| 国产精女同一区二区三区久| AV老司机AV天堂| 欧美在线中文字幕| 九九久久精品国产av片囯产区| 亚洲中文字幕在线精品一区| 91av成人日本不卡三区| 亚洲天堂高清| 日韩亚洲高清一区二区| 日韩高清成人| 国产AV毛片| 亚洲第一页在线观看| 国产一级妓女av网站| 中文字幕无码制服中字| 精品午夜国产福利观看| 在线免费看黄的网站| 亚洲欧美日韩中文字幕一区二区三区| 国产SUV精品一区二区6| 无码乱人伦一区二区亚洲一| 亚洲成在线观看| 曰韩人妻一区二区三区| 日日拍夜夜操| 免费不卡视频| 亚洲成人在线免费| 成年人国产网站| 国产日韩欧美在线播放| 日本在线欧美在线| 亚洲福利一区二区三区| 乱码国产乱码精品精在线播放| 欧美日本中文| 小13箩利洗澡无码视频免费网站| 中文无码毛片又爽又刺激| 国产精品福利一区二区久久| 成人精品免费视频| 亚洲视频a| 久久亚洲中文字幕精品一区| 亚洲欧美成人在线视频| 伊在人亚洲香蕉精品播放| 影音先锋亚洲无码| 久久精品国产亚洲AV忘忧草18| 人人爽人人爽人人片| 国产免费怡红院视频| 国产剧情伊人| 国产精品免费露脸视频| 国产欧美日韩视频一区二区三区| 91免费观看视频| 国产丰满成熟女性性满足视频 | 国产簧片免费在线播放| 亚洲国产成人麻豆精品| 99热这里只有精品免费国产| 日本一本在线视频| 91外围女在线观看| 國產尤物AV尤物在線觀看| 国产乱人激情H在线观看| 超清无码一区二区三区| 久久这里只有精品66| 国产精品亚洲αv天堂无码| 欧美激情视频二区三区| 久久久久青草线综合超碰| 午夜无码一区二区三区在线app| 欧美在线观看不卡| 欧美伦理一区| 不卡网亚洲无码| 呦女亚洲一区精品| 自拍亚洲欧美精品| 久久精品无码专区免费| 91亚洲免费视频| 国产一级片网址|