999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)分析平臺(tái)的研究

2017-07-13 03:06:12劉國(guó)峰中國(guó)人民大學(xué)信息資源管理學(xué)院
消費(fèi)導(dǎo)刊 2017年19期
關(guān)鍵詞:用戶

劉國(guó)峰 中國(guó)人民大學(xué)信息資源管理學(xué)院

基于移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)分析平臺(tái)的研究

劉國(guó)峰 中國(guó)人民大學(xué)信息資源管理學(xué)院

互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),涵蓋了云計(jì)算、大數(shù)據(jù)的各個(gè)知識(shí)點(diǎn),主要研究當(dāng)前互聯(lián)網(wǎng)的用戶行為習(xí)慣及購(gòu)買偏好等、利用網(wǎng)絡(luò)爬蟲技術(shù)自動(dòng)收集互聯(lián)網(wǎng)上的用戶訪問行為記錄,結(jié)合當(dāng)前流行的算法進(jìn)行分析建模,運(yùn)用hadoop等大數(shù)據(jù)框架進(jìn)行后臺(tái)運(yùn)算,最終生成用戶的行為習(xí)慣數(shù)據(jù)模型。

移動(dòng)互聯(lián)網(wǎng) 大數(shù)據(jù)分析 模型 平臺(tái)

一、平臺(tái)的誕生及市場(chǎng)背景

在廣告交易平臺(tái)方面,除了BAT以外的交易平臺(tái)整合媒體資源的能力,一般公司的服務(wù)器響應(yīng)能力、數(shù)據(jù)并行計(jì)算能力、解決方案、反作弊技術(shù)成熟度方面均表現(xiàn)欠佳。此外,行業(yè)標(biāo)準(zhǔn)化程度也參差不齊、有待提高,例如廣告尺寸、DSP接口、DMP平臺(tái)數(shù)據(jù)標(biāo)簽化分類等。在DMP平臺(tái)化方面,當(dāng)前國(guó)內(nèi)缺乏正式的第三方獨(dú)立DMP平臺(tái),大多以私有DMP平臺(tái)為主,數(shù)據(jù)孤立,無法實(shí)現(xiàn)數(shù)據(jù)利益的最大化。大數(shù)據(jù)分析平臺(tái)正是基于以上實(shí)情研發(fā)而來,其有效解決了平臺(tái)底層計(jì)算的邏輯及算法問題。

當(dāng)前國(guó)內(nèi)專門從事大數(shù)據(jù)分析的企業(yè)還不是特別多,這里對(duì)比了幾家大數(shù)據(jù)相關(guān)行業(yè)的企業(yè),比如北京友友天宇系統(tǒng)技術(shù)有限公司的友友系統(tǒng)以及北京學(xué)之途網(wǎng)絡(luò)科技有限公司的秒針系統(tǒng)等,這些企業(yè)普遍存在著研發(fā)成本較高、開發(fā)周期較長(zhǎng)、開發(fā)與維護(hù)成本較高等問題。

互聯(lián)網(wǎng)人群畫像識(shí)別技術(shù),目前在國(guó)內(nèi)還屬于一個(gè)不成熟的發(fā)展階段,且具有不透明性。當(dāng)前市場(chǎng)上主要的技術(shù)服務(wù)型公司還主要集中在PC端的人群畫像識(shí)別層面,比如百度指數(shù)、阿里的達(dá)摩盤、騰訊的廣電通等。

“雙十一”是阿里與2011年在國(guó)家商標(biāo)局注冊(cè)的商標(biāo),截止到2014年11月11日,阿里雙十一全天交易額571億元。可以說,阿里后臺(tái)基于大數(shù)據(jù)的研發(fā)技術(shù)——互聯(lián)網(wǎng)用戶畫像造就了這樣一個(gè)天文交易數(shù)據(jù)。大數(shù)據(jù)分析、大數(shù)據(jù)預(yù)測(cè)、大數(shù)據(jù)的畫像技術(shù),給商家提供了精準(zhǔn)營(yíng)銷的策略依據(jù),為消費(fèi)者減少了垃圾廣告的展現(xiàn)次數(shù)。騰訊的開發(fā)平臺(tái)用戶分析——用戶畫像,主要分為地域分布、用戶年齡特質(zhì)、用戶性別特征、用戶職業(yè)分布、用戶QQ等級(jí)分布、使用場(chǎng)景分布等幾項(xiàng)。

另外,大數(shù)據(jù)分析的市場(chǎng)需求非常高。市場(chǎng)研究公司MarketsandMarkets之前發(fā)布的一份報(bào)告預(yù)測(cè)顯示,從2013年到2018年全球大數(shù)據(jù)將出現(xiàn)年均26%的增長(zhǎng)率,即從13年的148.7億美元增長(zhǎng)到2018年的463.4億美元。2015年上半年市場(chǎng)規(guī)模已經(jīng)超過2014年全年,達(dá)到25.71億元。

二、技術(shù)原理

大數(shù)據(jù)分析平臺(tái)的搭建與運(yùn)維,是大數(shù)據(jù)分析處理的基石,為大數(shù)據(jù)的分析處理提供分布式存儲(chǔ)、分布式計(jì)算、分布式資源調(diào)度等處理能力。主要包括使用目前主流的hadoop系列進(jìn)行移動(dòng)大數(shù)據(jù)平臺(tái)的搭建、運(yùn)維、監(jiān)控、展示等工作。技術(shù)指標(biāo)主要有:響應(yīng)時(shí)間(毫秒級(jí))、處理能力(PB級(jí))、集群規(guī)模、穩(wěn)定性、識(shí)別率、準(zhǔn)確率等等。

平臺(tái)的擴(kuò)展需求只受存儲(chǔ)資源的限制,當(dāng)系統(tǒng)存儲(chǔ)空間不足時(shí),可在保證系統(tǒng)服務(wù)連續(xù)的前提下,對(duì)系統(tǒng)進(jìn)行在線動(dòng)態(tài)擴(kuò)容,并且自動(dòng)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)遷移和負(fù)載均衡,以保證所有節(jié)點(diǎn)的有效使用,消除容量瓶頸。

互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),采用當(dāng)前云計(jì)算及大數(shù)據(jù)處理技術(shù)的hadoop框架技術(shù),包括統(tǒng)一用戶識(shí)別技術(shù)、數(shù)據(jù)采集、分析處理、算法模型、結(jié)果集市等模塊。

(一)統(tǒng)一用戶識(shí)別技術(shù)

指將不同渠道間的互聯(lián)網(wǎng)用戶通過統(tǒng)一用戶識(shí)別技術(shù)進(jìn)行打通整合,形成唯一的互聯(lián)網(wǎng)用戶數(shù)據(jù),為最終用戶畫像的形成提供唯一標(biāo)識(shí)。經(jīng)過分析多渠道的PC端、移動(dòng)端的數(shù)據(jù),采用相應(yīng)的數(shù)據(jù)算法模型,研究出一套將來自多渠道的數(shù)據(jù)相互打通的解決方案。經(jīng)過數(shù)據(jù)測(cè)試驗(yàn)證,渠道間用戶的統(tǒng)一用戶比例為1:3.6。

(二)實(shí)時(shí)采集模塊

占用CPU、內(nèi)存資源都很小的情況下,能迅速將數(shù)據(jù)實(shí)時(shí)的發(fā)送到接收端進(jìn)行后續(xù)的處理,同時(shí)支持多線程、斷點(diǎn)續(xù)傳等技術(shù)。

經(jīng)過研究國(guó)內(nèi)外的數(shù)據(jù)采集框架后發(fā)現(xiàn),許多開源的數(shù)據(jù)采集框架存在bug、不穩(wěn)定、丟數(shù)據(jù)等情況,例如flume。于是自主開發(fā)了一款簡(jiǎn)潔實(shí)用的采集工具cotail,采用腳本語言python編寫,代碼量少,功能強(qiáng)大,性能優(yōu)越,可實(shí)現(xiàn)多線程、多目錄、多文件的數(shù)據(jù)采集。經(jīng)過內(nèi)部測(cè)試,平均響應(yīng)速度比flume快20%左右,日志無丟失現(xiàn)象,可以實(shí)現(xiàn)斷點(diǎn)續(xù)傳和多線程功能。

(三)分析處理模型

采用多層數(shù)據(jù)模型,比如第一層數(shù)據(jù)源,專門存放采集的原始數(shù)據(jù)集;第二層數(shù)據(jù)清洗層,用來將清洗后的規(guī)范數(shù)據(jù)進(jìn)行臨時(shí)的存放;第三層數(shù)據(jù)識(shí)別層,開始逐步將數(shù)據(jù)與數(shù)據(jù)字典中的知識(shí)庫(kù)進(jìn)行匹配識(shí)別,形成初步的標(biāo)簽數(shù)據(jù);第四層畫像層,通過不同的用戶屬性標(biāo)簽,將用戶數(shù)據(jù)不同的屬性進(jìn)行合并操作;第五層數(shù)據(jù)集市層,將最終的平臺(tái)畫像等數(shù)據(jù)進(jìn)行存儲(chǔ),隨時(shí)供業(yè)務(wù)進(jìn)行調(diào)用訪問。

(四)算法模型

算法權(quán)重的計(jì)算,有很多種方式,比如定量統(tǒng)計(jì)法、專家評(píng)定法、對(duì)偶比較法等等。經(jīng)過多方實(shí)踐,最終使用數(shù)據(jù)建立數(shù)學(xué)模型,形成了自己的衰減算法,并獲得了衰減算法的公因子,在整個(gè)數(shù)據(jù)處理過程中至關(guān)重要。

三、平臺(tái)研究中的數(shù)據(jù)流轉(zhuǎn)過程

互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái),運(yùn)用大數(shù)據(jù)hadoop系列框架處理技術(shù),其中包括分布式存儲(chǔ)、分布式計(jì)算、分布式數(shù)據(jù)庫(kù)等,將企業(yè)在日常生產(chǎn)中產(chǎn)生的多種大數(shù)據(jù)進(jìn)行整理分析,進(jìn)而產(chǎn)生對(duì)企業(yè)有價(jià)值的數(shù)據(jù)。

首先,使用分布式的爬蟲技術(shù)從互聯(lián)網(wǎng)上爬取用戶活躍度比較高的網(wǎng)站內(nèi)容數(shù)據(jù),作為原始數(shù)據(jù)的一部分;同時(shí),接入三方的數(shù)據(jù)進(jìn)行原始數(shù)據(jù)的補(bǔ)充,比如inmobi、芒果等三方數(shù)據(jù);其次,使用hadoop系列大數(shù)據(jù)分析平臺(tái)進(jìn)行數(shù)據(jù)的ETL處理,一部分?jǐn)?shù)據(jù)經(jīng)過數(shù)據(jù)挖掘算法處理后形成基礎(chǔ)數(shù)據(jù)庫(kù),基礎(chǔ)數(shù)據(jù)庫(kù)再經(jīng)過人工的優(yōu)化最終形成完善的基礎(chǔ)數(shù)據(jù)庫(kù)。另外,數(shù)據(jù)經(jīng)過平臺(tái)處理,最終形成可供企業(yè)客戶使用的互聯(lián)網(wǎng)用戶人群數(shù)據(jù)。

四、平臺(tái)的優(yōu)勢(shì)及風(fēng)險(xiǎn)

通過互聯(lián)網(wǎng)用戶行為特征的大數(shù)據(jù)分析平臺(tái)獨(dú)特的處理分析流程,將互聯(lián)網(wǎng)復(fù)雜紛亂的不相關(guān)數(shù)據(jù)進(jìn)行整合處理,進(jìn)而根據(jù)需求生成用戶的多種維度屬性數(shù)據(jù)。該平臺(tái)采用當(dāng)前互聯(lián)網(wǎng)上流行的大數(shù)據(jù)計(jì)算框架和算法分析技術(shù),保證了技術(shù)的先進(jìn)性和實(shí)效性,無論是在云計(jì)算,還是大數(shù)據(jù)方面,均處于行業(yè)領(lǐng)先水平。在電信、廣告、媒體等行業(yè)中都可以使用,推廣力度較大,市場(chǎng)需求較廣,該平臺(tái)可以在短時(shí)間內(nèi)為企業(yè)進(jìn)行大數(shù)據(jù)平臺(tái)的建設(shè),并保證相關(guān)技術(shù)處于行業(yè)的領(lǐng)先水平。

通過網(wǎng)絡(luò)爬蟲、第三方數(shù)據(jù)合作等方式采集互聯(lián)網(wǎng)人群、移動(dòng)端人群的兩大用戶群體的用戶瀏覽行為、用戶購(gòu)物行為、移動(dòng)端使用情況等數(shù)據(jù),利用大數(shù)據(jù)進(jìn)行匯總分析、數(shù)據(jù)挖掘、人工智能等技術(shù),進(jìn)而得到整個(gè)互聯(lián)網(wǎng)人群的畫像數(shù)據(jù)。

大數(shù)據(jù)是當(dāng)前計(jì)算機(jī)領(lǐng)域較為熱點(diǎn)的研究?jī)?nèi)容,很多初創(chuàng)公司都在大數(shù)據(jù)背景下進(jìn)行著技術(shù)創(chuàng)新,主要風(fēng)險(xiǎn)來自于資金以及三方數(shù)據(jù)合作兩個(gè)方面:

資金風(fēng)險(xiǎn)在進(jìn)行大數(shù)據(jù)研發(fā)過程中,需要購(gòu)置大量的服務(wù)器設(shè)備進(jìn)行數(shù)據(jù)運(yùn)算以及維持服務(wù)運(yùn)行,這些設(shè)備的購(gòu)置將需要大量的資金;另外在進(jìn)行相關(guān)研發(fā)中,需要聘請(qǐng)專業(yè)的技術(shù)人員、銷售人員和管理人員,他們的薪酬也需要大量資金支持。對(duì)于初創(chuàng)公司來說,資金的不足將成為公司長(zhǎng)久運(yùn)行的風(fēng)險(xiǎn)。

三方數(shù)據(jù)合作,指與第三方數(shù)據(jù)單位進(jìn)行戰(zhàn)略合作,打通爬蟲爬取不到的數(shù)據(jù)資源,作為原始基礎(chǔ)數(shù)據(jù)的補(bǔ)充部分,比如移動(dòng)端的流量數(shù)據(jù)。目前三方數(shù)據(jù)的獲取主要依靠戰(zhàn)略合作、資源交換、購(gòu)買等方式獲取,且數(shù)據(jù)格式、完整性等存在不規(guī)范,需要進(jìn)行專門的整理或者簡(jiǎn)單處理方可進(jìn)行后續(xù)的使用。

五、小結(jié)

歷史數(shù)據(jù)或結(jié)果數(shù)據(jù)的特點(diǎn)是大多含有時(shí)間屬性、常以追加方式寫入、并且很少進(jìn)行的結(jié)構(gòu)化數(shù)據(jù)。本平臺(tái)使用多種手段來提升存儲(chǔ)系統(tǒng)的整體訪問性能。包括:將大量的數(shù)據(jù)及訪問請(qǐng)求進(jìn)行合理的水平、垂直分割,充分發(fā)揮網(wǎng)絡(luò)以及服務(wù)器的I/O吞吐能力;支持用戶自定義的各種數(shù)據(jù)格式,并根據(jù)具體的應(yīng)用需求,使用特定的數(shù)據(jù)結(jié)構(gòu)來針對(duì)性地提高數(shù)據(jù)的訪問效率;同時(shí)支持內(nèi)存和磁盤數(shù)據(jù)庫(kù),利用不同存儲(chǔ)層級(jí)的設(shè)備為實(shí)際應(yīng)用提供可擴(kuò)展的高速緩存和持久化的數(shù)據(jù)存儲(chǔ),并且可根據(jù)具體業(yè)務(wù)需求進(jìn)行單獨(dú)使用或者組合使用,從而在時(shí)效性、安全性和重要性上實(shí)現(xiàn)對(duì)數(shù)據(jù)的差異化處理。

[1]陳丹,郭先會(huì).Hadoop在電信大數(shù)據(jù)平臺(tái)的研究與設(shè)計(jì)[J].現(xiàn)代電信科技.2014(08).

[2]方少卿,周劍,張明新.基于Map/Reduce的改進(jìn)選擇算法在云計(jì)算的Web數(shù)據(jù)挖掘中的研究[J].計(jì)算機(jī)應(yīng)用研究,2013(02).

[3]黎宏劍,劉恒,黃廣文,卜立.基于Hadoop的海量電信數(shù)據(jù)云計(jì)算平臺(tái)研究[J].電信科學(xué).2012(08).

猜你喜歡
用戶
雅閣國(guó)內(nèi)用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請(qǐng)稍后再哭
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網(wǎng)新媒體用戶之間有何差別
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應(yīng)用
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 日韩无码视频专区| 国产全黄a一级毛片| 日韩在线中文| 伊人久综合| 日韩av无码精品专区| 伊人久久大香线蕉综合影视| 91美女视频在线| 在线观看国产黄色| 欧美在线观看不卡| 91精品伊人久久大香线蕉| 伊人成色综合网| 亚洲第一极品精品无码| 日韩国产精品无码一区二区三区| 国产va欧美va在线观看| 波多野结衣无码中文字幕在线观看一区二区| 国产一区成人| 三上悠亚在线精品二区| 国产在线第二页| 国产精品无码在线看| 欧洲一区二区三区无码| 手机永久AV在线播放| 亚洲无码视频一区二区三区 | 色老头综合网| 欧美乱妇高清无乱码免费| 国产成人综合久久| 91综合色区亚洲熟妇p| 国产精品一区二区在线播放| 日本高清免费不卡视频| 中文字幕不卡免费高清视频| 亚洲A∨无码精品午夜在线观看| 思思热精品在线8| 伊人欧美在线| 黑人巨大精品欧美一区二区区| 国产一区三区二区中文在线| 日韩专区欧美| 亚洲中文精品人人永久免费| 国产麻豆va精品视频| 色天天综合| 尤物特级无码毛片免费| 亚洲人成影院在线观看| 国产欧美日韩18| 国产精品免费电影| 国模视频一区二区| 免费大黄网站在线观看| 在线观看国产黄色| 欧美国产成人在线| 制服无码网站| 特级aaaaaaaaa毛片免费视频 | 久久男人资源站| 国产欧美日韩va另类在线播放| 超碰精品无码一区二区| 国产办公室秘书无码精品| 夜夜拍夜夜爽| 久久人搡人人玩人妻精品 | 国产成人久久综合一区| 色天天综合久久久久综合片| 中文字幕第1页在线播| a免费毛片在线播放| 毛片免费在线| 蝴蝶伊人久久中文娱乐网| 国产特级毛片aaaaaa| 东京热一区二区三区无码视频| 57pao国产成视频免费播放| 欧美亚洲香蕉| 亚洲免费人成影院| 在线观看无码av五月花| 亚洲精品色AV无码看| 免费看a毛片| 最新国产精品第1页| 国产精品999在线| 天天干天天色综合网| 2020精品极品国产色在线观看| 91精品免费久久久| 91精品久久久无码中文字幕vr| 国产精品久线在线观看| 五月六月伊人狠狠丁香网| 欧美激情成人网| 国产极品美女在线| 综合五月天网| 日韩区欧美国产区在线观看| 国产一区二区精品福利| 亚洲综合久久一本伊一区|