999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于流式計算的實時用戶畫像系統(tǒng)研究

2020-07-15 05:01:46姜紅玉
計算機技術與發(fā)展 2020年7期
關鍵詞:用戶分析信息

姜紅玉,汪 朋,封 雷

(中國電子科技集團公司第十五研究所,北京 100083)

0 引 言

在移動互聯(lián)網(wǎng)時代,用戶網(wǎng)絡交易產(chǎn)生的數(shù)據(jù)量正在爆炸式增長。特別是在快速發(fā)展的物聯(lián)網(wǎng)時代,精細化運營已成為企業(yè)的重要競爭力量,“用戶畫像”的概念也應運而生,時代的特征為企業(yè)構建用戶畫像提供了豐富的數(shù)據(jù)來源。用戶畫像作為大數(shù)據(jù)的基礎,將海量用戶數(shù)據(jù)抽象出一個標簽化的用戶模型,有助于精準、快速地分析用戶的行為習慣等重要信息,能為用戶分析和用戶群體分析提供充分的數(shù)據(jù)基礎,奠定了大數(shù)據(jù)和物聯(lián)網(wǎng)時代的基石。

國內外進行用戶畫像研究與實踐的學者日趨增加,劉海鷗等梳理研究了國內外用戶畫像成果,揭示了用戶畫像建模的方法[1];王永瑞研究了百度地圖的用戶信息多維度分析,給出了基于用戶畫像進行分析的方法[2];宋美琦等對用戶畫像進行了研究,對用戶畫像的內涵、研究內容與技術方法和應用價值展開了述評[3];袁莎等分析研究了開放互聯(lián)網(wǎng)中的學者畫像技術[4];施曉光研究了用戶畫像在用戶價值提升中的研究與應用[5]。無論是在傳統(tǒng)行業(yè)還是當今互聯(lián)網(wǎng)行業(yè),用戶畫像研究都具有強大的發(fā)展?jié)摿蜐B透力。

用戶畫像技術的系統(tǒng)性和完整性決定了實現(xiàn)的難度,相比于一般的用戶行為分析方法,用戶畫像分析方法更加完善、更具系統(tǒng)性,能更好地滿足用戶和企業(yè)的需求。因此,當前眾多企業(yè)運用各種大數(shù)據(jù)分析挖掘技術進行用戶畫像的研究與應用。

本系統(tǒng)主要的目標是基于流式處理技術,實時綜合收集繁雜的海量用戶信息,應用數(shù)據(jù)挖掘技術對這些海量數(shù)字信息進行清洗、聚類、分析,逐步抽象數(shù)據(jù)形成標簽,運用這些標簽將用戶形象具體化以形成用戶畫像。通過用戶畫像為企業(yè)提供充足且豐富的信息基礎,幫助企業(yè)快速找到更全面的反饋信息,如準確的用戶群和用戶需求,從而為用戶提供有針對性的服務,更好地幫助企業(yè)實現(xiàn)“千人千面”的運營。

1 概 述

用戶畫像(User Profile),即用戶信息標簽化,企業(yè)通過收集與分析用戶社會屬性、生活習慣、互聯(lián)網(wǎng)行為等主要信息之后,完美地抽象出一個用戶的商業(yè)全貌。交互設計之父Alan Cooper首先提出了用戶畫像的概念,用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)上的目標用戶模型[6]。用戶畫像的構建核心是用“標簽”標記用戶,標簽是通過分析用戶信息而得到的一個高度精準的特征標識。David Travis認為一個完整的用戶畫像需要滿足7個條件,即PERSONA,P(基本性,Primary research)、E(移情性,Empathy)、R(真實性,Realistic)、S(獨特性,Singular)、O(目標性,Objectives)、N(數(shù)量,Number)、A(應用性,Applicable)[7]。

用戶畫像的本質是深入分析客戶,掌握具有實用價值的數(shù)據(jù),找到目標客戶,根據(jù)客戶需求制定產(chǎn)品,并利用數(shù)據(jù)實現(xiàn)價值變現(xiàn)[8]。用戶畫像的分析刻畫非常重要,主要體現(xiàn)在四個方面。第一,精細化運營,將用戶群體劃分成更為精細的粒度,針對細化的特定群體,通過線上推送、線下活動等手段,以激勵、關懷、挽回等策略進行營銷;第二,用戶分析,借助用戶畫像更透徹地了解用戶,分析不同用戶畫像族群的特性;第三,數(shù)據(jù)挖掘分析,用戶畫像是很多數(shù)據(jù)產(chǎn)品的基礎,在其基礎上可以構建個性化推薦系統(tǒng)、廣告投放系統(tǒng)、搜索引擎,提升服務精準度;第四,企業(yè)管理分析和競爭分析,影響企業(yè)發(fā)展策略。

用戶畫像研究正處于蓬勃發(fā)展階段,未來對于用戶畫像的研究應在精準場景方面加以延伸和創(chuàng)新,著重突破“用戶”束縛,強化數(shù)據(jù)來源和數(shù)據(jù)質量的同時拓展和改進相關的數(shù)據(jù)挖掘方法,更加有效地實現(xiàn)多源數(shù)據(jù)的融合,從而構建更加多源、更加精準的用戶畫像。

2 流式計算

不同的大數(shù)據(jù)應用場景,有各自的解決方案。對于數(shù)據(jù)先存儲后計算,對計算處理的實時性要求不高,同時有著非常大規(guī)模的數(shù)據(jù)且計算模型復雜的應用場景,適合使用批量計算框架。但是大多數(shù)應用場景中,數(shù)據(jù)往往動態(tài)產(chǎn)生,可以直接進行計算,實時性要求嚴格,需要在較短時間段內甚至是實時處理完成。同時在處理過程中還要考慮容錯、擁塞控制等問題,保證數(shù)據(jù)處理的每一個環(huán)節(jié)都正常,確保數(shù)據(jù)不會丟失且不會被重復處理。針對這些問題,產(chǎn)生了流式計算框架這一解決方案。

流式計算主要是指對數(shù)據(jù)流進行實時計算,按時間點連續(xù)小批量傳輸大量數(shù)據(jù),持續(xù)流入預先定義好的流式計算邏輯,提交到流式計算系統(tǒng),在線系統(tǒng)可以實時獲取計算結果進行實時展現(xiàn)。實時計算作為一類計算模型,主要針對流數(shù)據(jù)進行實時處理,實時計算模型可有效縮短全鏈路數(shù)據(jù)流時延、實時化計算邏輯、平攤計算成本,最終能夠有效滿足實時處理大數(shù)據(jù)的業(yè)務需求[9]。

相較于傳統(tǒng)的批量計算,流式計算主要有三方面特點。一是,流式數(shù)據(jù)的到達、處理和輸出都是持續(xù)不間斷的。二是,流式數(shù)據(jù)具有瞬時性,只保存或者輸出計算分析結果和部分的中間數(shù)據(jù)。三是,流式數(shù)據(jù)有明顯的時間偏倚性,隨著時間流逝,流式數(shù)據(jù)中所蘊涵的價值不斷衰減,最近到達的流式數(shù)據(jù)通常都比早先到達的流式數(shù)據(jù)更具知識價值。

當前主流的流式計算框架有Spark Streaming,Storm,F(xiàn)link。Apache Flink作為低延遲、高吞吐、統(tǒng)一流、批處理的高性能大數(shù)據(jù)計算引擎,很好地支持了流計算的場景,正成為實時流式數(shù)據(jù)處理應用的首選數(shù)據(jù)處理框架[10]。

3 用戶畫像體系結構

用戶畫像體系結構層次從下層到上層分為五層,即數(shù)據(jù)源、數(shù)據(jù)接入層、數(shù)據(jù)存儲與處理層、服務層和業(yè)務應用層,如圖1所示。

(1)數(shù)據(jù)源層。

用戶畫像來自于龐大而豐富的用戶數(shù)據(jù),數(shù)據(jù)源是構建用戶畫像的首要工作。構建實時用戶畫像系統(tǒng)首先以業(yè)務視角規(guī)劃設計標簽體系的整體架構,核心圍繞用戶,從各種數(shù)據(jù)源實時采集用戶的多源數(shù)據(jù),以用戶唯一標識貫通來自各個平臺、系統(tǒng)、渠道的數(shù)據(jù),構建數(shù)據(jù)存儲于大數(shù)據(jù)開發(fā)平臺上,包括結構化的業(yè)務數(shù)據(jù)、埋點采集的用戶行為數(shù)據(jù)等。

(2)數(shù)據(jù)接入層。

數(shù)據(jù)在產(chǎn)生階段通常是源源不斷、持續(xù)地產(chǎn)生的。實際情況中流式數(shù)據(jù)一般通過網(wǎng)絡接口提供,而非通過格式化的文件進行交互。這就要求對流式數(shù)據(jù)有一個接入過程,匯聚為大數(shù)據(jù)集群內一個較統(tǒng)一的形式,然后提交大數(shù)據(jù)集群進行處理[11]。數(shù)據(jù)接入層,基于大數(shù)據(jù)體系,提供接納流式數(shù)據(jù)的能力,為上層應用分析處理流式數(shù)據(jù)奠定了基石。數(shù)據(jù)接入過程可以綜合采用分布式海量日志采集、聚合和傳輸系統(tǒng)Flume,高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)Kafka等技術,將從數(shù)據(jù)源采集到的數(shù)據(jù)存儲到大數(shù)據(jù)開發(fā)平臺中。

圖1 用戶畫像體系結構

(3)數(shù)據(jù)存儲與處理層。

使用HBase存儲用戶的行為數(shù)據(jù),服務于Hadoop或Flink的計算;使用HBase存儲用戶的畫像數(shù)據(jù),以進行在線業(yè)務查詢和分析。

在大數(shù)據(jù)的基礎上,進行各類標簽的研發(fā),例如事實標簽、業(yè)務標簽、統(tǒng)計類標簽、算法類標簽。然后根據(jù)標簽體系建模產(chǎn)出畫像數(shù)據(jù)。產(chǎn)品和運營人員可以利用豐富的畫像數(shù)據(jù),根據(jù)用戶主題執(zhí)行數(shù)據(jù)分析和數(shù)據(jù)挖掘的相關任務。分類、聚類、主成因分析、關聯(lián)分析等傳統(tǒng)的數(shù)據(jù)挖掘方法是用戶畫像分析的主流,且這些方法也在不斷完善中。深度學習已經(jīng)成為互聯(lián)網(wǎng)大數(shù)據(jù)和人工智能的一個熱潮[12],深度學習和神經(jīng)網(wǎng)絡及其衍生算法也是大數(shù)據(jù)分析的新趨勢。在實際應用中,會遇到較為復雜的問題,僅僅通過算法難以解決,可以綜合利用用戶畫像標簽規(guī)則和算法去建模從而達到很好的效果。

(4)服務層。

用戶畫像可以直接和間接反映用戶需求,為應用的設計提供客觀有效的數(shù)據(jù)基礎和決策依據(jù)。基于已建設完善的用戶畫像模型,結合具體業(yè)務,可以設計實現(xiàn)各種服務引擎,比如查詢引擎、推薦引擎、畫像引擎等等,以支撐應用層基于用戶畫像的各種應用。

(5)業(yè)務應用層。

作為平臺級應用程序,用戶畫像是許多企業(yè)服務和推送的信息基礎。用戶畫像可以定性和定量地描述用戶,通過對用戶性質的抽象和概括,對用戶數(shù)據(jù)的統(tǒng)計分析與計算,實現(xiàn)對核心用戶價值的挖掘。標簽或者畫像投入應用,或對接至下游業(yè)務系統(tǒng),能夠產(chǎn)生很大的業(yè)務價值。比如廣告投放、個性化推薦、渠道分析等場景。廣告投放應用場景基于一系列人口統(tǒng)計相關標簽,如性別、年齡、興趣愛好等,根據(jù)這些特征標簽達到廣告的有效宣傳;個性化推薦技術可以推動業(yè)務增長,在當今擁有大用戶量的場景下,研究新增用戶的特征、核心用戶的屬性是否有變化等,需要輔以用戶畫像配合來解決調研的效用低問題。在渠道分析方面,對渠道人群進行畫像驗證,通過分析畫像結果進行策略制定,對各個渠道的量進行重新分配,同時調整商品的定位,進而幫助企業(yè)理解用戶的人群特征、消費偏好等,幫助企業(yè)分析用戶群體,優(yōu)化市場定位和差異化產(chǎn)品策略。

數(shù)據(jù)治理也是大數(shù)據(jù)分析應用取得成功的核心要素,數(shù)據(jù)的全生命周期包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)存儲與使用。數(shù)據(jù)的整個生命周期中,必須確保數(shù)據(jù)的規(guī)范性、唯一性、一致性、完整性、準確性和關聯(lián)性,提高數(shù)據(jù)的可用性和分析結果的正確性。

設計較為完善的用戶畫像系統(tǒng)在實際應用中也會產(chǎn)生一定的波動,可以建設相應的監(jiān)控系統(tǒng)應對這一難題,監(jiān)控各類標簽的使用與效果,對畫像的質量進行監(jiān)控,進而統(tǒng)計出標簽,替換掉不恰當?shù)臉撕灒瑫r,根據(jù)實時業(yè)務調整業(yè)務規(guī)則與算法,增添新的標簽。借助監(jiān)控系統(tǒng)更進一步推進標簽體系的規(guī)劃設計,逐步沉淀出一套精華版標簽集合。

4 用戶畫像構建

為避免形式化的用戶畫像,用戶畫像的構建需要技術人員和業(yè)務人員共同參與。用戶畫像系統(tǒng)的構建依托海量數(shù)據(jù),其過程可分為數(shù)據(jù)采集與處理、數(shù)據(jù)標簽體系建設以及模型構建三部分。首先實時采集和整合各個渠道用戶的靜態(tài)和動態(tài)數(shù)據(jù),以便用戶的靜態(tài)信息和動態(tài)信息相關聯(lián)。然后使用統(tǒng)計、分類、聚類分析等方法對用戶信息進行挖掘分析,給用戶建設標簽體系。最后在此基礎上構建用戶畫像模型,細分用戶并勾勒出用戶及用戶群體的畫像,從而更加精準地推斷出用戶真實需求。

4.1 數(shù)據(jù)采集與處理

在大數(shù)據(jù)環(huán)境中,一切智能化應用和分析都是建立在數(shù)據(jù)基礎之上,這就需要能夠收集到用戶的所有相關數(shù)據(jù),并且擁有豐富的標簽以及自然語言理解的能力[13]。數(shù)據(jù)采集與處理是構建用戶畫像的基礎,構建用戶畫像是為了還原用戶信息,只有基于客觀、真實、全面的數(shù)據(jù),才能夠生成有效、精準的畫像。因此,所有采集的數(shù)據(jù)來源必須保持客觀真實性。用戶的特征屬性可以是事實屬性或抽象屬性,也可以是自然屬性或社會屬性等,具有多方面性。這些屬性都可以清楚地描繪一個用戶的畫像特征。

為了確保所采集數(shù)據(jù)的可用性并滿足分析目標,用戶畫像數(shù)據(jù)可分為靜態(tài)信息數(shù)據(jù)和動態(tài)信息數(shù)據(jù)兩種類型。靜態(tài)信息數(shù)據(jù)即用戶的基本屬性數(shù)據(jù),是指相對穩(wěn)定的用戶信息,主要包括用戶注冊的基本信息,如姓名、年齡、性別等,這部分數(shù)據(jù)主要來源于用戶填寫的個人資料,及由此通過算法模型預測的用戶數(shù)據(jù)。因為采集到的靜態(tài)信息具有不確定性,不會是完全準確的,所以需要在后面的階段中通過建模判斷、完善。例如,如果用戶將性別注冊為女性,但通過其行為偏好將其預測為“男性”的概率更大。動態(tài)信息數(shù)據(jù)具有隱蔽性的特點,是指不斷變化的用戶行為產(chǎn)生的數(shù)據(jù),需要通過數(shù)據(jù)分析和數(shù)據(jù)挖掘進行提取。

采集到用戶的靜態(tài)信息和動態(tài)信息后,在充分保障用戶數(shù)據(jù)隱私和確保用戶數(shù)據(jù)的真實性和有效性的前提下,首先過濾掉與用戶特征無關的冗余數(shù)據(jù)和異常信息;然后把清洗過后的用戶數(shù)據(jù)加工成能夠被用戶建模使用的數(shù)據(jù);最后形成用戶畫像的有效數(shù)據(jù)集。

4.2 數(shù)據(jù)標簽體系建設

用戶畫像數(shù)據(jù)標簽是通過對用戶信息分析形成的高度精煉的特征標識,如性別、地域、用戶習慣、偏好等,綜合所有標簽勾勒出該用戶的“畫像”。構建用戶畫像數(shù)據(jù)標簽是構建用戶畫像的關鍵步驟。

標簽是一種相關性很強的關鍵字,能夠表達人的基本屬性、興趣偏好以及行為傾向等某個維度,可以簡潔地描述和分類人群。用戶畫像的結果是通過為用戶貼標簽的方式來描述用戶信息,標簽貼的是否準確和全面直接影響到用戶畫像的質量和結果。因此,精準、細粒度且結構化的標簽體系是用戶畫像的基礎[14],建立一套完善的標簽系統(tǒng)必須先了解自身數(shù)據(jù),從而能夠通過該標簽系統(tǒng)構建一個全方位的用戶畫像,甚至更高層次的畫像模型。

標簽化一般采用多級標簽、多級分類,如圖2所示。例如,第一級標簽是基本信息和地理位置等;第一級分類有人口屬性,行為興趣、商業(yè)等,行為興趣又包括運動興趣、閱讀興趣等二級分類,閱讀興趣又分書籍和雜志等三級分類,書籍又分勵志和職場等四級分類。在構建標簽時,只構建最下層的標簽即可,依據(jù)設計能夠映射到上面三級標簽。上層標簽是抽象化的標簽集合,一般具有統(tǒng)計意義,但沒有實用性。例如,在廣告投放應用場景中,用戶人口屬性標簽沒有實際意義,但是可以統(tǒng)計包含有人口屬性標簽的用戶比例,用于產(chǎn)品的研究分析。

圖2 標簽分類體系

大數(shù)據(jù)時代,標簽體系的高效搭建已成為企業(yè)的迫切需求。標簽體系的建立可以有多種方法,比如人工總計概況、調查問卷等。但是當今面對海量用戶打標簽的過程就需要借助大數(shù)據(jù)計算、數(shù)據(jù)挖掘等技術進行用戶特征的提取,使用計算機程序化處理用戶的相關信息,從而大幅提高信息獲取的精準度和效率。

結合用戶靜態(tài)屬性信息和動態(tài)行為信息,可以構建一個相對立體、精準的用戶畫像數(shù)據(jù)標簽體系。其中,立體指描述用戶的標簽維度多,精準指描述用戶的標簽準確,能夠準確地描述用戶的各種特性。標簽體系應當具有原始數(shù)據(jù)層、事實層、模型層和預測層的層級結構[15],如圖3所示。

圖3 用戶畫像標簽體系

用戶畫像標簽模型分4個層次,用來描述標簽的加工和計算過程。最下層是原始數(shù)據(jù),從數(shù)據(jù)提取維度來看,標簽數(shù)據(jù)可以分為事實標簽、模型標簽和預測標簽[16]。

事實標簽即既定的事實,從原始數(shù)據(jù)中直接獲取,比如人口屬性、渠道使用頻率等都是通過用戶的原始數(shù)據(jù)獲得;事實標簽層主要用于校驗原始數(shù)據(jù)層,從而將準確無誤的數(shù)據(jù)傳輸?shù)侥P蜆撕瀸舆M行預測建模。

模型標簽,沒有與之相對應的數(shù)據(jù),需要首先定義規(guī)則,然后建立模型計算出標簽實例;根據(jù)事實標簽層傳輸?shù)臄?shù)據(jù),建立模型、提取特征偏好、獲得用戶的行為信息。根據(jù)模型標簽可以為用戶建立不同的標簽體系,分析、加工數(shù)據(jù),然后利用數(shù)據(jù)發(fā)現(xiàn)用戶的潛在信息。

預測標簽,參考已有的事實數(shù)據(jù),對用戶的行為或者偏好進行預測而得出的標簽信息。預測標簽層的建立需要通過數(shù)據(jù)挖掘和機器學習等方法,對用戶特征和用戶行為進行標簽化。根據(jù)預測出的畫像標簽可以預測群體用戶的忠誠度、流失度等,并探索用戶的潛在需求。

用戶畫像標簽模型中的模型標簽和預測標簽的生成方法有很多,包括統(tǒng)計方法、相似度計算算法、分類聚類算法、推薦算法、預測算法、自然語言處理等。

標簽化是對用戶最直觀的解釋,標簽體系結構主要是將大數(shù)據(jù)挖掘后進行聚類分類的信息進行標簽化。例如,對于一位科研工作者,用戶標簽化的結果如圖4所示。

圖4 用戶標簽化的結果

4.3 模型構建

用戶畫像模型構建可歸納為“數(shù)據(jù)信息-標簽-方案”的過程,采集海量用戶數(shù)據(jù)并進行處理成能表達這一個或一類用戶的用戶標簽,然后根據(jù)相應場景形成合適且精確的方案,真正帶給用戶一種“千人千面”的用戶體驗。優(yōu)異的實時用戶畫像系統(tǒng),具備良好的數(shù)據(jù)生態(tài),同時能夠促進業(yè)務和運營的發(fā)展。圖5是用戶畫像模型系統(tǒng)的技術架構。

圖5 用戶畫像系統(tǒng)技術架構模型

實時用戶畫像系統(tǒng)是一個綜合性非常強的系統(tǒng),架構設計非常關鍵,采用四層架構,分別是數(shù)據(jù)源層、數(shù)據(jù)加工與存儲分析層、服務層和可視化層,通過多層設計將特定功能的處理流程沉淀在各層完成。

本系統(tǒng)設計模式采用微服務架構、前后端分離架構設計,其可重用性較高、部署便捷、可維護性較好。前端開發(fā)語言可使用HTML5、CSS3、JavaScript等,應用Vue、ElementUI、Bootstrap、和jQuery等前端開發(fā)框架,ElementUI和Bootstrap框架可以提高開發(fā)效率。系統(tǒng)后臺開發(fā)使用Java語言、Spring Boot和Spring Cloud框架,可以讓開發(fā)流程變得層次清晰。

(1)數(shù)據(jù)源層。

數(shù)據(jù)無疑是大數(shù)據(jù)時代最具戰(zhàn)略性的核心資產(chǎn),擁有高質量的數(shù)據(jù)是開展先進的數(shù)據(jù)分析、挖掘數(shù)據(jù)價值的前提與必要條件。采用流式數(shù)據(jù)處理,從各個維度的數(shù)據(jù)源,實時采集所有與用戶相關的原始數(shù)據(jù)信息,通過一系列數(shù)據(jù)處理,將數(shù)據(jù)分為用戶靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。然后對采集的數(shù)據(jù)進行數(shù)據(jù)統(tǒng)計、分類和清洗處理。數(shù)據(jù)清洗可以利用Hadoop和Flink實現(xiàn)設備唯一性識別、行為數(shù)據(jù)清洗等,過濾掉與用戶特征無關的冗余、沖突和異常數(shù)據(jù)。

流式處理能夠實時分析連續(xù)的數(shù)據(jù)流,數(shù)據(jù)以流的方式進入系統(tǒng),使用支持高吞吐量、高度穩(wěn)定的分布式發(fā)布訂閱消息系統(tǒng)Kafka作為數(shù)據(jù)接入手段。基于Flume,將經(jīng)過清洗和加工處理的實時數(shù)據(jù)發(fā)送給Kafka。實時數(shù)據(jù)分析組件和數(shù)據(jù)消費者可以通過Kafka得到實時數(shù)據(jù)。這里通過Flume組件獲取Kafka中的實時數(shù)據(jù),并將其存儲到HDFS中備份以備后續(xù)離線分析場景使用,通常情況下,將需要離線進行分析計算的數(shù)據(jù)存儲于HDFS中。與此同時,定義Kafka的Flink消費者去消費Kafka中的實時數(shù)據(jù),進行實時分析和計算,并深入挖掘用戶的行為偏好等信息。使用Kafka旨在接收實時數(shù)據(jù),但因受制于Kafka本身的特點,消息消費端的速度應盡可能快,保持最短的中斷時間,從而不讓Kafka存儲太多的數(shù)據(jù)。

(2)數(shù)據(jù)加工與存儲分析層。

數(shù)據(jù)的加工與存儲分析依托實時大數(shù)據(jù)平臺,實時大數(shù)據(jù)平臺主要包括數(shù)據(jù)倉庫、用戶畫像數(shù)據(jù)庫和實時計算分析系統(tǒng)幾部分,采用Hadoop技術框架處理企業(yè)級海量數(shù)據(jù),分析數(shù)據(jù),進行并行化處理。數(shù)據(jù)倉庫主要包括MySQL和HDFS,MySQL用于業(yè)務數(shù)據(jù)、客戶群等元數(shù)據(jù)管理,HDFS備份存儲實時收集、清洗后的用戶數(shù)據(jù)。用戶畫像數(shù)據(jù)庫包括HBase、MongoDB。MongoDB內存儲Flink數(shù)據(jù)梳理后的標簽對應的數(shù)據(jù)的統(tǒng)計結果,便于可視化分析、統(tǒng)計。通過Flink數(shù)據(jù)梳理后的標簽寫入HBase,HBase內存儲的數(shù)據(jù)主要用于用戶的實時查詢,前端應用可通過服務獲取標簽數(shù)據(jù)并可視化展現(xiàn)。

用戶畫像需要維護對人的靜動態(tài)、行為統(tǒng)計等大量維度,并且需要頻繁變更字段來準確衡量各個維度的數(shù)據(jù)價值,因此需要使用具備字段彈性擴展能力的數(shù)據(jù)庫來存儲用戶畫像數(shù)據(jù)。HBase是水平擴展的、分布式的、開源的有序映射數(shù)據(jù)庫,可被看作彈性擴展的多維表格,通過動態(tài)添加列的特性,能夠在數(shù)據(jù)插入或查詢之前修改列結構,以支持任意的數(shù)據(jù)結構[17]。HBase顯著的特點就是無需定義表中的字段,可以直接往表中插入新字段,單表的字段數(shù)可達百萬個,并且空字段不占用存儲空間,適用于表結構經(jīng)常調整或者字段數(shù)目非常多的數(shù)據(jù),如用戶畫像場景。并且,HBase的訪問延遲在毫秒級,能夠滿足應用的在線調用快速響應。因此,本用戶畫像系統(tǒng)采用HBase存儲用戶畫像數(shù)據(jù),借助HBase的動態(tài)列這一特色功能,刻畫用戶的上千維度。

實時計算分析系統(tǒng)采用Flink技術進行流式數(shù)據(jù)實時化分析,F(xiàn)link和Kafka的組合也是比較常見的搭配。在Hadoop上應用Flink技術,能夠處理分布式數(shù)據(jù)集上的迭代作業(yè),適用于構建大型、低延遲的數(shù)據(jù)分析應用。使用基于Flink集群的數(shù)據(jù)管理架構,實現(xiàn)實時數(shù)據(jù)自動化處理,使用NoSQL數(shù)據(jù)庫存儲標簽,用于構建彈性可擴展的實時用戶畫像系統(tǒng)。

用戶畫像是對現(xiàn)實世界中用戶的數(shù)學建模,把用戶的一些行為進行量化,用數(shù)學的手段來進行統(tǒng)計[18]。實時計算引擎通過監(jiān)聽消息消費隊列內的數(shù)據(jù),進行實時計算。整個實時計算分析系統(tǒng)會用到很多模型來把用戶的基本屬性、行為特征、心理特征、興趣愛好、社交網(wǎng)絡大致標簽化,比如根據(jù)行為可以得出敗家指數(shù)、品牌偏好、用戶活躍度等標簽。在數(shù)據(jù)建模過程中,主要使用機器學習中的聚類(無監(jiān)督學習)和深度學習技術,使模型能夠主動學習用戶行為數(shù)據(jù)并對行為做出判斷,從而生成用戶標簽。同時,可以聚集相同特征的用戶,根據(jù)用戶群體的特性挖掘個性化資源。畫像數(shù)據(jù)存儲至用戶畫像數(shù)據(jù)庫中,以便實時調取使用,為各種精準化服務提供支持。在Flink上運行自然語言處理、分類聚類等組件,可以更為實時、精準地得到用戶標簽,實現(xiàn)海量數(shù)據(jù)的實時計算。

用戶信息及其特征變化迅速,并且用戶畫像難以100%準確地描述一個人,只能做到無限地去逼近一個人。因此,應根據(jù)不斷變化的基礎數(shù)據(jù)不斷修正用戶畫像,同時,根據(jù)已知數(shù)據(jù)抽象出新的合理標簽,進而構建出更加形象、立體的用戶畫像。

(3)服務層。

用戶畫像可以看作是業(yè)務層面的數(shù)據(jù)倉庫,各種標簽數(shù)據(jù)是多維分析的天然要素,分布式服務查詢接口用來打通用戶畫像標簽數(shù)據(jù)。

服務層采用Spring Boot框架和Spring Cloud框架開發(fā)分布式服務查詢接口以及前端查詢接口,Spring Boot作為開發(fā)單一服務的框架基礎,使用Spring Cloud框架實現(xiàn)完整的微服務架構解決方案,包括服務注冊與發(fā)現(xiàn)、監(jiān)控等。服務查詢接口負責獲取實時計算分析后的用戶畫像數(shù)據(jù),提供各種服務;前端查詢接口負責調用服務查詢接口提供的各種服務,以獲取數(shù)據(jù)并將其封裝成RESTful Web服務,供前端可視化層使用。前端可視化模塊或業(yè)務應用通過相應的RESTful接口獲取數(shù)據(jù)并將其可視化展示。

(4)可視化展示層。

對企業(yè)用戶數(shù)據(jù)分析建模獲得的信息需要進行可視化的展現(xiàn),最終目的將其應用于現(xiàn)實中。數(shù)據(jù)可視化技術為數(shù)據(jù)分析提供了更直觀的挖掘、分析和展示方法,它是一種表示數(shù)據(jù)信息的技術,它將不同種類的數(shù)據(jù)用不同的可視化視圖元素描述,從而更容易地向用戶展示數(shù)據(jù)中的信息[19]。

采用前后端分離的架構,前端可視化模塊主要采用HTML5、CSS3等技術進行搭建,數(shù)據(jù)可視化效果圖展示在前端瀏覽器網(wǎng)頁。數(shù)據(jù)請求通過瀏覽器發(fā)送到服務器,獲取到數(shù)據(jù)后,使用D3、ECharts等可視化組件繪制相應的可視化視圖。為了確保系統(tǒng)各模塊之間的低耦合性,系統(tǒng)內部數(shù)據(jù)通信采用RESTful接口的形式。

相比傳統(tǒng)的非可視化技術制定的圖表,可視化圖表能夠實時的動態(tài)調整,展示出最新的實時用戶畫像。綜合應用數(shù)據(jù)可視化技術、人的智能以及先進技術的科學計算分析能力,已逐步成為解釋復雜數(shù)據(jù)的重要手段和方法。

5 結束語

伴隨著大數(shù)據(jù)處理技術的不斷發(fā)展和數(shù)據(jù)挖掘分析算法的演進,網(wǎng)絡用戶信息的多維度數(shù)據(jù)分析已經(jīng)是當前互聯(lián)網(wǎng)發(fā)展所必須研究的內容。文中首先對用戶畫像體系結構進行了探討,給出了構建用戶畫像的思路,提出了一種實時用戶畫像系統(tǒng)構建通用技術架構。通過實時采集用戶的多源數(shù)據(jù),從不同維度進行用戶行為分析,對數(shù)據(jù)進行挖掘分析,確定用戶的事實標簽,構建標簽體系,從而刻畫出精準的用戶畫像,能夠秒級分析出用戶的消費能力、實時興趣偏好等,能夠更加準確地了解用戶需求,更好地利用數(shù)據(jù)服務用戶和業(yè)務發(fā)展,體現(xiàn)實時用戶畫像系統(tǒng)的研究價值和意義。計劃構建用戶畫像時,能夠為類似的實時用戶畫像系統(tǒng)提供一個系統(tǒng)性、框架性的思維指導。

猜你喜歡
用戶分析信息
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国模极品一区二区三区| 香蕉视频国产精品人| 99精品免费在线| 18禁色诱爆乳网站| 中文字幕在线永久在线视频2020| 免费在线色| 国产精品亚洲αv天堂无码| 免费在线不卡视频| 国产麻豆永久视频| 国产精品乱偷免费视频| 九九热在线视频| 久久动漫精品| 亚洲AⅤ无码国产精品| 98超碰在线观看| 久久综合结合久久狠狠狠97色| 国产69囗曝护士吞精在线视频| 91精品国产一区自在线拍| 色哟哟国产精品| 国产激情无码一区二区APP| 久久美女精品| 手机在线看片不卡中文字幕| 亚洲天堂日韩在线| 国产精品一老牛影视频| 亚洲国产中文欧美在线人成大黄瓜| 亚洲视频欧美不卡| 国产精品极品美女自在线网站| 四虎成人在线视频| 国产玖玖视频| 重口调教一区二区视频| 国产成a人片在线播放| 无遮挡国产高潮视频免费观看| 免费人成在线观看成人片| 国产熟睡乱子伦视频网站| 国产一级毛片高清完整视频版| 尤物精品视频一区二区三区| 亚洲手机在线| 国产精鲁鲁网在线视频| 国产福利一区二区在线观看| 国产三区二区| 亚洲精品国产首次亮相| 欧美高清三区| 久久婷婷综合色一区二区| 中文字幕在线看| 国产在线98福利播放视频免费| 麻豆国产在线观看一区二区| 91精品日韩人妻无码久久| 国内老司机精品视频在线播出| 丁香六月激情综合| 欧美午夜网站| 露脸真实国语乱在线观看| 色综合中文| 国产麻豆福利av在线播放| 在线观看视频99| 欧美在线黄| 久久久久国产精品嫩草影院| 久久久噜噜噜| 精品91在线| 91福利在线观看视频| 99久久精品免费看国产电影| 亚洲国产中文在线二区三区免| a级毛片免费看| 久久国产精品无码hdav| 免费在线色| 性视频久久| 一区二区三区高清视频国产女人| 国产亚洲第一页| a欧美在线| 四虎国产精品永久一区| 无码精品国产dvd在线观看9久| 成人蜜桃网| 无码专区在线观看| 国产精品19p| 国产91熟女高潮一区二区| 一区二区午夜| 亚洲天堂视频网| 婷婷色丁香综合激情| 中文字幕人妻av一区二区| 日韩中文字幕免费在线观看 | 国产成人区在线观看视频| 亚洲欧美不卡中文字幕| 色婷婷狠狠干| 欧美日韩中文字幕二区三区|