999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線教育平臺學習者的用戶畫像研究與構建

2023-03-20 04:44:32黃俊杰
無線互聯科技 2023年1期
關鍵詞:頁面用戶模型

陳 珂,黃俊杰

(蘇州市職業大學,江蘇 蘇州 215004)

0 引言

在大數據時代下,人們產生、獲取、處理和存儲的數據量呈指數級增長,基于傳統統計模型的決策已經無法滿足人們的個性化要求。如何使用算法模型實現用戶畫像中的用戶行為預測,已經成為人們的關注重點。用戶畫像應用領域較為廣泛,適合各個產品周期,從新用戶的引流到潛在用戶的挖掘、從老用戶的培養到流失用戶的回流等都有應用[1]。用戶畫像通過挖掘用戶興趣、偏好、人口統計特征,可以直接提升營銷精準度、推薦匹配度,最終提升產品服務和企業利潤[2-3]。本文的用戶畫像是研究用戶標簽及模型構建流程及對在線學習者的日志、行為數據提取特征數據集,并在此基礎上將其應用于在線學習過程中,展現在線學習者的多維度特征,客觀地揭示學習者狀態,幫助用戶提升學習的精準度和效率。

本項目通過標簽管理頁面實現標簽管理和標簽計算引擎的資源調度檢測。其中標簽引擎模塊是用戶畫像運轉的核心,維護標簽的具體實現邏輯,包括標簽依賴的數據源、規則和模型的信息,同時提供每一個標簽引擎運行狀態的可視化監控。

1 用戶畫像的系統架構

1.1 技術架構

用戶畫像數據源層的數據來自MySQL數據庫表和日志文件,數據存儲層存儲HDFS,HBase,Hive中的數據;數據處理層主要使用SparkSQL,SparkMLlib構建用戶標簽,對應的標簽數據存儲在HBase中、標簽的基本數據存儲在MySQL表中;數據服務層主要負責對標簽創建及查詢功能,并且負責對標簽運行狀態進行管理。每個標簽模型創建好后,使用Oozie中Coordinator調度器每隔一段時間調度標簽模型運行應用程序,給學習者打上用戶標簽。

1.2 系統功能架構

用戶畫像的功能架構如圖1所示。本項目是基于用戶的所有行為數據進行開發,其中用戶畫像模型的構建和計算使用Spark計算框架進行分布式處理,計算使用的資源管理使用YARN進行調度協作,整體項目功能從用戶畫像模型的構建和計算到用戶畫像結果的存儲通過Oozie框架進行工作流管理,最后,用戶畫像結果存入非關系型分布式數據庫HBase。

圖1 用戶畫像功能架構

1.3 業務數據表的ETL

用戶標簽數據ETL工作流如圖2所示,首先使用Sqoop工具將MySQL數據庫表中的數據導入Hive表。其次,采用Spark框架和HBase提供的Bulkloader工具類將存在Hive中的數據轉為HFile文件并批量導入HBase相應的表。其中對待寫入HBase的數據按Key值構造util.TreeMap樹結構,目的是按Key值構造匹配Hbase的排序結構,以便將Hive表數據轉換成RDD,并使用repartitionAnd SortWithinPartitions算子對Key值分區并排序,接著再將RDD數據生成HFile文件,最后將HFile文件導入Hbase表。

圖2 ETL工作流

2 用戶標簽的模型構建

2.1 用戶標簽體系

用戶畫像的標簽體系基于亞里士多德的本體論建立[4],圖3展示了用戶基本標簽、用戶學習行為標簽和用戶學習價值標簽3個方面。

圖3 用戶標簽體系

2.2 用戶標簽開發的構建流程

用戶標簽模型的構建流程是首先需要新建4級用戶活躍度標簽,在創建4級標簽的時候將任務的spark程序jar包上傳以及指定運行參數,再依次新建5級屬性標簽:非常活躍、活躍、不活躍、非常不活躍,之后就可以開始運行模型任務。其中spark程序jar包中包含了對應標簽的計算模型,用于生成5級標簽的統計結果和用戶對應5級標簽畫像。

2.3 規則匹配標簽模型開發

規則匹配標簽模型開發分為以下4個主要步驟:

(1)首先從MySQL中的基礎標簽表中讀取4級相關的標簽數據(業務標簽和屬性標簽),依據業務標簽ID讀取標簽相關數據(業務標簽數據和對應5級屬性標簽數據)。從業務標簽數據中獲取規則rule的值[5],將其解析為Map集合,表示標簽模型從哪個數據源中讀取數據及數據源的資源信息;

(2)依據標簽規則中的屬性值獲取具體業務數據的數據源;

(3)依據獲取的業務數據和屬性標簽數據規則,進行關聯匹配,構建每個用戶的4級標簽和5級屬性;

(4)最后將合并后的用戶標簽數據保存到HBase表中。

2.4 用戶學習周期標簽

學習周期主要是獲取用戶在平臺的最近學習時間,方便獲取到長時間未進行學習的用戶。

(1)獲取每個學習者最近一次學習時間;

(2)轉換學習的時間數據格式,由時間戳格式轉換為日期格式(yyyy-MM-dd HH:mm:ss);

(3)計算當前日期與最后一次學習日期相差的天數。

2.5 用戶活躍度RFE

RFE模型是根據會員最近一次訪問時間R(Recency)、訪問頻率F(Frequency)和頁面互動度E(Engagements)計算得出的RFE得分。

2.5.1 最近一次訪問時間R(Recency)

只是用戶最近一次訪問或到達網站的時間距今天數。

R值計算:最近一次訪問時間,距離今天的天數。

R:0~15天=5分,16~30天=4分,31~45天=3分,46~60天=2分,大于61天=1分。

2.5.2 訪問頻率F(Frequency)

F是用戶在特定時間周期內訪問或到達的頻率。

F值計算:所有訪問瀏覽量(PV)。

F:≥400=5分,300~399=4分,200~299=3分,100~199=2分,≤99=1分。

2.5.3 頁面互動度E(Engagements)

互動度的定義可以根據不同企業或行業的交互情況而定,例如可以定義為頁面瀏覽時間、視頻播放數量、點贊數量、評論數量等。

E值計算:所有訪問頁面量(不包含重復訪問頁面)(UV)。

E:≥250=5分,200~249=4分,150~199=3分,149~50=2分,≤49=1分。

3 結語

本文使用Hadoop,Hive,HBase,Spark和Oozie部署了一個學習者用戶畫像構建的大數據平臺,批量處理計算海量數據,進行用戶畫像的構建、計算和保存,并從中挖掘出較為準確的學習者畫像數據。在標簽管理頁中可對學習者畫像標簽進行添加、刪除和計算,并動態添加新的學習者畫像標簽。本項目具有普適性,不僅可以用于視頻學習網站,也可以適用于其他擁有大量數據的服務型網站來構建屬于自己的學習者畫像標簽。

猜你喜歡
頁面用戶模型
大狗熊在睡覺
一半模型
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲色欲色欲www在线观看| 中国丰满人妻无码束缚啪啪| 亚洲成人在线网| 亚洲成人在线免费观看| 亚洲国产亚洲综合在线尤物| 天天躁狠狠躁| 一级毛片免费播放视频| 亚洲成人在线网| 成人综合久久综合| 色欲色欲久久综合网| 99久久免费精品特色大片| 久久人妻xunleige无码| 欧美国产综合色视频| 19国产精品麻豆免费观看| 伊人无码视屏| 久久亚洲国产最新网站| 亚洲人成日本在线观看| 99ri国产在线| 自拍偷拍欧美日韩| 欧美一级在线看| 无码一区二区三区视频在线播放| 久久精品女人天堂aaa| 成人国产精品视频频| 精品福利一区二区免费视频| 欧美精品影院| 欧美激情一区二区三区成人| 91成人精品视频| 国产在线视频自拍| 中文无码日韩精品| 亚洲中文字幕久久精品无码一区| 中文字幕第4页| 亚洲中文字幕久久无码精品A| 麻豆精品视频在线原创| 日本伊人色综合网| 欧美a在线视频| 一区二区三区成人| 国产精品手机在线播放| 午夜性刺激在线观看免费| 亚洲综合中文字幕国产精品欧美| 国产v精品成人免费视频71pao | 91在线视频福利| 国产成人精品一区二区免费看京| 青青操国产| 亚洲精品成人7777在线观看| 中文字幕av无码不卡免费| 天天综合网在线| 丝袜国产一区| 114级毛片免费观看| 久久国产亚洲偷自| 男女猛烈无遮挡午夜视频| 亚洲国产欧洲精品路线久久| 久久综合伊人 六十路| 国产精品人成在线播放| 91亚洲国产视频| 亚洲第一成年网| 国产香蕉在线视频| 日本久久网站| 91青青在线视频| 亚洲精品国产成人7777| 尤物特级无码毛片免费| 欧美人与性动交a欧美精品| 又猛又黄又爽无遮挡的视频网站| 国产免费精彩视频| 91娇喘视频| 啊嗯不日本网站| 1769国产精品免费视频| 啊嗯不日本网站| 国产视频自拍一区| 亚洲男人的天堂视频| 国产无套粉嫩白浆| 国产欧美在线观看视频| 欧美福利在线播放| 午夜视频免费一区二区在线看| 欧美日韩国产在线观看一区二区三区 | 99久久无色码中文字幕| 国产在线观看91精品| 亚洲乱码视频| 亚洲无码高清一区| 色妞www精品视频一级下载| 日韩黄色大片免费看| 九九这里只有精品视频| 在线观看国产网址你懂的|