999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線教育平臺學習者的用戶畫像研究與構建

2023-03-20 04:44:32黃俊杰
無線互聯科技 2023年1期
關鍵詞:頁面用戶模型

陳 珂,黃俊杰

(蘇州市職業大學,江蘇 蘇州 215004)

0 引言

在大數據時代下,人們產生、獲取、處理和存儲的數據量呈指數級增長,基于傳統統計模型的決策已經無法滿足人們的個性化要求。如何使用算法模型實現用戶畫像中的用戶行為預測,已經成為人們的關注重點。用戶畫像應用領域較為廣泛,適合各個產品周期,從新用戶的引流到潛在用戶的挖掘、從老用戶的培養到流失用戶的回流等都有應用[1]。用戶畫像通過挖掘用戶興趣、偏好、人口統計特征,可以直接提升營銷精準度、推薦匹配度,最終提升產品服務和企業利潤[2-3]。本文的用戶畫像是研究用戶標簽及模型構建流程及對在線學習者的日志、行為數據提取特征數據集,并在此基礎上將其應用于在線學習過程中,展現在線學習者的多維度特征,客觀地揭示學習者狀態,幫助用戶提升學習的精準度和效率。

本項目通過標簽管理頁面實現標簽管理和標簽計算引擎的資源調度檢測。其中標簽引擎模塊是用戶畫像運轉的核心,維護標簽的具體實現邏輯,包括標簽依賴的數據源、規則和模型的信息,同時提供每一個標簽引擎運行狀態的可視化監控。

1 用戶畫像的系統架構

1.1 技術架構

用戶畫像數據源層的數據來自MySQL數據庫表和日志文件,數據存儲層存儲HDFS,HBase,Hive中的數據;數據處理層主要使用SparkSQL,SparkMLlib構建用戶標簽,對應的標簽數據存儲在HBase中、標簽的基本數據存儲在MySQL表中;數據服務層主要負責對標簽創建及查詢功能,并且負責對標簽運行狀態進行管理。每個標簽模型創建好后,使用Oozie中Coordinator調度器每隔一段時間調度標簽模型運行應用程序,給學習者打上用戶標簽。

1.2 系統功能架構

用戶畫像的功能架構如圖1所示。本項目是基于用戶的所有行為數據進行開發,其中用戶畫像模型的構建和計算使用Spark計算框架進行分布式處理,計算使用的資源管理使用YARN進行調度協作,整體項目功能從用戶畫像模型的構建和計算到用戶畫像結果的存儲通過Oozie框架進行工作流管理,最后,用戶畫像結果存入非關系型分布式數據庫HBase。

圖1 用戶畫像功能架構

1.3 業務數據表的ETL

用戶標簽數據ETL工作流如圖2所示,首先使用Sqoop工具將MySQL數據庫表中的數據導入Hive表。其次,采用Spark框架和HBase提供的Bulkloader工具類將存在Hive中的數據轉為HFile文件并批量導入HBase相應的表。其中對待寫入HBase的數據按Key值構造util.TreeMap樹結構,目的是按Key值構造匹配Hbase的排序結構,以便將Hive表數據轉換成RDD,并使用repartitionAnd SortWithinPartitions算子對Key值分區并排序,接著再將RDD數據生成HFile文件,最后將HFile文件導入Hbase表。

圖2 ETL工作流

2 用戶標簽的模型構建

2.1 用戶標簽體系

用戶畫像的標簽體系基于亞里士多德的本體論建立[4],圖3展示了用戶基本標簽、用戶學習行為標簽和用戶學習價值標簽3個方面。

圖3 用戶標簽體系

2.2 用戶標簽開發的構建流程

用戶標簽模型的構建流程是首先需要新建4級用戶活躍度標簽,在創建4級標簽的時候將任務的spark程序jar包上傳以及指定運行參數,再依次新建5級屬性標簽:非常活躍、活躍、不活躍、非常不活躍,之后就可以開始運行模型任務。其中spark程序jar包中包含了對應標簽的計算模型,用于生成5級標簽的統計結果和用戶對應5級標簽畫像。

2.3 規則匹配標簽模型開發

規則匹配標簽模型開發分為以下4個主要步驟:

(1)首先從MySQL中的基礎標簽表中讀取4級相關的標簽數據(業務標簽和屬性標簽),依據業務標簽ID讀取標簽相關數據(業務標簽數據和對應5級屬性標簽數據)。從業務標簽數據中獲取規則rule的值[5],將其解析為Map集合,表示標簽模型從哪個數據源中讀取數據及數據源的資源信息;

(2)依據標簽規則中的屬性值獲取具體業務數據的數據源;

(3)依據獲取的業務數據和屬性標簽數據規則,進行關聯匹配,構建每個用戶的4級標簽和5級屬性;

(4)最后將合并后的用戶標簽數據保存到HBase表中。

2.4 用戶學習周期標簽

學習周期主要是獲取用戶在平臺的最近學習時間,方便獲取到長時間未進行學習的用戶。

(1)獲取每個學習者最近一次學習時間;

(2)轉換學習的時間數據格式,由時間戳格式轉換為日期格式(yyyy-MM-dd HH:mm:ss);

(3)計算當前日期與最后一次學習日期相差的天數。

2.5 用戶活躍度RFE

RFE模型是根據會員最近一次訪問時間R(Recency)、訪問頻率F(Frequency)和頁面互動度E(Engagements)計算得出的RFE得分。

2.5.1 最近一次訪問時間R(Recency)

只是用戶最近一次訪問或到達網站的時間距今天數。

R值計算:最近一次訪問時間,距離今天的天數。

R:0~15天=5分,16~30天=4分,31~45天=3分,46~60天=2分,大于61天=1分。

2.5.2 訪問頻率F(Frequency)

F是用戶在特定時間周期內訪問或到達的頻率。

F值計算:所有訪問瀏覽量(PV)。

F:≥400=5分,300~399=4分,200~299=3分,100~199=2分,≤99=1分。

2.5.3 頁面互動度E(Engagements)

互動度的定義可以根據不同企業或行業的交互情況而定,例如可以定義為頁面瀏覽時間、視頻播放數量、點贊數量、評論數量等。

E值計算:所有訪問頁面量(不包含重復訪問頁面)(UV)。

E:≥250=5分,200~249=4分,150~199=3分,149~50=2分,≤49=1分。

3 結語

本文使用Hadoop,Hive,HBase,Spark和Oozie部署了一個學習者用戶畫像構建的大數據平臺,批量處理計算海量數據,進行用戶畫像的構建、計算和保存,并從中挖掘出較為準確的學習者畫像數據。在標簽管理頁中可對學習者畫像標簽進行添加、刪除和計算,并動態添加新的學習者畫像標簽。本項目具有普適性,不僅可以用于視頻學習網站,也可以適用于其他擁有大量數據的服務型網站來構建屬于自己的學習者畫像標簽。

猜你喜歡
頁面用戶模型
大狗熊在睡覺
一半模型
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 亚洲伦理一区二区| 91极品美女高潮叫床在线观看| 美女裸体18禁网站| 99这里只有精品免费视频| 91精品啪在线观看国产91九色| 免费看a级毛片| 国产精品毛片在线直播完整版| 亚洲综合久久成人AV| 成人自拍视频在线观看| 永久成人无码激情视频免费| 91麻豆国产精品91久久久| 国产亚洲高清视频| 久久亚洲美女精品国产精品| 女人毛片a级大学毛片免费| 国产视频一区二区在线观看| 欧美精品高清| 午夜老司机永久免费看片| 成人毛片在线播放| 国产精品福利尤物youwu | 国产欧美日韩专区发布| 国产一级精品毛片基地| 精品国产黑色丝袜高跟鞋| 亚洲精品无码久久久久苍井空| 露脸国产精品自产在线播| 婷婷五月在线| 久久久噜噜噜久久中文字幕色伊伊| 亚洲第一精品福利| 久久精品一卡日本电影| 午夜福利免费视频| 91精品aⅴ无码中文字字幕蜜桃| 久草视频精品| 57pao国产成视频免费播放| 国产麻豆91网在线看| 黄色网站在线观看无码| 国产精品久久久久久久久kt| 欧美高清日韩| 欧美精品一区二区三区中文字幕| 色悠久久久| 亚洲国产成人久久精品软件| 99国产精品国产| 91国内在线观看| 亚洲视频欧美不卡| 国产成人综合亚洲欧洲色就色| 日韩精品成人在线| 永久在线精品免费视频观看| 亚洲精品成人7777在线观看| 日韩成人在线网站| 人妻精品久久久无码区色视| 久久久国产精品免费视频| 国产毛片基地| 亚洲AV无码不卡无码 | 香蕉久人久人青草青草| 伊人久久大香线蕉影院| 一本大道无码日韩精品影视| 国产高清免费午夜在线视频| 久久精品波多野结衣| 亚洲侵犯无码网址在线观看| 凹凸国产分类在线观看| 国产经典免费播放视频| 一本大道在线一本久道| 一级毛片免费观看不卡视频| 9丨情侣偷在线精品国产| 色婷婷成人| 国模沟沟一区二区三区 | 少妇精品在线| 亚洲色图欧美视频| 欧美a在线视频| 国产精品久线在线观看| 97综合久久| 婷婷午夜天| 国产亚洲精品自在线| 99久久精品视香蕉蕉| 国产区在线看| 亚洲黄色高清| 国产午夜精品一区二区三区软件| 99精品视频在线观看免费播放| 日本爱爱精品一区二区| 亚洲精品免费网站| 国产粉嫩粉嫩的18在线播放91| 无码在线激情片| 欧美日韩动态图| 国产精品久久精品|