999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據平臺的推薦系統研究與實現

2023-06-21 02:15:14谷廣兵顧佩佩
現代信息科技 2023年1期
關鍵詞:大數據技術排序

谷廣兵 顧佩佩

摘? 要:個性化推薦系統作為人工智能一個落地場景,在社交平臺、電商、生活服務等領域有著廣泛的應用。為了把優選的商品提供給有需要的客戶,對用戶行為進行數據采集、數據清洗與存儲、用戶物品推薦建模、模型評估等內容進行了研究。數據采集通過客戶端頁面埋點技術來記錄用戶瀏覽、點擊、關注等行為以及頁面停留時長等數據,通過flume、kafka、hive、spark等大數據相關組件與技術完成數據采集、ETL相關操作,將用戶評分表、物物余弦相似度等數據通過ALS、item-based組合召回技術,以及LR排序技術生成TOP-N推薦列表,最終經過AB測試,完成最優迭代方案版本選取。

關鍵詞:推薦系統;大數據技術;召回;排序;ALS

中圖分類號:TP391.3;TP311.1? 文獻標識碼:A 文章編號:2096-4706(2023)01-0026-04

Research and Implementation of Recommendation System Based on Big Data Platform

GU Guangbing1, GU Peipei2

(1.Jiaxing Vocational & Technical College, Jiaxing? 314036, China; 2.Lishui Bureau of Agriculture and Rural Affairs, Lishui? 323000, China)

Abstract: As a landing scenario of artificial intelligence, personalized recommendation system is widely used in social platforms, E-commerce, life services and other fields. In order to provide the preferred products to the customers in need, the data collection, data cleaning and storage, user item recommendation modeling, model evaluation and other contents of user behavior are studied. Data collection records user browsing, clicking, following and other behaviors, as well as page dwell time and other data through the embedded point technology on the client page. Data collection and ETL related operations are completed through flume, kafka, hive, spark and other big data related components and technologies. Data such as user scoring table and cosine similarity of objects are generated into TOP-N recommendation list through the combined recall technology of ALS and item-based, as well as LR sorting technology, and finally tested by AB, complete the selection of the optimal iteration scheme version.

Keywords: recommendation system; big data technology; recall; sort; ALS

0? 引? 言

推薦系統是解決大規模用戶場景下的大量信息的精確發送問題,通過離線和實時收集用戶行為數據,建立用戶行為模型,進行個性化推薦,并且不斷評估推薦成效。推薦系統在社會諸多領域均有應用,推薦系統讓軟件更懂用戶,提升用戶的智能化體驗[1]。

在本項目研究過程中,將用戶client端請求日志數據做為flume組件的source層,hdfs作為sink層完成數倉ODS層的構建,使用sparksql技術將用戶行為特征值清洗,構建用戶行為評分矩陣表,使用召回、排序算法進行模型訓練并存儲,最終借助于AB測試臺完成項目的方案選取,總流程如圖1所示。

1? 數據源

數據源是推薦系統中最為關鍵的元素,因為算法都是公開的,而數據呈現隱秘性和私有性。對于推薦系統而言,數據又分為用戶數據和物品數據。本文主要針對用戶數據中的用戶行為數據進行研究,該部分數據主要指的是購買、收藏、瀏覽、關注等顯式反饋數據和頁面停留時長、跳轉連接(refer)、點擊等隱式反饋數據。

為了獲取上述用戶行為數據,本研究采用目前業內普遍選用的數據埋點技術進行收集。埋點技術在電商類領域運用較為成熟,它方便企業產品經理、運營部門統計分析復雜的用戶數據從而進行相關經營決策。目前行業內有神策分析等第三方統計平臺,雖能夠針對PV、UV數據指標進行統計,但缺乏定制化。本研究采取的是通過代碼埋點的方式以定制化的方式完成用戶行為數據采集。

埋點行為發生在客戶端,可以是Web端、也可以是H5、APP、wxapp等終端。當用戶發生瀏覽行為或者點擊行為時候,通過客戶端腳本Javascript程序發送head請求,將用戶行為數據以json的格式封裝在請求頭中,如圖2所示。在實際應用中,將客戶端頁面部署在nginx服務器上,繼而客戶端行為觸發http請求,并將所攜帶埋點對應數據將寫入nginx日志文件中[2]。

2? 數據倉庫與數據清洗

2.1? 數據采集

當用戶發生點擊、瀏覽、收藏等用戶行為時,通過埋點技術,系統將用該部分數據記錄在nginx web服務器的日志文件access.log中。通過flume組件,將用戶行為數據采集到hadoop集群中的HDFS中,本研究中,采取兩個節點的flume組件,完成數據采集[3]。相關節點以及對應的source、channel、sink層如圖3所示。

2.2? 數倉建設

本研究中,通過建設三層數據倉庫,最終生成用戶評分矩陣表,三層數據倉庫分別為ODS層,存儲用戶原始行為數據;DWD層,將用戶原始行為進行歸一后按權重、時間衰減進行計算后存儲;DWS層,將用戶行為評分進行Sigmoid標準化生成用戶物品評分矩陣。這三層數倉的建設采用hive組件完成,在數倉建表過程中,采用hive外部分區表,分別以年、月、日、時做為分區字段,采用sparksql技術進行數據的清洗、聚合等操作[4]。三層數倉建設如表1所示。

3? 系統建模

3.1? 基于系統過濾的召回與排序

一般推薦系統主要分為召回、排序兩階段,召回是對數據進行初步篩選,得到候選集,也就是初始推薦列表;排序則采用排序模型對召回生成的候選集打分排序,最終生成針對某一用戶的推薦列表,本文采用的是基于協同過濾的召回、排序算法[5,6]。

3.2? 召回階段

召回要使用不同的方法、從不同的角度篩選出候選集、滿足推薦商品的多樣性以及保證候選集和用戶的匹配度。本研究采用ALS算法與基于物品的協同過濾這種混合式的召回算法生成候選集。

3.2.1? ALS算法實現

基于數倉建設中的DWS層生成的用戶物品評分表,采用spark中所提供的sparkcore,spark MLlib技術完成ALS模型的訓練。具體參數如表2所示。

在創建ALS模型過程中,設置最大迭代次數maxIter=10,通過rank(取值20,30),reg(取值0.1,0.05),alpha(取值2.0,3.0)三個參數共8種全排列組合訓練模型,經過對比rmse值獲取最優模型[7,8],用此模型獲得的召回結果,存儲到HBASE中。

3.2.2? 基于物品的協同過濾

采用上述ALS算法獲取物品特征矩陣(model.itemFactors),通過余弦相似度計算,得到物品相似度矩陣。用戶物品打分矩陣(dws_user_item_rating)與該物品相似度矩陣相乘,得出用戶物品推薦列表,表格式如圖4所示。

3.2.3? 候選集的存儲

上述采用ALS算法與基于物品的協同過濾,在具體業務場景中,通過設置定時計劃任務來完成對前一天采集到的數據進行計算。在研究中我們設置0:30進行ALS算法數據計算,1:30實現基于物品協同過濾的數據計算。ALS與基于物品的協同過濾生成的候選集,以時間戳、用戶id組合做為rowkey,recall作為列簇,分別以兩種召回策略作為列名:als,item2item。將召回的結果存儲在HBASE的history_rs_recall表中,如圖5所示。最終將兩種召回策略的結果集取交集,即可獲得推薦列表。

3.3? 排序

通過上述召回步驟,已經生了一個候選集或者稱之為推薦列表。但是用戶在實際瀏覽商品過程中,興趣度僅僅停留在前幾頁商品列表網頁。基于此,需要對召回階段生成的候選集做一個排序,排序依據用戶對候選集對應商品點擊率的高低,從而篩選出用戶可能點擊概率高的商品推薦給用戶。本文采取基于邏輯回歸(LR)的排序方法,實現步驟具體如表3所示。

4? AB測試

AB測試是,在產品正式迭代發版之前,為同一個目標制定兩個或者兩個以上可行方案,在保證流量(用戶)的控制特征不同,而其他特征相同的前提下,將流量(用戶)分為多組,不同組流量(用戶)會看到不同的推薦方案,根據用戶的真實行為數據反饋,統計不同分組方案得到的業務數據,如留存率、點擊率、轉化率等,從而確定最優推薦迭代版本,如圖6所示。本文基于spring boot+vue搭建了AB測試管理平臺,主要有三個功能組成:“配置管理模塊”用于管理每個ab需求;“實時分流”模塊,根據用戶性別、設備等用戶信息進行分流;“實時效果分析統計”將分流后程序點擊、瀏覽以echarts圖的形式進行展示,如圖7所示。

5? 結? 論

推薦系統是人工智能領域一個重要的研究方向,有著巨大的應用價值。本文以電商領域用戶行為原始日志數據作為數據源,通過數據清洗構建用戶物品打分矩陣,通過召回與排序構建了基于用戶的物品推薦列表,通過搭建AB實現管理平臺,進行AB實驗實現推薦系統的擇優迭代。隨著基于內容的推薦系統、基于深度學習的推薦系統以及實時推薦系統研究,推薦系統將會更加廣泛應用在社會其他領域并造福于社會。

參考文獻:

[1] 顧軍林,劉瑋瑋,陳冠宇.基于Hadoop平臺的崗位推薦系統設計 [J].現代電子技術,2019,42(20):123-127.

[2] 秦道祥,路陽,張薺月,等.基于Spark技術的日志分析平臺設計與應用 [J].中國教育信息化,2021(19):50-54.

[3] 李柯.基于Flume、Kafka的日志采集系統分析研究 [J].電子技術與軟件工程,2022(10):255-258.

[4] 程志強.關于大數據時代的數據倉庫建設研究 [J].長江信息通信,2022,35(7):156-158.

[5] 李盼穎.基于協同過濾的個性化推薦算法 [D].張家口:河北建筑工程學院,2022.

[6] 崔麗莎.基于用戶特征和項目類型興趣的協同過濾推薦算法研究 [D].鄭州:河南財經政法大學,2022.

[7] 文雅.基于大數據的用戶個性化推薦策略研究 [D]. 北京:北京郵電大學,2021.

[8] 周晶,劉丹,李慧超,等.考慮用戶興趣的個性化協同過濾推薦方法 [J].微型電腦應用,2022,38(8):74-78.

作者簡介:谷廣兵(1986—),男,漢族,河南舞陽人,專任教師,講師,碩士,研究方向:大數據技術與應用。

收稿日期:2022-10-24

猜你喜歡
大數據技術排序
排排序
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
大數據技術在電子商務中的應用
大數據技術對新聞業務的影響研究
論大數據技術在智能電網中的應用
高校檔案管理信息服務中大數據技術的應用
大數據技術在電氣工程中的應用探討
主站蜘蛛池模板: 在线无码av一区二区三区| 午夜精品久久久久久久2023| 亚洲日韩AV无码一区二区三区人 | 欧美精品一区在线看| 国产美女精品人人做人人爽| 色成人亚洲| 亚洲狠狠婷婷综合久久久久| 欧美三级不卡在线观看视频| 精品中文字幕一区在线| 成人在线视频一区| 国产成人精品视频一区二区电影 | 91美女视频在线| 亚洲无码精彩视频在线观看| 国产玖玖视频| 四虎国产永久在线观看| 国产一区二区福利| 色噜噜在线观看| 亚洲精品桃花岛av在线| 亚洲美女视频一区| 久久综合五月| a级毛片网| 999国内精品久久免费视频| 亚洲第一在线播放| 国产成人AV综合久久| 亚洲第七页| 国产精品对白刺激| 五月婷婷欧美| 国产精品无码在线看| 谁有在线观看日韩亚洲最新视频 | 精品伊人久久久久7777人| 青青青亚洲精品国产| 99在线观看视频免费| 无码内射中文字幕岛国片| 欧美成人区| 香蕉精品在线| 精品欧美一区二区三区久久久| 丝袜亚洲综合| 久久综合亚洲色一区二区三区| 丁香婷婷综合激情| 992tv国产人成在线观看| 国产成人综合日韩精品无码首页 | 国产精品主播| 亚洲国产成熟视频在线多多| 国产精品13页| 久久99国产视频| 国产熟睡乱子伦视频网站| 福利一区在线| 亚洲国产天堂久久综合| 91色在线视频| 亚洲欧美日韩天堂| 国产精品免费久久久久影院无码| 亚洲无线观看| 99一级毛片| 国产精欧美一区二区三区| 五月婷婷综合网| 为你提供最新久久精品久久综合| 五月婷婷欧美| 色婷婷亚洲综合五月| 国产在线精品99一区不卡| 久久夜色撩人精品国产| 欧洲免费精品视频在线| 波多野结衣一区二区三区AV| 精品国产网站| 国产精品私拍99pans大尺度 | 国产在线欧美| 乱人伦99久久| 毛片大全免费观看| 亚洲三级电影在线播放| 亚洲无码视频喷水| 99这里只有精品6| 亚洲精品欧美重口| 91区国产福利在线观看午夜| 日韩毛片免费观看| 国产精品一老牛影视频| 亚洲AV一二三区无码AV蜜桃| 色悠久久综合| 午夜欧美理论2019理论| 91久久国产热精品免费| 欧美亚洲日韩中文| 2022国产无码在线| 99热这里只有免费国产精品| 色天天综合|