999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺的電子商務(wù)實(shí)時推薦系統(tǒng)建設(shè)和應(yīng)用

2020-12-21 12:26:42蔣叢萃陳巧靈
電子商務(wù) 2020年11期

蔣叢萃 陳巧靈

摘要:隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)機(jī)器學(xué)習(xí)已然成為當(dāng)前研究的一項(xiàng)熱點(diǎn)。但是現(xiàn)如今的電商推薦系統(tǒng)存在著不同程度上的計算緩慢,無法根據(jù)根據(jù)用戶的實(shí)際需求進(jìn)行實(shí)時推薦。在這一背景下,本研究基于Spark平臺建設(shè)和實(shí)現(xiàn)電子商務(wù)實(shí)時推薦系統(tǒng)。相較于傳統(tǒng)的推薦系統(tǒng),本研究的系統(tǒng)通過以Spark平臺為基礎(chǔ),構(gòu)建了分布式日志采集和傳輸模塊,希望通過該系統(tǒng)來解決電子商務(wù)跨系統(tǒng)數(shù)據(jù)源的收集問題。其次,基于Spark平臺的矩陣分解推薦模型進(jìn)行離線訓(xùn)練,以此來提高離線訓(xùn)練的效率。最后,對電子商務(wù)網(wǎng)站的實(shí)時推薦系統(tǒng)進(jìn)行試驗(yàn)。

關(guān)鍵詞:Spark平臺;實(shí)時推薦系統(tǒng);電子商務(wù)

★基金項(xiàng)目:2020年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目“基于大數(shù)據(jù)技術(shù)的快遞與電子商務(wù)產(chǎn)業(yè)聯(lián)動模型構(gòu)建”階段性成果(2020KY47014);2017年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目“‘一帶一路戰(zhàn)略背景下廣西商務(wù)服務(wù)業(yè)創(chuàng)新創(chuàng)業(yè)的路徑研究”階段性成果(2017KY1267)。

近幾年以來,隨著電子商務(wù)的發(fā)展,大數(shù)據(jù)成為了各個電商平臺發(fā)展的重點(diǎn)。電子商務(wù)平臺上所擁有的大量商品種類和大概的商品分類導(dǎo)致用戶在選擇商品時無法實(shí)現(xiàn)高效快速,所以,如何使用戶可以更加高效的選擇所需商品已經(jīng)成為當(dāng)前電子商務(wù)平臺的研究重點(diǎn)。在這一背景下,電子商務(wù)推薦系統(tǒng)出現(xiàn)在人們的視線中,該系統(tǒng)可以根據(jù)用戶以往的搜尋記錄準(zhǔn)確的推薦商品,提高了電商的商品轉(zhuǎn)化率。雖然傳統(tǒng)平臺的推薦系統(tǒng)已經(jīng)可以處理絕大部分的問題,但是其問題在于離線訓(xùn)練速度慢。而在Spark平臺的基礎(chǔ)上進(jìn)行研究,其計算能力更為強(qiáng)大,可以更加快速的處理并行數(shù)據(jù)。

1、基于Spark平臺的系統(tǒng)架構(gòu)

1.1 系統(tǒng)架構(gòu)

1.1.1 設(shè)計理念

電商平臺中含有大量的用戶隱式行為,并且因?yàn)殡娚滔到y(tǒng)規(guī)模的擴(kuò)大化,導(dǎo)致系統(tǒng)的日志文件四處分散。而傳統(tǒng)的推薦系統(tǒng)無法對于用戶隱式行為日志進(jìn)行匯總,更別提進(jìn)行分析,所以無法實(shí)現(xiàn)實(shí)時推薦的目的[1]。本文設(shè)計理念是采用用戶隱式行為進(jìn)行用戶評分的構(gòu)建,并基于隱式數(shù)據(jù)源,將傳統(tǒng)平臺上的推薦系統(tǒng)轉(zhuǎn)移到Spark平臺,通過結(jié)合用戶實(shí)時點(diǎn)擊流,對于用戶行為進(jìn)行分析,將適合用戶的實(shí)時反饋到推薦列表。

在上圖中,基于Spark平臺的電子商務(wù)實(shí)時推薦系統(tǒng)可以分為三層,第一層為離線處理層,第二層為服務(wù)層,第三層則是實(shí)時處理層。在服務(wù)層中,系統(tǒng)會將請求下發(fā),而采用網(wǎng)關(guān)集群前,利用HTTP服務(wù)器負(fù)載均衡之后,構(gòu)建分布式日志框架,并將分布式日志采集Agentility安裝到網(wǎng)關(guān)服務(wù)器上,以此來對于各業(yè)務(wù)系統(tǒng)的日志信息進(jìn)行采集、訪問。因?yàn)殡娮由虅?wù)平臺的日志具有海量的產(chǎn)出,所以必須要有可靠地信息傳送出中間件,將其作為模型訓(xùn)練和數(shù)據(jù)源采集之間的橋梁,實(shí)現(xiàn)日志數(shù)據(jù)的統(tǒng)一下發(fā)。因?yàn)槿罩緮?shù)據(jù)中不僅含有眾多業(yè)務(wù)系統(tǒng)日志,還具有用戶點(diǎn)擊流日志,所以在進(jìn)行實(shí)時推薦的過程中,需實(shí)施統(tǒng)一的數(shù)據(jù)清洗。本系統(tǒng)基于Spark平臺中的相關(guān)技術(shù)來對于日志進(jìn)行處理,對于在固定時間間隔所收集到的數(shù)據(jù),Spark Streaming技術(shù)能夠根據(jù)時間分片進(jìn)行處理,以此來實(shí)現(xiàn)實(shí)時處理的目的[2]。

其次,在離線處理層中,對于數(shù)據(jù)源中的用戶行為分級權(quán)重,該方式可以獲得用戶對商品的基本評價。傳統(tǒng)方案是通過利用離線推薦模型訓(xùn)練,但是其問題在于:抽象層次低,需要編寫冗余代碼;傳統(tǒng)平臺僅僅能夠提供兩個操作,分別為Map、 Reduce,所以在表達(dá)能力方面十分缺乏。而本研究則是通過利用Spark平臺進(jìn)行抽象,所得到的數(shù)據(jù)邏輯要更加的間斷,并且還可以提供多種操作和轉(zhuǎn)換,表達(dá)力相對較強(qiáng)。除此之外,Spark平臺相較于傳統(tǒng)平臺,其中間計算結(jié)果能夠緩存到內(nèi)存中,從而提高計算效率。

離線處理層中,系統(tǒng)需及時處理用戶行為,同時還需要與離線推薦結(jié)果相結(jié)合,從而提高電商的實(shí)時推薦效果。由于傳統(tǒng)平臺只適合應(yīng)用在批處理的場景中,基于Spark平臺針對用戶訪問,可以實(shí)時過濾針日志信息,并在過濾過程中收集所需信息。另外,通過采取混合處理的方式,對于該商品類似的商品列表可以進(jìn)行重新排序,可以使電子商務(wù)平臺得到用戶最新行為,從而提高電子商務(wù)平臺的轉(zhuǎn)化率。

基于Spark平臺的實(shí)時推薦系統(tǒng)相較于傳統(tǒng)的離線推薦系統(tǒng),能夠得到更快的訓(xùn)練速度以及反饋速度[3]。

1.1.2 實(shí)時推薦系統(tǒng)環(huán)節(jié)

在Spark Streaming端獲得數(shù)據(jù)之后,系統(tǒng)通過數(shù)據(jù)聚合、傳輸以及過濾等環(huán)節(jié),實(shí)現(xiàn)離線和實(shí)時推薦,最終返回到推薦列表中,而該推薦列表中融合了離線推薦和實(shí)時推薦結(jié)果。

首先,計算隱式評分。電子商務(wù)平臺根據(jù)配置規(guī)則來分發(fā)用戶請求,但是需要分發(fā)給多臺應(yīng)用網(wǎng)關(guān),并通過應(yīng)用網(wǎng)關(guān)來調(diào)用各業(yè)務(wù)系統(tǒng)的請求。在應(yīng)用網(wǎng)關(guān)中植入分布式日志采集工具,然后收集日志信息,將信息進(jìn)行匯集發(fā)送到消息及群眾。而集群可以接入Spark Streaming,并進(jìn)行日志過濾,在過濾期間同樣可以得到用戶的商品瀏覽和交易行為的數(shù)據(jù),然后利用Shark來對于商品評分計算。

其次,離線推薦模型訓(xùn)練。對于隱式評分計算結(jié)束后,能夠得到用戶ID、商品ID以及評分。而這些信息同樣也是離線推薦模型的數(shù)據(jù)源,因?yàn)樵谕粋€電商平臺上,用戶的購買數(shù)據(jù)總量較低,所以采用交替最小二成算法來計算隱式因子,經(jīng)過訓(xùn)練后能夠得出離線推薦模型。

再次,生成離線推薦列表。在模型中依次放入電子商務(wù)平臺中的用戶,該步驟可以得到注冊用戶的離線推薦列表。為了可以有效的降低數(shù)據(jù)庫訪問壓力,可以將全部的推薦列表轉(zhuǎn)移到緩存系統(tǒng)[4]。

最后,形成實(shí)時推薦列表。通過Spark平臺,將日志信息進(jìn)行過濾,得到日志點(diǎn)擊流,從其中抽取商品ID和用戶ID。已經(jīng)訓(xùn)練好的離線推薦模型來對于商品根據(jù)相似程度進(jìn)行排序,經(jīng)過排序后能夠得到商品中排名靠前的商品。根據(jù)推薦列表來進(jìn)行列表的構(gòu)建工作,對于系統(tǒng)的實(shí)時響應(yīng)速度加以優(yōu)化,推薦列表為用戶id和商品ID。

1.2 系統(tǒng)的架構(gòu)設(shè)計

1.2.1 實(shí)時采集分布式日志

如下圖二所示為分布式日志采集模塊。電子商務(wù)平臺中的實(shí)時推薦系統(tǒng)中必須要具有大量隱式的用戶行為,而其主要是基礎(chǔ)數(shù)據(jù)。因?yàn)樵慈罩拘畔诒姸嘞到y(tǒng)中分布,因此需要構(gòu)建分布式系統(tǒng),基于這一方式來進(jìn)行日志的收集工作。通過利用分布式日志收集工具Logstash來收集各業(yè)務(wù)子系統(tǒng)的日志[5]。

在下圖二中,系統(tǒng)置入應(yīng)用在日志監(jiān)控方面能夠?qū)τ谌罩疚募l(fā)生的變化情況進(jìn)行實(shí)時監(jiān)測,同時還可以根據(jù)偏移量來讀取最新的日志信息,最后將日志進(jìn)行緩存。

1.2.2 基于Kafka集群的數(shù)據(jù)傳輸

實(shí)時采集模塊可以采集用戶行為日志,但是日志在進(jìn)行過濾前,因?yàn)槿罩玖鞯臄?shù)量非常大,所以飲食用戶行為日志數(shù)據(jù)的收集過程中,如何保障數(shù)據(jù)的實(shí)時性、避免數(shù)據(jù)丟失問題等,成為了關(guān)鍵問題。而Kafka是一種分布式消息訂閱和發(fā)布的系統(tǒng),基于電子商務(wù)平臺實(shí)時推薦系統(tǒng),為了可以承載大量的用戶行為日志信息,所以選擇構(gòu)建Kafka集群,為日志過濾提供了可靠的傳輸[6]。

而Kafka集群的組成可以分為三個部分。分別是生產(chǎn)者、消費(fèi)者以及代理。其中,生產(chǎn)者意味著日志來源;消費(fèi)者代表消費(fèi)的使用者;而代理則表示消息的中間存儲層。其中,生產(chǎn)者回收集消息,并推送到代理中,而帶列在接收消息之后會對消息進(jìn)行本地持久化,消費(fèi)者才是消息最終的使用人員。Logstash日志監(jiān)控將會把處理好的日志傳送給Logstash日志聚合索引,最終根據(jù)實(shí)時推薦需求采取不同的過濾處理措施。

1.2.3 基于Spark Streaming的日志過濾

在進(jìn)行數(shù)據(jù)傳輸后,系統(tǒng)可以通過Spark Streaming來統(tǒng)一過濾日志,從而具有實(shí)時推薦的日志過濾模塊。Spark Streaming能夠接收到的日志信息中的噪聲數(shù)據(jù)非常多,所以要在其中選擇有效的信息。如下表一所示為Logstash的格式化日志。在實(shí)時推薦流程中,在點(diǎn)擊流日志數(shù)據(jù)選擇商品以及用戶的ID。利用電機(jī)商品調(diào)用的接口獲取商品詳情信息,并在代理層拉取日志信息,此時將會把用戶請求調(diào)用的接口記錄下來[7]。

因?yàn)樵摫硪恢袃H僅只是Logstash所提供的前端,所以仍舊需要調(diào)用Spark Streaming對接收的日志調(diào)用filter函數(shù),過濾出其中所含有的商品詳情方法的日志,從而得到請求日志,并在消息中對于變量字段相對應(yīng)的內(nèi)容展開解析工作,這一步驟能夠獲得商品id,從而得到關(guān)鍵信息,為電子商務(wù)平臺的實(shí)時推薦提供了數(shù)據(jù)源。

2、實(shí)驗(yàn)分析

因?yàn)镾park平臺在對于人物進(jìn)行處理時具有著良好的效果,本文基于Spark平臺構(gòu)建電子商務(wù)平臺的實(shí)時推薦系統(tǒng)。為了對于Spark平臺和傳統(tǒng)平臺在對于任務(wù)處理計算過程中的性能差異,本次對于兩種平臺在作業(yè)執(zhí)行方面的性能上進(jìn)行對比。

其中,Spark平臺在計算不同作業(yè)類型時,性能平均的提升速度為4倍。ALS模型訓(xùn)練時,由于需進(jìn)行多次迭代計算,所以,性能提升的效果十分明顯。這意味著Spark平臺的優(yōu)越性[8]。這意味著基于Spark平臺的電子商務(wù)網(wǎng)站的實(shí)時推薦系統(tǒng)可以承載日志信息,并且還可以根據(jù)用戶行為進(jìn)行及時推薦,有效的促進(jìn)網(wǎng)站的銷售提升,并且還提高了用戶的購物體驗(yàn)。

3、結(jié)語

當(dāng)前,幾乎所有的電商網(wǎng)站都在應(yīng)用推薦系統(tǒng),該系統(tǒng)可以針對用戶的需求進(jìn)行反饋,從而提高電子商務(wù)平臺的服務(wù)水平。本研究基于Spark平臺對于電商網(wǎng)站的實(shí)時推薦系統(tǒng)進(jìn)行了設(shè)計,提出來實(shí)時推薦的相關(guān)流程,并且設(shè)計了分布式日志采集、傳輸模塊。通過利用Spark平臺來設(shè)計實(shí)時推薦系統(tǒng),Spark平臺在粗粒大數(shù)據(jù)上具有非常高的運(yùn)算性能,所以具備一定程度上的可行性,并且相較于傳統(tǒng)的平臺其運(yùn)行速度明顯更高,所以在電子商務(wù)網(wǎng)站中的實(shí)時推薦系統(tǒng)的設(shè)計中,Spark平臺的使用價值非常高。

參考文獻(xiàn)

[1] 岑凱倫,于紅巖,楊騰霄.大數(shù)據(jù)下基于Spark的電商實(shí)時推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)[J].現(xiàn)代計算機(jī),2016,(24):61-69.

[2] 劉志強(qiáng),顧榮,袁春風(fēng),等.基于 SparkR 的分類算法并行化研究[J]. 計算機(jī)科學(xué)與探索,2015,9(11):1281-1294.

[3] 童啟,劉強(qiáng),許賽華, 等.基于相關(guān)物品的電子商務(wù)智能推薦系統(tǒng)研究[J].企業(yè)科技與發(fā)展,2019,(12):79-80.

[4] 張光.基于離群數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)研究[J].自動化與儀器儀表,2017,(8):21-22,25.

[5] 曾賢灝,趙錫英.基于關(guān)聯(lián)規(guī)則和 ART 的電子商務(wù)推薦系 統(tǒng)應(yīng)用研究[J].自動化與儀器儀表,2016,(12):109-111.

[6] 程芳.農(nóng)業(yè)電子商務(wù)中基于用戶興趣變化的協(xié)同過濾推薦技術(shù)研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2016,(5):41-44,47.

[7] 陳虹君.基于Hadoop平臺的Spark框架研究[J].電腦知識 與技術(shù),2014(12X):8407-8408.

[8] 胡德敏,龔燕.基于Spark的混合推薦算法研究[J].計算機(jī)應(yīng)用研究,2017,34(12):3585-3588.

作者簡介:

蔣叢萃,碩士,柳州城市職業(yè)學(xué)院講師,研究方向:電子商務(wù)、軟件開發(fā)。

陳巧靈,碩士,柳州城市職業(yè)學(xué)院講師,研究方向:物流管理。

主站蜘蛛池模板: 91麻豆精品视频| 国产日韩欧美精品区性色| 夜夜拍夜夜爽| 欧美成人二区| 粗大猛烈进出高潮视频无码| 综合成人国产| 91小视频在线播放| 欧美激情综合一区二区| 久久人人97超碰人人澡爱香蕉 | 99精品伊人久久久大香线蕉| 在线综合亚洲欧美网站| 色婷婷在线影院| 四虎影视8848永久精品| 秘书高跟黑色丝袜国产91在线 | 精品色综合| 欧美特级AAAAAA视频免费观看| 综合亚洲色图| 无码精品国产dvd在线观看9久| 中文精品久久久久国产网址 | 久久精品亚洲热综合一区二区| 亚洲丝袜中文字幕| 国产成人av一区二区三区| AV老司机AV天堂| 国产主播在线一区| 少妇露出福利视频| 国产午夜一级淫片| 午夜在线不卡| 亚洲第一香蕉视频| 国产天天色| 99久久99视频| 潮喷在线无码白浆| 国产精品刺激对白在线| 亚洲成人在线免费| 国产欧美日韩专区发布| 欧美亚洲第一页| 国产免费a级片| 91成人免费观看| 在线视频97| 天天综合网在线| 中文字幕在线观| 国产欧美在线观看精品一区污| 国产美女免费| 精品自窥自偷在线看| 亚洲国产一成久久精品国产成人综合| 成人夜夜嗨| 国产成人超碰无码| 99色亚洲国产精品11p| 天天躁狠狠躁| 国产精品手机视频| 免费视频在线2021入口| 国产丝袜啪啪| 99伊人精品| 中日无码在线观看| 东京热av无码电影一区二区| 狠狠干综合| 亚洲视屏在线观看| 国产成人毛片| 亚洲综合中文字幕国产精品欧美 | 国产精品视频a| 999福利激情视频| 人妻丝袜无码视频| 成年午夜精品久久精品| 国产精品成人免费综合| 免费精品一区二区h| 色视频久久| 欧美区一区| 91偷拍一区| 国产欧美一区二区三区视频在线观看| 97人妻精品专区久久久久| 欧美人人干| 久久精品中文字幕少妇| 亚洲天堂精品在线| 亚洲Aⅴ无码专区在线观看q| 欧美午夜网站| 亚洲天堂首页| 精品国产91爱| 成人综合久久综合| 国产一二视频| 日本不卡免费高清视频| 超清无码一区二区三区| 色婷婷色丁香| 亚洲精品国产自在现线最新|