999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost的用戶(hù)定位與商鋪推薦

2019-05-24 14:20:22杜成喜郭瑞祥左彬靖肖明王杰
無(wú)線互聯(lián)科技 2019年1期

杜成喜 郭瑞祥 左彬靖 肖明 王杰

摘 要:隨著互聯(lián)網(wǎng)的高速發(fā)展,期間衍生出了一系列改變?nèi)藗兩畹募夹g(shù)產(chǎn)物。互聯(lián)網(wǎng)移動(dòng)支付的迅速普及,我們享受到越來(lái)越多的生活便利。其中推薦系統(tǒng)最具代表性,它的出現(xiàn)使得人們不再像過(guò)去那樣通過(guò)搜索引擎從海量的數(shù)據(jù)中查找自己所需要的信息,而是根據(jù)推薦系統(tǒng)主動(dòng)提供的物品信息進(jìn)行選擇。這一局面的改變,得益于人們不斷地在推薦算法上進(jìn)行研究而取得的成果。在真實(shí)生活中,當(dāng)用戶(hù)在商場(chǎng)環(huán)境中打開(kāi)手機(jī)的時(shí)候,存在定位信號(hào)不準(zhǔn)、環(huán)境信息不全、店鋪信息缺失、不同店鋪空間距離太近等挑戰(zhàn),因此,如何精確地判斷用戶(hù)所在商鋪是一個(gè)難題,這也是這一方面推薦系統(tǒng)的難題之一。文章研究了基于XGBoost的用戶(hù)定位與商鋪推薦。

關(guān)鍵詞:商鋪推薦;用戶(hù)定位;分布式

隨著“互聯(lián)網(wǎng)+”的發(fā)展與興起,傳統(tǒng)的各行各業(yè)正在深受其影響,飛速發(fā)展,這些也深刻影響著人們的生活,有一些生活中的典型案例,如:當(dāng)你走進(jìn)某家商場(chǎng)的某家餐廳時(shí),手機(jī)會(huì)自動(dòng)彈出附近商家的優(yōu)惠券;當(dāng)你走進(jìn)某家衣服店時(shí),手機(jī)可以自動(dòng)推薦你所喜歡的衣服;當(dāng)你經(jīng)過(guò)一些地方時(shí),手機(jī)會(huì)提醒你附近是否有自己喜歡的東西,在我們?nèi)粘I暇W(wǎng)購(gòu)物時(shí),每個(gè)人的購(gòu)物軟件所推薦的物品也是根據(jù)個(gè)人的日常愛(ài)好和生活習(xí)慣來(lái)進(jìn)行推薦,從而在一定程度上實(shí)現(xiàn)“千人千面”,以上種種,都是推薦系統(tǒng)在人們?nèi)粘I钪械囊恍w現(xiàn)。在上述所列舉的例子中可以看出,要想根據(jù)用戶(hù)的消費(fèi)信息實(shí)現(xiàn)精準(zhǔn)推薦,在商場(chǎng)中精確地定位用戶(hù)當(dāng)前所在店鋪或者位置非常關(guān)鍵,而在本文中就是希望能夠通過(guò)用戶(hù)的手機(jī)WiFi等信號(hào)信息,精準(zhǔn)定位用戶(hù)的位置,從而實(shí)現(xiàn)對(duì)不同位置的用戶(hù)進(jìn)行精準(zhǔn)推薦。

根據(jù)如何抽取參考特征,我們可以將推薦引擎分為以下四大類(lèi)。

(1)基于內(nèi)容的推薦引擎:它將計(jì)算得到并推薦給用戶(hù)一些與該用戶(hù)已選擇過(guò)的項(xiàng)目相似的內(nèi)容。例如,當(dāng)你在網(wǎng)上購(gòu)書(shū)時(shí),你總是購(gòu)買(mǎi)與歷史相關(guān)的書(shū)籍,那么基于內(nèi)容的推薦引擎就會(huì)給你推薦一些熱門(mén)的歷史方面的書(shū)籍。

(2)基于協(xié)同過(guò)濾的推薦引擎:它將推薦給用戶(hù)一些與該用戶(hù)品味相似的其他用戶(hù)喜歡的內(nèi)容。例如,當(dāng)你在網(wǎng)上買(mǎi)衣服時(shí),基于協(xié)同過(guò)濾的推薦引擎會(huì)根據(jù)你的歷史購(gòu)買(mǎi)記錄或是瀏覽記錄,分析出你的穿衣品位,并找到與你品味相似的一些用戶(hù),將他們?yōu)g覽和購(gòu)買(mǎi)的衣服推薦給你。

(3)基于關(guān)聯(lián)規(guī)則的推薦引擎:它將推薦給用戶(hù)一些采用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法計(jì)算出的內(nèi)容。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)算法有很多,如Apriori,AprioriTid,DHP,F(xiàn)P-tree等。

(4)混合推薦引擎:結(jié)合以上各種,得到一個(gè)更加全面的推薦效果。

1 數(shù)據(jù)描述

本文所使用的數(shù)據(jù)主要包含三大部分。

第一部分?jǐn)?shù)據(jù)是店鋪和商場(chǎng)信息數(shù)據(jù)(數(shù)據(jù)示例見(jiàn)表1)[1],主要包含6個(gè)有用字段,分別是店鋪ID(shop_id),店鋪類(lèi)型ID(catehory_id,共有40種左右類(lèi)型),店鋪位置—經(jīng)度(longitude),店鋪位置—緯度(latitude),人均消費(fèi)指數(shù)(price),店鋪所在商場(chǎng)ID(mall_id),這一部分?jǐn)?shù)據(jù)總共包含97個(gè)mall的信息,涉及8 477間shop[1]。

第二部分?jǐn)?shù)據(jù)是用戶(hù)在店鋪內(nèi)的交易數(shù)據(jù)(數(shù)據(jù)示例見(jiàn)表2)[1],數(shù)據(jù)是在2017年8月份的交易數(shù)據(jù),主要包含6個(gè)字段,分別是用戶(hù)ID(user_id),用戶(hù)所在商鋪的ID(shop_id),行為時(shí)間戳(time_stamp),行為發(fā)生時(shí)的位置—經(jīng)度(longitude),行為發(fā)生時(shí)的位置—緯度(latitude),行為發(fā)生時(shí)的WiFi環(huán)境(WiFi_info,包括bssid:WiFi唯一識(shí)別碼,signal:強(qiáng)度,flag:是否連接)[1]。

第三部分則是測(cè)試數(shù)據(jù)[1],測(cè)試數(shù)據(jù)主要使用是時(shí)用戶(hù)交易時(shí)刻環(huán)境的相關(guān)數(shù)據(jù)(數(shù)據(jù)示例見(jiàn)表3),數(shù)據(jù)是2017年9月前兩周的交易數(shù)據(jù),包含測(cè)試數(shù)據(jù)ID,用戶(hù)ID,商場(chǎng)ID,行為時(shí)間戳,行為發(fā)生時(shí)位置—經(jīng)度,行為發(fā)生時(shí)位置-緯度,行為發(fā)生時(shí)WiFi環(huán)境[1]。

在使用算法進(jìn)行模型建設(shè)之前,對(duì)數(shù)據(jù)的處理是不可避免而且必要的環(huán)節(jié),例如對(duì)用戶(hù)在店鋪內(nèi)的交易數(shù)據(jù)中的WiFi_info進(jìn)行切分解析,還有運(yùn)用mapreduce分布式計(jì)算方式從用戶(hù)維度對(duì)數(shù)據(jù)進(jìn)行清洗處理,獲取到用戶(hù)的消費(fèi)店鋪和消費(fèi)次數(shù)等信息,以便后續(xù)模型的建設(shè),還有對(duì)缺失值的填補(bǔ),以及去除重復(fù)的垃圾數(shù)據(jù)。在算法方便本文主要采用兩種算法進(jìn)行對(duì)比,分別是XGBoost算法和Logistic Regression算法。下面對(duì)這兩種算法進(jìn)行簡(jiǎn)要介紹與分析。

2 算法介紹

2.1 XGBoost

GB算法中最典型的基學(xué)習(xí)器是決策樹(shù),尤其是CART,GBDT是GB和DT的結(jié)合,需要注意的是這里的決策樹(shù)是回歸樹(shù),首先,XGBoost是Gradient Boosting的一種高效系統(tǒng)實(shí)現(xiàn),并不是一種單一算法。XGBoost里面的基學(xué)習(xí)器除了用tree(gbtree),也可用線性分類(lèi)器(gblinear)[2]。而GBDT則特指梯度提升決策樹(shù)算法[3]。

XGBoost相對(duì)于普通gbm的實(shí)現(xiàn),可能具有以下的一些優(yōu)勢(shì):(1)顯式地將樹(shù)模型的復(fù)雜度作為正則項(xiàng)加在優(yōu)化目標(biāo)。(2)公式推導(dǎo)里用到了二階導(dǎo)數(shù)信息,而普通的GBDT只用到一階。(3)允許使用column(feature) sampling來(lái)防止過(guò)擬合,借鑒了Random Forest的思想,sklearn里的gbm好像也有類(lèi)似實(shí)現(xiàn)。(4)實(shí)現(xiàn)了一種分裂節(jié)點(diǎn)尋找的近似算法,用于加速和減小內(nèi)存消耗。(5)節(jié)點(diǎn)分裂算法能自動(dòng)利用特征的稀疏性。(6)data事先排好序并以block的形式存儲(chǔ),利于并行計(jì)算。(7)支持分布式計(jì)算可以運(yùn)行在MPI,YARN上,得益于底層支持容錯(cuò)的分布式通信框架rabit。

2.2 Logistic Regression算法

Logistic Regression(邏輯回歸)是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性。類(lèi)似某用戶(hù)購(gòu)買(mǎi)某商品的可能性,某病人患有某種疾病的可能性等。這個(gè)世界是隨機(jī)的(當(dāng)然了,人為的確定性系統(tǒng)除外,但也有可能有噪聲或產(chǎn)生錯(cuò)誤的結(jié)果,只是這個(gè)錯(cuò)誤發(fā)生的可能性太小了,小到千萬(wàn)年不遇,小到忽略不計(jì)而已),所以萬(wàn)物的發(fā)生都可以用可能性或者幾率(Odds)來(lái)表達(dá)[4]。“幾率”指的是某事物發(fā)生的可能性與不發(fā)生的可能性的比值。Logistic regression可以用來(lái)回歸,也可以用來(lái)分類(lèi),主要是二分類(lèi)。它給我們提供的就是樣本屬于正類(lèi)的可能性是多少。

3 實(shí)驗(yàn)過(guò)程及結(jié)果

3.1 實(shí)驗(yàn)過(guò)程

3.1.1 訓(xùn)練集劃分

在訓(xùn)練集劃分上,筆者簡(jiǎn)單地將訓(xùn)練數(shù)據(jù)的最后7天劃分為訓(xùn)練區(qū)間,此前的作為特征提取區(qū)間。線上預(yù)測(cè)時(shí)使用全部數(shù)據(jù)作為特征提取區(qū)間。本地驗(yàn)證時(shí),直接從訓(xùn)練集中拿出最后3天作為驗(yàn)證集。本地驗(yàn)證時(shí)不更新特征提取區(qū)間(即仍然使用7.1—8.24作為特征提取區(qū)間),降低了實(shí)現(xiàn)上的復(fù)雜性。

3.1.2 特征構(gòu)造

(1)標(biāo)記特征。

記錄中是否有連接的WiFi。

記錄中是含否有null。

記錄中WiFi與候選shop出現(xiàn)過(guò)的WiFi重合的個(gè)數(shù)。

(2)“總量—比例”特征。

該mall的總歷史記錄數(shù)、候選shop在其中的占比。

該user的總歷史記錄數(shù)、候選shop在其中的占比。

WiFi歷史上出現(xiàn)過(guò)的總次數(shù)、候選shop在其中的占比。

在當(dāng)前排序位置(如最強(qiáng)、第二強(qiáng)、第三強(qiáng)…)上WiFi歷史上出現(xiàn)過(guò)的總次數(shù)、候選shop在其中的占比。

連接的WiFi出現(xiàn)的總次數(shù)、候選shop在其中的占比。

經(jīng)緯度網(wǎng)格(將經(jīng)緯度按不同精度劃分成網(wǎng)格)中的總記錄數(shù)、候選shop在其中的占比。

對(duì)于特征3、4,每條記錄中的10個(gè)WiFi由強(qiáng)到弱排列,可生成10個(gè)特征。

(3)差值特征。

WiFi強(qiáng)度—候選shop的歷史記錄中該WiFi的平均強(qiáng)度。

WiFi強(qiáng)度—候選shop的歷史記錄中該WiFi的最小強(qiáng)度。

WiFi強(qiáng)度—候選shop的歷史記錄中該WiFi的最大強(qiáng)度。

3個(gè)WiFi強(qiáng)度差值特征,按照信號(hào)強(qiáng)度由強(qiáng)到弱排列,可生成10個(gè)特征[3]。

(4)距離特征。

與候選shop位置的GPS距離(L2)。

與候選shop歷史記錄中心位置的GPS距離(L2)。

與候選shop對(duì)應(yīng)WiFi信號(hào)強(qiáng)度歷史均值的距離(L1,L2)[3]。

(5)其他特征。

特征中還包括多分類(lèi)的輸出概率。另外,還有一些利用規(guī)則定義的距離特征,這里不再詳述。

3.2 實(shí)驗(yàn)結(jié)果

通過(guò)對(duì)上述數(shù)據(jù)進(jìn)行清洗處理,構(gòu)造特征,然后分別訓(xùn)練了XGBoost和Logistic Regression兩個(gè)模型,其中評(píng)價(jià)標(biāo)準(zhǔn)為預(yù)測(cè)出的shop_id和標(biāo)準(zhǔn)答案中的shop_id相同,也就是評(píng)價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率ACC=預(yù)測(cè)正確樣本總數(shù)/總樣本數(shù),得出結(jié)果如表4所示。

由此結(jié)果可以看出,在此種業(yè)務(wù)背景之下,通過(guò)對(duì)數(shù)據(jù)的處理,特征的提取構(gòu)造等一系列處理方法,分別選用XGBoost算法和傳統(tǒng)的Logistic Regression算法進(jìn)行了對(duì)比,得出了在指標(biāo)為ACC的情況下的預(yù)測(cè)結(jié)果。

4 結(jié)語(yǔ)

本文提出了一種基于XGBoost的用戶(hù)定位與商鋪推薦方法,通過(guò)對(duì)用戶(hù)信息和商鋪數(shù)據(jù)的挖掘與探索,構(gòu)造出合適的特征,然后通過(guò)與傳統(tǒng)的Logistic Regression在評(píng)價(jià)標(biāo)準(zhǔn)為ACC的情況下進(jìn)行了對(duì)比,發(fā)現(xiàn)此種方法準(zhǔn)確率明顯高于傳統(tǒng)的方法,后續(xù)希望能夠通過(guò)這種方法結(jié)合現(xiàn)有的推薦系統(tǒng)實(shí)現(xiàn)對(duì)用戶(hù)的精準(zhǔn)推薦,實(shí)現(xiàn)算法的實(shí)際效益。

[參考文獻(xiàn)]

[1]阿里云.商場(chǎng)中精確定位用戶(hù)所在店鋪[EB/OL].(2018-05-26)[2018-11-05].https://tianchi.aliyun.com/competition/information.htm?spm=5176.11165261.5678.2.7d5148aesPuqnG&raceId=231620.

[2]邱耀,楊國(guó)為.基于XGBoost算法的用戶(hù)行為預(yù)測(cè)與風(fēng)險(xiǎn)分析[J].工業(yè)控制計(jì)算機(jī),2018(9):44-45.

[3]倪巍,王宗欣.基于接收信號(hào)強(qiáng)度測(cè)量的室內(nèi)定位算法[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2004(1):72-76.

[4]張昊,紀(jì)宏超,張紅宇.XGBoost算法在電子商務(wù)商品推薦中的應(yīng)用[J].物聯(lián)網(wǎng)技術(shù),2017(2):108-110.

主站蜘蛛池模板: av一区二区三区高清久久| 亚洲成在人线av品善网好看| 国产自产视频一区二区三区| 在线精品亚洲国产| 亚洲精品少妇熟女| 制服无码网站| 欧美中出一区二区| 久久国产av麻豆| 国产激情在线视频| 国产欧美日韩一区二区视频在线| 男人天堂伊人网| 激情成人综合网| 精品福利一区二区免费视频| 婷婷丁香色| 天天色综合4| 波多野结衣中文字幕一区二区| 国产91导航| 日本精品中文字幕在线不卡| 国产swag在线观看| 亚洲精品爱草草视频在线| 亚洲一区无码在线| 操国产美女| 91亚洲免费| 国产一级毛片在线| 中文字幕66页| 成人国产免费| 中文字幕无码制服中字| 日本a级免费| AV色爱天堂网| 欧洲亚洲一区| 秘书高跟黑色丝袜国产91在线| 国产欧美精品专区一区二区| 欧美在线视频a| 亚洲综合中文字幕国产精品欧美| 一本大道香蕉中文日本不卡高清二区| 国产系列在线| 久久永久免费人妻精品| 97视频免费看| 精品欧美视频| 91麻豆精品视频| 久久精品娱乐亚洲领先| 9啪在线视频| 特级aaaaaaaaa毛片免费视频 | 久久综合一个色综合网| 亚洲成综合人影院在院播放| 一级成人a毛片免费播放| 久久久久亚洲av成人网人人软件| 亚洲六月丁香六月婷婷蜜芽| 欧美成人二区| 欧美高清视频一区二区三区| a亚洲视频| 免费a级毛片视频| 精品自窥自偷在线看| 四虎永久在线| 91午夜福利在线观看精品| 久久国产亚洲偷自| 欧美国产日产一区二区| 免费一级无码在线网站| 国产青青草视频| 91久久精品国产| 久久精品人人做人人爽电影蜜月| 性欧美在线| 欧美中文字幕在线二区| 国产97视频在线| 岛国精品一区免费视频在线观看| 久久久无码人妻精品无码| 精品无码国产一区二区三区AV| 成人小视频网| 中文字幕在线看视频一区二区三区| 麻豆国产在线不卡一区二区| 试看120秒男女啪啪免费| 五月六月伊人狠狠丁香网| 成人欧美在线观看| 日韩a在线观看免费观看| 亚洲 成人国产| 五月天综合网亚洲综合天堂网| 青青草91视频| 国产精品va免费视频| 手机成人午夜在线视频| 国产精品真实对白精彩久久| 欧美午夜在线视频| 国产成人凹凸视频在线|