999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習技術的網站用戶行為預測

2019-02-20 02:07:48徐冬肖瑩慧
現代電子技術 2019年4期
關鍵詞:機器學習

徐冬 肖瑩慧

關鍵詞: 行為預測; logistic回歸; 用戶行為; 數據集分類; 機器學習; 留存分析

中圖分類號: TN919?34; TP391 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)04?0094?03

Website user behavior prediction based on machine learning technology

XU Dong, XIAO Yinghui

(Wuhan College, Wuhan 430212, China)

Abstract: In allusion to the problems of low user retention degree, conversion rate and loyalty in the website, taking a tourist website as an example, an accessing user behavior prediction model is proposed for the tourist website on the basis of the machine learning technology of logistic regression. The behavior data sets of website users are preprocessed by means of the model. The data sets are classified according to the fixed proportion. It is verified that the data set classification follows the same statistical distribution. The model corresponding to the logistic regression machine learning algorithm is established to predict the behavior of website users. The prediction results show that the model can predict website users′ behavior accurately.

Keywords: behavior prediction; logistic regression; user behavior; data set classification; machine learning; retention analysis

0 ?引 ?言

隨著經濟和社會的快速發展,我國的旅游業市場異常繁榮,從業的旅游網站迅速增加,這也導致旅游網站之間的競爭日趨激烈。在旅游網站的經營中,源源不斷的用戶來源是其存在的前提和基礎。諸多旅游網站每天均有海量的用戶訪問,但在這些訪問行為中,絕大多數的用戶最終均會流失。通過提取訪問用戶的消費等信息,使用機器學習技術預測用戶的留存情況,旅游網站便可充分了解用戶的流失原因和消費喜好,從而提高用戶的體驗與網站的服務水平。所以,如何使用機器學習技術留存和轉化大量的用戶,成為了旅游網站所面臨的重大問題。

目前,眾多研究者對網站的用戶流失問題進行了深入的研究[1?4],這一問題的研究也有較多可以參考的方法[5?8]。為了解決旅游網站的用戶流失問題,基于logistic回歸算法[9?10],本文建立用戶行為預測模型,該模型可以準確地預測用戶的行為。通過軟件的計算結果可知,使用logistic回歸算法的預測模型具有更加準確的預測效果。

1 ?機器學習

機器學習是使用計算機模擬人類學習行為,從而使機器也具有認知和理解能力的一種技術。其基本原理如圖1所示。

在一般的系統流程中,系統接收輸入的信息之后,輸出被處理過的信息。而使用機器學習的系統,是在常規的系統之外,添加一個可以影響系統處理設備的學習機。該設備可以使用一定數量的訓練數據估計系統輸入和輸出之間的關系,當接收到正常的輸入數據之后,學習機預測得到未知的輸出結果。

一般而言,機器學習可分為監督學習和自主學習。其中,監督學習是使用具有目標變量的訓練數據進行訓練,可以比較精確地預測訓練以外數據的目標變量。監督學習技術主要有logistic回歸、隨機森林算法和神經網絡算法等。自主學習是使用沒有目標變量的訓練數據訓練,尋找數據的內部規律,即目標變量是模糊的,常見的算法有k?means聚類分析、系統聚類法等。因只涉及到logistic回歸,所以本文不再介紹自主學習算法。

2 ?logistic回歸

logistic回歸是常被用于因變量分類的統計分析算法,logistic回歸的因變量既可以是二分類,也可以是多分類,這里簡要介紹多分類的logistic回歸模型。

2.1 ?logistic函數

1838年,統計學家P.F.Verhuist在研究人口數量的統計中,首次提出logistic函數。令[p]表示事件[y=1]的概率,則logistic變換的表達式為:

[z=logitp=lnp1-p]

使用這一公式便可得到logistic函數(也被稱為Sigmoid函數)的公式,即:

[p=11+e-z]

式中,[p∈0,1]。

2.2 ?邏輯回歸模型

首先,已知:

[lnp1-p=β0+β1x1+…+βpxp+ε]

根據上式可以建立線性回歸模型,而變量[x1,x2,…,xp]可以取任意值,令[gx=β0+β1x1+…+βpxp],可知:

[py=1=11+e-z]

[py=0=1-11+e-z=11+ez]

3 ?用戶行為預測模型

在本文中,以某旅游網站為研究對象,使用logistic回歸和隨機森林算法對該旅游網站的用戶購買行為進行分析及預測,從而挖掘用戶的流失原因。最終完善網站的產品設計,提升用戶的體驗和忠誠度。

本文使用該網站2016年7月15日—7月21日的用戶訪問數據,這些數據包含用戶信息、酒店和瀏覽信息。其中,用戶的總數為348 596,指標總數為35個。用戶行為預測流程如圖2所示。

一般而言,logistic回歸主要被用于目標變量和多個自變量之間關系的研究。基于spss 17.0的軟件平臺,本文使用logistic回歸模型對網站用戶的行為進行預測。

3.1 ?建模流程

首先,為了使用logistic回歸模型進行預測,文中需要將訓練數據導入spss 17.0軟件中,依次點擊“分析”“回歸”和“二元logistic”,選擇因變量“label”,確定“hotel_comment_nums”與“id”等其他協變量,點擊“標準化”“偏差”和“杠桿值”等選項,然后點擊“繼續”。在選項中,需要選擇“分類圖”“ Hosmer?Lemeshow擬合度”“exp(B)”三項內容;輸出選項中,選擇“在最后一個步驟中”,步進概率選項中,選擇默認設置即可。

設置完成所有的參數之后,點擊軟件的繼續按鈕,即可得到相應的結果。

3.2 ?模型結果

在軟件運行之后,得到一系列的運行結果,包括分類表、顯著性檢驗、模型匯總、預測方程和評估分析等。

1) 已知該模型在設置參數初始值之后,進行多次迭代,最終達到收斂狀態。此時的參數值就是模型的參數。在運行完成之后,已知logistic回歸模型的準確率為67.8%,其覆蓋率是32.89%,其F值是43.76%。具體的分類如圖3所示。

2) 本文對logistic回歸模型的系數進行了顯著性檢驗。經過軟件的運行可知,若顯著性水平[α=0.05],自由度[df=21],計算可知卡方統計量[χ2=4 714.658],其臨界值為[χ2臨=32.589 2],即[χ2]遠大于[χ2臨]且[p=0?α=0.05],所以logistic回歸模型通過顯著性檢驗。

3) 本文對該模型進行了匯總,得到3個統計值,其統計結果如表1所示。[ 已觀測 已預測 label 百分比 0 1 步驟1 Label 0 24 298 3 536 87.6 1 10 879 5 198 32.8 總計百分比 67.8 ]

由表1可知,該模型的對數似然值52 829.756,遠大于[χ2臨=32.589 2],這表明該模型的最大對數似然值通過了統計檢驗。

4) 由[p<0.05]可知,變量對整體模型具有顯著的影響,所以可得到模型的預測方程,其具體形式如下:

[py=1=1exp(0.644+0.566*visit_to_buy+1.402*nums_visit-0.09*]

[land_time+0.066*perfer_star-0.238*nums_order+0.054*]

[fir_order_bu-0.176*weight_cust_value-0.074*hotel_uv-]

[0.125*hotel_cr+0.075*low_price-0.086*weight_perfer_busi-]

[0.051*cr_prefer-0.385*cust_cr-0.103*weight_comment_num]

[0.075*last_order_diff-0.064*cust_visit_pages)]

5) 基于測試數據,本文還對該模型的預測結果[py=1]進行了計算,獲取了用戶留存的概率。表2列出了部分計算結果,需要說明的是,若概率大于0.5,則認為該用戶的留存值是1,否則是0。

經過軟件的統計,本文一共對14 630組測試數據進行預測,模型預測的準確率是67.59%。其中,正樣本的預測準確率是32.99%,負樣本的預測準確率是87.58%。綜上所述,使用logistic回歸算法的機器學習技術,可以較為準確地預測旅游網站用戶的行為。

4 ?結 ?語

基于旅游網站中的大量用戶數據,本文使用logistic回歸的機器學習技術,建立能夠預測網站用戶留存的計算模型,并得到了相對準確的預測方程。經過軟件的計算可知,該模型的預測準確率達到了67%。

參考文獻

[1] 孟杰.基于用戶行為的異常檢測系統研究與實現[D].南京:東南大學,2009.

MENG Jie. Research and implementation of anomaly detection system based on user behavior [D]. Nanjing: Southeast University, 2009.

[2] 陸悠,李偉,羅軍舟,等.一種基于選擇性協同學習的網絡用戶異常行為檢測方法[J].計算機學報,2014,37(1):28?40.

LU You, LI Wei, LUO Junzhou, et al. A network users′ abnormal behavior detection approach based on selective collaborative learning [J]. Chinese journal of computers, 2014, 37(1): 28?40.

[3] 張闊.基于機器學習的電信網絡用戶行為分析研究[D].北京:北京郵電大學,2014.

ZHANG Kuo. Analysis of user behavior in telecommunication networks based on machine learning [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.

[4] 陳勝,朱國勝,祁小云,等.基于機器學習的網絡異常流量檢測研究[J].信息通信,2017(12):39?42.

CHEN Sheng, ZHU Guosheng, QI Xiaoyun, et al. Research on abnormal network traffic detection based on machine learning [J]. Information & communications, 2017(12): 39?42.

[5] 畢猛,王安迪,徐劍,等.基于離散馬爾科夫鏈的數據庫用戶異常行為檢測[J].沈陽工業大學學報,2018,40(1):70?76.

BI Meng, WANG Andi, XU Jian, et al. Anomaly behavior detection of database user based on discrete?time Markov chain [J]. Journal of Shenyang University of Technology, 2018, 40(1): 70?76.

[6] 許智,李紅嬌,陳晶晶,等.基于機器學習的用戶竊電行為預測[J].上海電力學院學報, 2017,33(4):389?393.

XU Zhi, LI Hongjiao, CHEN Jingjing, et al. Prediction of user stealing behavior based on machine learning [J]. Journal of Shanghai University of Electric Power, 2017, 33(4): 389?393.

[7] 劉健嵐.認知無線電中基于機器學習的頻譜接入研究[D].北京:北京郵電大學,2017.

LIU Jianlan. Research on spectrum access based on machine learning in cognitive radio [D]. Beijing: Beijing University of Posts and Telecommunications, 2017.

[8] 劉鵬飛.客戶網購行為分析及預測系統研究[D].唐山:華北理工大學,2016.

LIU Pengfei. The research of customer′s online shopping behavior analysis and prediction system [D]. Tangshan: North China University of Science and Technology, 2016.

[9] 張曉艷.基于機器學習的網絡異常流量檢測方法[J].現代電子技術,2015,38(23):76?79.

ZHANG Xiaoyan. Research on network anomaly traffic detection method based on machine learning [J]. Modern electronics technique, 2015, 38(23): 76?79.

[10] 王萍.基于大數據技術的網絡異常行為分析監測系統[J].電子技術與軟件工程,2017(24):172?173.

WANG Ping. Network anomaly behavior analysis and monitoring system based on big data technology [J]. Electronic technology & software engineering, 2017(24): 172?173.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 91人妻日韩人妻无码专区精品| 在线播放精品一区二区啪视频 | 伊人久久福利中文字幕| 国产精品林美惠子在线观看| 国产亚洲欧美日韩在线观看一区二区 | 中文字幕一区二区人妻电影| 久久久久人妻一区精品色奶水 | 欧美激情成人网| 亚洲综合九九| 国产成人精品男人的天堂下载 | 亚洲视频二| 国产9191精品免费观看| 精品三级在线| 国产女人18水真多毛片18精品| 99re热精品视频中文字幕不卡| 成人福利视频网| 国产噜噜噜| 中文字幕天无码久久精品视频免费| 伊人丁香五月天久久综合 | 国产日本欧美在线观看| 一区二区理伦视频| 一级毛片a女人刺激视频免费| 国产午夜无码片在线观看网站 | 欧美国产在线看| 中文字幕亚洲精品2页| 久久久久久高潮白浆| Jizz国产色系免费| 国产高清在线精品一区二区三区 | 91福利在线看| 欧美精品xx| 欧美成人午夜视频免看| 久久久精品国产亚洲AV日韩| 日本草草视频在线观看| 欧美日本二区| www.精品国产| 亚洲精品无码不卡在线播放| 国产精品蜜芽在线观看| 国产成人免费视频精品一区二区| 中国一级特黄视频| 国产91视频免费观看| 热思思久久免费视频| 日韩欧美高清视频| 久久天天躁夜夜躁狠狠| 久久一级电影| 99精品欧美一区| 啪啪永久免费av| 在线观看亚洲成人| 久久毛片基地| 欧美视频二区| 美女裸体18禁网站| jizz国产视频| 国产精品一区二区在线播放| 91免费在线看| 国产国产人免费视频成18| 亚洲国产黄色| 欧美日韩中文字幕二区三区| 欧美不卡视频在线观看| 四虎成人精品| 国产精品区网红主播在线观看| 最新国产午夜精品视频成人| 91网站国产| 欧美日本在线观看| 青青草原国产免费av观看| 精品一区二区三区自慰喷水| 福利姬国产精品一区在线| 高清久久精品亚洲日韩Av| 成年人国产视频| 男女性色大片免费网站| 91精品视频网站| 国语少妇高潮| 亚洲va在线观看| 日韩天堂在线观看| 欧美成人综合在线| 精品综合久久久久久97超人该| 午夜人性色福利无码视频在线观看| 国产高潮视频在线观看| 国产手机在线观看| 亚洲欧美精品日韩欧美| 热99re99首页精品亚洲五月天| 91麻豆久久久| 久草视频精品| 狠狠亚洲五月天|