范亞國 劉良 陳璐 張智勇 李奔 關宇晗 楊艷麗
摘要:邏輯回歸算法在電商中的應用非常普遍,他的操作簡單,可行性高,滿足大部分電商在商品銷售時的一般需求,通過邏輯回歸算法可以使電商很好地掌握用戶的動態,抓住用戶需求,很好地推薦自己的商品。
關鍵詞:電商;大數據;邏輯回歸;算法應用
隨著互聯網科技技術的迅速發展,人們獲取信息的方法越來越方便,漸漸從信息缺乏時期進入了信息過載時期。在這個時期信息的生產者與消費者都遇到了前所未有的困難。信息生產者在競爭激烈的時代如何獲取信息消費者的青睞成了最關鍵的問題,對于信息消費者來說,如何在眾多的信息中找到自己最需要的也成為難點。特別是在電子商務領域,近年來電子商務發展迅猛,線上購物方式在人們的購物生活中占據很大的比例。國外有亞馬遜、易趣、沃爾瑪等;國內有淘寶、天貓、蘇寧、京東等眾多電商企業,他們都有自己一定量的客戶群,而作為客戶也不是就有一個電商平臺,其中的競爭激烈程度可見一斑。所以在優勝劣汰的當下就需要電商擁有一套先進可行的系統,故推薦邏輯回歸算法。
一、電商大數據推薦系統中的算法種類
(1)關聯規則推薦算法
所謂的關聯規則算法,顧名思義是以相關聯的規則為基礎的推算方法。本方法的使用前提是客戶已經購買某個商品,根據客戶的購買情況,商品類別和其他商品相關聯進行推薦。本方法簡單易操作,能很好地滿足零售業電商的需求,但是其要求客戶必須在商家消費過并且有確切的商品種類、內容及時間,從而相互關聯,這種算法也有一定的缺點,就是相關性的計算結果容易出現偏差,甚至與消費者的需求正好相反,所以,在使用時要反復校驗,以確保信息的準確性。
(2)協同過濾推薦算法
協同過濾推薦算法是誕生最早,并且較為著名的推薦算法。主要的功能是推薦和預測。算法通過對用戶歷史行為數據進行挖掘發現用戶的偏好,基于不同的偏好對用戶進行群組劃分并推薦品味相似的商品。協同過濾推薦算法分為兩類,分別是基于用戶的協同過濾算法,和基于物品的協同過濾算法。簡單地說就是:物以類聚,人以群分。
(3)邏輯回歸推薦算法
邏輯回歸推薦算法是一種機械的學習,相較于其他的算法,更加簡單,更加準確。因此,該算法在實際中得到了更廣泛的應用。但是當該算法面對大量數據時,其工作量得到提高,工作效率就會下降。
二、邏輯回歸推薦算法的優缺點
(1)優點
1)實現簡單,廣泛的應用于工業問題上。
2)分類時計算量非常小,速度很快,存儲資源低。
3)便利的觀測樣本概率分數
4)對邏輯回歸而言,多重共線性并不是問題,它可以結合?? L2正則化來解決該問題。
5)計算代價不高,易于理解和實踐。
(2)缺點
1)當特征空間很大時,邏輯回歸的性能不是很好。
2)容易欠擬合,一般準確度不太高。
3)不能很好的處理大量多累特征或變量。
4)只能處理兩分類問題,且必須線性可分。
5)對于非線性特征,需要進行轉換。
三、邏輯回歸推薦算法在電商推薦當中的主要應用
(1)邏輯回歸算法的判斷標準
邏輯回歸算法在本質上屬于線性結構,研究者在使用本算法時,應當利用客戶的所有特征對算法進行訓練,用戶的各類特征組合是邏輯回歸算法判斷潛在客戶和購買欲望的關鍵。邏輯回歸算法在進行判斷過程時,能夠減少預測值范圍,電商大數據推薦本來就屬于二分類問題,就是客戶的買與不買。在選定全面的數據后進行分析,通過數據解析出用戶的不同特征及購買欲望,并存儲解析出來的數據,判斷用戶是否進行購買。邏輯回歸推薦算法判斷簡單,使用效果好,可以機械的學習,也可以基于大數據和用戶特征進行自我訓練。由于邏輯回歸推薦算法需要的數據量過大,所以在運用時一般用其他的算法給與支持。
(2)預測用戶的復購行為
在電子商務領域中,每天都有大量的用戶進行購買或者復購,通過本算法可以對用戶在最近一段時間內會不會復購做出預測。由于要根據用戶最近的消費情況判斷用戶會不會在最近時期進行復購,研究者應根據用戶半年內的瀏覽情況,購買情況,收藏情況等信息通過算法得出應該推薦的目標,再將目標記錄到算法當中,來精準預測用戶會不會復購。由于在機器學習領域,算法能達到的效果一般取決于數據與特征的準確性與數量,由此可以看出用戶數據與特征在機械學習當中的重要意義。
(3)選擇用戶特征 挑選優質客戶
用戶每天都會進行大量的瀏覽甚至購買行為,通過機器學習,對客戶的歷史瀏覽、收藏、關注、購買等各類行為進行記錄,還包括商品信息,如商品名稱,商品價格,商品功能,商品的評價等,從而掌握用戶信息,挑選優質客戶。
1)用戶屬性信息集合
用戶屬性信息集合中儲存了用戶的所有信息,包括用戶信息屬性,姓名、性別、年齡、地址等;還包括用戶數據信息,在購買、瀏覽的過程中產生的所有信息,包括用戶的習慣性瀏覽、購物時間段,經常瀏覽的物品種類,瀏覽物品的時長,關注的店鋪,收藏的店鋪,購買的商品屬性及購買能力;最后還包括了用戶的手機型號,電腦品牌,運營商家等信息。通過以上系統儲存,分析用戶的各種信息,可以對用戶的大概面貌進行繪畫,得到用戶畫像。
2)商品屬性信息集合
商品屬性信息中包括了商品的廠家、商品名稱、商品用途、商品價格、商品的購買次數、商品的評論等信息。
3)用戶屬性信息和商品屬性信息交叉屬性信息
用戶屬性和商品屬性信息交叉屬性中存儲了用戶信息和商品信息的共同特征,如用戶的年齡與商品的種類的交叉,比如中老年人會購買家庭用品和養護用品,用戶的性別與商品種類的交叉,比如女性用戶會經常購買化妝品和護理產品,用戶購買力與商品種類的交叉,比如學生會購買學習用品及自己的生活用品,用戶的收藏愛好與商品種類的交叉,利用這些用戶與商品的交叉信息向用戶推薦產品,對產品進行優化,會具有更好的針對性,最終使不同的人成為不同的商品的忠實用戶。
(4)將備選商品推薦給潛在客戶
通過邏輯回歸算法對客戶,商品進行整理、存儲,從而得到精確的客戶需求,實現這個過程基于大數據的模擬訓練,具體的模擬訓練需要經過下面三個步驟。
1)模擬曝光步驟
所謂曝光,就是用戶在瀏覽過程中的動作,該用戶在瀏覽什么商品,關注什么商品,購買了一些什么商品,那么系統就將與用戶所瀏覽購買的商品的同類商品曝光在用戶面前,對于這些推薦的商品如果用戶已經收藏關注該店鋪,那么這類商品就是正向樣本,如果系統向用戶推薦的商品沒有在用戶的關注收藏列表,那么該類商品就是反向樣本。目前,系統一般只能識別正向樣本,不能識別反向樣本,降低了系統的準確性,所以應采用算法改善或者幾種算法協同應用來彌補這種缺陷,使系統對用戶推薦商品具有更高的準確性與可靠性。
2)統計點擊通過率
點擊通過率即用戶的實際點擊次數除以商品的總瀏覽量。在算法推薦應用中有很多種統計點擊率的方法,其中最多使用的有以下幾種:以性別統計的點擊率,比如女性用戶相比于男性用戶更多地是購買衣服、化妝品、首飾等,所以她們更多地是瀏覽這些商品,系統就應該對這種點擊率的用戶認定為女性用戶,并向她們推薦一些女性用品,但產品一定不要局限于其瀏覽和關注收藏的商品,還要推薦一些廚房用品等;以年齡統計的點擊率,比如年輕男女瀏覽的大部分都是一些當下比較潮流的東西,比如電子產品、時尚服裝等,系統就可以將其定性為年輕群體,針對她們的喜好推薦一些商品,如手機、相機、潮流服飾等。經常瀏覽老年護理產品或者中老年服裝的,系統就定性為老年人,并向其推薦老年人經常用到的商品;還有就是以購買力統計的點擊率,這種主要就是通過用戶瀏覽、收藏、關注的商品的價格高低來分辨的,如果經常;瀏覽,購買貴重物品,如金銀首飾,珠寶,汽車用品等,這類就定性為高消費群體,為這類用戶推薦商品就需要推薦一些高價物品,無論是衣服、鞋帽,還是生活用品,都要選擇高端商品推薦。
3)聯合用戶商品特性綜合分析
所有用戶都有自己的喜好,他們年齡不同,性別不同,高矮胖瘦不同,生活起居不同,所以通過系統對用戶性別、年齡、身高、體重、愛好等進行存儲整理,結合各類商家商品的廠家,商品的用途,商品的價格,商品的規格進行綜合分析訓練,得出用戶的精準需求,向用戶定向推薦商品。
隨著大數據時代的到來,給這個時代帶來了無限可能,同時也給我們帶來了很多問題。信息網絡的“信息過載”問題就是其中的一個難題,為了解決這個問題,推薦系統應運而生。本文介紹了現在在電商中應用比較廣泛的推薦系統中的邏輯回歸算法,通過對算法的分析,得出了本算法的優缺點,并給出了合理性的改進措施,希望大家能在這篇文章中學到一些東西。
參考文獻:
[1]劉潔.電商大數據推薦系統中邏輯回歸算法的應用[J].電子技術與軟件工程,2021(18):154-155.
[2]王鵬越.基于邏輯回歸的電商評論文本分析模型[J].數碼世界,2020(04):60.
[3]劉海鷗,張亞明,蘇妍嫄.大數據應用的理性回歸[J].企業管理,2020(02):51-53.