梁清潔 江蘇先農電子商務有限公司
Web日志挖掘是Web數據挖掘的一種,涉及多個領域,是計算機學、統計學、信息學、數據庫等多門技術的綜合。Web日志挖掘有很多優勢,它是基于大數據的,少量的數據無法通過人工分析來得出蘊含的規律,缺乏普遍性。經過Web日志挖掘技術得出的信息,不是經過簡單的推理而得出的信息,它可以深度挖掘隱藏在數據內部的關聯關系,進行準確的預測,從而給企業或者用戶帶來直接利益。
Web日志挖掘算法有四步。其一,源數據收集。它的主要作用是收集系統平臺的日志文件,對用戶的瀏覽記錄、注冊信息、需求信息等進行分析提取,提高電商平臺的個性化推薦水平。其二,數據預處理。系統文件存儲的原始信息有些是非結構化的,因此在對這些數據信息挖掘之前進行預處理,對日志信息加以整理,剔除無用的記錄。數據預處理要分為三步:首先刪除系統日志中與算法無法的數據,比如非HTML文件;然后對用戶進行識別,采用啟發式規則,盡量避免防火墻、代理服務器的影響;最后,就是用戶會話的識別,通過用戶對服務器的有效訪問,根據訪問記錄獲取用戶瀏覽興趣。其三,模式發現。即運用多種算法技術對預處理后的數據進行挖掘,分析數據中的路徑、關聯關系。其四,模式分析。從上一步的發現算法中篩選出有價值的模式,并對其進行精確的分析。模式分析的主要技術是利用數據庫封裝,執行聯機分析。
隨著Web2.0的發展,有關推薦算法也逐漸成熟。常用的推薦算法有基于內容相似度的算法、協同過濾推薦算法、聚類算法、基于關聯規則的推薦算法四類。
基于內容相似度的算法是傳統的推薦算法,應用廣泛,它是以分析用戶的購買記錄和瀏覽記錄為核心,將相似度高的商品推薦給用戶。分為信息的獲取和過濾兩個部分,信息獲取是指抽取項目關鍵字抽取項目的關鍵字,然后對關鍵詞的權重進行分析,在依據用戶的喜好對其進行建模,取其平均值。這里指的注意的是關鍵詞的權重與出現的次數成正比例關系。信息過濾指的是根據用戶的喜好對其建模的一個過程。該算1給用戶進行精準的推薦,提高了用戶體驗,但是它需要對商品進行建模,在而且很難根據圖像、視頻找出相應的文本信息。例如,通過消費者瀏覽和購買商品的大數據分析,我們可以從中提取出共同點,然后篩選其他產品進行推薦,給消費者多種選擇,提高支付率。
協同過濾推薦算法(user-based collaborative filtering),分為兩種,基于用戶的和基于商品的。基于用戶的協同過濾算法的核心思想就是找出有其用戶相似喜好相似的鄰居群,根據他們的歷史記錄,來分析用戶的習慣,從而對其推薦商品的一個算法,它可以挖掘用戶潛在的興趣愛好,但是準確性不高。基于商品的協同過濾算法,與之前的推薦機制類似,但是它的核心思想是挖掘商品之間的相似性。這種推薦方式,可以離線運行,對圖像視頻等對象也可以進行有效的推薦。例如,對某用戶買衣服,經過算法的綜合排名,發現排第一的是方便面,排第六的才是衣服,結果推薦了方便面豈不鬧了笑話。但是對商品進行了歸一分類,服裝類商品只限推薦服裝,這樣就會增強商品的過濾性和協同性。
聚類算法,它可以對目標用戶進行多指標劃分,個性化和精細化運營。它是通過對目標用戶進行群體分類,對產品進行價值組合,發現其孤立點。但是在實際應用中,數據處理復雜,聚類分析作為其中的一個環節。例如,在電商平臺的搜索引擎中,很多網民所查詢和瀏覽的商品種類比較類似,對這些查詢進行聚類,一方面可以使用類內部的詞進行關鍵詞推薦;另一方面,聚類過程的自動化,有助于產生新的話題類別,還有助于減少存儲空間。
基于關聯規則的推薦算法是最為經典算法,它的核心就是找出數據的依賴關系。通過關聯關規則分析,及時了解到用戶在購買某種物品后還需要哪些物品,挖掘出相應的關聯信息,為用戶推薦關聯物品。實際上是一種交叉銷售模式,根據不同的商品,結合其歷史瀏覽、購買記錄,構建符合需求的關聯模型。例如,可以在用戶支付下單一種商品后,通過計算,推薦其它周邊商品,比如替代品、互補品之類的商品,加強線上產品之間的關聯性,提高周邊商品的推薦率。
Web日志挖掘是一項綜合性的技術,尤其在用戶和商品指數上升的今天,電商平臺采用個性化推薦算法,可以有效幫助用戶找到所需要的商品。電子商務平臺通過對用戶的瀏覽習慣、購買記錄等進行分析挖掘,找出相應的關聯信息,可以精準預測用戶需求,為用戶提供更加人性化、個性化的服務,從而提升用戶的體驗和黏著度,提高平臺的效益。
[1]盧輝數據挖掘與數字化運營實戰[M]北京:機械工業出版社2013:15-28
[2]單劍鋒,馬德錦常用Web服務技術研究[J]計算機技術與發展2013(6):253-257
[3]桑志超個性化推薦引擎及在電子商務中的應用[J]科技視界2014(91):136,141