黃雅萍 馬可辛 周余洪 劉曉強
摘 要: 中小企業電商平臺在資金和技術不足的情況下,難以快速有效的構建簡單而實用的電商數據挖掘系統。文章從分析電商海量數據資源的來源、提取方法及其流程入手,提出了一個基本的數據挖掘系統方案架構,從而實現為中小企業電商平臺服務的一整套數據挖掘系統。該系統架構簡單實用、易搭建、易整合,可以為中小企業提供更好的服務支持。
關鍵詞: 中小企業; 電商平臺; 數據挖掘; 海量數據
中圖分類號:TP311.132.3 文獻標志碼:A 文章編號:1006-8228(2015)04-18-03
Abstract: Under the situation that the SME (small and medium-sized enterprises) e-commerce platforms are lack of fund and technology, it 's very difficult to build a simple and practical e-commerce data mining system quickly and effectively. This article analyses the e-commerce mass data resources, its origin, and the process of how to get it. Besides, The article draws a basic data mining system architecture to achieve a set of data for the service of e-commerce platform for small and medium enterprises mining system. The system structure is simple, practical and easy to build. It can provide a better support for SME's improvement and product sales.
Key words: SME; E-Commerce platform; data mining; mass data
1 電商平臺和數據挖掘
隨著網絡的高速發展,傳統的銷售模式已經越來越跟不上社會發展的節奏。企業需要一個網絡在線平臺,能夠跨地域和時間進行商品銷售和交易,這個平臺被稱為電商平臺。目前電商平臺在各個領域的應用得到很大發展,尤其是與中小企業的發展緊密結合。中小企業的電商平臺面臨著越來越激烈的競爭,紛紛以先進技術為功底吸引用戶,促進商品的銷售以達到利潤的最大化。
數據挖掘技術在電商平臺中獲得了很好的應用,有效地應對在激烈的競爭中獲取利潤最大化的問題。電商平臺的應用主要概括為:產品搜索,產品推薦,欺詐檢測,商業智能[1]。
2 電商數據挖掘的資源及其流程
電商數據挖掘是一個將信息、數據轉化為促進電商平臺的瀏覽量和購買行為的過程。電商數據挖掘的資源主要包括第三方平臺、互聯網上各種形式的文檔和用戶訪問信息/訪問行為的追蹤三種。
數據挖掘流程包含五個過程,分別為:設定數據挖掘方向、整理可利用數據源、構建數據挖掘模型、集成數據挖掘模型到電商平臺管理后臺和相應外部API接口的開發及維護。電商數據挖掘過程如圖1所示。
3 面向中小企業的電商平臺挖掘系統設計
3.1 面向電商平臺的數據挖掘系統功能分析
面向電商平臺的數據挖掘系統主要完成客戶信息、商品信息及物流信息的分析等功能。圖2詳細構建了適合中小企業的簡單并且易于構建的面向電商平臺的數據挖掘系統(SME-EMS, Small and Medium-sized Enterprises E-Commerce Mining System)的具體實現過程。
3.2 基本數據導入
⑴ 用戶信息導入。利用數據挖掘的分類技術對用戶信息進行分析歸類,主要的依據有用戶的地域、 愛好、用戶登錄時間、用戶支付和配送習慣、用戶年齡等。不同的公共屬性可以生成不同的分類,從而發現潛在客戶,并對有目的性的目標群體進行技術營銷和推送。
⑵ 用戶訂單信息導入。用戶的訂單直接影響庫存信息,庫存決定產品的需求和配送。通過挖掘逐月逐日的數據獲取產品的數量以及客戶對產品的顏色偏好、規格偏好、款式偏好等,對于企業安排生產計劃提供技術支持。
⑶ 導入訂單配送信息。電商平臺企業需要緊密結合物流行業,其訂單配送的年/月/日信息可以很直觀地預測不同地點的配送量,優化配送結構,縮短配送時間,節約壓貨和庫存費用。
⑷ 導入用戶評論打分信息。通過分析用戶的評論和打分信息知道用戶所喜好的產品,差評的產品,喜歡的顏色以及款式等。
⑸ 導入用戶收藏信息。通過收入用戶收藏的信息,分析預知用戶想購買的潛在產品。
⑹ 第三方平臺數據導入。將第三方平臺提供的一些具有參考價值的數據導入到系統自定義的數據庫中。
3.3 日志處理
3.3.1 日志收集
日志數據收集包括服務器節點的日志數據收集以及客戶端數據采集。
⑴ 服務器節點的信息。訪問電商平臺網頁產生的請求無論是提交POST還是獲取GET甚至PUT都在服務器節點端產生大量的訪問日志。服務器節點端可以通過配置獲取服務器端運行的錯誤信息以及可以設置年/月/日/周等不同格式儲存這些文件。同時大多數電商平臺,還增加額外的后臺SHELL程序去追蹤記錄用戶瀏覽和購買過程中的信息。
⑵ 客戶端信息。可以設置不同的用戶操作節點增加JavaScript或第三方插件對用戶不同的行為進行追蹤和記錄,一般可以獲取更為真實的直觀的瀏覽行為路徑,與⑴比較,其優勢在于可以直接儲存在數據庫中,便于直觀的查看數據記錄系統,有些第三方系統還可以生成不同的數據和報表。
3.3.2 日志處理分析
海量的數據信息在實際應用中需要刪除大量無用信息,必須進行數據清理,根據不同的需求清理出不同類別的信息。其處理步驟如下。
⑴ 查找用戶行為的日志。對用戶行為的日志進行采集。
⑵ 根據用戶行為日志,進行2次歸類分析。主要獲取用戶訪問IP、訪問路徑和訪問時間。
⑶ 對2次數據進行再次處理。主要對用戶訪問路徑進行分析,獲取用戶訪問的頁面、產品和購買流程。對用戶訪問IP進行分析,獲知用戶所在的區域,通過用戶訪問時間獲取用戶的訪問習慣,最后對這些進行不同的歸類持久化。
3.3.3 根據規則導入日志分析結果
在電商平臺數據挖掘系統中,采用路徑分析技術和關聯規則分別對用戶訪問情況和商品訪問情況進行分析。
⑴ 用戶訪問情況分析。從用戶訪問日志獲取用戶的訪問路徑,從訪問路徑可以獲知用戶查看的頁面和產品,對于一些常訪問的頁面可以總結其中的布局樣式描述圖片,而對不被經常訪問的頁面,可以對頁面進行優化調整,提高網站整體的PV值。通過路徑獲知如下信息:產品銷售狀況,從而實現產品的調整優化;頁面是否存在安全漏洞,從而通過代碼調整,防止注入和攻擊;用戶的訪問區域和用戶喜好,適當的推送相關聯的產品,為用戶提供人性化的服務,同時提高用戶的訪問時間。
⑵ 商品訪問情況分析。首先從整體的用戶訪問情況分析,設定一定的規則。然后基于這個規則進行分析。通過路徑關聯分析, 可以獲知大部分用戶的訪問習慣并適時推薦相關聯的產品,以增加促銷的效果。
3.4 SME-EMS系統設計
由于海量的日志文件和用戶數據處理需要消耗大量的系統資源,在系統中對數據處理過程進行了前、后端分開處理的設計。為了不影響前端挖掘系統的體驗度,在前、后端系統中間加入了挖掘系統數據同步的機制。在日常使用的時候,不進行導入同步,所有信息同步的機制在每天晚上3點左右進行,這個時間段用戶訪問最少,生成的日志最少,能保證數據的實時性和準確性。為了和電商平臺系統進行交互并達到實時推薦和促銷的目的,數據挖掘系統也需提供接口給電商平臺系統。中小企業電商平臺挖掘系統SME-EMS的整體架構如圖3所示。
⑴ 后端定時任務。采用PERL+MYSQL+CRON+LOADBLANCE+HEARTBEAT技術[2],實現后端定時任務。 PERL技術在文本的分析匹配時速度和效率是最高的。鑒于低成本運行,系統主要采用MYSQL數據庫主從結構。海量數據的處理服務器使用兩臺或N臺并做服務器的負載均衡,保證數據正常處理。CRON任務可以通過設置時間自動運行相應的任務。此過程主要根據規則實現用戶數據、日志數據、第三方平臺數據的分析處理生成元數據,需要消耗大量的時間和系統資源。HEARTBEAT主要防止MYSQL服務器宕機時候的數據丟失。
⑵ 挖掘數據再次分析處理同步。采用RSYNC+PERL+MYSQL+CRON技術[3,4],實現服務器之間的數據同步。為保證電商平臺數據挖掘系統前端的正常工作,保證服務器不受影響,系統特別增加了挖掘數據同步服務器。在適當的時候系統可以進行聚類分析、語義分析、模式匹配分析、行為模式分析。根據相應的規則定義以及前端生成的元數據分析二次生成需要的數據,增加數據挖掘的精準度。對于中小企業來言,就是根據不同需求提出對產品銷售有促進作用的有用的數據信息。
⑶ 前端任務。采用PHP+MYSQL+REDIS+MEMCACHE+HEARTBEAT+LOADBLANCE技術[5],實現前端任務。PHP主要實現生成元數據的查詢展示修正功能,REDIS+MEMCACHE實現數據的緩存。用戶可以根據自己的需求生成不同的報表和圖表,查詢不同條件的電商平臺數據,增加用戶的體驗度。系統增加了一臺緩存服務器,并特別增加數據庫集群通信服務,防止MYSQL服務器宕機而影響正常的日常工作。
⑷ 同步電商接口實現。采用 MYSQL+PHP+REDIS+MEMCACHE技術[6],實現同步電商接口。用PHP或PERL實現定制生成不同類型的接口,實現和其他平臺的對接。系統除了生成報表、分析數據以及推動線下的活動,還需要做到跟電商系統進行實時對接,精準地提供商品的轉化購買力和用戶的體驗度,并同時預留接口給倉儲(WMS)、物流(Logistics)、郵件服務(EDM)、庫存(IMS)、客戶管理(CRM)、客戶管理系統的客服中心(Call Center)以及集團管理系統(ERP)等。
4 SME-EMS系統實施分析
4.1 SME-EMS與傳統電商平臺挖掘架構的比較
⑴ 實現費用低。SME-EMS采用開源的開發環境和技術,軟件成本幾乎接近零。具體成本分析如表1所示。對于中小企業而言,低成本、系統易維護、團隊易組建是基本的要求和目標,本系統則是一個很好的選擇。
⑵ 易與其他系統集成。 SME-EMS便于與其他電商平臺配套系統集成。很多電商企業自身有WMS,EDM,IMS,Logistics,CRM,CALL Center以及定制化的ERP系統,這些系統大部分都是獨立的一套系統,并且在選擇和定制化使用上存在多樣性,這導致與數據挖掘系統的接口集成很復雜,可變性很強。采用PHP開發接口定制化很強并且容易開發維護,而大部分中小企業電商平臺是采用PHP+MYSQL的B/S結構免費系統,所以易于集成。
4.2 SME-EMS的系統實施可行性分析
從體系架構和技術實現的角度分析,SME-EMS需要若干服務器,分別作為存儲服務器、同步服務器、調度服務器和數據服務器,各類服務器的角色及其在整個電商平臺數據挖掘體系的功能明確。開發人員可以選擇PERL,PHP,PYTHON等腳本語言,根據確定的需求,開發相應的數據分析挖掘任務。
5 結論
本文將數據挖掘技術和電商平臺兩者有機結合起來,為中小企業快速實現電商平臺挖掘系統提供了有效的實現方案。整個系統成本低、易于搭建、易于開發維護,適合幫助中小企業電商根據客戶的消費趨勢和市場走向,調整市場策略,進行正確的決策,提高利潤率。系統不足之處在于,對于龐大的電商系統和大數據增長級的平臺,系統的穩定性存在不足,需要改進調度算法,優化分析查詢處理方法等。
參考文獻:
[1] 李楠.電子商務中的數據挖掘[J].中國城市經濟,2011.12:378-379
[2] 門伯里,豪斯,普拉奇.實用負載均衡技術:網站性能優化攻略[M].人民郵電出版社,2013.
[3] 施瓦茨,扎伊采夫,特卡琴科.高性能MySQL[M].電子工業出版社,2013.
[4] 施瓦茨,福瓦,菲尼克斯.Perl語言入門(中文版)[M].東南大學出版社,2012.
[5] 基恩,席卡里爾.Pro JPA2中文版:精通Java持久化API[M].清華大學出版社,2011.
[6] 趙麗芬.數據挖掘技術在電子商務中應用研究[J].信息與電腦(理論版),2011.4:174