陳青艷 劉曉平 趙? B
摘 要:根據現有電子商務平臺的海量數據存儲及處理的需要,提出了基于大數據的貿易分析模塊的構建。文章重點介紹了系統的框架結構、客戶流失和用戶價值度分析和設計。構建的貿易分析模塊系統可以對客戶流失進行預警,在一定程度上幫助挽留客戶,降低客戶流失率。
關鍵詞:大數據;貿易分析模塊的構建;客戶流失
電子商務為企業積累了海量的原始數據,記錄了客戶的瀏覽行為、關注內容、交易方式等有價值的信息,但是如何發揮這些數據的效用,挖掘經營活動的模式或者規律,是每個企業提升競爭力的一個重要手段。因此,對貿易經營活動的分析成為企業的重要工作內容。本文充分利用過去累積的大量原始銷售數據、客戶瀏覽行為日志等重要資源,采用數據挖掘中的決策樹等智能數據分析算法,構建貿易分析平臺。
1 貿易分析模塊功能需求分析
1.1 客戶流失
在這個模塊中,我們引入了基于信息論的較成熟的數據挖掘算法ID3決策樹及其改進算法C4.5決策樹對客戶流失進行深入的分析研究。可以推導出一個較容易流失的客戶名單,再結合每個客戶的價值度分值,公司可以區別性地采取一些挽留措施,用來提高公司的營銷額。
1.2 客戶細分
電子商務企業提供符合不同客戶需求的產品和服務,來滿足多樣化的需求,從而使不同的客戶都對企業滿意,就需要將客戶根據不同的標準進行細分,以達到客戶和企業之間建立長久穩固的關系。盡管每個小群體中的成員不可能做到消費行為完全一致,但也可以表現出一定的共性,企業在掌握了這些小群體的共性以后,就可以針對性地制定營銷策略,指導公司的發展。
1.3 客戶價值度
客戶價值度,即企業從客戶的購買中所實現的企業收益。對于企業來說,一個偶爾接觸的客戶和一個經常購買的客戶是具有不同的客戶價值。我們可以根據客戶的消費行為方式和消費的具體特征等變量來預測出客戶價值。要分析客戶對企業的盈利價值的高低,我們需要根據傳統經驗獲取相當數量的樣本,然后再采用決策樹分類算法對其進行深入研究進而分析,獲取決策樹模型后,就可以針對一般的客戶進行預測了[1]。
2 貿易分析模塊的框架結構
貿易分析模塊的主要構件模塊有:前臺界面接口(系統用戶操作界面)、數據挖掘引擎(各種挖掘算法的實現模塊)和數據獲取與預處理。主要的結構如圖1所示。
這幾個模塊的主要功能詳述如下。
2.1 前臺界面
前臺界面是整個模塊展示給所有系統使用者的可視操作部分,主要有3個方面的功能:首先是任務理解,指以數據挖掘語言形式或者其他方式指定查詢任務以及必要的幫助信息。其次是可視化,主要用來展示數據挖掘的結果,方便系統用戶對挖掘推理出的模式進行評估。前臺界面與數據挖掘引擎是相互獨立的,通過接口進行交互,用戶不能直接操作挖掘引擎,而是前臺根據發送數據挖掘任務信息的反饋結果,進行探索式挖掘。另外,系統用戶還可以通過前臺界面查看數據庫和數據倉庫模式以及數據結構的可視化視圖,用于對不同數據挖掘模式的評估。最后就是模式評估了,主要采用興趣度對模式的實際意義進行衡量,也可對推導出的模式進行過濾,最后得出最有價值的模式。
2.2 數據挖掘算法
數據挖掘算法是系統的數據挖掘引擎模塊,主要包含了各個相關的挖掘算法,包括關聯規則、聚類分類等,從而對數據進行分析和預測,推導出潛在的模式和規律。
2.3 應用組件
應用組件主要是根據客戶的實際需求選擇適當的數據挖掘算法,幫助用戶完成用戶細分、客戶流失分析等任務。
2.4 數據模塊
數據模塊是系統的最底層,也是最重要的基礎數據處理部分。主要是完成對原始數據的除噪、篩選任務,然后集合不同的數據源,并按照可進行挖掘的形式對數據進行變換,最后選出與任務相關的數據交給數據挖掘引擎進行處理。
3 客戶流失分析模塊設計與實現
本文采用數據挖掘技術,建立客戶流失預測模型,從而找出促進客戶流失的最重要的因素,生成一個客戶流失預測名單,然后再結合這些客戶的價值度,推導出一個合理的挽留措施,幫助公司制定適當的決策策略,保持高盈利和客戶的忠誠度。可以采用的方法有數據挖掘技術的分類和聚類,兩者的區別在于分類需要事先知道樣本分類,而聚類則不需要。本文選取分類算法中的決策樹方法簡便、易于理解,代表性的算法包括ID3算法、C4.5算法等。
建立數據挖掘客戶流失預測模型的步驟主要有以下幾點:數據整合、數據處理(數據除噪、數據抽取、數據泛化等)以及數據挖掘算法實現,各相關步驟如下[2]。
3.1 數據整合
客戶流失分析所需要的客戶數據和交易數據分別存放在客戶索引表和訂單表等多個表中。因此首先要對這些數據除噪,去除不要的屬性如客戶電話、年齡等信息,提取有用的信息。
3.2 數據處理
信息提取的一個原則就是能集中反映客戶類型、客戶背景、交易相關的信息,然后將提取出來的信息經過整理以后存入一個新的表格,放進數據倉庫,供挖掘算法使用。若客戶在注冊時或者實際的交易中,跳過商務平臺提供的一些選項不填,那么我們對這種客戶抽取出來的數據有可能會存在很多空白數據項。系統需要提供一些措施對這些空白項數據項進行處理,要么去除記錄,要么填入缺省值,缺省值的選擇視不同屬性而異,一般數值型的數據選取其平均值。
泛化處理后的客戶信息數據表中數據的類型仍可能不符合數據挖掘算法的要求,仍需要進行轉換處理。一般而言,ID3算法的數據要求是離散型的,而C4.5算法則可自動對數據進行離散處理,只是有時候離散化分的數據邊界不太符合人們的習慣。本系統中由分析人員依據經驗對屬性值進行離散化劃分。
3.3 數據挖掘
本系統采用ID3算法和C4.5決策樹分類算法,根據離散屬性集的集合來做出系列判斷將數據分類,算法對客戶流失原因進行分析。圖2是一個決策樹示例,圖中決策樹把所有的客戶按照客戶類型、交易金額和月交易頻率來分類,直觀,易于理解。系統最后把推導出的結果和相關數據以可視化的形式傳遞給前臺用戶,以此為依據對模型進行評估。
4 客戶細分分析模塊設計與實現
客戶細分也可以采用聚類或者分類算法實現。在本系統中,我們選擇使用K-means聚類算法對客戶進行細分。所需要的源數據與客戶流失分析的源數據相同,但是也需要去除噪聲和信息抽取、離散化的處理。然后,對這些數據采用K-means聚類算法進行分析處理,推出的結果可以用圖形進行展示。用戶通過查看圖形化的聚類結果以及各分組中數據的信息來輔助自己的商務經營活動[3]。
5 客戶價值分析模塊設計與實現
要對客戶進行盈利分析,首先必須要找一個能有效衡量客戶盈利能力的標準,這個問題比較難,因為不同的用戶和工作人員有著不同的看法和理解。本系統使用的方法是先累積市場經驗,對獲取的樣本數據中的客戶盈利能力進行分類。這些分類樣本達到一定的數量以后,就可以使用決策樹分類算法進行學習預測,從而生成一個決策樹模型,對一般用戶進行預測[4]。
6 結語
基于J2EE的3層結構的網上商店管理系統平臺的開發與設計,并將統一業務處理方案以及數據挖掘智能數據分析方法應用在所設計的系統之中,把數據挖掘算法引入系統的貿易分析模塊,為決策者提供智能指導。下一步需要更深入研究算法,不斷優化算法,提高運行的效率。
[參考文獻]
[1]王炎.數據挖掘技術下的個性化智能推薦系統設計[J].微型電腦應用,2019(2):119-121.
[2]柳林,涂光平,楊峰.基于決策樹的數據挖掘方法在CRM中的應用研究[J].計算技術與自動化,2006(1):67-69.
[3]范潔,楊岳湘,溫璞.C4.5算法在在線學習行為評估系統中的應用[J].計算機工程與設計,2006(6):946-948.
[4]李章威,陳麗,曹子谞.大數據環境下智能推薦系統中協同過濾算法研究[J].電腦編程技巧與維護,2016(11):78-79.