王鑫
(山東商業職業技術學院,濟南250103)
?
跨行業數據挖掘在農產品電子商務中的應用研究
王鑫
(山東商業職業技術學院,濟南250103)
摘要:利用跨行業數據挖掘方法對農產品電子商務網站搜集的各種信息進行整理和分析,并運用數據挖掘模型對數據進行運算,可以發現農產品相關客戶的行為特征、購買習慣以及商品的特性。通過發現的這些規律對農產品電子商務網站進行優化可以提高客戶的訪問率和轉化率,大大提高農產品電子商務網站的運營效果。
關鍵詞:CRISP-DM;電子商務;網絡日志;C5.0模型
跨行業數據挖掘過程標準是目前業界主流的數據挖掘流程,簡稱CRISP-DM。1999年由歐盟機構聯合起草,在金融、醫療保健、市場營銷、零售業、制造業、司法、工程和科學、保險等行業適用廣泛。據統計,超過60%的挖掘模型使用跨行業數據挖掘技術。商業理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、建立模型(Modeling)、模型評估(E鄄valuation)、模型應用(Deployment)六個部分完成了數據挖掘在各個行業的應用,他們從大量的數據中,通過分類、估計、預測、相關分析、關聯分析等手段,揭示以往未被發現的、隱含的、有潛在價值的信息。但是,此項技術在農產品電子商務中鮮有應用。
在商業應用上,數據挖掘能夠解決以下技術難關:數據庫營銷(Database Marketing)、客戶群劃分(Customer Segmentation Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Anal鄄ysis)、客戶信用分析(Credit Scoring)、欺詐發現(Fraud Detection)等等,以上應用全部基于Inter鄄net的發展。[1]由于互聯網的信息交互,大量的數據被記錄在Web頁面或者數據庫中,人們通過不同的手段提取這些記錄的價值。農產品電子商務網站同樣有強大的數據庫支撐,任何一個客戶在網絡上的瀏覽軌跡、注冊、登陸、購買信息等都會被忠實的記錄下來。通過特殊的技術和方法,從Web頁面文檔或者網絡活動中提取具有潛在價值和隱藏的信息,進而對這些信息進行處理和分析,最后獲得有價值的農業相關信息。除了強大的數據庫之外,農產品電子商務網站同樣有各類不同的客戶群,以及基于經紀人、種植戶等交叉銷售的行為,具備使用CRISP-DM的基礎。經過跨行業數據挖掘,可以分析農產品電子商務網站客戶流失的原因,以及客戶信用等級評價等問題。[2]以上問題的解決對于農產品電子商務業務運營商來說意義重大,他們對了解用戶以及客戶的使用和購買習慣具有極大興趣,通過對網站結構進行優化,使得客戶瀏覽、購買體驗更加舒適。根據客戶消費習慣推送有價值的銷售信息,有效實現精準營銷。只有更好的吸引客戶,增加客戶粘性,最終才能提高網站的轉化率。結合數據挖掘的各項條件以及農產品電子商務的各項特性,利用數據挖掘來提升農產品電子商務網站的運營效果,具有廣闊的應用空間。
(一)商務理解下的基礎數據來源
電子商務的屬性是商務。通常,電子商務是通過網站這一載體實現的,因此商務活動要首先從電子商務網站的數據分析開始。一般來說,電子商務網站運營狀況可查看訪問量和成交量兩類數據。訪問量考察這是一個客戶的多次訪問還是不同客戶的一次訪問,每次訪問的時間長短和訪問深度表現如何。[3]成交量是通過購買的產品組合發現客戶的購買習慣和產品之間的聯系,通過多次交易行為提取購買習慣。農產品電子商務網站與其他網站相同,也是以商業屬性為主,同樣我們可以通過查看訪問量和成交量兩類數據來取得農產品商務的特征。農產品的網絡數據分析根據不同數據提取層次,分為以下幾類:
從整體網站進行的數據準備。網站級別的數據挖掘通常將農產品電子商務網站作為一個整體進行分析,主要內容包括:訪問網站的用戶(消費者、瀏覽者、經紀人、種植戶等)分析、網站購買情況分析、網站銷售金額分析等情況,以上數據可以從網絡日志中提取并進行挖掘。[4]
從頁面進行的數據準備。需要關注:哪些網頁訪問量最大、訪問者進入與退出網頁分析,同樣通過網絡日志提取相應分析數據。
從訪問者個體行為進行的數據準備。對于訪問級別的數據挖掘通常從訪問者的角度進行數據分析,主要涉及以下方面:網站訪問留滯時間分析、網站/網頁訪問順序、網站/網頁訪問導致購買行為分析,訪問級別的數據分析。除了依賴于網絡日志數據,也需要結合Cookie數據分析。[5]
從訪問者群體進行的數據準備。訪問者級別數據挖掘除了關注訪問情況之外,還需要注意不同的訪問是否由同一個訪問者產生和發起,同時對該訪問者不同時間的訪問行為進行進一步的對比分析與挖掘。訪問者級別的數據挖掘除了利用網絡日志搜集相應數據,還需要網站注冊信息數據。
從客戶進行的數據準備??蛻艏墑e的網絡數據挖掘關注已經至少產生過一次購買行為的客戶。在進行客戶級別分析的時候,往往利用包括網絡日志、注冊信息、瀏覽歷史、購買歷史行為數據、評價信息等多方面的數據。
(二)數據采集途徑
數據挖掘的對象是通過各種路徑搜集來的各種數據,電子商務數據主要來源于電子商務網頁,包括:點擊流數據(Click stream)、結果數據(Out鄄comes)、研究數據(Research Data)、競爭數據(Competitive Data)這四類,他們的來源途徑分別為:
點擊流數據。通過農產品電子商務網站的Web日志、Web Beacons、JavaScript標記和包嗅探器獲得,點擊流數據記錄了用戶訪問網站的全部情況,包括用戶的電腦信息,如用戶瀏覽器類型、各類經人員(包括農民經紀人、種植戶)等訪問歷史、客戶購買的訪問歷史數據;用戶的請求與相應信息,如種植戶查看或者操作的內容,以及點擊后的響應情況(響應時間、數據流量等)等。[6]
結果數據。結果數據是各類農產品相關用戶在網站中使用服務或者購買產品時被記錄的數據。對農產品電子商務網站來說,此部分數據是數據挖掘的主要內容。[7]
農產品研究數據。主要是通過市場調研手段獲得的數據,這部分數據通常是網站根據業務需要主動獲取。
競爭對手數據。來源于競爭對手或者相關網站的數據的收集與整理。
(三)數據挖掘內容
網絡日志中包含了眾多的信息,但是對于電子商務數據分析來說這些信息大多不能直接用于數據分析,需要對這些信息進行各種復雜的交換,才能從中提取對數據分析有使用價值的變量,同時結合其他來源的多個數據集進行數據挖掘。[8]一般在對網絡數據進行整理的時候有以下三個步驟。
首先,厘清訪問數據,識別不同的訪問及訪問者。在網絡日志中,IP地址相同、操作間隔不超過30分鐘,并且用戶代理(瀏覽器)未發生變化則可認為是同一訪問;為了識別同一訪問者對網站的多次訪問,還需要通過Cookie信息以判斷其為同一個人(使用同一臺電腦)。
其次,從網絡日志中提取農產品網站的變量信息。提取用戶的搜索關鍵詞信息,便于生成反映用戶查詢關鍵詞信息的數據表(包含查詢次數超過30次的關鍵詞);提取訪問時間、每頁停留時間、訪問連續頁面直接的間隔時間、訪問的頂級目錄和從何處(從何種搜索引擎或門戶網站)進入網頁等信息,便于生成用戶網絡訪問習慣數據表。
最后,清洗并合并數據。將網絡日志中提取的數據與其他來源的數據進行合并,將注冊信息、登陸信息、產品信息、購買信息等與從網絡日志中提取的信息進行合并,進而生成比較完整的分析數據集。
(一)訪問用戶購買行為預測模型
用戶購買行為預測模型所采用的大多是決策樹模型,它可以利用一系列規則劃分,通過建立樹狀圖用于分類和預測。當用戶在農產品電子商務網站產生購買行為時,用戶一定會在訂購確認或者付款界面進行訂單確認。此模型的目的即預測用戶的哪些特征或者其在網頁上的行為導致用戶使用訂購確認或者付款界面。決策樹模型常用的算法有CART、CHAID、ID3、ID4.5.C5.0,在農產品數據挖掘中,C5.0模型是應用較廣泛的一種,其優點是適用于處理大數據集,采用Boosting方式提高模型準確率。[9]
C5.0模型采用屬性的信息增益率來選擇屬性,根據帶來最大信息增益的字段拆分樣本,以信息熵的下降速度作為最佳分支變量和分割閥值的依據。[10]在利用C5.0算法建立模型之前需要對從網絡日志中搜集到的一次訪問中包含的多條記錄變為一次訪問只包含一條記錄,并且要將用戶方位網頁、引用網頁、網頁頂級目錄分別作為不同變量來建模。由于用戶使用訂購確認或者付款界面的頻率相對較少,因此在建模過程中需要對變量進行平衡處理。
(二)農產品精準推薦模型
農產品精準推薦模型的原理是利用聚類分析算法對用戶進行細分,找出每個聚類類別最常購買的若干農產品。利用C5.0決策樹模型的聚類功能,將用戶訪問網站的行為數據作為模型的信息熵,對用戶進行細分,對訪問用戶根據其訪問行為歸入到某個聚類類別,并向此類別的客戶推薦該聚類類別中歷史客戶最常購買的產品。模型建立之后可以根據用戶訪問的頁面想起推薦感興趣的產品,包括消費者購買的水果,或農民種植戶購買的化肥,均可以實現精準營銷。
(三)人性化網頁推薦模型
農產品網站使用客戶具有其特殊的使用習慣,通過搜集用戶在網站上的行為,包括訪問用戶最初瀏覽的三個頁面,結合瀏覽這三個頁面的時間間隔這5個變量,利用C5.0模型對用戶的習慣進行聚類。模型建立之后,當新的訪問用戶訪問了3個頁面之后,可以應用之前已經生成的聚類模型將其歸入某個聚類中,并根據該類別中最常被查看的3個頁面向該訪問用戶推薦頁面,推薦的形式可以體現為第4個頁面的鏈接,也可以在第4個頁面的特定區域先生這些頁面的概況。
除此之外,還可以利用電子商務數據對訪問者建立模型,包括訪問者細分模型、訪問內容預測模型、訪問內容細分模型、基于關聯貴州的產品特征模型等等。
利用數據挖掘方法對農產品電子商務網站搜集的各種信息進行整理和分析,并運用數據挖掘模型對數據進行運算,可以發現農產品相關客戶的行為特征、購買習慣以及商品的特性。通過發現的這些規律對農產品電子商務網站進行優化,可以提高客戶的訪問率和轉化率,大大提高農產品電子商務網站的運營效果。
參考文獻:
[1]藺莉,潘浩.Web數據挖掘技術在電子商務中的應用[J].電腦知識與技術,2010(04):816-818.
[2]于小兵,曹杰,張夢男.B2C電子商務客戶流失原因評估研究[J].模糊系統與數學,2012(6):167.
[3]王峰.網站訪問量統計應用實踐[J].中國傳媒科技,2015(07):79-81.
[4]董莉芬.基于用戶行為分析的精準營銷探討[J].電信技術,2013(04):67-69.
[5]劉曉峰等.基于分布式網絡爬蟲的移動互聯網用戶行為分析系統研發[J].廣西通信技術,2013(4):18-21.
[6]鄒麗新,陳維斌.基于點擊流數據倉庫的用戶行為分析[J].微計算機信息,2009(15):151-152.
[7]申彥.大規模數據集高效數據挖掘算法研究[D].江蘇大學,2013:2-5.
[8]戴菲.數據挖掘技術在電子商務中的應用[J].電腦知識與技術,2011(21):5043-5044.
[9]鄭麗琴.基于數據挖掘的決策樹算法和原理簡介[J].知識經濟,2014(7):87-88.
[10]薛薇等.基于Clementine的數據挖掘[M].北京:中國人民大學出版社,2012:169-178.
編輯:邵西梅
作者簡介:王鑫(1973-),女,山東商業職業技術學院工商管理學院院長、副教授,研究方向為電子商務、項目管理。
收稿日期:2015-07-05
DOI:10.3969/J.ISSN.2095-7238.2016.01.013
中圖分類號:F325.2
文獻標志碼:A
文章編號:2095-7238(2016)01-0074-03