孫海波



摘要:近些年來,經濟全球化程度逐步加深,互聯網信息技術迅速發展,跨境電子商務已然變成了中外貿易的新增長點。同時,在跨境電商平臺上,銷售的商品日益豐富。對于消費者來說,要在這么海量的商品里面,選擇符合他需求的商品是一個普遍存在的問題困境。通過統計分析和挖掘跨境電商客戶自身的一些屬性特征和其購買的商品的一些屬性特征,為跨境電商企業的營銷策略和物流布局提供參考,幫助消費者快速挑選到滿意的商品。
關鍵詞:數據挖掘; 跨境電子商務; 特征分析; Hadoop; FP-Growth算法
中圖分類號:F272.3? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)15-0239-03
Abstract:In recent years, with the deepening of economic globalization and the rapid development of Internet information technology, cross-border e-commerce has become a new growth point of Sino foreign trade. At the same time, on the cross-border e-commerce platform, more and more goods are sold. It is a common problem for consumers to choose the products that meet their needs in such a large number of commodities. Through statistical analysis and mining some attribute characteristics of cross-border e-commerce customers and their purchased goods, this paper provides reference for marketing strategy and logistics layout of cross-border e-commerce enterprises, and helps consumers quickly select satisfactory goods.。
Key words:data mining; cross border e-commerce; feature analysis; hadoop;? fp-growth algorithm
1 引言
11月4日晚,第三屆中國國際進口博覽會開幕式在上海舉行,盡管受到疫情影響,今年中國擴大開放的步伐仍在加快。對企業來說,跨境電子商務構建的開放、多維、立體的多邊經貿合作模式,極大地拓寬了進入國際市場的路徑,大大促進了多邊資源的優化配置與企業間的互利共贏[1];對于消費者來說,跨境電子商務使他們非常容易地獲取其他國家的信息并買到物美價廉的商品。通過數據分析和數據挖掘的方法分析以往的跨境電商業務數據來分析跨境電商客戶的特征,給出對于企業的一個更好的營銷策略和消費者更好的一個消費體驗。
2 算法及數據預處理
2.1 算法
在本研究中,我們采用FP-Growth算法挖掘頻繁項集,FP-Growth算法的主要思想是:將代表頻繁項集的數據庫壓縮存儲在頻繁模式樹中,每條事務數據中的項之間的關系被保留在頻發模式樹中。然后,將頻繁模式樹按照條件模式基拆分成一組條件FP樹,并分別挖掘這些條件FP樹[2]。
FP-Growth算法的步驟:
1) 第一次掃描數據庫,尋找頻繁1-項集,并按照由大到小的順序排序;
2) 創建FP模式樹的根結點,記為“null”;
3) 根據頻繁1-項集的順序對數據庫中的每條事務數據進行排序,并存儲在FP模式樹中,并建立項頭表;
4) 為每一個頻繁1-項集尋找前綴路徑,組成條件模式基,并建立條件FP樹;
5) 遞歸挖掘條件FP樹,獲得頻繁項集。
2.2 數據預處理
由于跨境電商業務的多年開展,其中的數據庫中存儲著大量的數據包括商品的物流信息、商品信息、訂單信息、報關信息等[3]。這些信息中很大程度上可以代表了消費者的消費習慣,但這些數據中同時也包含了大量對本次實驗無用的數據和噪音,因此要再分析數據的構成和意義,篩選其中有用的數據,并預處理后作為本次實驗的分析對象[4],本文從存儲在SqlServer數據庫中的物流信息表、商品信息明細表等四張表中獲取實驗所需的數據進行數據的預處理。以下是對于各表的介紹。
在物流信息表(Tbl_ImportLogisticsInfo)中包含了很多消費者購買物品后的物流相關信息,但是本次實驗所需字段僅兩個即省份ConsigneeProvince和城市ConsingeeCity字段。省份字段可以根據省份代碼對照表找出消費者所在省份,根據城市字段和城市等級劃分表得出消費者所在城市的等級 。 在商品信息明細表(Tbl_IDX_CUSTOM_IE_DETAILS)中,選取CreateTime(下單時間)、ORIGIN_COUNTRY(原產國)、DECL_PRICE(商品單價)、DECL_TOTAL(商品總價)、CODE_TS(商品編碼) 作為實驗的數據。根據下單時間劃分出下單時間范圍區間,根據商品原產國代碼和國家代碼對照表找出商品的原產國家,根據商品的單價和商品的總價分別處理,得到消費者的消費金額區間。報關信息表(Tbl_IDX_CUSTOM_IE_HEADER)中包含的是通關過程中所需的一些信息,其中本文只獲取公司代碼CompanyID這一字段,根據公司代碼字段判斷出消費者所在的消費平臺。(訂單信息表)Tbl_ImportOrder中選取ConsigneeCard身份證號字段,根據身份證的編碼規則判斷出訂單消費的性別信息,以及年齡段信息
據上述的數據進行處理得出表1客戶及其購買商品屬性維度及維度值,該圖表從多個維度出發用于描述出跨境電商客戶所可能具有的一些特征。
3 實驗
由于本次實驗的數據倉庫采用的Hadoop集群,程序采用的是Maven框架所以需要搭建Hadoop的集群環境和Maven框架的搭建及編碼。
3.1 Hadoop集群環境搭建
由于本次實驗所采用的Hadoop集群采用的是主從結構,slave1、slave2做兩條從機,master服務器作為主機。三臺服務器的IP地址如圖1所示。在實驗中各服務器所需要安裝的軟件如圖2所示。
在圖3中是將SqlServer數據經過處理后存儲在Hive中的部分數據。
3.2 Maven框架項目搭建
實驗的相關業務是在Maven框架下采用Java語言進行實現的,故首先需要搭建一個Maven項目然后進行實際的業務處理。相關業務模塊包括,源數據處理模塊、源數據分析模塊和Hadoop數據挖掘分析模塊。
項目框架搭建之后進行各模塊的編碼工作,在源數據處理模塊中首先需要進行SqlServer數據庫的連接,程序采用JDBC的連接方式獲取到程序所需的源數據,在獲取到源數據之后進行源數據的一個數據預處理的工作,數據的預處理包括根據物流信息表中的城市字段判斷出用戶所在的城市等級和所在區域,根據商品信息中的商品編碼判斷出商品的類別,根據訂單表中的身份證信息判斷出客戶的年齡信息和性別信息。在源數據分析模塊中將上一步獲取的源數據根據客戶的年齡、客戶所在區域和客戶購物的時間統計分析各個節點的單量,從而判斷出客戶購買跨境電商商品的一些特征。在Hadoop數據挖掘分析模塊中利用Maven中的相關依賴將預處理過后的數據導入到Hive中,并采用FP-Growth算法對數據進行挖掘分析,找出頻繁項集。序采用的是Maven框架所以需要搭建Hadoop的集群環境和Maven框架的搭建及編碼。
3.3 實驗結果
1)在挖掘出的頻繁項集中可以發現,little、f、SZBH出現多次,其中little代表是購買少量商品,f代表的女性客戶,SZBH代表的是一家跨境電商公司。從頻繁項集中可以分析得出,大部分人還是購買跨境電商的貨物都是少量并且女性購買者居多,這也符合跨境電子商務小包裹數量少的特點,同時結合日常生活經驗,相比男性可能女性更熱衷于網上購物。通過程序運行后的實際情況如圖4所示。
2)在根據下單時間進行單量的統計是發現跨境電商消費者在購買時間上的特征比如在凌晨5點的時候訂單量是最少的而上午10點的時候是訂單最多的時候,分析原因也合乎邏輯,上午5點的時候大部分人還在休息自然下單量最少,而上午10點單量最多,說明大家更加傾向于在這個時間段進行消費。根據下單時間統計的實際單量統計如圖5所示。
3)在根據年齡段的分析中發現,90后是購買的主力,而00后或更小60后或更大的年齡群體購買力下降明顯。分析原因可能是00后或更小的經濟實力較差,而60后或更大的年齡層消費者對于跨境電商業務可能不是太感興趣,而90后消費者從經濟方面和新業務的了解和接受方面分析都優于其他年齡層次消費者。根據年齡段統計的實際單量統計如圖6所示。
4)在購買區域上統計分析中發現發達城市是購買主力,比如深圳、上海,而在寧夏是最少的,這也符合人們合理的預期。在發達城市消費的經濟能力較好,而且發達城市的物流也比較有優勢,更適合業務的開展。而在發展較為落后地區則有消費者購買力不足,物流成本高等問題。
根據購買區域統計的實際單量統計如圖7所示。
4 結論
本文實驗采用Maven框架,運用Java語言進行編碼實現了FP-Growth算法并將該算法運用于處理后的數據進行了分析。在搭建好的hadoop集群平臺上以及預處理過的數據和跨境電商客戶特征分析系統的設計的基礎,上針對實際的情況進行了測試。分析了實驗所產生的頻繁項集以及數據本身的一些特性并得出符合邏輯的結論。根據實驗結果可以得出,一些跨境電商客戶的消費特征,從而滿足企業的營銷效果,將相應的跨境電商商品推薦給滿足該特征的跨境電商客戶,另一方面也給跨境電商客戶購買跨境電商商品帶來了方便,使得他們可以快速地購買到自己想要的商品。
參考文獻:
[1] 李延光.基于Hadoop的海量工程數據處理技術研究[D].北京:北京交通大學,2013.
[2] 周詩慧.基于Hadoop的改進的并行Fp-Growth算法[D].濟南:山東大學,2013.
[3] 馬盈.基于MapReduce構造多維數據及關聯規則挖掘算法的研究與應用[D].長春:東北師范大學,2013.
[4] 李明江,盧玉.基于數據挖掘的電商中貴州茶葉產品分類分析[J].黔南民族師范學院學報,2015,35(4):78-82.
[5] 王海青,呂曉安.數據挖掘在網購商品特征分析中的應用[J].廊坊師范學院學報(自然科學版),2015,15(2):35-37.
[6] 黃雅萍,馬可辛,周余洪,等.面向中小企業的電商平臺挖掘系統設計[J].計算機時代,2015(4):18-20.
[7] 雷玄.服裝篇:發貨延遲退貨率高[J].中國質量萬里行,2014(12):12-13.
[8] 楊欣,呂本富,彭賡,等.基于網絡搜索數據的突發事件對股票市場影響分析[J].數學的實踐與認識,2013,43(23):17-28.
[9] 羅紅梅.電商企業基于數據進行精準營銷的探討[J].武漢商業服務學院學報,2013,27(3):46-48.
【通聯編輯:李雅琪】