王曦



摘要:為解決傳統數據分析方法存在分析準確率較低的不足,提出了基于hadoop技術的電商大數據分析,基于hadoop電商大數據分析模型的搭建,依托關聯規則分析、分類與聚類分析、變化與偏差分析,實現了基于hadoop技術的電商大數據分析,試驗數據表明,提出的數據分析方法較傳統數據分析方法,分析準確率提高29.55%,適合電商大數據的分析。
關鍵詞:hadoop技術;分析模型;大數據;電子商務
中圖分類號:TP311 ? ? ?文獻標識碼:A
文章編號:1009-3044(2019)15-0297-02
近年來,眾多企業都開始認識到數據資產規模化會給企業帶來無限的可能性與潛在的價值,但這些不斷在增長的數據資產大概可以分為兩種類型即非結構化與半結構化。如何去利用最低成本并使用最快的效率來對這些大量的數據去進行處理和應用,成為人們目前需要解決的很大的難題[1]。Google公司第一個提出了Mapreduce的編程框架(Hadoop框架的基本構成單元),而GFS的文件系統與BigTable的存儲系統同時開始成為大數據處理技術的核心領導者,并且這三種技術也成了此項目的實施標準,用最快的速度普及到各個互聯網企業當中。大數據處理模式是一種新興起的新技術模式,并依托于信息技術和互聯網技術的不斷發展而不斷進步,不但能夠有效地處理大批量的數據信息,還能保證信息的安全性與可靠性[2]。基于hadoop技術的大數據分析,以大數據處理模式,突破了以往的信息搜索和信息存儲形式,無論是從決策力還是洞察力都有了很大提升,從而效率越來越高,信息變得更加多樣化。
1搭建hadoop的電商大數據分析模型
Hadoop屬于開源框架,其本質為一種能夠應用于縮寫于運行的分布式處理的大規模數據。Hadoop與其他框架進行對比,自身具有便捷、擴展性強、操作方便等特點,特別是Hadoop的便捷性使其在編寫程序過程中占有絕大部分的優勢。從而使更多的用戶借助Hadoop能夠在分布式計算法則中帶來最大程度的優勢[3]。其利用分布式存儲與遷移代碼等技術、在數據處理過程中能夠更好地解決耗費時間數據的傳輸問題[4]。為了對電商大數據進行分析,搭建基于hadoop技術的電商大數據分析模型。
基于hadoop技術的電商大數據分析模型主要分為四個部分,即數據的收集部分、數據的預處理部分、數據的分析(數據挖掘分析)、應用部分,你設計的基于hadoop技術電商大數據分析模型整體框架如圖1所示:
數據的收集是依托電商數據平臺、移動端數據平臺、社交網絡數據平臺獲取的大數據信息,基于此的大數據信息,對數據進行預預處理,分析模型數據的預處理共分為三個階段,即數據的準備、數據的轉化、數據的抽取。基于電商數據平臺獲得交易數據,同理,基于移動數據平臺獲取觀測數據(瀏覽該電商網頁、商品等信息),基于社交數據平臺獲取互動數據(電商商品評價、潛在購買欲望等)。利用準備的數據,進行數據轉化,利用hadoop框架,將數據轉化為結構化數據和半/非結構化數據,通過數據結構化的轉變,利用數據關聯融合機制,根據數據的過濾和映射對數據進行提取,將提取的數據進行挖掘分析,最后顯示分析結果。
2實現電商大數據分析
Hadoop框架的構成涵蓋了分布式文件HDFS以及Mapreduce。Hadoop的主要作用是進行對文件系統的名字的管理,并負責文件的訪問。并同時處理客戶端發來的文件讀寫請求,并能夠在數據模塊下進行創建和復制。此外,Hadoop還能夠同時完成分布式計算,將總任務劃分為眾多子任務,并且每個子任務都能夠在集群節點進行處理的完成,從而確保各個子任務的節點計算的準確性。由于選擇性的分布式文件以及Mapreduce的模型,可以讓Hadoop具有更高的容錯率和讀寫吞吐率,從而對失敗的節點進行處理[5]。
針對電商大數據的分析,主要包括關聯規則分析、分類與聚類分析、變化與偏差分析三部分。關聯規則分析是指根據電商數據平臺、移動端數據平臺、社交網絡數據平臺獲取的數據,求出參數變化對消費者與電商平臺的影響,電商可將此數據作為經營的有效參考,其電商關聯規則分析函數可用公式(1)表示:
式中,I代表消費者消費意愿;P代表消費者瀏覽該電商平臺的時長;U代表消費者瀏覽所有電商平臺的時長。
分類與聚類分析是指,對電商的主要消費人群進行分類和聚類分析,其分析過程是根據數據的提取再擬合實現的,針對用戶的分類信息,電商可有針對地進行廣告的推送、消費習慣的分析以及消費的預判,鎖定消費人群進行電子商務營銷。
與分類與聚類分析相類似,變化和偏差分析是根據電子商務主要消費對象,最近的瀏覽記錄、歷史記錄、消費行為進行客戶的變化分析,以及偏差分析,其變化和偏差分析函數可用公式(2)表示:
式中,PD代表消費者的行為能力;R代表消費者的瀏覽記錄;I代表環境變化,如季節交替等;a代表消費者消費沖動系數;
基于hadoop電商大數據分析模型的構建,以及關聯規則分析、分類與聚類分析、變化與偏差分析,實現了基于hadoop技術的電商大數據分析。
3實例分析
為了驗證提出的基于Hadoop技術的電商大數據分析的準確性,進行了相關的仿真實驗。在相同環境條件下實驗,將對提出的基于Hadoop技術的電商大數據分析和傳統電商數據分析的準確性進行比較。
實驗過程中使用三臺已安裝win操作系統和Hadoop分布式文件系統的計算機,其中一臺計算機作為記錄數據節點使用,第二臺計算機作為記錄影子節點使用,最后一臺則作為記錄電子商務物流大數據儲存節點使用。
采取大型網絡網站的電子商務物流相關數據進行輔助仿真實驗,所有采取的仿真實驗數據時間范圍控制在2019年2月1日到2019年4月1日。在該仿真實驗過程中進行了五次的子實驗對比,對基于Hadoop技術的電商大數據分析方法和傳統電商數據分析方法進行比較,兩者的數據對比結果如表1所示。
從仿真實驗結果表明,基于Hadoop技術的電商大數據分析在所有數據整合分析過程中要比傳統電商數據分析更為準確。經統計計算得出提出的數據分析方法,較傳統的數據分析方法,分析準確率提高29.55%,適合電商大數據的分析。
4總結
本文提出了基于hadoop技術的電商大數據分析,利用基于hadoop電商大數據分析模型的構建,基于關聯規則分析、分類與聚類分析、變化與偏差分析,實現了本文的研究,為保證大數據分析的有效性,進行仿真試驗,試驗數據表明,提出的數據分析方法能夠滿足電商大數據的分析。實現了本文的研究,希望本文的研究能夠為電商大數據的分析提供理論數據。
參考文獻:
[1] 吳潤澤, 包正睿, 王文韜, 等. Hadoop架構下基于模式匹配的短期電力負荷預測方法[J]. 電工技術學報, 2018, 33(7): 1542-1551.
[2] 曾志強, 何小東, 王穎,等. 基于Hadoop和Spark的森林火災混合大數據分析系統研究[J]. 世界林業研究, 2018, 31(2): 55-59.
[3] 馬躍, 余騁遠, 于碧輝. 基于資源簽名與遺傳算法的Hadoop參數自動調優系統[J]. 計算機應用研究, 2017(11):24-27+33.
[4] 王雪蓉, 萬年紅. 基于跨境電商可控關聯性大數據的出口產品銷量動態預測模型[J]. 計算機應用, 2017(04):130-135+142.
[5] 謝彥祥, 劉天琪, 蘇學能. Hadoop架構下基于分布式粒子群算法的暫態穩定評估特征量選擇[J]. 電網技術, 2018, 12(12).
【通聯編輯:光文玲】