劉海 宋陽陽 王寶 孫瑞霜 蘇云飛 于改露


摘 要:隨著信息技術的高速發展,網絡購物已經走進千家萬戶。網絡購物便捷化的方式使得人們可以隨時隨地選購自己喜歡的物品和服務。在此背景下,網絡購物行為數據呈現爆發式增長。本文通過使用Hadoop大數據處理技術對網絡購物行為數據進行了系統性分析,并使用SSM框架技術對大數據分析的結果進行了可視化展示。系統的實現將為網購賣家提供更加具有實際指導意義的進貨需求服務和客服服務,也可以為買家提供較為精準的購物參考服務,以幫助買家找到理想商品,提高購物效率。
關鍵詞:Hadoop技術;SSM框架;購物行為;大數據技術
中圖分類號:F713.55;TP311.13 文獻標識碼:A 文章編號:1003-5168(2021)28-00-03
Abstract: With the rapid development of information technology, online shopping has entered thousands of households. The convenient way of online shopping allows people to buy their favorite items and services anytime and anywhere. In this context, online shopping behavior data has shown explosive growth. This paper uses the Hadoop big data processing technology in the big data technology to systematically analyze the online shopping behavior data, and uses the SSM framework technology to visualize the results of the big data analysis. The implementation of the system will provide online shopping sellers with more practical guidance for purchase demand services and customer service. At the same time, it can also provide buyers with more accurate shopping reference services to help buyers find ideal products and improve shopping efficiency.
Keywords: Hadoop technology;SSM framework;shopping behavior;big data technology
隨著網絡信息技術越來越成熟,網絡購物逐漸改變了人們的生活。如今的網絡購物可以讓人們實現足不出戶,動動手指,產品就會隨著物流及時送到消費者的手中[1]。日常生活中所需要的衣服、食品、電器甚至汽車等商品,都可以通過互聯網來進行購買,因此互聯網購物給人們的生活帶來了極大的便利。在網購領域,目前淘寶、京東、拼多多等購物平臺銷售額逐年增長,已在市場中占據主導地位。尤其是京東每年推出的“618”購物節和淘寶推出的“雙11”購物節,當天銷售額更是成為全民關注的焦點。“雙11”購物節誕生以來,淘寶和天貓銷售額2009年為0.52億元,到2020年時已經達到了4 982億元[2]。在此背景下,網絡購物行為數據量迅速增長,數據的增多給數據處理帶來了挑戰。如何快速高效地處理購物行為數據,并從中提取出有價值的信息,成為近年來的研究熱點。筆者將對網絡購物行為大數據處理與分析系統的設計與實現過程進行詳述。
1 系統需求分析
對于數據分析,首要的工作是確定數據集的來源。本系統的數據集全部來自天池大數據眾智平臺(https://tianchi.aliyun.com/),通過注冊申請即可得到公開的淘寶用戶行為數據集。該數據集中約有100萬條用戶行為信息數據,每一條數據內容包括用戶ID、商品ID、商品類目ID、行為類型和時間戳等信息。數據集中包含商品類目數量9 439個,用戶數量987 994個,商品數量4 162 024個,所有行為數量之和高達1億個。面對如此龐大的數據集,傳統的MySQL或者Oracle數據庫已經不足以支撐數據的分析和查詢操作,而大數據技術中的Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)數據存儲技術是專門針對大量數據而設計的。HDFS的高可靠性、高獲得性和分布式等特點為龐大的數據集存儲提供了保障,完全可以滿足數據存儲的需求。數據存儲完畢之后,它可按照功能需求對數據進行系統性的處理和分析。目前,市場上的大數據分析工具較多。Hadoop作為出現較早的典型開源分布式計算平臺,因其可以運行在Linux平臺上,且具有可靠性、可擴展性、容錯性、低成本和支持多種編程語言等優點,被廣泛應用于各種大數據處理的場景。百度、網易、華為、中國移動及淘寶等企業都用Hadoop處理大量的數據信息[3],再加上Hadoop與HDFS的完美兼容性,完全可以滿足數據處理與分析的需求。考慮到前端的數據可視化SSM技術需要頻繁地訪問數據分析的結果,將數據分析結果存儲到MySQL數據庫中是比較合理的一種方案。
通過對數據集進行查看可知,每一條行為數據主要包含用戶ID、商品ID、商品類目ID、行為類型和時間戳5個字段。其中,行為類型字段包括點擊、購買、加購及喜歡4種屬性。通過分析消費者的行為類型占比,可以滿足各店家調整營銷策略的需求;通過分析一天中各個時間段的購物人數,可以滿足賣家了解消費者購物時間的需求;通過分析每日的購物人數,可以滿足賣家了解消費者購物時間傾向的需求;通過分析商品數量排名,可以滿足賣家了解消費者商品喜好的需求;通過分析商品類目排名,可以滿足商家及時調整商品營銷策略以適應消費者購物導向的需求。
2 系統可行性分析
2.1 技術可行性
本系統所有的操作都計劃在Linux操作系統下實現。Linux操作系統操作命令簡單,較易上手。整個大數據技術環境的搭建,包括JDK、Hadoop、Sqoop和MySQL數據庫也都計劃在Linux系統上完成。Linux與大數據技術的兼容性良好,將使整個搭建過程更具簡潔性和易操作性。對于大數據分析結果的數據可視化,本系統計劃使用易學易用的SSM框架技術實現,且前端與后端之間通過MySQL數據庫實現分離。綜上所述,本系統在技術層面完全可行。
2.2 操作可行性
本平臺計劃采用交互性較強的Web界面,操作簡單、直觀,對使用者沒有太多的技術要求[4]。用戶使用系統之前不需要經過專業的培訓指導,并且系統對用戶的計算機專業素養要求也不高,只要具備日常的上網能力和一些基本的計算機操作常識,就可以理解并且熟練地使用系統。綜上所述,本系統在操作層面完全可行。
2.3 經濟可行性
本系統所計劃使用的開發工具都是開源的,數據集全部來自天池大數據眾智平臺,通過注冊申請可以免費得到。本系統計劃由團隊成員獨立完成,遇到難以解決的問題一般通過互聯網查詢即可解決,沒有產生其他額外費用。此外,本系統面向的用戶也極其廣泛,無論是商家還是消費者,應用價值都頗高。綜上所述,本系統在經濟層面也完全可行。
3 系統設計與實現
3.1 數據處理流程設計
在搭建好大數據系統環境的基礎上,按照大數據的數據處理流程,需要先將申請下載好的原始淘寶用戶行為數據集進行篩選,篩選后的數據上傳到分布式文件存儲系統HDFS中,而后在數據倉庫Hive中進行數據分析。Hive是Hadoop的一個數據倉儲工具,可將結構化數據文件映射為數據庫表并存儲到HDFS上,可把SQL語句轉換為MapReduce程序運行[5]。數據分析完畢后,因為結果數據一般不大,因此可將分析結果數據存儲到MySQL數據庫中,使數據看起來井然有序,直觀易懂。服務端通過讀取MySQL數據庫中的數據,利用數據可視化SSM框架技術將分析結果進行更加直觀的圖表化展示。綜上所述,數據整體處理流程設計過程如圖1所示。
3.2 功能設計
下載好的數據集中,每一條用戶行為數據主要包含用戶ID、商品ID、商品類目ID、行為類型和時間戳5個字段。
通過分析可知,行為類型字段又包括點擊、購買、加購、喜歡4種行為屬性。通過對所有用戶的行為類型屬性進行統計,可得到每種屬性在4種行為屬性中的占比,對于賣家進一步提升自己的服務讓更多的用戶購買甚至是回購至關重要。
已知數據集中包括各個商品ID字段,通過統計各個商品的銷售數據,可以分析出商品銷售量排名;已知數據集中包括各個商品類目ID字段,通過統計各個商品類目銷售數據,可以分析出商品銷售類目排名;已知數據集中消費者購物的具體時間字段,通過切分時間,只保留具體的日份值,可以分析出用戶購物的日份人數和比例;通過切分時間,只保留精確的小時值,并對小時值的數量進行統計分析,就可確定一天中各時間段具體的購物人數和比例,對于賣家集中時間點提升服務人員數量和質量以充分滿足消費者購物需求具有重要價值。
3.3 系統實現
上述設計完成之后,通過大數據編程和前端編程實現本系統。本系統在數據可視化方面選用了SSM框架實現,主要原因在于SSM中的Spring MVC組件和MyBatis組件均屬于比較輕量級的功能開發組件,其部署應用對于平臺的資源要求比較低,且邏輯處理過程充分發揮了輕量級的優點,可以獲得較高的處理效率,降低系統的編碼難度[6]。
從圖2可以看出,買家點擊行為數量在各個時間點都要遠高于同時間段的其他行為,在一天24 h中,買家點擊、購買、添加購物車和收藏等行為數量從18:00開始增長,直到22:00到達頂峰后開始減少,到晚上23:00后各種行為數量開始趨于平緩。因此,對于商家和賣家來說,服務的主要精力應該放在18:00—23:00。
4 結語
隨著互聯網和移動開發技術的快速發展,網絡購物人數日益增多,海量的商品使人應接不暇,一定程度上給消費者和商家造成了困擾。消費者如何在大量的商品中購買到理想的高性價比商品,商家如何掌握消費者的喜好對產業進行系統優化調整成為了當務之急,而購物行為分析系統的設計與實現有助于解決這一難題。通過分析各個商品的排名和商品類目排名,可以幫助消費者在琳瑯滿目的商品中鎖定心儀商品,并且進行初步了解和客觀判斷,極大地節省挑選商品的時間,同時可以使商家了解消費者的需求和喜好,以便對產業及時作出相應的調整。通過了解一天中各個時間段的購物人數,商家可以及時對客服和工作人員的數量做出調整,以改善消費者的購物體驗,提高銷售量。
綜上所述,本系統中商品排名和商品類目排名、消費者行為類型占比等各個功能的實現,不論是對商家還是消費者都助益良多,具有極高的參考價值,能夠滿足用戶的需要,適應市場的需求。
參考文獻:
[1]顧璟.智慧物流企業配送效率影響因素分析[J].時代汽車,2021(19):21-22.
[2]任曉寧.雙十一“靜悄悄”[N].經濟觀察報,2021-11-15(18).
[3]石方夏,高屹.Hadoop大數據技術應用分析[J].現代電子技術,2021(19):153-157.
[4]劉海,王壯壯,喬昭源,等.基于SSM框架的校園幫平臺的設計與開發[J].數字化用戶,2020(45):20-22.
[5]張鳳斌.高校圖書館學科服務小數據系統的構建與優化[J].圖書館,2021(11):64-68.
[6]尤洋.供電公司機房環境集中監控系統設計與實現[D].成都:電子科技大學,2019:58-60.
3534500338261