李志勇(湖南大眾傳媒職業技術學院,長沙,410100)
?
基于大數據的電子商務商品推薦系統研究
李志勇
(湖南大眾傳媒職業技術學院,長沙,410100)
隨著現代電子商務的不斷發展,如何在琳瑯滿目的商品中給客戶推薦針對性的商品,從而提高商品成交率成為當前的思考的重點。本文結合當前的大數據技術,提出一種基于數據挖掘的電子商務推薦系統,并對其實現進行了詳細的探討,從而為當前電子商務的發展提供參考。
大數據;數據挖掘;電子商務;商品推薦;系統
隨著現代互聯網技術的不斷發展,信息化成為當前社會發展的一個重要特點,并影響著人們的生活和學習方式。而隨著大量數據信息的產生,大數據挖掘技術成為當前電子商務領域中應用的重點,從而為廣大的用戶提供商品推薦服務,如淘寶、京東等知名電子商務網站,都在其醒目的位置推薦曾經看過或者同類人喜歡的商品,以此通過這種挖掘算法,為用戶提供更加具有針對性的產品,從而滿足用戶的購買需求。本文從大數據和個性化推薦的概念入手,提出一種簡單的電子商務推薦算法,并對系統進行初步構建,從而為充實當前的個性化推薦理論提供參考。
大數據通常是指在規模巨大的數字資料中,無法借助現有的軟件,在合理的時間內對信息進行攝取、處理和分析,最后為企業提供相關的決策經營信息。而物聯網、手機、移動互聯網、PC終端等都為數據的來源奠定了堅實的基礎。從計算機的角度來看,大數據通常是指在信息化時代下產生的大量結構和結構化的數據;而從技術角度來看,就是從海浪的信息數據中挖掘出具有一定價值的數據信息。因此,通過上述的分析,大數據通常具有以下幾個特點:
第一,數據量龐大(Volume Big)。從大數據的數據量來看,其數據從存儲量已經從原來的TB直接發展到了PB,甚至到了ZB的地步,由此通常將這種信息量稱為海量或者巨量的數據。
第二,數據類型多樣化。在海量的數據中,包含各種類型的數據,如結構化、半結構化、非機構化的數據,而具體則可以包括諸如位置、圖像、網頁、文本、視頻等相關的信息。當前,通過互聯網產生的大量數據可極快的保存到數據庫當中,
第三,速度極快。當前形成的大量數據基本都可極快的保存到數據庫之中,并及時的對數據進行處理,以此滿足持續不斷更新的企業數據庫需求。而隨著數據處理速度的變化,處理的工具也在不斷的變化。
第四,高價值和低密度。在龐大的數據之中,有效的數據往往僅僅只是小部分,需要深入的數據挖掘才能得出價值很高的數據,所以導致高價值數據的低密度率。
通常認為,大數據技術的發展不僅加快了數據的存儲方式的轉變,同時也大幅度的提升了現代數據處理的專業化程度。換句話說,隨著數據的產生,大數據開始逐步成為發展為一個產業,而產業的發展關鍵在于盈利,因此產業參與者必須要提高對海量數據的“加工能力”,通過“加工”實現數據的“增值”。而隨著現代物聯網技術的不斷發展,借助大數據技術的發展可以為物聯網提供更好的技術和資源支持,以此讓企業管理者可以從海量的數據分析中深入的挖掘出用戶的行為習慣和自身愛好,并最終通過互聯網實施精準的網絡營銷,從而掌握到大數據分析所帶來的增值“金鑰匙”。
雖然當前我國在大數據的發展中還出在比較初級的階段,但是通過大數據所展現的相關價值已經開始在商業領域中開始展現。首先,大數據分析企業可以通過受眾的數據分析,在數據交易市場中得到良好的收益;第二,通過大數據的挖掘,可誕生眾多的商業模式,以此進一步的提高商業的活力;第三,通過大數據可以促進企業的商品交易,同時降低企業的運營和宣傳成本,提高企業自身的利潤率。但是筆者認為,大數據的價值并不是一味的在大,其價值是通過數據的分析、交叉復用后獲取最大的數據價值。
而對于大數據給電子商務帶來的影響,其主要有以下幾個方面:首先,通過大數據對電子商務用戶購買行為的分析,可以為電子商務企業提供更加精準的企業營銷對策,以此在宣傳中投放更加具有針對性的廣告方案;其次,通過行為分析,可更好的優化電子商務企業內部的管理措施,以此提供更符合消費者需求的
相關服務;再次,通過大數據在電子商務的應用,可進一步的加快電子商務企業的戰略轉型,從而使得電子商務企業能在未來的競爭中處在不敗的位置;最后,通過大數據的分析,深入的挖掘電子商務用戶的潛在需求,提高電子商務企業的銷售業績。
通過對當前大數據挖掘的研究發現,當前主流的推薦算法主要包括基于內容的過濾算法以及協同過濾算法兩類,其中基于內容多采用信息檢索的方式;而采用協同過濾算法類的,更多的是依據用戶的行為特征,對用戶的行為興趣等進行分類。
而在具體的挖掘算法中,當前主流的大數據挖掘方法主要包括列模式、聚類分析以及關聯規則等方法,其中基于語義Web挖掘是現階段研究最為流行的方法。在該推薦方法中,其最為關鍵的問題則是何將web領域本體與個性化推薦有機整合。
通過研究發現,現有基于大數據的個性化推薦算法在準確性方面還顯得比較低,往往都是依靠客戶過去的瀏覽的信息或者購買的商品進行推薦。如果采取這種推薦方式,一方面消費會比較抵制這種推薦方法,另一方面這種推薦也不能滿足用戶的實際需求。因此在電子商務中,找出一種能夠對用戶未來可能的需求進行推薦的算法,對挖掘電子商務客戶的潛力具有重要的研究價值。對此,結合上述的需求,提出一種基于關聯規則的個性化推薦架構。該算法是基于大數據的角度,通過MapReduce對充分挖掘用戶的信息,提煉出用戶個人的潛在興趣和需求,最終把個性化的用戶潛在需求產品推薦給消費者。
而上述的架構模型思想也被廣泛的應用在電子商務推薦領域當中,并在該思想上演變出大量的改進算法。本文則在利用MapReduce算法思想的基礎上,提出一種改進的個性化推薦算法,并對其實現進行了初步的驗證。
本文提出的關聯規則算法思想,是在MapReduce分割思想的基礎上,充分借助MapReduce在并行運算中的優勢,引入Aprior算法。具體步驟則為:
首先將存儲在HDFS之中的數據庫劃分為N個不同的數據模塊,利用Namenode對劃分的數據庫進行分類,并將這些分類好的數據模塊分別發送給執行挖掘動作的M (M<=N)個數據節點中,同時在每個數據節點,結合Aprior算法對數據進行頻繁及的挖掘,以此獲得該數據節點的局部頻繁項集。
其次,將挖掘后的數據局部頻繁項集匯總后,可以得到得全局的候選頻繁項集,,此時再對整個數據D進行掃描,可獲得最終的頻繁項集。
最后通對上述方法的驗證,發現該算法對資源的消耗大大減少,也提高了推薦的效率。具體的比較如圖2所示。

圖2 資源消耗分析
隨著信息化的發展,個性化推薦越來越受到人們的關注,并大量的用在電子商務領域之中。本文則從結合大數據的概念、價值,同時對當前的個性化推薦現狀進行簡易分析,并在此基礎上提出了一種個性化推薦架構和算法,驗證了該算法的可行性,為電子商務領域中商品的推薦提供了參考。
[1] 張新猛,蔣盛益.基于協同過濾的網絡論壇個性化推薦算法[J].計算機工程.2012,38(5):67-69
[2] 李遠方,鄧世昆,聞玉彪,韓月陽. Hadoop-MapReduce下的PageRank矩陣分塊算法[J]. 計算機技術與發展,2011,08:6-9+13.
[3] 米允龍,姜麟,米春橋. MapReduce環境下的否定粗糙關聯規則算法[J]. 計算機集成制造系統,2014,11:2893-2903.
Research on the recommendation system of electronic commerce based on big data
Li Zhiyong
(Hunan Mass Media Vocational Technical College Changsha,410100)
With the development of modern electronic commerce,how to in an array of goods to customers recommended for the goods,so as to improve the commodity turnover rate has become the focus of current thinking. In this paper,combined with the current big data technology.
big data;data mining;electronic commerce;commodity recommendation;system
基金來源:2014年度湖南省教育廳科學研究一般項目,《基于大數據的電子商務商品推薦系統的研究》,課題號:14c0234