
摘要:網絡技術的更新與進步,為電子商務行業的可持續性發展提供了基礎條件,尤其是在網絡購物已經成為當下主流購物方式的背景下,電商平臺交易量表現出急速增長的整體趨勢,而過程中將會積累較多的用戶評論數據,從中反映出較多的產品缺陷信息與用戶對產品功能改進的切實需求。本文簡述了基于云計算的大數據存儲技術的主要內容,對電商平臺大數據挖掘流程進行深入分析,闡述電商平臺的大數據挖掘系統的設計算法(聚類算法),希望能夠為同行業工作者提供一些幫助。
關鍵詞:電商平臺;大數據挖掘系統;設計算法
引言
電子商務在經濟全球化發展背景下獲得了越來越多人的關注,輕松便捷的商務模式正在潛移默化地改變著人們的生活習慣與購物方式。從電商平臺的應用特點來看,改變了以往只能夠通過詢問獲得商品性能與質量等相關信息的購物模式,并擺脫了時間與空間的限制,讓用戶獲得了良好的購物體驗。無論是商家還是平臺均對具有價值的商品購買反饋信息有較為迫切的需求,這也是擴大用戶群體并提升用戶口碑的關鍵因素,因此針對評論數據采取深入挖掘模式具有極為重要的現實意義。
1. 基于云計算的大數據存儲技術
1.1 Hadoop框架
作為一類具有分布式并行編程特點的開源框架,Hadoop真正實現了模型計算,并能夠在MapReduce基礎上適應計算機模型所處的分布式環境,執行大數據存儲與處理任務,同時可根據需要連接上千臺機器進行功能拓展,提供給使用者本地計算與相應數據存儲的關鍵條件。MapReduce屬于基于云計算的一類核心計算模式,該種編程模式實際上已經經過簡化處理,在分布式運算技術的協助下可解決固定問題,并能夠對問題進行自動分割[1]。程序員能夠基于Hadoop編寫相應的使用程序,從而保證海量數據的處理及時性。Hadoop同樣能夠為使用人員提供數據存儲的固定地點,讓其能夠根據實際需要對計算節點中的分布式文件系統信息進行部署或儲存,從而充分發揮分布式數據庫的應用優勢。在Hadoop與云計算等新技術的共同幫助下,即使是大規模數據也能夠確保處理的及時性與完整性,并能夠在所搭建的云計算框架中融入HDFS與HBase,基于所設計的云計算分布式與并行計算方案,實現預期的數據處理與存儲的相關工作目標。
1.2 以云計算為基礎的數據存儲模型
基于海量數據的應用特點,能夠聯系云計算等相關技術構建海量的數據存儲模型,其中包含各個存儲節點與主服務器集群,配合使用HDFS與HBase即可實現針對所需求的數據資源的實時存儲與需求控制[2]。HDFS與HBase在這一過程中所起到的主要作用,是將需求的數據在各個計算節點上部署和存儲,并能夠借助MapReduce與Hadoop框架實現對數據的實時調度與科學維護,從而避免出現系統阻塞或框架使用故障等不良現象[3]。而使用者同樣能夠在Hadoop框架下,通過對節點數據的直接存取達到預期的交互操作目的。
2. 電商平臺大數據挖掘框架的構建
結合電商平臺大數據挖掘的實際特點,所執行的數據挖掘任務的根本目的在于為所組織的電商活動提供更有價值的活動信息與相應的平臺支持。由于保證了信息提供的準確性與響應的及時性,所以組建出基于電商平臺的大數據挖掘框架,主要包含六個層級:
第一是數據來源層。該層次主要包括電商平臺、移動終端、社交網絡以及供應商;
第二是數據收集層。該層級主要包括針對數據進行全面收集、針對文件進行全面收集以及各類消息與事件的及時響應;
第三是數據組織層。該層級主要包括過濾實施分析與接收分析,其中過濾實施分析對應結構化數據,接收分析則對應半/非結構化數據。通過對數據的過濾轉化與抽取注解實現關聯分類,其中的數據映射又可分為三個對應節點,包括語言庫、索引以及構建的工作模型等[4];
第四是數據存儲層。該層級主要包括企業級的數據庫、數據倉庫以及元數據管理等相關內容;
第五是數據分析層。數據分析需基于所提供的搜索引擎,在明確需要后進行普通或高級分析,用以構建相應的預測模型,可提供給用戶可視化查詢的相應條件[5];
第六是數據應用層。該層級主要面對的是各類電商平臺的實際應用軟件/網頁,并陸續開發出針對商家與個人用戶的應用級數據軟件。
3. 電商平臺大數據挖掘流程
作為電商平臺維持正常運營狀態的重要基礎,電商數據的重要性毋庸置疑。基于海量的電商數據能夠關聯其他的業務類型,從而對用戶在平臺所產生的一系列消費行為進行深入分析,基于數據挖掘技術能夠進一步提升平臺的自我競爭性,進而全面提高商業價值[6]。在大數據深入挖掘的背景下,平臺同樣能夠進行主動與自我學習,并在人工智能算法與科學的機器學習方式幫助下,獲取更多的學習數據,將過程中所學習到的所有內容自動儲存到相應的知識庫中,為后續的學習以及平臺運營提供基礎條件,奠定海量數據應用與挖掘分析的基礎。
首先由電商網站對用戶的數據進行收集,主要包括電商平臺數據、移動終端數據以及社交網絡數據;隨后進入數據預處理環節。分為數據準備、數據轉化以及數據抽取三部分。數據準備包括交易數據、觀測數據以及互動數據,根據實際需要進行解析與重構[7];數據轉化則主要對結構化與非結構化數據進行處理,包括對數據進行過濾與映射;數據抽取主要為數據關聯與數據融合;接著進入數據挖掘過程。需要對關聯的規則進行分析,做好分類與相應的聚類分析處理后,即可構建相應的數據模型,為后續的挖掘數據全面應用奠定基礎;最后是挖掘數據的正式應用。可根據客戶的實際需要推薦計劃展示頁面,借助網頁數據挖掘與相應的商品內容搜索,保證客戶能夠獲得更為全面的平臺服務。過程中一旦發現異常情況即可進行自動定位,并將異常數據上傳至云端網絡,由相應的工作人員進行快速處理。
過程中所收集的所有數據均需要進行預處理,具有簡單化與獨立性特點的數據在解析與重構后即可進行數據轉換,并在數據過濾與科學抽取的條件下,解析出具有分析意義的相應數據,從而明確各個用戶群體的實際數據特點,獲取到具有更高價值的知識數據[8]。該過程為將知識數據的應用價值進一步體現,需要根據客戶的行為習慣以及電商平臺的學習特點,展開對專業知識的解釋與數據的深入挖掘工作,并應根據實際需要選擇使用合適的數據挖掘應用方法,從而將大數據應用優勢予以全面發揮。
4. 基于MapReduce的聚類方法分析
4.1 聚類算法的分類
現階段未能出現一類能夠對多維數據及所呈現各類結構進行揭示的算法類型,一般使用聚類分析計算方法明確聚類模型、聚類密度以及對應的使用網格。
首先是劃分方法。這種方法的應用原理簡單來說就是聚類一堆散點,需要達到的聚類效果是同類點足夠近或不同類點足夠遠,在過程最為常見的使用算法為K-means算法。此種算法的應用優勢在于可針對大型數據集進行高效處理,無論是時間還是空間的復雜度均相對較低,但同樣具有優先選擇k點較為敏感的應用缺陷。
其次是基于層次的方法。這種方法一般包括層次聚類與分裂層次聚類,其核心原理在于各個點均作為底層聚類,并對聚類間的距離進行計算,合并相近聚類并在達到終止條件后結束[9];分裂層次聚類以包含全部數據點的聚類為起點,并能夠依據一定距離將子聚類進行分裂,且能夠持續推進分裂進程,直至分裂為每個聚類只有一個對應的數據點后即可結束,此過程最為常見的代表算法為BIRCH算法。從實際的算法應用情況來看,不僅具有較好的可解釋性,且聚類所產生的數據質量相對較高,但同樣有著較高的時間復雜度,即使在進行后續的改進處理后仍無法降低。
4.2 在評論語句聚類前所使用的關鍵技術
從當下的大數據應用環境來看,由于數據量相對較為龐大,因此想要將運算效率進一步提升需要針對數據展開相應的分類與挖掘處理工作。一般需要聯合使用MapReduce框架,這也是需要在電商平臺中使用基于MapReduce語句聚類方法的主要原因。
獲得相應的評論數據集后,即可展開相應的預處理工作,可獲得經過精練簡化處理的語句,用以將特征詞全部提取出來,包括分詞與過濾兩種操作。隨后即可對特征詞權重數據進行計算,該過程一般選擇使用TF-IDF計算方法,配合相似度計算方案即可在向量空間模型的幫助下,將獲取到的相似度數據轉化為相應的距離,最后即可展開相應的聚類操作[10]。通常使用K-means算法進行聚類,并在MapReduce框架下達到并行處理的相應目的。針對選取語句間的相似度方法,一般采取向量空間模型法,需要相關人員在對文本進行向量化處理后,基于所獲得的向量夾角余弦值最終確定文本語句之間的相似度。
4.2.1 特征詞的選取
在對文本向量化進行評價處理時,一般不將全部的詞匯在向量中表示,以免浪費性能,只需要顯示出能夠將語句含義全部表達的詞語即可,該部分分詞也被稱為特征詞。
第一是分詞。分詞的操作簡單來說就是將原本完整的語句劃分為多個字或詞,一般使用軟件實現分詞操作。若想要將分詞準確度進一步提升,建議最大限度地將產品的屬性詞與相關領域的詞匯予以保留,從而使得保留的詞匯具有一定的語句意義,使得經過處理后的詞匯仍然能夠表達出相應的語句含義,這也是保證最終聚類效果的重要基礎;
第二是去助詞、介詞及連詞。此類詞匯通常為虛詞,并不具備實際意義,因此在將相應的語句去除后并不會影響語句的本身含義。此種方法可在將向量維度降低后仍能夠保證語句的語義信息,起到了運算量簡化的重要作用;
第三是去代詞。雖然代詞并非虛詞,但代詞自身并不具有相應的準確含義,主要用于對某個主語進行指代。因此在后續操作過程中,所使用的軟件算法并不會將其放在相應的語境中獲取到相應的指代含義,建議在對此語進行過濾時選擇將其去除。
4.2.2 文本向量化表示
文本向量化簡單來說就是針對文本中的特征詞匯的句子向量的分量。在進行分詞處理時需要基于所組建的過濾詞庫將不需要的部分完全去除,所獲得的特征詞集合則是構建相似度計算模型的重要基礎。后續則需要對特征值在文本中所占據的權重進行計算,從而明確空間向量的相應數值,達到評論文本向量化的目的。
4.2.3 特征值權重
作為一種被經常應用的統計方法,TF-IDF被用于數據挖掘的加權過程,能夠對一類文件中字詞的重要程度進行評估。一般來說文件中字詞的出現次數越多,則表示其重要性越高。TF為詞頻,簡單來說就是在文檔中所出現的語句頻率,在計算時需要將特征詞匯出現的次數除以文檔的總字數。一般來說建議使用MapReduce框架,在Map階段統計各個節點所存儲的詞句,并在后續的Reduce階段完成對結果的匯總與計算。如此,不僅能夠將運算速度進一步加快,也能夠省略重復計算過程,縮短了權重的運算時間,將算法的整體執行效率全面提升。
結語
綜上所述,電子商務平臺在信息技術快速發展的背景下具備了強勢崛起的基礎條件,但需要注意的是互聯網仍然存在著自身的局限性。對于顧客來說,只能通過商家的宣傳了解產品的質量,在無法辨別產品實際使用效果的情況下可能會出現一定的經濟損失。為此需選擇使用針對海量評論數據的處理方案,將真正具有價值的信息進行充分挖掘,為客戶提供商品選擇關鍵引導條件,從而保證平臺與商家的權益,這也是需要特別關注基于電商平臺大數據挖掘系統設計流程的主要原因。
參考文獻:
[1]宋文智,白洪林,官潼筑,等.基于數據挖掘的跨境電商RCEP國別用戶畫像研究[J].中國新通信,2021,23(19):66-67.
[2]秦宇.基于人工智能的電商大數據分類與挖掘算法[J].電子技術與軟件工程,2021(14):146-147.
[3]郭燕萍.電商客戶數據挖掘中的模糊運算聚類算法分析[J].現代電子技術,2021,44(13):130-134.
[4]王治博.基于Hadoop的電商平臺用戶數據挖掘研究[D].北京:華北電力大學,2021.
[5]賈咪雪.基于差分進化粒子群算法的電商評論數據挖掘研究[D].上海:華中師范大學,2021.
[6]楊晨.基于數據挖掘技術的電商用戶購買行為預測研究[D].南京:南京大學,2021.
[7]吳濤.基于數據挖掘的電商客戶流失預測建模方法研究[J].安徽水利水電職業技術學院學報,2021,21(1):37-40.
[8]張書月.數據挖掘技術在電商情感規律分析中的應用研究[J].電腦知識與技術,2021,17(5):258-259.
[9]劉洪博.基于數據挖掘的電商網紅帶貨向量影響因素分析與預測[D].北京:對外經濟貿易大學,2020.
[10]鐘磊.基于電商消費大數據的客戶忠誠度預測方法研究[D].深圳:深圳大學,2020.
作者簡介:索紅升,碩士研究生,研究方向:軟件工程。