999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的電商數據挖掘技術分析

2024-05-07 02:48:44黃彬彬
中國新技術新產品 2024年6期
關鍵詞:數據挖掘關聯信息

李 梅 劉 銘 黃彬彬

(1.四川華新現代職業學院,四川 成都 610107;2.成都市鐵路中學校,四川 成都 610081)

隨著科學技術的進步,數據呈爆發性增長,形成了巨大的數據流,導致數據處理的規模逐漸擴大,為企業數據處理帶來了一定的難度。尤其是電商企業在實際發展建設的過程中會更依賴數據資源,企業在業務活動的過程中會產生大量的數據,為進一步了解消費者的購買行為,需要進一步挖掘相關數據內容,以此推動電商企業的發展。因此,在Hadoop框架的支持下,有效應用數據挖掘技術已成為重點研究內容。

1 Hadoop框架介紹

Hadoop是目前應用較為廣泛的一種編程開源框架,其在實際運用的過程中具有分布式的特點,在框架編程過程中主要應用Java語言。Hadoop框架示意如圖1所示,在運行的過程中為集群式處理提供了強有力的支持,不僅可以在分布式的環境內處理大量的數據內容,對數據進行儲存,還可以為多臺計算機提供擴展支持,提供本地計算和儲存服務。對Hadoop框架來說,Map Reduce計算模型是其中最重要的組成部分,也是實現云計算的基礎內容,在實際應用的過程中,整體流程比較簡單,編程模式也更簡化。Map Reduce計算模型在計算過程中主要利用分布式運算技術,對某一類問題進行解決和計算,從綜合的角度看,可以將其看成一種開發模型,為Hadoop提供服務。

圖1 Hadoop系統框架示意圖

2 研究過程

2.1 明確數據挖掘技術應用流程

從綜合角度看,可以將數據挖掘技術的應用分為以下5個步驟。1)需要陳述問題,闡明假設。在實際進行過程中,需要了解電商企業對數據的需求以及本次挖掘的最終目的,相關工作人員會對數據間的關系提出相應的假設,以此為中心,選擇更合適的算法并制定科學有效的數據挖掘方案,需要注意保證方案的詳細性以及全面性。2)數據收集。數據收集主要為兩種方法。一種是人為干涉,即工作人員按照相應的計劃和標準對工作流程進行控制,以此產生數據信息。另一種是避免人員干涉,即工作人員不得對工作造成影響,使其自然產生數據信息。數據的產生具有隨機性的特點,例如消費者交易記錄、Web爬蟲抓取信息等。在實際工作過程中需要將目標操作對象作為核心,在此基礎上選擇與其具有關聯性的數據集[1]。3)數據預處理。在對實際數據進行挖掘前,計算機會對大量的數據信息內容進行簡單處理,篩選不可用信息以及異常數據信息,并對其進行相應處理。對電商數據信息來說,需要對涉及消費者個人隱私的內容進行敏感處理,剔除存在錯誤或者無價值的信息。降低后續數據挖掘的工作量和工作難度。對缺少的內容來說,需要進行相應的補全處理,同時還需要將不同的數據格式轉化為同一種格式,為后續數據挖掘提供便利條件。4)數據挖掘。數據挖掘是整體數據挖掘技術的核心內容,在實際工作過程中,需要明確挖掘目標,選擇合適的數據挖掘方法,例如聚類算法、關聯規則法、分類法、偏差分析法以及時間序列預測法等,這幾種方法都是現階段較為常用的數據挖掘方法,應用這些方法不僅可以滿足電商企業的需求,還可以保證數據信息的全面性以及完整性。5)解析模型。完成數據挖掘后需要按照最初挖掘目標對其進行解析。在實際工作過程中,為進一步驗證挖掘結果的準確性,需要對相關的角度進行驗證工作,將有效價值信息提供給用戶。

2.2 應用階段算法研究

2.2.1 數據聚類分析

聚類分析和關聯規則挖掘是研究挖掘算法的重要途徑與方法。聚類分析是一種探索性數據分析技術,可以便于發現數據中隱藏的模式和結構,關聯規則是根據數據尋找數據間的關聯,加強兩者間的聯系,從而幫助技術人員更好地了解事物發展規律。為構建Hadoop電商數據挖掘技術,選擇兩種數據挖掘技術進行分析,闡述分析算法的同時,為后續電商系統數據挖掘分析做鋪墊[2]。

聚類算法類別多樣,根據樣本數據類型以及應用場景等因素選擇算法。按照類別包括劃分、層次、密度等聚類算法。在實際應用過程中,聚類算法通常是多種算法疊加。其中,劃分聚類是確定簇個數K,將樣本集劃分為K個簇,基于樣本為中心進行反復迭代計算,根據初始中心變化確定是否產生最佳聚類結果。層次聚類算法是基于給定的聚類數據集合按照層次分解,因此也被稱為數據類算法。將其理解為個體為類的開始,自上或自下的尋找同類聚合,見異類排除分類。密度聚類根據密度較高的點,將其鏈接,生成簇后確定相鄰密度閾值。網格聚類是將空間量化,形成網絡結構,便于聚類操作。在很多聚類算法中,K-means算法屬于劃分聚類算法的一種,通過迭代移動簇,尋找最佳聚類結果,該算法具有較好的特性,利用該算法有助于Hadoop電商數據挖掘技術應用。

2.2.2 K-means算法

means算法也稱K均值算法,需要確定聚類個數,隨機選擇簇中的對象K作為初始質心。將其劃分到其他簇中,經過迭代計算,更新樣本點。K-means算法計算需要隨機選擇樣本集,將其隨機劃分為K個簇,將樣本均值作為質心。中心為每個樣本分配簇,計算分配后簇的樣本均值。重復上述過程,直到質心不再變化、或準則函數收斂。計算過程如公式(1)所示。

式中:s(a,ni)為對象到聚類質心的距離,根據a建立j個屬性值,nij為質心屬性值。

在迭代計算過程中,質心需要不斷調整。按照規則計算K-means算法數據樣本平方誤差總和。K-means算法的實際算法流程如圖2所示,內部反復循環計算,確定K距離樣本點的距離并歸類的過程就是數據挖掘技術落實在實際工作的階段。針對后期電商數據挖掘處理,能夠運用傳統K-means算法進行計算,并在算法基礎上優化執行,提高算法執行效率。

圖2 K-means算法聚類算法流程

2.3 確定關聯規則

2.3.1 關聯規則定義

關聯規則挖掘,可以從數據集中發現項與項間的關系,根據樣本數據查找其他組事件中是否有能關聯數據的規則。頻繁項集能夠對數據進行分布式處理,提取數據集中的高頻率子項。利用頻繁集構建事務間的關系,設置項目集合,根據每個元素,給定數據集,在算法運行過程中對頻繁集處理,根據單個候選集出現次數對相關相集進行處理,滿足用戶需求。

2.3.2 關聯規則算法步驟

關聯算法挖掘過程分為兩個步驟如圖3所示。通常是尋找頻繁集,設置min閾值,根據每個項集對比閾值,若大于或等于頻繁項集則無法形成關聯生成關聯規則,需要根據頻繁集尋找可信度大于最小閾值的關聯規則。在算法步驟中,尋找頻繁項集是關鍵,關聯規則算法有Apriori算法和FP-Growth。鑒于Apriori算法有更好的擴展性,因此優先選擇Apriori算法用于關聯計算。

圖3 關聯規則挖掘基本步驟

2.3.3 Apriori算法

Apriori算法是一種基于水平數據分布的算法,具體流程如圖4所示。通過反復式歸一迭代,從頻繁集中尋找,根據K項集導出K+1項集,直到找不到為止。實際應用就是根據購買記錄,按照Apriori算法執行,選定參數閾值,當認定某個商品閾值頻率高于設定時,將其作為頻繁項集。根據數據集中的項目在自動查找過程中生成候選集,滿足條件的最小閾值確定為頻繁項集。

圖4 Apriori算法流程圖

3 方法設計

3.1 整體設計

設計人員在進行實際設計的過程中,需要結合當下電商市場環境,將Hadoop與算法結合,構建完整的數據處理系統,具體框架如圖5所示。系統主要部分包括以下階段。第一階段為準備階段,由平臺和軟件采集各類商品信息,Hadoop讀取相關業務信息到HDFS中,完成數據存儲與預處理。第二階段是數據處理,根據不同數據對其挖掘分析,實現并行化處理,建立對應的數據分析模型。第三階段根據數據處理結果轉化,將數據轉化為相應格式。第四階段是根據集群處理,返回前端后呈現不同類別的圖形展示。Hadoop數據挖掘技術結合了批處理技術挖掘算法,有較強的實用性。經過前期分析測試,驗證系統數據處理可行。

圖5 系統框架設計圖

3.2 數據準備

由于電商類目較多,因此在對數據進行挖掘過程中,可以根據電商產品選擇門店銷售數據庫,根據數據庫進行設置,分析數據來源。對周期訂單、預約訂單等數據挖掘,尋找有價值的潛在信息,幫助企業管理者科學決策。數據需要經過預處理,取讀后進行挖掘處理。根據K-means聚類算法分析,對數據進行序列文件轉換,對數據進行深入挖掘,取讀后的數據轉換格式,方便查找。當執行K-means算法時,要重視MahoutAPI調用,采用聚類數據轉化的方式對閾值進行調整,避免閾值設置不合理影響K-means算法執行。執行后的數據能看到聚類分析結果的具體內容,輸出目錄中能清楚看到迭代轉換次數。將其轉換成json格式返回前端。使用Apriori進行關聯分析,設計map函數和reduce函數,分析客戶與購買商品間的潛在聯系。使用程序代碼,選定數據集進行關聯,獲得候選集數據。將數據挖掘內容以圖形繪制的表現出來,能直接發現潛在問題。結合企業與客戶的實際需求,讀取數據轉化分析,將轉化后的數據存在在HDFS中,使用Web頁面繪制并加載。

4 結果驗證討論

對K-means算法過程、公式進行分析,能夠看出K-means算法適用于大數據集的積累處理,經過K-means算法處理后數據更容易理解。該算法有較好的聚類應用效果,但是傳統K-means算法存在一定不足,需要更改其單機運行模式,海量數據聚類受到單機限制,質心計算容易出現異常數據影響,針對傳統K-means算法的不足,將其與Hadoop集群融合,強化算法執行,加強算法的執行效果。

4.1 Hadoop平臺聚類算法執行過程

集群內需要對平臺上的很多數據進行處理,將數據集分成多個塊,將其存儲后,經過分布式處理,保證函數能對每塊進行處理。將函數輸入作為數據樣本點和質心的距離,根據距離添加距離最近的簇,輸出更新的簇標號和簇間樣本點。在模型中,為提高算法效率,會加入函數提高計算的準確性。map()作為輸入,合并相同key值,輸出合并結果。將計算結果輸入,更新簇的質心,形成新的質心。舊的質心根據距離收斂閾值,判斷聚類是否結束,反之繼續中間的循環操作[3]。

4.2 K-means算法并行實現

算法庫中的K-means算法能夠通過Mappreduce基于架構運行,不僅能保證K-means算法能夠像普通程序一樣讀寫運行,還能保證K-means算法在集群上執行,以分布式文件系統上讀寫數據。將聚類算法分配到不同機器上,保證每個map處理樣本點的一個數據塊。

為提高執行效率,經過緩存的質心經過一次算法迭代,質心就會更新一次。經過函數反復迭代運行,在K-means算法執行過程中,通過map就能夠實現數據劃分,執行順序如圖6所示。K-means算法并行化執行是從KMeansDriver類開始,逐步進入程序運行系統。

圖6 K-means算法并行化過程

4.3 基于Hadoop的電商數據挖掘技術系統效果分析

電商平臺數據挖掘后,主要用來預測消費者行為、探索市場趨勢、提高營銷效率和制定決策,因此實現可視化十分重要。可視化圖形有多種類型,需要創建良好的試驗環境才便于更好地輸出數據。為更好地驗證可視化效果,需要讀取較多數據表,硬件環境、軟件環境缺一不可。搭建Hadoop集群,從管理者角度和消費者角度,對數據處理分析。同等數據量下,傳統算法與并行算法的結果對比見表1,能夠看出合并算法執行化速度更快,加快了數據挖掘分析速度。傳統的K-means算法和Hadoop平臺相結合,能夠更快速地反饋結果,以不同視角展示訂單關聯圖以及信息,保證及時對數據進行處理和反饋,對企業來說體驗良好。

表1 K-means算法運行時間(單位:s)

數據挖掘技術的應用,不僅是簡單的整合數據信息,還需要對數據信息進行處理,探究數據間存在的關系,總結其中的模式以及規律并不斷輸出結果。從表1中可以看出,并行K-means算法提高了數據挖掘的效率,為后續工作節約了時間,推動整體工作發展,為電商工作提供了強有力的支持。

5 結語

綜上所述,目前科學技術的不斷進步和發展為電商企業提供了一定的活力和動力。電商企業在實際發展建設的過程中,除了需要產品以及店鋪運營外,還需要大量數據信息的支持,在大數據時代下最不缺少的就是數據信息,目前數據信息的種類繁多。技術人員在Hadoop結構的支持下積極應用電商數據挖掘技術,不僅可以保證數據信息的完整性以及全面性,還可以對數據信息進行相應處理,保證數據的有效性,避免出現錯誤信息或是重復信息等,為電商企業的發展與創新提供支持。

猜你喜歡
數據挖掘關聯信息
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
奇趣搭配
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
語言學與修辭學:關聯與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
主站蜘蛛池模板: 四虎亚洲国产成人久久精品| 四虎国产在线观看| 亚洲三级电影在线播放| 婷婷亚洲最大| 精品国产三级在线观看| 国产第一页免费浮力影院| 欧美视频在线不卡| 国产97公开成人免费视频| 在线不卡免费视频| 91福利一区二区三区| 被公侵犯人妻少妇一区二区三区| 国产毛片高清一级国语| 国产精品13页| 456亚洲人成高清在线| 国产农村妇女精品一二区| 乱人伦中文视频在线观看免费| 99精品在线看| 国产69囗曝护士吞精在线视频| 国产亚洲精品97在线观看| 免费jjzz在在线播放国产| 国产一级视频久久| 91免费在线看| 国产国产人免费视频成18| www.狠狠| 亚洲精品在线观看91| 日本人又色又爽的视频| 欧美.成人.综合在线| 国产精品亚洲五月天高清| 亚洲日产2021三区在线| 91精品综合| 久久网欧美| 欧美福利在线| 国产成人调教在线视频| 99re热精品视频国产免费| 久久黄色毛片| 亚洲一区免费看| 亚洲精品国产综合99| 亚洲天堂网在线观看视频| 91国内外精品自在线播放| 国产高清精品在线91| 欧美成人一级| 孕妇高潮太爽了在线观看免费| 国产18在线播放| 永久免费av网站可以直接看的| 妇女自拍偷自拍亚洲精品| 99精品热视频这里只有精品7| 国内精品伊人久久久久7777人| 韩日免费小视频| 欧美成人国产| 在线无码九区| 亚洲高清日韩heyzo| 中文字幕伦视频| 国精品91人妻无码一区二区三区| 欧美中文字幕在线二区| 国产一级特黄aa级特黄裸毛片| 亚洲欧洲日韩综合色天使| 在线观看热码亚洲av每日更新| 亚洲无限乱码一二三四区| 国产成人1024精品| 亚洲欧美成人网| 小说区 亚洲 自拍 另类| 国产熟女一级毛片| 亚洲综合中文字幕国产精品欧美| 美女高潮全身流白浆福利区| 亚洲国产成人超福利久久精品| 亚洲人成在线精品| 国产91高跟丝袜| 一级一级特黄女人精品毛片| 无码一区中文字幕| 欧美黄色网站在线看| 国产一级片网址| 日本精品视频一区二区| 经典三级久久| 亚洲 欧美 偷自乱 图片| 欧洲一区二区三区无码| 亚洲男人天堂久久| 在线观看无码a∨| 国产导航在线| 国产拍在线| 一本色道久久88综合日韩精品| 天堂网国产| 91毛片网|