999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)平臺聚類分析系統(tǒng)的設(shè)計與實現(xiàn)

2024-04-29 00:00:00孫雪峰
數(shù)字通信世界 2024年2期
關(guān)鍵詞:大數(shù)據(jù)

摘要:互聯(lián)網(wǎng)領(lǐng)域蘊含著海量的數(shù)據(jù)信息,且這些信息呈現(xiàn)出多樣性以及復(fù)雜性,總體而言,可以大致將這些數(shù)據(jù)劃分成用戶行為數(shù)據(jù)和內(nèi)容數(shù)據(jù),科學(xué)精細(xì)地分析處理這些數(shù)據(jù),是強化用戶分群治理效率、內(nèi)容分類研究以及實現(xiàn)精細(xì)化運營的重要手段。但現(xiàn)階段尚無一站式的大數(shù)據(jù)聚類分析系統(tǒng)可供人們使用,因此,文章詳細(xì)分析和闡述了基于大數(shù)據(jù)平臺的聚類分析系統(tǒng)設(shè)計與實現(xiàn),以此為相關(guān)工作人員提供參考。

關(guān)鍵詞:大數(shù)據(jù);聚類分析;系統(tǒng)設(shè)計;系統(tǒng)實現(xiàn)

Design and Implementation of Cluster Analysis System for Big Data Platform

SUN Xuefeng

(Capital University of Economics and Trade, Miyun Branch, Beijing 101500, China)

Abstract: The internet field contains a vast amount of data information, which presents diversity and complexity. Overall, this data can be roughly divided into user behavior data and content data, and scientifically and meticulously analyzed and processed. It is an important means to strengthen the efficiency of user group governance, research on content classification, and achieve refined operations. However, at present, there is no one-stop big data clustering analysis system available for the public to use. Therefore, this article conducts research on this topic, analyzes and elaborates in detail on the design and implementation of clustering analysis systems based on big data platforms, in order to provide reference for relevant staff.

Key words: big data; cluster analysis; system design; system implementation

1" "大數(shù)據(jù)平臺聚類分析系統(tǒng)架構(gòu)設(shè)計

1.1 功能架構(gòu)設(shè)計

用戶聚類分析系統(tǒng)功能架構(gòu)設(shè)計首先是創(chuàng)建聚類任務(wù),根據(jù)相對應(yīng)的核心條件(比如圈人條件以及調(diào)度頻率等),待聚類任務(wù)運行完畢后創(chuàng)建cluster level數(shù)據(jù)便能夠予以可視化呈現(xiàn)。之后在可視化呈現(xiàn)的基礎(chǔ)上通過人工予以再次標(biāo)注,并予以再次聚合計算,如此便可生成tribe level指標(biāo)數(shù)據(jù)并用于用戶分析。如圖1所示[1]。

1.2 技術(shù)架構(gòu)設(shè)計

(1)前端展示:具備與用戶進(jìn)行交互的功能。用戶通過該頁面登錄進(jìn)入該聚類分析系統(tǒng),之后用戶進(jìn)行的創(chuàng)建聚類任務(wù)、查看聚類結(jié)果等相關(guān)操作行為均在該模塊范圍內(nèi)[2]。

(2)后端調(diào)度:該模塊的核心職責(zé)是響應(yīng)前端傳輸至此的全部請求,同時和數(shù)據(jù)庫、HDFS、Hive等系統(tǒng)協(xié)同合作,將全部信息內(nèi)容予以歸類整合以及權(quán)限校驗等,最后利用JSON格式傳輸回前端,再通過前端的渲染之后呈現(xiàn)至用戶的顯示設(shè)備上。

(3)算法聚類:該模塊在獲取到后端圈選完成的人群樣本之后會予以K-Means聚類分析,把接收的樣本全部根據(jù)用戶設(shè)置的K值予以聚類,再把存在一致或類似行為特點的人聚合至相同的cluster內(nèi),最后便會獲得一份極具應(yīng)用價值的離線數(shù)據(jù)信息,該信息內(nèi)容涵蓋關(guān)鍵的cluster以及user對應(yīng)關(guān)系,全部cluster分布,接著后端模塊便可通過該信息成果實施離線模式的計算,以此獲得全部cluster指標(biāo)。

(4)離線計算:該模塊在聚類結(jié)束后,會對聚類保存的內(nèi)容予以附加指標(biāo)計算,以此獲取全部cluster指標(biāo)。cluster指標(biāo)的獲取主要源于維度建模的數(shù)據(jù)庫機制,屬于極具代表性的大數(shù)據(jù)離線計算方法,其運行原理為工作流的編排方法,各個聚類任務(wù)間均能夠非間接性地配備單向依賴關(guān)系,其在觸發(fā)工作流任務(wù)計算期間還能夠根據(jù)提前設(shè)定完成的層級予以運算,以此獲取最好結(jié)果[3]。

2" "大數(shù)據(jù)平臺聚類分析系統(tǒng)的實現(xiàn)——算法聚類實現(xiàn)

2.1 算法選型

先明確目標(biāo),本文中設(shè)計的聚類分析系統(tǒng),其目標(biāo)是完成對用戶以及其他內(nèi)容的聚類分析。但需要注意的是,因公司內(nèi)部的算法部門早已對其予以算法模型性訓(xùn)練,因此多數(shù)用戶均具備64維向量結(jié)果。站在總目標(biāo)的角度分析,不僅要具備允許用戶進(jìn)行個性化設(shè)置聚類顆粒度的性能,還需呈現(xiàn)cluster演變歷程和移動變化信息。因此,根據(jù)以上重點內(nèi)容,能夠明確并篩選出最佳聚類算法時間要素(具體內(nèi)容如下),之后遵循要素進(jìn)行算法實驗,以此促成大數(shù)據(jù)平臺聚類分析系統(tǒng)性能的實現(xiàn)[4]。

2.1.1 要素一:目標(biāo)64維推薦向量在空間中的分布情況

從聚類系統(tǒng)內(nèi)目標(biāo)用戶分析需求最高的樣本群體中任意選擇了5 000位用戶,并對其64維推薦向量予以降維處理,待降至二維之后便可以觀察其分布狀態(tài)(見圖3)。各個群體間具有重復(fù)部分,這便證明差異性群體間依舊存在相似行為操作,如此就能夠?qū)⑵錃w納成大群體tribe,因此用戶推薦向量于二維空間中的分布狀態(tài)呈球狀和凸集的數(shù)據(jù)。

2.1.2 要素二:算法的復(fù)雜性、數(shù)據(jù)量及其資源的trade-off

因該聚類分析系統(tǒng)的目標(biāo)為構(gòu)建基于大數(shù)據(jù)的一站式聚類分析平臺,且聚類任務(wù)均為用戶自主選定,傳輸文件的樣本選定方法控制在最大只允許1 GB的文件予以上傳,因利用以上條件選定的樣本數(shù)量難以得到有效控制,所以待用戶精準(zhǔn)選定某范圍時,其樣本大約會有幾十萬,若條件控制并非高精度,其樣本的實際數(shù)量便會達(dá)到千萬及以上。針對此類樣本,應(yīng)有效地得到其64維推薦向量,如此便會應(yīng)用到極多機器資源(比如內(nèi)存以及CPU等)。基于此,選定和應(yīng)用的算法決不可具備極強的復(fù)雜性,否則算法便會耗費大量時間進(jìn)行擬合,同時聚類系統(tǒng)也要于相同時段對多種差異性任務(wù)予以聚類,進(jìn)而占據(jù)過多資源造成浪費[5]。

2.1.3 要素三:可理解性以及算法穩(wěn)定性

(1)可理解性:此聚類分析系統(tǒng)的目標(biāo)用戶普遍為產(chǎn)品經(jīng)理、運營以及管理人員,多數(shù)用戶早已對其要觀察監(jiān)測的對象有一定了解,但也僅限于數(shù)據(jù)樣本自身,如年齡、地域、操作系統(tǒng)的分布等。在創(chuàng)建聚類任務(wù)過程中,與算法強相關(guān)的錄入信息不可過多,盡量控制到最少,僅輸入一個聚類顆粒度也允許,如果仍需用戶再次選定相應(yīng)的數(shù)據(jù)信息,便不會對用戶快速掌握此系統(tǒng)而提供便利。

(2)算法穩(wěn)定性:此穩(wěn)定性具備雙層意義:一是指算法運行的穩(wěn)定性,即在一致性的輸入和較小差異性的資源條件下,需要在較小差異性的時間內(nèi)穩(wěn)定得出一致結(jié)果;二是指獨立聚類任務(wù)差異性周期調(diào)度instance中的cluster需不間斷地維持穩(wěn)定[6]。

2.2 算法實驗

(1)P y t h o n S k l e a r n :通過P y t h o n具備的Sklearn機器,掌握package內(nèi)具備的clustering算法邏輯思想以及應(yīng)用方法,再選擇高契合度的KMeans或MiniBatchKMeans進(jìn)行聚類。

(2)Spark Scala Mllib:通過Spark Scala內(nèi)含有的Mlib機器,有效掌握package內(nèi)具備的clustering算法邏輯思想以及應(yīng)用方法進(jìn)行聚類。Spark Yarn分布式執(zhí)行體系,其制定速度存在較大的波動性,速度值忽高忽低,且極易受到Y(jié)arn隊列資源的干擾和束縛,若Yarn隊列資源儲量足夠豐富,可顯著提升其執(zhí)行速度和穩(wěn)定性。

(3)大小數(shù)據(jù)量場景:因顧慮高資源是否充足,Spark Yarn集群資源相對稀缺,極易高干擾聚類算法的實施速度和效果,因此該處進(jìn)行了大小數(shù)據(jù)場景拆分處理。

(4)本次實驗涉及的相關(guān)數(shù)據(jù)信息:Python的本地內(nèi)存容量為276 GB,且還支持?jǐn)?shù)據(jù)量的持續(xù)增加,其向量維度為64維,聚類算法實現(xiàn)的詳細(xì)步驟見圖4所示。

3" "結(jié)束語

綜上所述,為有效設(shè)計并構(gòu)建出基于大數(shù)據(jù)的一站式聚類分析系統(tǒng),本文從聚類系統(tǒng)的功能以及技術(shù)架構(gòu)入手,詳細(xì)分析和闡述了其設(shè)計內(nèi)容,并根據(jù)三要素選定聚類分析系統(tǒng)的高匹配度聚類算法,同時還給出了實驗相關(guān)數(shù)據(jù),為用戶內(nèi)容以及其他內(nèi)容提供高效處理的平臺,同時也給該領(lǐng)域的后續(xù)研究提供參考。

參考文獻(xiàn)

[1] 龔靜,劉現(xiàn)芳.云計算中基于群體智能算法的大數(shù)據(jù)聚類挖掘[J].科技創(chuàng)新與生產(chǎn)力,2022(9):87-90.

[2] 江雪姣.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)信息資源分類檢索方法[J].信息與電腦(理論版),2022,34(13):10-12.

[3] 符春.大數(shù)據(jù)平臺聚類分析系統(tǒng)的設(shè)計[J].電子技術(shù)與軟件工程,2022(13):202-205.

[4] 肖川.基于Spark的集成電路專利數(shù)據(jù)聚類分析研究與實現(xiàn)[D].南昌:南昌大學(xué),2022.

[5] 解瑩.基于大數(shù)據(jù)聚類分析的電網(wǎng)信息化運維系統(tǒng)設(shè)計[J].電子技術(shù)與軟件工程,2020(15):165-166.

[6] 翁健.基于Hadoop的IPv6網(wǎng)絡(luò)安全日志大數(shù)據(jù)的聚類分析與應(yīng)用[D].蘭州:蘭州交通大學(xué),2019.

作者簡介:孫雪峰(1980-),男,北京人,講師,博士研究生,研究方向為計算機應(yīng)用技術(shù)專業(yè)、計算機網(wǎng)絡(luò)與應(yīng)用技術(shù)、新媒體與網(wǎng)絡(luò)傳播。

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 精久久久久无码区中文字幕| 综合天天色| 亚洲乱强伦| 伊人久久婷婷| 亚洲中文无码av永久伊人| 欧美区国产区| 亚洲成人黄色在线观看| 亚洲最猛黑人xxxx黑人猛交| 亚洲天堂免费在线视频| 99久久免费精品特色大片| 国产亚洲精品91| 最新午夜男女福利片视频| 东京热高清无码精品| 国产在线拍偷自揄拍精品| 日本高清有码人妻| 日本国产在线| 在线国产91| 四虎影视无码永久免费观看| 中文字幕首页系列人妻| 又爽又大又黄a级毛片在线视频| 国内精品视频区在线2021| 五月天天天色| 日本午夜三级| 日本午夜精品一本在线观看| 国模沟沟一区二区三区| 国产综合精品一区二区| 亚洲精品第一页不卡| 99热6这里只有精品| 欧美人与牲动交a欧美精品| 欧美国产综合色视频| 日韩在线2020专区| 91精品综合| 久久久久免费看成人影片| 国产波多野结衣中文在线播放| 在线看片中文字幕| 伊伊人成亚洲综合人网7777| 91成人在线免费视频| 四虎永久在线视频| 国产成人艳妇AA视频在线| 国产精品无码作爱| 国产精品私拍99pans大尺度| 国产精品网拍在线| 制服丝袜国产精品| 国产黄网永久免费| 久久精品波多野结衣| lhav亚洲精品| 亚洲久悠悠色悠在线播放| 老司国产精品视频91| 日韩一级毛一欧美一国产| 波多野结衣一二三| 国产精品女主播| 日韩国产一区二区三区无码| 2020精品极品国产色在线观看| 日韩在线观看网站| 91蝌蚪视频在线观看| 欧美a在线视频| 免费一级α片在线观看| 亚洲色图狠狠干| 日本久久久久久免费网络| 精品少妇人妻一区二区| 午夜性爽视频男人的天堂| 国产欧美又粗又猛又爽老| 久久久波多野结衣av一区二区| 亚洲综合极品香蕉久久网| 亚洲妓女综合网995久久| 为你提供最新久久精品久久综合| 国产欧美日韩一区二区视频在线| 亚洲水蜜桃久久综合网站| 三级毛片在线播放| 国产在线精品99一区不卡| 国产午夜小视频| 波多野结衣视频网站| 久久亚洲中文字幕精品一区| 成AV人片一区二区三区久久| 欧美a在线看| 亚洲综合亚洲国产尤物| 国产视频入口| 日本高清在线看免费观看| 亚洲欧美精品在线| 成人国产免费| 99热这里只有免费国产精品| 久久国产精品麻豆系列|