999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類算法的二分類問(wèn)題研究

2024-05-29 00:00:00鄭生
無(wú)線互聯(lián)科技 2024年4期
關(guān)鍵詞:機(jī)器學(xué)習(xí)分類

作者簡(jiǎn)介:鄭生(1988—),男,工程師,本科;研究方向:大數(shù)據(jù)應(yīng)用。

摘要:分類預(yù)測(cè)是機(jī)器學(xué)習(xí)的基礎(chǔ)任務(wù),在機(jī)器視覺(jué)、文本分析、在線廣告等領(lǐng)域均有廣泛的應(yīng)用,對(duì)行業(yè)發(fā)展具有極大的促進(jìn)作用。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模不斷擴(kuò)大,復(fù)雜的高維數(shù)據(jù)使得傳統(tǒng)的分析方法變得困難,以至于現(xiàn)有的深度學(xué)習(xí)模型在對(duì)復(fù)雜數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)時(shí),常常出現(xiàn)預(yù)測(cè)性能不夠理想的情況。在廣告點(diǎn)擊預(yù)測(cè)領(lǐng)域,通過(guò)引入聚類方法,充分利用數(shù)據(jù)內(nèi)在的隱式關(guān)系,有助于構(gòu)建更準(zhǔn)確、魯棒性更好的分類模型。

關(guān)鍵詞:機(jī)器學(xué)習(xí);聚類;廣告點(diǎn)擊;分類

中圖分類號(hào):TP181文獻(xiàn)標(biāo)志碼:A

0引言

在線廣告,也稱為網(wǎng)絡(luò)廣告,指的是在線上媒體投放的廣告,在短短十幾年的發(fā)展過(guò)程中,已經(jīng)形成了以人群為投放目標(biāo)、以產(chǎn)品為導(dǎo)向的技術(shù)型投放模式[1]。隨著計(jì)算廣告技術(shù)的不斷發(fā)展,廣告的定向投放逐漸由基于網(wǎng)頁(yè)內(nèi)容的定向轉(zhuǎn)變?yōu)榛谑鼙姷亩ㄏ颍瑥V告投放的最終目標(biāo)是為特定用戶提供最適合的廣告內(nèi)容[2]。廣告觸達(dá)用戶后,是否被點(diǎn)擊是一個(gè)典型的二分類問(wèn)題,廣告總點(diǎn)擊與總曝光的比值,稱為廣告點(diǎn)擊率(ClickThroughRate,CTR)。目前,隨著廣告市場(chǎng)的精細(xì)化發(fā)展,定向廣告投放已成為趨勢(shì),針對(duì)特定廣告的CTR的預(yù)測(cè)研究變得更具挑戰(zhàn)性。在CTR分類任務(wù)中,引入聚類可以提高預(yù)測(cè)準(zhǔn)確性和預(yù)測(cè)效率。

1多種聚類比較

11聚類與分類

作為無(wú)監(jiān)督機(jī)器學(xué)習(xí)方法之一,聚類算法能夠?qū)?shù)據(jù)進(jìn)行無(wú)監(jiān)督分類,將相似數(shù)據(jù)歸為同一簇。相較之下,分類作為一種監(jiān)督學(xué)習(xí)方法,需要依賴預(yù)先存在的標(biāo)簽或類別信息來(lái)訓(xùn)練模型,使其先學(xué)習(xí)后泛化,從而對(duì)未知數(shù)據(jù)進(jìn)行分類。在實(shí)際應(yīng)用中,人們常常將聚類與分類相結(jié)合,以提升模型性能及準(zhǔn)確性。在某些場(chǎng)景中,聚類能起到輔助分類的作用,因?yàn)榫垲惸軌蚪沂緮?shù)據(jù)中的隱含規(guī)律和結(jié)構(gòu),有助于更好地理解數(shù)據(jù)。這種融合為分類任務(wù)帶來(lái)了潛在優(yōu)勢(shì),有助于提高模型性能。對(duì)于分類問(wèn)題,特征工程是必要的流程,完整的特征工程主要包含了特征使用、特征獲取、特征處理和特征監(jiān)控4個(gè)環(huán)節(jié)[3],聚類在分類問(wèn)題中的應(yīng)用,可視為特征獲取。沒(méi)有單一的標(biāo)準(zhǔn)去度量聚類的數(shù)據(jù)在真實(shí)世界中的效果,聚類的性質(zhì)是否很好地對(duì)應(yīng)到真實(shí)世界的性質(zhì)也是未知的,同時(shí),也可能有許多不同的聚類都能很好地對(duì)應(yīng)到現(xiàn)實(shí)世界的某些屬性[4]。

12幾種常用的分類

一般常用的聚類算法主要包括K-means聚類、層次聚類、DBSCAN聚類、高斯混合模型聚類等。K-means聚類是一種基于距離的聚類方法,通過(guò)迭代將數(shù)據(jù)點(diǎn)分配到簇中心,直到簇中心的位置不再發(fā)生變化;層次聚類則依據(jù)數(shù)據(jù)間的相似度進(jìn)行聚類,將數(shù)據(jù)點(diǎn)分為不同的層次,形成層次樹(shù);DBSCAN聚類是一種基于密度的聚類方法,通過(guò)確定數(shù)據(jù)點(diǎn)的密度進(jìn)行聚類;高斯混合模型聚類作為基于概率模型的聚類算法,可以將數(shù)據(jù)集分成多個(gè)高斯分布的簇。以上這些聚類算法在數(shù)據(jù)挖掘領(lǐng)域有著廣泛的應(yīng)用。在聚類算法的選擇上,不同的聚類算法具有不同的優(yōu)勢(shì)與局限,并適用于不同的應(yīng)用場(chǎng)景。

121K-means聚類

在日常應(yīng)用中,K-means聚類因其簡(jiǎn)單性、易操作、高計(jì)算效率等特性,能夠被大規(guī)模應(yīng)用,是目前最直接的聚類算法。K-means盡管操作簡(jiǎn)單,但該算法假設(shè)簇是球形且大小相等,并不適用于所有的數(shù)據(jù)集。此外,K-means對(duì)質(zhì)心的初始選擇較為敏感,并需預(yù)先指定簇的數(shù)量(K),其局限性亦不容忽視。

122層次聚類

層次聚類算法具備自動(dòng)識(shí)別聚類數(shù)量的能力,無(wú)需像K-means算法那樣指定初始聚類中心。該算法根據(jù)樣本間的距離建立樹(shù)形結(jié)構(gòu),逐步將樣本合并成不同的簇,并在聚類結(jié)果的可視化展示方面表現(xiàn)出良好效果。但是,層次聚類算法的計(jì)算復(fù)雜度較高,不適用于處理大型的數(shù)據(jù)集。

123DBSCAN聚類

DBSCAN是一種基于密度的聚類算法,將高維空間中彼此接近的數(shù)據(jù)點(diǎn)予以聚合。與K-means算法不同的是,DBSCAN無(wú)需預(yù)先設(shè)定簇的數(shù)量,且它不假定簇是球形的,能夠發(fā)現(xiàn)任意形狀的簇,例如非凸形或密度差異較大的簇,故此算法適用于密度分布不均勻的數(shù)據(jù)集。然而,DBSCAN的性能容易受半徑(eps)和最小點(diǎn)數(shù)(minPts)等超參數(shù)選擇的影響。

124高斯混合模型聚類

高斯混合模型聚類由于能夠通過(guò)柔性邊界來(lái)適應(yīng)不同形狀和大小的簇,在處理數(shù)據(jù)集中的噪聲和異常值方面性能較優(yōu)。此外,高斯混合模型聚類可以提供更為精確的概率分布,從而更好地生成模型。對(duì)于復(fù)雜的數(shù)據(jù)集,該聚類模型可以更好地?cái)M合數(shù)據(jù),靈活地處理數(shù)據(jù)集中的缺失值。但是與層次聚類相比,高斯混合模型聚類在計(jì)算資源和參數(shù)調(diào)整方面要求較高,因此需要較高的技術(shù)門(mén)檻和實(shí)踐經(jīng)驗(yàn)。相較于DBSCAN聚類,高斯混合模型聚類通過(guò)最大似然估計(jì)來(lái)確定模型參數(shù),能夠更優(yōu)地處理高維數(shù)據(jù)集,并能為理解數(shù)據(jù)提供更為豐富的信息。

13聚類方法的選擇

在實(shí)際應(yīng)用中,為確保選擇適合特定數(shù)據(jù)集的聚類算法,研究人員應(yīng)根據(jù)各類聚類方法的特點(diǎn),全面考量數(shù)據(jù)集規(guī)模、數(shù)據(jù)特征、聚類數(shù)量以及噪聲數(shù)據(jù)等因素,針對(duì)具體數(shù)據(jù)集的特性選擇適當(dāng)?shù)木垲惙椒ǎ⒔Y(jié)合相關(guān)領(lǐng)域知識(shí)進(jìn)行優(yōu)化和改進(jìn)。合適的聚類方法的應(yīng)用,可以高效地將數(shù)據(jù)集進(jìn)行分組,為后續(xù)的數(shù)據(jù)分析和應(yīng)用奠定基礎(chǔ)。

2實(shí)驗(yàn)設(shè)計(jì)

21數(shù)據(jù)集說(shuō)明

本次實(shí)驗(yàn)設(shè)計(jì)使用kaggle競(jìng)賽上公開(kāi)的Criteo數(shù)據(jù)集。Criteo數(shù)據(jù)集是由全球知名廣告公司Criteo于2014年贊助舉辦的DisplayAdvertisingChallenge比賽上提供的數(shù)據(jù)。該數(shù)據(jù)集擁有的數(shù)據(jù)超過(guò)4000萬(wàn)條,涵蓋了大量廣告點(diǎn)擊數(shù)據(jù),具有較高的知名度,應(yīng)用廣泛。數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)特征如下。

label:標(biāo)簽,表示目標(biāo)廣告被點(diǎn)擊(1)或未點(diǎn)擊(0);

I1—I13:數(shù)值型變量特征,共13個(gè);

C1—C26:分類型變量特征,共26個(gè)。

源數(shù)據(jù)已經(jīng)脫敏處理,用戶信息已經(jīng)被加密。以下實(shí)驗(yàn)分別采用K-means聚類方法和高斯混合聚類方法進(jìn)行實(shí)證分析,以探討聚類方法在分類問(wèn)題中的應(yīng)用價(jià)值。

22分類問(wèn)題評(píng)價(jià)

評(píng)價(jià)二分類預(yù)測(cè)模型的常用指標(biāo)有對(duì)數(shù)損失(logloss)和曲線下面積(AUC)。其中,logloss的取值范圍是0到無(wú)窮,越接近0代表預(yù)測(cè)性能越好,而AUC指標(biāo)的取值范圍是0到1,越接近1代表模型預(yù)測(cè)性能越好。

本次實(shí)驗(yàn)采用融合神經(jīng)網(wǎng)絡(luò)與線性模型的DeepFM模型作為基礎(chǔ)實(shí)驗(yàn)?zāi)P汀Mㄟ^(guò)K-means聚類將數(shù)據(jù)集劃分為若干組,針對(duì)各個(gè)分組的數(shù)據(jù)集分別應(yīng)用DeepFM模型,統(tǒng)計(jì)logloss和AUC得分。在此基礎(chǔ)上,將實(shí)驗(yàn)結(jié)果與未經(jīng)過(guò)聚類分組的整體數(shù)據(jù)集(對(duì)照組)在預(yù)測(cè)CTR任務(wù)中的得分進(jìn)行對(duì)比。在進(jìn)行K-means聚類前,需預(yù)先設(shè)定聚類數(shù)量(K)。K值的確定可以采用多種方法,如肘部法則(ElbowMethod)、輪廓系數(shù)(SilhouetteCoefficient)、BIC(BayesianInformationCriterion)以及AIC(AkaikeInformationCriterion)等。需要注意的是,這些方法在計(jì)算復(fù)雜度上存在差異,其中,肘部法則和輪廓系數(shù)的計(jì)算復(fù)雜度較低,而B(niǎo)IC和AIC的計(jì)算復(fù)雜度相對(duì)較高。

23數(shù)據(jù)處理說(shuō)明

鑒于K-means算法對(duì)數(shù)據(jù)集內(nèi)的連續(xù)型數(shù)值變量的量綱和異常值較為敏感,在進(jìn)行聚類前,需先對(duì)數(shù)據(jù)集采取異常值處理和數(shù)據(jù)標(biāo)準(zhǔn)化處理。常見(jiàn)的數(shù)據(jù)標(biāo)準(zhǔn)化方法包括MinMax、Z-score以及l(fā)og對(duì)數(shù)變換等,本文選擇log對(duì)數(shù)變換以壓縮數(shù)值型變量的量綱。因原始數(shù)據(jù)規(guī)模較大,為確保計(jì)算效率,本文對(duì)原始數(shù)據(jù)進(jìn)行1000萬(wàn)行的抽樣,構(gòu)建一個(gè)較小規(guī)模的新數(shù)據(jù)集,以下簡(jiǎn)稱為“Criteo數(shù)據(jù)集”。

3實(shí)驗(yàn)結(jié)果與分析

31K-means聚類

由于輪廓系數(shù)法的計(jì)算復(fù)雜度較高,本文采用肘部法對(duì)Criteo數(shù)據(jù)集進(jìn)行聚類數(shù)劃分判定。SSE與K值的關(guān)系如圖1所示。

根據(jù)圖1肘部法的SSE與K值的關(guān)系圖,可以得出當(dāng)K值位于3和4的位置時(shí),SSE顯著減小,故本次實(shí)驗(yàn)取K值=4,將數(shù)據(jù)集劃分為4個(gè)簇。在各個(gè)簇上分別應(yīng)用DeepFM算法,得到logloss和AUC得分,如圖2所示。由結(jié)果可知,經(jīng)過(guò)K-means分組后,各個(gè)分組的logloss均呈現(xiàn)不同程度的下降,相較于整體,表現(xiàn)最佳的組3的logloss下降超10個(gè)百分點(diǎn),同時(shí),AUC提升1個(gè)百分點(diǎn)。其他組的logloss也有小幅下降,AUC有1~2個(gè)百分點(diǎn)的提升,這可以表明K-means聚類對(duì)分類預(yù)測(cè)的問(wèn)題具有正向促進(jìn)作用。

32高斯混合聚類

在對(duì)數(shù)據(jù)集應(yīng)用高斯混合聚類后,根據(jù)BIC與分類個(gè)數(shù)的關(guān)系(見(jiàn)圖3),可推斷高斯混合聚類的簇個(gè)數(shù)選擇2個(gè)。

在確定分組數(shù)量后,先對(duì)數(shù)據(jù)集進(jìn)行高斯混合聚類,將數(shù)據(jù)集劃分為2份,應(yīng)用DeepFM算法對(duì)劃分的數(shù)據(jù)集進(jìn)行二分類預(yù)測(cè),得到logloss和AUC的分值如圖4所示。根據(jù)圖中的展示結(jié)果可知,通過(guò)高斯聚類后的分類算法,logloss最高可下降18個(gè)百分點(diǎn),AUC可提升13~15個(gè)百分點(diǎn)。這表明,高斯聚類對(duì)分類問(wèn)題能起到較為明顯的正向作用。

根據(jù)上述實(shí)驗(yàn)結(jié)果,DeepFM模型在將聚類方法集成到分類預(yù)測(cè)任務(wù)的工作流程(如K-means或高斯混合模型)后,通過(guò)結(jié)合聚類特征,增加了能夠揭示數(shù)據(jù)點(diǎn)內(nèi)在的分組信息,為分類模型提供了額外的信息層。在處理復(fù)雜的高維數(shù)據(jù)集時(shí),聚類為DeepFM模型帶來(lái)了明顯的預(yù)測(cè)效果的提升。

4結(jié)語(yǔ)

本文針對(duì)CTR預(yù)測(cè)的分類任務(wù),將聚類和分類方法相融合,構(gòu)建了一種增強(qiáng)預(yù)測(cè)模型。該模型驗(yàn)證了聚類方法作為分類任務(wù)中有效的預(yù)處理步驟,能夠充分發(fā)揮其在分類預(yù)測(cè)任務(wù)中的潛力,可用作提升分類任務(wù)預(yù)測(cè)準(zhǔn)確性的補(bǔ)充方法。然而,在實(shí)際應(yīng)用中,需根據(jù)數(shù)據(jù)集的具體特征進(jìn)行細(xì)致的選擇與實(shí)驗(yàn)。隨著機(jī)器學(xué)習(xí)領(lǐng)域關(guān)鍵技術(shù)的不斷進(jìn)步與突破,這些技術(shù)的協(xié)同與集成,將進(jìn)一步在提高分類領(lǐng)域的預(yù)測(cè)任務(wù)的效果方面發(fā)揮重要的作用。

參考文獻(xiàn)

[1]劉鵬,王超.計(jì)算廣告:互聯(lián)網(wǎng)商業(yè)變現(xiàn)的市場(chǎng)與技術(shù)[M].北京:人民郵電出版社,2019.

[2]周傲英,周敏奇,宮學(xué)慶.計(jì)算廣告:以數(shù)據(jù)為核心的Web綜合應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2011(10):1805-1819.

[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

[4]伊恩·古德費(fèi)洛,約書(shū)亞·本吉奧,亞倫·庫(kù)維爾.深度學(xué)習(xí)[M].趙申劍,黎彧君,符天凡,等,譯.北京:人民郵電出版社,2021.

(編輯王雪芬)

猜你喜歡
機(jī)器學(xué)習(xí)分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
主站蜘蛛池模板: 欧美亚洲国产视频| 久久精品视频亚洲| 色综合婷婷| 在线观看91精品国产剧情免费| 精品国产免费观看一区| 99久久精品免费看国产免费软件 | 日本成人精品视频| 久久久91人妻无码精品蜜桃HD | 九九热精品免费视频| 美女内射视频WWW网站午夜 | 毛片在线区| 99免费视频观看| 久久国产av麻豆| 色欲不卡无码一区二区| 99资源在线| 亚洲国产欧美自拍| 欧美一区福利| 无码一区二区三区视频在线播放| 五月天久久综合国产一区二区| 亚洲精品中文字幕午夜| 国产原创自拍不卡第一页| 国产在线观看精品| 亚洲天堂区| 久久a级片| 3p叠罗汉国产精品久久| 久久夜色精品| 国产日韩精品欧美一区喷| 久久99精品国产麻豆宅宅| 成人永久免费A∨一级在线播放| 国产香蕉97碰碰视频VA碰碰看| 老司机aⅴ在线精品导航| 免费久久一级欧美特大黄| 亚洲欧美一级一级a| 免费久久一级欧美特大黄| 制服丝袜一区| 国产精品13页| 国产人碰人摸人爱免费视频| 亚洲婷婷丁香| 日韩中文无码av超清| 日本在线视频免费| 久久免费视频播放| 亚洲人成人伊人成综合网无码| 欧美成人看片一区二区三区| 亚洲精品少妇熟女| 激情综合网激情综合| 成人在线观看不卡| 亚洲无码高清视频在线观看| 国产精品污视频| 在线欧美一区| 国产呦精品一区二区三区下载| 久久久久人妻一区精品| 97在线免费| 影音先锋亚洲无码| 这里只有精品在线| 四虎国产在线观看| 91九色国产porny| 国产va在线观看| 亚洲一区国色天香| 国产va在线观看免费| 无码免费的亚洲视频| 丁香五月激情图片| 无码日韩精品91超碰| 亚洲国产欧美国产综合久久 | 久久亚洲日本不卡一区二区| 国产丝袜精品| 国产草草影院18成年视频| 国产大片喷水在线在线视频| 高清久久精品亚洲日韩Av| 国产日韩欧美中文| 潮喷在线无码白浆| 免费看久久精品99| 精品久久综合1区2区3区激情| 99一级毛片| 久久久久亚洲Av片无码观看| 99精品视频在线观看免费播放| 激情午夜婷婷| 色香蕉影院| 国产精鲁鲁网在线视频| 97国产在线观看| 久久精品人妻中文系列| 国产日韩欧美视频| 国内精品伊人久久久久7777人|