




摘 要:為了解決社交網(wǎng)絡(luò)隱式用戶行為數(shù)據(jù)挖掘過程中關(guān)聯(lián)相似性計算較為困難的問題,提出了基于決策樹的社交網(wǎng)絡(luò)隱式用戶行為數(shù)據(jù)挖掘方法。將社交網(wǎng)絡(luò)視為包含不同維度的向量空間,計算特定維度上用戶的興趣空間和興趣點。確定樣本屬性集后,根據(jù)已知行為數(shù)據(jù)建立測試分支,計算該分支下子集的屬性權(quán)重,不斷迭代直至挖掘到同等屬性的數(shù)據(jù)點為止。測試結(jié)果表明:該方法可對不同種類隱式用戶行為精準(zhǔn)挖掘,目標(biāo)行為數(shù)據(jù)查找效果較好,實用性較強(qiáng)。
關(guān) 鍵 詞:決策樹;社交網(wǎng)絡(luò);隱式用戶行為;向量空間;屬性集;數(shù)據(jù)挖掘;權(quán)重值;屬性元素
中圖分類號:TP399.8 文獻(xiàn)標(biāo)志碼:A 文章編號:1000-1646(2024)03-0312-06
隨著數(shù)字化技術(shù)的蓬勃發(fā)展,電子信息和數(shù)字技術(shù)已經(jīng)完全融入人們的生活中。社交網(wǎng)絡(luò)的不斷發(fā)展給人們的生活創(chuàng)造了更多便利條件[1]。社交網(wǎng)絡(luò)占據(jù)了人們信息生活的重要組成部分,加快了社會行為向網(wǎng)絡(luò)行為、現(xiàn)實社會關(guān)系向網(wǎng)絡(luò)社交關(guān)系的轉(zhuǎn)化[2]。作為信息化技術(shù)的載體,社交網(wǎng)絡(luò)中包含大量數(shù)據(jù)信息,且隨著網(wǎng)絡(luò)用戶數(shù)量的不斷增加,數(shù)據(jù)量逐漸增大,造成了信息爆炸現(xiàn)象。此外,社交網(wǎng)絡(luò)的迅速發(fā)展產(chǎn)生了大量帶有時空信息的短文本數(shù)據(jù)[3],不可避免地會造成社區(qū)漏洞、黑客入侵和木馬病毒等現(xiàn)象。為了提高網(wǎng)絡(luò)運營的安全性,對網(wǎng)絡(luò)社區(qū)用戶進(jìn)行數(shù)據(jù)盤查具有重要意義。
不同于固定模式網(wǎng)絡(luò),社交網(wǎng)絡(luò)中存在大量用戶隱式數(shù)據(jù),雖然可以通過觀測用戶在瀏覽網(wǎng)絡(luò)時所選取的動作來獲取隱式反饋數(shù)據(jù)[4],但這種數(shù)據(jù)缺少一定的聚類中心屬性,其他屬性也難以被直接定義,導(dǎo)致其存在挖掘困難的問題。相關(guān)學(xué)者針對這一問題提出了一系列解決方法。陳萬志等[5]在采集用戶行為數(shù)據(jù)基礎(chǔ)上捕捉特征關(guān)鍵字,再利用關(guān)鍵字在網(wǎng)絡(luò)社區(qū)中查找上網(wǎng)總時長、總流量等行為數(shù)據(jù)。然后采用映射擴(kuò)展法對行為特征進(jìn)行密度聚類和譜聚類,將聚類結(jié)果作為遺傳算法的初始輸入值進(jìn)行相關(guān)預(yù)測和挖掘,該方法整體運算過程較為復(fù)雜,每個步驟之間關(guān)聯(lián)性較弱,容易產(chǎn)生計算偏差。閆永君[6]根據(jù)時間特性挖掘信息用戶行為特征,通過計算滑動窗口內(nèi)的數(shù)據(jù)均值獲得起始序列向量,然后將用戶行為劃分成若干等值時間片,通過取樣統(tǒng)計用戶行為,再以平均查詢頻率為指標(biāo),提取用戶查詢行為特征,該方法未考慮用戶行為的多樣性,特征計算過程過于單一,易導(dǎo)致誤差較大。