999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

虛擬空間中在線同源用戶行為相似性研究

2021-05-17 05:30:40馬滿福張凱旋王常青
計算機工程 2021年5期
關鍵詞:特征用戶

馬滿福,張凱旋,李 勇,王常青,張 強

(1.西北師范大學 計算機科學與工程學院,蘭州 730070;2.甘肅省物聯網工程研究中心,蘭州 730070;3.中國互聯網絡信息中心互聯網基礎技術開放實驗室,北京 100190)

0 概述

由于生物遺傳和變異,自然界中存在大量性狀相同的物種,其在進化上或個體發育上因具有共同來源呈現出的相似性稱為同源性。這種同源性被廣泛應用于醫療健康、生物制藥和遺傳研究等諸多領域[1-2],也為虛擬空間中在線用戶行為相似性研究提供了新思路。在虛擬空間中,不同用戶群體的行為特征通常存在不同程度的差異性[3-4]和相似性[5-6]。文獻[7]基于用戶主題感知和行為相似性分析動態用戶的相關性,指出同種社區類型的用戶具有強相關性,不同社區類型的用戶具有弱相關性。文獻[8]對16 個國家微博用戶行為的差異性和相似性進行研究,發現在人口少且凝聚力強的國家,用戶更關注微博的社會功能,而在人口較多的國家,用戶僅將微博作為新聞傳播平臺。

在證實虛擬空間中用戶行為特征具有差異性和相似性的基礎上,研究人員結合在線用戶的自身特征屬性給出部分應用場景[9-11]。文獻[12]提出一種基于同義詞組的用戶行為匯聚方法,利用匯聚結果對用戶進行性別預測,證明不同性別群體的興趣具有差異性,該方法能根據用戶性別進行有效的個性化系統推薦。文獻[13]通過調查歐洲60 000 多名工人的收入、教育程度、職業類型、自治水平、時間壓力和社會互動6 個維度的信息,提出雙變量有序概率計量經濟模型以衡量互聯網對工人工作滿意度的影響,該研究對提高企業管理水平具有重要意義。

用戶點擊路徑反映出用戶在一段時間內點擊的頁面和駐留時間[14],分析用戶的點擊行為是研究用戶行為相似性的有效方法[15]。目前關于用戶行為相似性缺乏統一量化標準,對虛擬空間中在線同源用戶(根據同源理論,即點擊序列相似度超過30%的在線用戶)是否存在也未有驗證。此外,關于不同特征屬性對在線同源用戶行為相似性影響程度的研究也較少。因此,本文提出一種虛擬空間中在線同源用戶識別算法。從在線用戶行為數據集中提取點擊流數據,采用序列對齊方法處理點擊流數據以度量在線用戶的行為相似性。同時從數據集的人口統計信息中獲取在線用戶不同維度的特征屬性,研究各種特征屬性對在線同源用戶行為相似性的影響程度。

1 數據描述

用戶的在線行為主要通過點擊流數據來體現。本文采用中國互聯網信息中心(China Internet Network Information Center,CNNIC)提供的在線行為日志作為數據集(以下稱為CNNIC 數據集)進行研究,其中數據要素包含每個用戶的點擊路徑以及每個路徑對應的點擊時刻,點擊時刻采用標準時間格式記錄。CNNIC 數據集中某用戶的部分點擊流數據如表1 所示。

表1 原始點擊流數據Table 1 Raw click stream data

本文主要研究在線同源用戶的識別及特征屬性對其行為的影響程度,因此用戶特征屬性提取是關鍵。利用上述數據集中的人口統計信息提取用戶的年齡、社會階層、教育程度、性別、戶籍和收入水平6 個維度的特征屬性,部分用戶的人口統計信息如表2 所示。對每個特征屬性進一步分類,結果如表3 所示。

表2 部分用戶的人口統計信息Table 2 Demographic information of partial users

表3 特征屬性分類Table 3 Classification of feature attributes

2 研究方法

本文提出基于序列對齊的在線同源用戶識別(Sequence Alignment-based Online Homologous User Recognition,SA-OHUR)算法,其主要包括以下步驟:1)處理點擊行為數據;2)基于序列對齊思想計算在線用戶的行為相似度,并對其以相似度矩陣形式進行量化;3)根據行為相似度矩陣對用戶進行聚類驗證并識別在線同源用戶。此外,采用基于特征屬性的方法計算聚類結果的熵值和純度,并由此分析在線用戶特征屬性對其行為的影響程度。

2.1 在線同源用戶識別算法

在線用戶行為由一系列點擊路徑及其對應的點擊時刻構成,若將每個點擊路徑看作用戶點擊序列中一個字符串,則在點擊流數據中點擊路徑和對應路徑花費的時間可反映用戶的點擊行為,其用包含時間的字符串序列表示。例如,表1 中點擊流數據對應的該用戶點擊序列SF={(['explorer.exe'],08-01 20:29:57),(['AliIM.exe'],08-01 20:29:59),(['SohuNews.exe'],08-01 20:30:05,),(['360SE.exe'],08-01 20:30:23),(['AliIM.exe'],08-01 20:30:27),(['360SE.exe'],08-01 20:30:31),(['AliIM.exe'],08-01 20:30:59)}。用戶行為相似度計算問題可轉換為編輯距離的問題。

2.1.1 序列對齊方法

序列對齊也稱編輯距離,主要通過對齊的方法來度量兩個序列的相似性[16],其核心思想是利用一個序列轉換為另一個序列所花費的最小代價衡量兩個序列的相似性。序列Q和序列C之間的編輯距離和相似度分別定義為:

其中,dSAM(Q,C)為序列Q和序列C之間的編輯距離,SSAM(Q,C)為序列Q和序列C之間的相似度,D、I和R分別為轉換過程中刪除、插入和重排的次數,|Q|和|C|分別為序列Q和序列C的長度,ωd、ωi和μ分別為序列Q轉換為序列C過程中刪除、插入和重排操作的代價,且均為用戶給定的正常數。

2.1.2 數據預處理

本文基于序列對齊思想處理持續點擊流數據,具體步驟如下:

1)計算在線用戶在每個點擊路徑的持續時間,當前點擊路徑的持續時間即為當前點擊時刻與前一個點擊時刻之差,若某一個點擊路徑的持續時間超過30 min,則默認為用戶已經下線,并將該點擊路徑及其持續時間從用戶點擊序列中去除,即會話時間間隔閾值定義為30 min[17],處理后的持續點擊流數據如表4 所示。

表4 持續點擊流數據Table 4 Continuous click stream data

2)記錄用戶一個月內的點擊路徑并計算其對應的持續時間,處理后的累計點擊流數據如表5 所示,用戶累計點擊序列SU={(['explorer.exe'],2),(['AliIM.exe'],24),(['Sohu News.exe'],18),(['360SE.exe'],32)}。

表5 累計點擊流數據Table 5 Cumulative click stream data

2.1.3 在線用戶行為相似度算法

本文提出的SA-OHUR 算法是利用基于序列對齊的在線用戶行為相似度算法獲得用戶間相似度。由于該算法所用累計點擊序列的時間為累計時間,因此不考慮點擊路徑的先后順序,即轉換過程中重排操作代價為0。同時,若兩個用戶點擊路徑相同但對應路徑的累計時間不同,則可能造成點擊行為的差異,因此,增加兩個在線用戶點擊的相同路徑所對應累計時間差值的絕對值作為補償操作。設在線用戶Ui的點擊序列,…,(ain,Tin)},在線用戶Uj的點擊序列,(aj2,Tj2),…,(ajm,Tjm)}。其中,(ai1,ai2,…,ain)與(aj1,aj2,…,ajm)分別為在線用戶Ui和Uj的點擊路徑集Ai和Aj。(Ti1,Ti2,…,Tin)與(Tj1,Tj2,…,Tjm)分別為在線用戶Ui和Uj的累計時間集Ti和Tj。在線用戶Ui和Uj基于序列對齊的編輯距離定義為:

其中,刪除和插入的代價分別為刪除和插入路徑所對應的累計時間,|Tip-Tjq|為補償操作的代價。

兩個用戶基于序列對齊的行為相似度計算公式為:

其中,當用戶點擊序列(點擊路徑及其對應的累計時間)完全相同時,用戶的相似度為1,當點擊序列完全不同時,相似度為0。在線用戶Ui和Uj的行為相似度計算如算法1 所示。

算法1基于序列對齊的用戶行為相似度算法

上述算法在用戶行為相似度計算過程中,主要利用用戶累計點擊流數據,且無需考慮點擊順序。在處理點擊流數據時,將點擊序列按照點擊路徑進行掃描,可得到用戶之間的行為相似度。由于在數據處理階段已去除冗余點擊路徑,因此與傳統的序列對齊算法相比,算法1 復雜度大幅降低。

2.1.4 基于行為相似度矩陣的層次聚類

SA-OHUR 算法最后一步是根據相似度矩陣對在線用戶進行聚類,以驗證在線同源用戶的存在。為更直觀地區分出用戶在線行為并識別同源用戶群,該算法采用基于行為相似度矩陣的層次聚類。由于傳統層次聚類HC 算法每進行一次簇間合并均需更新相似度矩陣,造成算法步驟重復,因此為避免該問題,SA-OHUR 算法將相似度矩陣中在線用戶之間相似度值和用戶編號采用數組的形式按照相似度值進行降序排列,根據相似度值在數組中的位置從大到小合并用戶,即引入優先級隊列。

SA-OHUR 算法將在線用戶按照點擊行為劃分為不同類別,具體流程如下:1)初始化每個用戶作為單獨的簇;2)根據相似度矩陣將相似度值及其對應的用戶存入已定義的數組并按照降序排列;3)合并數組中第1 個相似度值,將最大相似度值對應的兩個用戶作為一個簇;4)從第二輪合并開始,若相似度值對應的兩個用戶均未合并到某個簇中,則將這兩個用戶合并為一個簇;若其中一個用戶已合并到另外一個簇中,則將另一個用戶也合并到該簇中;若兩個用戶分別合并到不同簇中,則將這兩個用戶所在的兩個簇合并;5)按順序取數組N的相似度值,且在每輪合并時簇的個數減少1;6)重復步驟4 和步驟5 直到生成K個簇。

給定在線用戶集U={u1,u2,…,un},將其根據點擊行為相似性劃分K個類C1,C2,…,CK,要求每個類別不能為空且類與類之間用戶不相同,主要步驟如算法2 所示。

算法2基于行為相似度矩陣的層次聚類算法

在算法2中,先對n個用戶的n×(n-1)/2個相似度進行快速降序排列,排序的時間復雜度為O(n2×lbn)[18],再對n個用戶根據相似度進行聚類,該過程中聚類循環的時間復雜度為O(n)。因此,相較傳統層次聚類的時間復雜度O(n3),算法2 的時間復雜度降低為O(n2×lbn),算法運行效率更高。

SA-OHUR 算法的關鍵是計算簇間相似度和簇內相似度,進而識別出在線同源用戶群。由于每個簇即為在線用戶集合,因此本文采用簇內在線用戶與另一個簇內在線用戶的平均相似度來表示。例如,給定聚類簇Ci和Cj,則兩個簇間的相似度定義為:

其中,Savg(Ci,Cj)為聚類簇Ci和Cj的相似度,x為屬于聚類簇Ci的用戶,z為屬于聚類簇Cj的用戶,為在線用戶x和z的行為相似度,|Ci|和|Cj|分別為聚類簇Ci和Cj的在線用戶個數。

2.2 基于特征屬性的熵值和純度算法

采用SA-OHUR 算法對在線用戶進行聚類時,為更好地將在線用戶特征屬性與其行為相似性進行結合,可用熵值和純度來衡量用戶特征屬性對其行為相似性的影響程度。熵值和純度可用來衡量某個指標的混亂度[19],本文分別計算基于表3 中6 個不同特征屬性下點擊行為相似度聚類結果的熵值和純度,由此判定特征屬性對用戶行為相似性的影響程度。

給定n個在線用戶,根據在線用戶行為相似度將其分為K個簇,其中每個簇分別包含n1,n2,…,nK個用戶。假設某個特征屬性有M個類別,如教育程度分為初等教育水平、中等教育水平、高等教育水平3 個類別,則在該特征屬性下聚類簇i的熵值計算公式為:

在該特征屬性下聚類的整體熵值計算公式為:

在該特征屬性下聚類簇i的純度計算公式為:

在該特征屬性下聚類的整體純度計算公式為:

其中,nij表示聚類簇i中用戶屬于類別j的個數,ni為聚類簇i中所有用戶個數,n為參加聚類的所有用戶個數。基于特征屬性的熵值和純度計算如算法3 所示。

算法3基于特征屬性的熵值和純度算法

算法3 是通過聚類結果的熵值和純度衡量特征屬性對行為相似性的影響程度。若基于某一個特征屬性計算得到的聚類結果熵值越小,混亂程度越低,該特征屬性下類別分散程度越小,則基于該屬性聚類結果的綜合評價越好,即特征屬性對同源用戶行為相似性的影響程度越大。而純度相反,若基于某一個特征屬性計算得到的聚類結果純度越大,混亂程度越低,該特征屬性下的類別分散程度就越小,則基于該屬性聚類結果的綜合評價越好,即特征屬性對用戶行為相似性的影響程度越大。

3 實驗與結果分析

本文抽取848 名用戶一個月內約1.2 億條點擊流數據進行分析,實驗采用Windows 8 操作系統和8 GB 運行內存并通過Python3.6 實現。

3.1 結果分析

按照SA-OHUR 算法流程,本文將點擊流數據進行處理后得到在線用戶累計點擊行為序列。例如,在線用戶Ua的累計點擊行為序列SUa={(['explorer.exe'],2),(['AliIM.exe'],24),(['SohuNews.exe'],18),(['360SE.exe'],32)},在線用戶Ub的累計點擊行為序列SUb={(['explorer.exe'],2),(['AliIM.exe'],34),(['xmp.exe'],5)},并由式(4)計算得到用戶Ua與Ub的相似度如下:

采用算法1 得到848 名用戶間相似度并將結果以相似度矩陣A輸出,表達式如下:

相似度矩陣A是一個848×848 對稱矩陣,其中第i行第j列的數值表示第i個在線用戶和第j個在線用戶的點擊行為相似度,對角線元素表示每個在線用戶與自身行為的相似度,相似度值均為1,在該矩陣中相似度取值分布范圍為0~1。

由相似度矩陣A得到在線用戶不同相似度區間數量統計如圖1 所示。其中,x軸為相似度值,y軸為投影在該區間相似度值的個數。圖1 中相似度值主要分布在(0.00,0.60)區間內,表明虛擬空間中存在行為相似度超過30%的在線同源用戶,SA-OHUR 算法能有效驗證在線同源用戶的存在。

圖1 不同區間相似度值統計情況Fig.1 Statistics of similarity values in different intervals

為進一步識別在線同源用戶群,采用SA-OHUR算法基于相似度矩陣A和算法2 對用戶進行聚類。不同聚類簇個數下的簇間相似度值和簇內相似度值的對比如圖2 所示??梢钥闯?,隨著聚類簇個數的增加,簇內相似度值逐步上升并最終穩定在(0.4,0.5)區間,而簇間相似度值雖然呈現上升趨勢但始終低于簇內相似度值,且最大值不超過0.3。這表明屬于同一個簇的在線用戶即為在線同源用戶且其點擊行為相似度超過40%,而屬于不同簇的在線用戶即為在線非同源用戶,采用SA-OHUR 算法能有效識別在線同源用戶群。識別出在線同源用戶后,可根據表3中用戶特征屬性類別,采用SA-OHUR 算法將用戶分為2 個簇、3 個簇和4 個簇,并利用算法3 研究特征屬性對在線同源用戶行為相似性的影響程度。不同特征屬性下各個簇及聚類結果整體的熵值和純度如圖3 所示。

圖2 簇間相似度值和簇內相似度值的對比Fig.2 Comparison of similarity values between clusters and similarity values within clusters

圖3 不同特征屬性下聚類結果的熵值和純度Fig.3 Entropy values and purity of clustering results under different feature attributes

由圖3 可以看出,基于性別、戶籍和教育程度的聚類結果整體熵值分別為0.541、0.754 和0.622,其結果低于基于收入水平、社會階層和年齡的聚類結果(熵值分別為1.689、1.259 和1.144),表明基于性別、戶籍和教育程度的聚類結果分散程度低且綜合評價較好,即該3 類特征屬性對在線同源用戶行為相似性影響較大?;谛詣e、戶籍和教育程度的聚類結果整體純度分別為0.890、0.872 和0.878,其結果高于基于收入水平、社會階層和年齡的聚類結果(純度分別為0.517、0.740 和0.732),表明基于性別、戶籍和教育程度的聚類結果純度較高且混亂度較低,這3類特征屬性對在線同源用戶行為相似性影響更大。綜上可知,性別、戶籍和教育程度3 種特征屬性對在線同源用戶行為相似性的影響程度大于收入水平、社會階層和年齡的影響程度,其中影響最高的特征屬性為性別,影響最低的特征屬性為收入水平。

3.2 對比實驗

為驗證SA-OHUR 算法的時間復雜度,本文采用時間序列相似性度量(DTW)[18]和萊文斯坦相似性度量(Leven)[20]兩種經典的相似性度量算法,分別計算點擊流數據中前200 名、400 名、600 名和800 名在線用戶的相似度,3 種算法運行時間如表6 所示。

表6 3 種算法的運行時間對比Table 6 Running time comparison of three algorithms s

由表6 可知,SA-OHUR 算法在一定程度上減少程序運行時間,提升了程序運行效率,在處理大批量數據時該算法有明顯優勢。這是因為SA-OHUR 算法采用累計點擊數據流進行計算,無需考慮累計點擊數據流中序列的順序性,同時去除冗余序列,降低了算法復雜度。

相較傳統層次聚類HC 算法,SA-OHUR 算法降低了時間復雜度,提高了運行效率,但其聚類效果還未知。因此,本文將采用傳統層次聚類HC 算法和SA-OHUR 算法所得聚類結果的熵值和純度進行對比,結果分別如表7 和表8 所示。

表7 2 種算法不同特征屬性的熵值對比Table 7 Comparison of entropy values of different feature attributes of two algorithms

表8 2 種算法不同特征屬性的純度對比Table 8 Comparison of purity of different feature attributes of two algorithms

由表7 和表8 可知,SA-OHUR 算法得到的聚類結果整體熵值較低且純度較大,其中在社會階層屬性中較反常。從整體來看,年齡對行為相似性影響程度低于性別、教育程度、戶籍3 種屬性,對結果影響不大。因此,在分析特征屬性對在線同源用戶行為相似性影響程度時,基于相似度矩陣的層次聚類整體效果更好。

4 結束語

利用海量的互聯網信息找出在線用戶行為的主要影響因素,并據此對不同用戶群體進行分類具有重要意義。本文基于序列對齊技術提出一種在線同源用戶識別算法,提取在線用戶點擊流數據和特征屬性,采用序列對齊方法計算用戶行為相似度,識別具有相似行為的在線同源用戶,并分析不同特征屬性對用戶行為相似性的影響程度。實驗結果表明,該算法能有效區分在線同源用戶,用戶行為相似性受性別、戶籍和教育程度3 種特征屬性影響較大。本文主要研究獨立的特征屬性,未考慮不同特征屬性組合對用戶行為的影響,后續將從用戶行為權值較大的部分特征屬性入手,進一步研究包含該部分屬性不同組合的用戶行為。

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 性视频久久| 夜夜爽免费视频| 亚洲最猛黑人xxxx黑人猛交| 国产a网站| 国产男女免费视频| 精品视频在线观看你懂的一区| 精品无码人妻一区二区| 国产偷国产偷在线高清| 久久精品女人天堂aaa| 免费AV在线播放观看18禁强制| 2021精品国产自在现线看| 99热这里都是国产精品| 国产午夜一级毛片| 国产午夜福利在线小视频| 丰满少妇αⅴ无码区| 国产成年女人特黄特色大片免费| 亚洲无码电影| 26uuu国产精品视频| 欧美综合区自拍亚洲综合绿色 | 国产精品污污在线观看网站| 欧美啪啪视频免码| 就去色综合| 1024你懂的国产精品| 亚洲色图狠狠干| 欧美日本视频在线观看| 国产精品亚洲综合久久小说| 亚洲香蕉在线| 青青草91视频| 99视频国产精品| 国产无遮挡猛进猛出免费软件| 欧美三级日韩三级| 国产欧美网站| 激情乱人伦| 欧美午夜久久| 亚洲天堂网在线视频| 久久精品人妻中文系列| 97超爽成人免费视频在线播放| AV不卡无码免费一区二区三区| 孕妇高潮太爽了在线观看免费| 日本欧美一二三区色视频| 婷婷中文在线| 五月天久久综合国产一区二区| 久久伊伊香蕉综合精品| 国产一二三区视频| a毛片在线| 亚洲h视频在线| 最新国产在线| 在线国产欧美| 黄色在线网| 久996视频精品免费观看| 免费人成网站在线高清| 97精品伊人久久大香线蕉| 日本人妻一区二区三区不卡影院 | 中国一级毛片免费观看| 日韩国产综合精选| 秋霞午夜国产精品成人片| 欧美日韩午夜视频在线观看| 日韩中文精品亚洲第三区| 美女毛片在线| 91丝袜在线观看| 男女男免费视频网站国产| 91青青草视频| 国产麻豆精品久久一二三| 国产一区二区色淫影院| 亚洲精品天堂自在久久77| 香蕉蕉亚亚洲aav综合| 特级aaaaaaaaa毛片免费视频| 国产免费网址| 在线观看欧美国产| 伊人久久大香线蕉综合影视| 国产系列在线| 无码一区中文字幕| 四虎永久免费地址在线网站| 国产一在线| 国产成人高清在线精品| 91久久大香线蕉| 香蕉99国内自产自拍视频| 狠狠综合久久| 色老头综合网| 国产精选自拍| 在线看片免费人成视久网下载| 97影院午夜在线观看视频|