穆 桃,陳 偉,陳松健
(南京郵電大學(xué) 計算機學(xué)院, 南京 210023) (*通信作者電子郵箱chenwei@njupt.edu.cn)
基于多層網(wǎng)絡(luò)流量分析的用戶分類方法
穆 桃,陳 偉*,陳松健
(南京郵電大學(xué) 計算機學(xué)院, 南京 210023) (*通信作者電子郵箱chenwei@njupt.edu.cn)
對用戶進行準確分類對提高客戶定制服務(wù)的質(zhì)量具有重要作用,但用戶出于隱私保護的考慮,經(jīng)常不配合網(wǎng)絡(luò)服務(wù)商,拒絕提供個人信息,如地理位置信息、興趣愛好等。為解決這一問題,在保護用戶隱私的前提下,通過分析網(wǎng)絡(luò)層、應(yīng)用層等多層網(wǎng)絡(luò)流量,然后利用K-means聚類、隨機森林算法等機器學(xué)習(xí)方法,預(yù)測出用戶的地理位置類型(比如公寓、校園等)和興趣愛好,并分析地理位置類型與用戶興趣愛好的關(guān)系,以提高對用戶分類的準確性。實驗結(jié)果表明,此方案可以自適應(yīng)地劃分用戶所屬用戶類型和地理位置類型,通過關(guān)聯(lián)用戶的地理位置類型和用戶類型提高了用戶行為分析的準確性。
流量分類;地理位置;用戶偏好;K-means聚類;隨機森林
日常生活中,人們越來越習(xí)慣利用無線網(wǎng)絡(luò)上網(wǎng),產(chǎn)生的上網(wǎng)流量也日益增多。用戶的網(wǎng)絡(luò)流量主要應(yīng)用于兩方面:一方面利用網(wǎng)絡(luò)流量來檢測網(wǎng)絡(luò)中可能存在的入侵行為[1]和檢測惡意軟件[2]等網(wǎng)絡(luò)異常行為[3];另一方面是通過網(wǎng)絡(luò)流量的分類,利用機器學(xué)習(xí)方法來預(yù)測地理位置和分析用戶網(wǎng)絡(luò)行為[4-5]。目前越來越多的服務(wù)傾向于利用用戶的上下文信息(比如位置類型)來預(yù)測用戶的偏好[6],但由于在基于用戶真實地理位置所提供的服務(wù)中,服務(wù)商需要分享用戶的隱私信息,這往往讓用戶認為是一種對個人隱私的威脅。
在現(xiàn)實生活中,僅僅依據(jù)用戶的位置類型來推斷用戶的偏好是不充分的,不能因為用戶所在的位置類型而認為該位置類型的用戶的網(wǎng)絡(luò)偏好是一樣的。為解決這一問題,在對于用戶的網(wǎng)絡(luò)流量[7-8]的分析后,需要進一步研究用戶對每個應(yīng)用程序類別的興趣程度。通過對用戶的歷史網(wǎng)絡(luò)訪問數(shù)據(jù)進行分析,并根據(jù)用戶興趣將用戶分成不同類型用戶。將用戶的地理位置和用戶類型結(jié)合用于分析用戶偏好,可以主動向用戶提供感興趣的內(nèi)容。
本文首先利用被動方式監(jiān)測用戶的網(wǎng)絡(luò)流量并對網(wǎng)絡(luò)流量進行數(shù)據(jù)預(yù)處理,建立用戶設(shè)備指紋集,將一個或多個IP地址對應(yīng)到某一確定的用戶身份。然后使用隨機森林算法分析網(wǎng)絡(luò)層統(tǒng)計信息,用來預(yù)測用戶地理位置類型。之后利用應(yīng)用層的統(tǒng)一資源定位符(Uniform Resource Locator, URL)類別信息通過K-means將用戶分成8種用戶類型。最后,通過對用戶地理位置類型和用戶類型之間的聯(lián)系,發(fā)現(xiàn)通過地理位置和用戶類型相結(jié)合,比文獻[9]更準確地為用戶提供服務(wù)。
本文的主要工作有:
1)通過分析網(wǎng)絡(luò)協(xié)議(Internet Protocol, IP)地址、IMEI(International Mobile Equipment Identity)、用戶賬號信息(userid)和推送服務(wù)信息(appid),建立了用戶設(shè)備指紋集,在分析用戶類型前,可以確定唯一用戶;
2)通過網(wǎng)絡(luò)層信息和應(yīng)用層URL分類信息分別確定了用戶的地理位置類型和用戶類型;
3)將用戶地理位置類型和興趣愛好相結(jié)合,提高了用戶分類的準確性。
對網(wǎng)絡(luò)流量分類的目的是為了檢測和分析網(wǎng)絡(luò)中的應(yīng)用程序和用戶的行為。Zhang等[10]提出了在短時間內(nèi)不用管理員身份就可以通過流量分析正確推斷出用戶在線活動的分層分類系統(tǒng)。文獻[11]也通過設(shè)計一個基于位置的熵值法的網(wǎng)絡(luò)流量分析平臺將用戶聚成固定用戶組和靜態(tài)用戶組,并分別利用智能時分法和基于時間的馬爾可夫法來對這兩組用戶進行預(yù)測。文獻[12]利用網(wǎng)絡(luò)流量創(chuàng)建了一個APP_URL表來記錄該網(wǎng)絡(luò)中所有應(yīng)用程序與遠程惡意服務(wù)器連接過的日志。通過日志所建立的黑名單,可以檢測到惡意的應(yīng)用程序。在提高分類算法的性能上,文獻[13]使用將相關(guān)信息與分類過程結(jié)合的無參流量,提出了即使在非常少量訓(xùn)練集的極端情況下,依然能夠有效提高性能的分類方法。這些研究工作與本文都是利用網(wǎng)絡(luò)流量來監(jiān)測和分析網(wǎng)絡(luò)流量。
傳統(tǒng)的基于地理位置向用戶發(fā)送服務(wù)是在用戶允許的情況下,通過GPS(Global Positioning System)等技術(shù)分享用戶的實際地理位置實現(xiàn)的,但是,通常情況下用戶并不樂意分享個人的隱私信息。機器學(xué)習(xí)方法利用網(wǎng)絡(luò)流量信息來預(yù)測用戶的地理位置類型可以解決這個問題。通過被動檢測方式獲得用戶的網(wǎng)絡(luò)流量,用戶不需要分享自己的地理位置就可以獲得服務(wù)。文獻[9]提出了利用這種方法并以較高的準確率預(yù)測住宅區(qū)、餐廳、校園和機場旅游四類地理位置類型,但是,即使預(yù)測了用戶所屬的地理位置類型,并不能僅以地理位置直接推斷用戶的網(wǎng)絡(luò)偏好,因此,本文通過網(wǎng)絡(luò)層統(tǒng)計信息預(yù)測用戶所在的地理位置類型,并通過應(yīng)用層URL分類信息聚類出8種用戶類型。將用戶的地理位置類型和用戶類型相結(jié)合,能更可靠地推斷出用戶偏好。
通過網(wǎng)絡(luò)層和應(yīng)用層的特征屬性[14],例如,流的總數(shù)、傳輸控制協(xié)議(Transmission Control Protocol, TCP)數(shù)目、應(yīng)用程序的URL等,可以盡可能地準確統(tǒng)計出用戶的網(wǎng)絡(luò)行為特征。最后利用機器學(xué)習(xí)算法可以更加直觀地了解用戶在網(wǎng)絡(luò)中的行為特性。目前,對網(wǎng)絡(luò)流量分析所使用的機器學(xué)習(xí)方法主要是兩類:第一類是無監(jiān)督機器學(xué)習(xí)[15]方法,比如文獻[16]和文獻[17]所提出的K-means和Autoclass;第二類是C4.5[18]、隨機森林[19]、K最近鄰算法和神經(jīng)網(wǎng)絡(luò)等監(jiān)督機器學(xué)習(xí)方法。
本文工作主要是利用網(wǎng)絡(luò)流量中多層信息推斷用戶類型,其中包括使用網(wǎng)絡(luò)層統(tǒng)計信息和應(yīng)用層URL分類信息來預(yù)測用戶的位置類型和用戶類型。圖1為系統(tǒng)架構(gòu)。
數(shù)據(jù)預(yù)處理 為了后續(xù)工作中能夠更加方便地利用捕獲到的數(shù)據(jù),本文將得到的數(shù)據(jù)進行預(yù)處理,例如提取用戶IP地址、URL信息等,并存儲到數(shù)據(jù)庫中。
用戶設(shè)備指紋集 在長時間數(shù)據(jù)捕獲的過程中,由于動態(tài)主機配置協(xié)議(Dynamic Host Configuration Protocol, DHCP)的原因,有可能某一個用戶使用不同的IP地址來上網(wǎng)。為了增強對用戶的行為的分析,需要將用戶所使用過的IP地址通過本文建立的用戶設(shè)備指紋集來找到,并將用戶的數(shù)據(jù)進行整合。
網(wǎng)絡(luò)流量分類 通過將網(wǎng)絡(luò)流量按照網(wǎng)絡(luò)層特征統(tǒng)計和應(yīng)用層URL分類兩種方法進行特征提取。網(wǎng)絡(luò)層特征統(tǒng)計包括每個用戶的所有數(shù)據(jù)包的多個特征。應(yīng)用層URL類別按照應(yīng)用程序的類別(比如,游戲、教育、社交網(wǎng)絡(luò)等)進行分類。
地理位置類型預(yù)測和用戶類型聚類 類似文獻[9]的方法,利用網(wǎng)絡(luò)層的統(tǒng)計信息通過隨機森林分類方法來預(yù)測用戶的位置類型,得到了85%的預(yù)測率。依據(jù)用戶訪問的各應(yīng)用程序的類別百分比通過K-means聚類方法將用戶分成多種類型。根據(jù)對應(yīng)用程序的偏好將相似用戶歸為一類,有利于分析多個用戶的偏好。在預(yù)測出用戶所在的位置類型后,通過分析用戶的類型,能有針對性地向用戶推送服務(wù)。

圖1 根據(jù)用戶網(wǎng)絡(luò)流量信息分別預(yù)測地理位置類型和聚類用戶類型
3.1 數(shù)據(jù)包捕獲和預(yù)處理
1)在Linux平臺下利用tshark和aircrack-ng捕獲網(wǎng)絡(luò)流量數(shù)據(jù)并以.cap格式存儲。通過在校園、火車站、餐廳、宿舍四種位置類型20天的采集,獲取了大概70 GB的數(shù)據(jù)。
2)獲取數(shù)據(jù)包中〈捕獲時間,基本服務(wù)設(shè)置號(Basic Service Set Identifier, BSSID),服務(wù)設(shè)置號(Service Set Identifier, SSID),媒介訪問控制(Media Access Control, MAC)地址,源IP地址,源端口,目地IP地址,目的端口,協(xié)議,數(shù)據(jù)包長度,URL〉信息。其中BSSID、SSID和用戶MAC地址為可選項,其他信息必須存在,否則視為無效信息。
3.2 用戶設(shè)備指紋的收集方法
在無線網(wǎng)絡(luò)中,由于DHCP,用戶使用過的IP地址不固定,無法獲得用戶全部網(wǎng)絡(luò)流量。在內(nèi)網(wǎng)與外網(wǎng)交接處,由于網(wǎng)絡(luò)地址轉(zhuǎn)換(Network Address Translation, NAT)協(xié)議將用戶內(nèi)部IP地址映射到外部IP地址,用戶的IP地址無法確定。
基于以上原因,通過移動設(shè)備國際識別碼IMEI 、userid和推送服務(wù)中的appid建立的用戶設(shè)備指紋集確定用戶設(shè)備。通過用戶設(shè)備所具有的以上特征就能確定用戶所使用過的IP地址。
IMEI是手機的唯一標識,通過對比用戶的IMEI,即使用戶使用的IP地址不唯一,也可以將用戶長時間所使用的多個IP地址與用戶對應(yīng)起來。在本文收集的IMEI信息中,IMEI有三種存在形式:
1)原始形式,由15位數(shù)字組成;
2)采用MD5對原始15位數(shù)字進行加密;
3)由字母數(shù)字和其他特殊符號組成的多位字符串。
userid是指用戶登錄各種應(yīng)用軟件所使用的賬號。例如捕獲的數(shù)據(jù)包中存在以”cntaobao”開頭經(jīng)過UTF8編碼過的淘寶賬號名稱。通過檢測相同的userid是否存在于不同的IP地址中,就可以確定這些IP地址是否為相同用戶。
appid是指推送服務(wù)中對用戶設(shè)備相應(yīng)軟件的獨立標識。 通過檢測推送服務(wù)器向設(shè)備中應(yīng)用程序所發(fā)送的服務(wù)信息中的appid,可以確定此用戶的移動設(shè)備上是否安裝過相應(yīng)軟件。

表1 不同地理位置類型的用戶數(shù)據(jù)
表1列出了在不同地理位置類型中用戶數(shù)目的獲取情況。可以看到通過202個帶有設(shè)備指紋集的用戶將總共1 936個IP地址縮減到1 187個IP地址,即將1 936個IP地址對應(yīng)到實際的1 187個實際用戶。對于沒有設(shè)備指紋集的IP地址,通過〈捕獲時間,IP地址〉標識為一個用戶。另外,利用有效流量信息(網(wǎng)絡(luò)層信息和應(yīng)用層URL信息)對實際用戶過濾,最終得到1 024個有效用戶。
多層網(wǎng)絡(luò)信息提取內(nèi)容分為兩種:提取用戶網(wǎng)絡(luò)層的統(tǒng)計信息和對每個用戶的應(yīng)用層URL信息進行分類統(tǒng)計。
4.1 網(wǎng)絡(luò)層統(tǒng)計特征
本文將用戶的網(wǎng)絡(luò)層流量特征分為粗粒度層、協(xié)議層、流層和數(shù)據(jù)包層四個層次[9],總共52個特征值。表2介紹了網(wǎng)絡(luò)層統(tǒng)計特征提取的具體內(nèi)容,其中流定義為五元組〈源IP地址,源端口號,目的IP地址,目的端口號,協(xié)議〉,并用〈最小值,最大值,平均值,中值,標準差,偏態(tài),峰態(tài)〉來統(tǒng)計流層和數(shù)據(jù)包層里的特征。式(1)、(2)為此次實驗偏態(tài)和峰態(tài)所使用的計算公式:

(1)

(2)


表2 網(wǎng)絡(luò)層統(tǒng)計特征分類
4.2 應(yīng)用層URL信息特征
1)關(guān)鍵字提取。通過對URL中應(yīng)用程序?qū)?yīng)關(guān)鍵字(例如微信在URL中對應(yīng)的關(guān)鍵字為”weixin”)進行過濾,總計得到了5 602個不同的URL,650個關(guān)鍵字。
2)關(guān)鍵字分類。將應(yīng)用程序?qū)?yīng)的關(guān)鍵字分為20個類別,每個類中的關(guān)鍵字個數(shù)如表3所示。不需要了解到用戶的具體偏好,只需了解用戶對不同類別是否感興趣。在統(tǒng)計關(guān)鍵字過程中,在不失去原有類別特性的前提下通過關(guān)鍵字相同部分將多個關(guān)鍵字歸為同一關(guān)鍵字。比如“郵件”中,可能出現(xiàn)”gmail””hotmail”和”qqmail”等不同的電子郵件服務(wù)商,歸為郵件類別中關(guān)鍵字”mail”。
3)計算URL類別。將每個類別中關(guān)鍵字出現(xiàn)的總次數(shù)占總類別的百分比作為這個類別的特征值進行提取。

表3 應(yīng)用層URL分類
4.3 多層網(wǎng)絡(luò)信息處理
4.3.1 用戶地理位置分類
與文獻[9]相似,利用隨機森林分類算法通過網(wǎng)絡(luò)層統(tǒng)計信息來預(yù)測用戶地理位置。隨機森林通過自主法(boot-strap)[20]重采樣技術(shù),不斷生成訓(xùn)練樣本和測試樣本,由訓(xùn)練樣本生成多個分類樹組成隨機森林。也因此稱隨機森林為包含多個決策樹的分類器。通過隨機森林算法利用用戶的網(wǎng)絡(luò)層統(tǒng)計信息將用戶進行聚類,其優(yōu)點是隨機森林能夠在不用特征選擇的前提下處理高維度的數(shù)據(jù),并且快速處理大量的離散型數(shù)據(jù)集或者連續(xù)型數(shù)據(jù)集。
隨機森林的處理流程如下:
1)從原始訓(xùn)練集N中應(yīng)用boot-strap法生成K個新的自助樣本集,每個自助樣本集是每棵分類樹的全部訓(xùn)練數(shù)據(jù)。
2)每個自助樣本集生長為單個分類樹。在樹的每個節(jié)點處,假設(shè)有M個特征變量,則在每個節(jié)點處隨機挑選m個特征變量(m≤M)。按照節(jié)點不純度從m個特征變量中選擇一個特征進行節(jié)點分裂。
3)對每棵樹不作任何剪枝,根據(jù)生成的多個樹分類器對新的數(shù)據(jù)進行預(yù)測,分類結(jié)果按樹分類器的投票多少而定。
對于只有一個IP地址的用戶,可以直接計算上述52個特征值作為此用戶的網(wǎng)絡(luò)層統(tǒng)計特征;而對于包含多個IP地址的用戶,通過用戶所屬的位置類型(宿舍、餐廳等)不同來區(qū)別此用戶的位置,最終通過用戶的IP地址標識每個用戶。通過用戶地理位置類型的預(yù)測,可以推測該用戶的短期或長期偏好。例如,如果預(yù)測用戶是在車站或餐廳這種短時間逗留的位置類型,那么在一段時間內(nèi),可以向用戶推送與車站或者餐廳相關(guān)的服務(wù)。另外,如果用戶是在長期活動的位置類型(校園或公寓),那么用戶可能長期對校園或公寓相關(guān)的服務(wù)感興趣。
4.3.2 用戶類型聚類
在對應(yīng)用層URL信息特征處理中,為對用戶進行全面分析,本文將用戶所有的IP地址中的應(yīng)用層URL信息都統(tǒng)計起來并利用K-means聚類算法將用戶分成8種不同的用戶類型。然后根據(jù)每種用戶類型中每個應(yīng)用層URL類別百分比范圍,通過時間段劃分人工校正錯誤的用戶類型。如果每種用戶類型的URL類別所占的百分比各不相同,說明用戶對不同類別的應(yīng)用程序的感興趣程度也不相同。例如,假設(shè)在類型1中社交網(wǎng)絡(luò)和教育方面所占的比重較大,說明該類型用戶對社交網(wǎng)絡(luò)和教育比較感興趣。將用戶分類的原因在于在對用戶的網(wǎng)絡(luò)流量統(tǒng)計之后,憑據(jù)大量的、零碎的實驗數(shù)據(jù)無法直接有效地去評估用戶的興趣、愛好,這給本文對所有用戶進行全面、廣泛的統(tǒng)計帶來很多不便。通過K-means算法利用用戶的網(wǎng)絡(luò)流量將用戶進行分類,利用系統(tǒng)、模型化的方式去統(tǒng)計用戶所屬的類型,有利于更直觀地研究用戶的興趣愛好。K-means算法[21]是將樣本基于歐氏距離聚成多個分類,聚成速度快且使用簡單。具體算法流程如下:
1) 隨機取得k個初始中心點μ1,μ2,…,μk∈Rn;
2) 重復(fù)下面兩步直到收斂
對于每個點i,計算歐氏距離,劃分進相應(yīng)的簇
ci:=argmin‖xi-μj‖2
對每個類j,重新計算中心點
其中:樣本數(shù)據(jù)集為X={xi|i=1,2,…,m};k為樣本最后聚類數(shù);ci=j表示點i到類別j的距離最短,即屬于類別j(j∈k);μj代表每次迭代后重新產(chǎn)生的中心點。
通過對應(yīng)用層URL信息的提取將用戶分成多個類別,并且當這些類別有很明顯的用戶興趣偏向時,一方面可以全面了解用戶的所有網(wǎng)絡(luò)涉獵范圍,另一方面,可以在對真實用戶的預(yù)測中有效判斷用戶的偏好。另外,只通過用戶的地理位置類型判斷用戶的偏好會只關(guān)注用戶的短期興趣而忽略了長期興趣,并且只依據(jù)地理位置而判斷用戶的偏好依據(jù)不足。根據(jù)用戶對應(yīng)用軟件類型的偏好將用戶劃分為不同的用戶類型,可以在預(yù)測用戶地理位置類型之后,進一步了解到用戶的長期興趣,因此,通過分析用戶地理位置類型與用戶類型之間的關(guān)系(比如不同地理位置類型中用戶類型的百分比不同),并結(jié)合兩者信息,可以提高對用戶的服務(wù)質(zhì)量。
本章對用戶地理位置類型進行預(yù)測和用戶類型聚類,并分析兩者之間的相關(guān)性得出實驗結(jié)果。
5.1 用戶地理位置類型預(yù)測
通過隨機森林算法將用戶根據(jù)網(wǎng)絡(luò)層統(tǒng)計特征分成四種不同的地理位置類型,得到的每個用戶類型預(yù)測概率和混淆矩陣如表4和表5所示。

表4 地理位置類型預(yù)測結(jié)果

表5 地理位置類型預(yù)測混淆矩陣
表4中每列參數(shù)含義如下:
1)TPRate(True Positive Rate):真正率。是指在原始真樣本中最后被正確預(yù)測為真樣本的概率。其計算公式為:
TPRate=TP/(TP+FN)
(3)
其中:TP表示樣本的真實類別為真時,最后預(yù)測得到的結(jié)果也為真;FN表示樣本的真實類別為真時,最后預(yù)測得到的結(jié)果卻為假。
2)FPRate(False Positive Rate): 假正率。是指在原始假樣本中最后被預(yù)測為真樣本的概率。其計算公式為:
FPRate=FP/(FP+TN)
(4)
其中:FP表示樣本的真實類別為假時,最后預(yù)測得到的結(jié)果卻為真;TN表示樣本的真實類別為假時,最后預(yù)測得到的結(jié)果也為假。
3)Precision:預(yù)測正確率。是指在預(yù)測結(jié)果中,預(yù)測為真的樣本中,預(yù)測結(jié)果為真的概率。其公式如下:
Precision=TP/(TP+FP)
(5)
4)ROC Area(Receiver Operating Characteristics Curve):ROC曲線描述的是每個測試類別樣本中的真正率和假正率的變化。在ROC曲線中橫軸表示假正率,縱軸表示真正率。曲線下的區(qū)域面積是對預(yù)測模型有效性的一個評估,取值范圍為[0,1]。ROC區(qū)域的面積越大,預(yù)測模型的有效性越高。理想情況下,ROC區(qū)域的值為1。
表5中每行代表用戶實際地理位置類型,每列代表用戶預(yù)測的地理位置類型。最終能夠在1 024個用戶中正確預(yù)測到870個用戶,預(yù)測率為85%。
5.2 用戶類型劃分
在對用戶的網(wǎng)絡(luò)流量進行統(tǒng)計、分析后,需要更詳細地分析用戶的興趣愛好。通過對用戶類型進行分析和研究,得出不同用戶的偏好。
5.2.1 用戶類型聚類
在對用戶網(wǎng)絡(luò)流量的分析基礎(chǔ)上,通過多次實驗,最后利用聚類速度較快的K-means將上述使用URL分類后的用戶聚類成8個類型。
表6中列出了在每個類型中百分比為前10的URL類別。對于每一個用戶類型,作了以下分析:
類型1 社交學(xué)習(xí)型用戶(Social network and Education, SE)。這種類型的用戶主要訪問的是社交網(wǎng)絡(luò)和教育,分別所占百分比約為36%和20%。說明這類用戶的興趣愛好相對比較集中,可能是利用社交網(wǎng)絡(luò)交友和通過文件共享、技術(shù)學(xué)習(xí)等方式學(xué)習(xí)。
類型2 社交分享型用戶(Social network and File-Sharing,SF)。該類型用戶主要訪問的是圖像和社交網(wǎng)絡(luò),分別所占百分比約為52%和26%,其他類型訪問量不多。這類用戶可能通過圖像軟件拍攝大量照片,然后通過社交網(wǎng)絡(luò)分享這些照片。年齡段可能集中于熱愛自拍或者攝影的青年人群。
類型3 游戲交友型用戶(Games and Social network,GS)。該類型用戶特別愛好游戲這類,所占百分比約為46%,同時社交網(wǎng)絡(luò)所占百分比約為27%,另外購物和快餐訪問量也比較多。這類用戶可能比較喜歡室內(nèi)游戲,并可能通過快餐和購物來訂購?fù)赓u和購物,同時通過金融類別中的相應(yīng)軟件來付款。
類型4 學(xué)習(xí)型用戶(Education,Ed)。該類型用戶主要訪問教育類別,所占百分比約為52%。這類用戶可能大部分時間通過訪問教育性網(wǎng)站來獲取信息,有可能是學(xué)生或者老師這類人群。
類型5 事業(yè)型用戶(Job-Searching,JS)。這類用戶非常關(guān)注科技技術(shù)方面的公司,技術(shù)所占百分比約為56%,同時在新聞和事業(yè)方面所占百分比約為12%,說明這類用戶也對時事新聞和工作有所偏好。這類用戶可能從事的行業(yè)可能為IT方面并正在找工作。另外,用戶訪問量第二大的是游戲類別,所占百分比約為6%,說明該類用戶熱衷游戲。
類型6 社交型用戶(Social Network,SN)。這類用戶愛好比較單一,偏向社交網(wǎng)絡(luò)這一類。該類型用戶可能在數(shù)據(jù)收集的這段時間或長時間中比較悠閑,用戶上網(wǎng)的目的只是用來聊天交友,放松自己;或者這類用戶偏愛社交網(wǎng)絡(luò),對其他類型的興趣不大。
類型7 健康生活型用戶(Health and Lifestyle,HL)。這類用戶并不完全集中于某一類型的訪問,在生活方式、旅游和社交網(wǎng)絡(luò)等方面都有訪問。在生活方式和快餐方面有所關(guān)注,說明用戶比較關(guān)心日常生活需求;同時對旅游和健康方面也有所喜愛,說明這類用戶有足夠的經(jīng)濟基礎(chǔ)來支持現(xiàn)有的生活,比較注重健康,甚至短期有出游的打算。該類型年齡層次可能為中老年人。
類型8 娛樂學(xué)習(xí)型用戶(Entertainment and Education,EE)。娛樂在這類用戶訪問量中占55%左右,用戶在教育和文件分享學(xué)習(xí)方面所占的百分比分別約為13%和6%。這類用戶對于學(xué)習(xí)和娛樂兩者兼顧,但是上網(wǎng)的內(nèi)容比較側(cè)重于娛樂放松。
5.2.2 用戶類型規(guī)則制定
通過對表6中所有用戶聚類類別的分析,在表7中,規(guī)定了每個用戶類型中多個URL類別的具體范圍。

表6 各用戶類型中URL類別所占百分比 %

表7 用戶類型中不同URL類別百分比范圍制定
5.2.3 用戶類型校正和確認
用戶所在的類別并不是一成不變的。用戶上網(wǎng)的內(nèi)容可能與用戶在某一時間段所處的環(huán)境、遇到的問題等有關(guān);同時,用戶的年齡、閱歷、交際范圍、工作性質(zhì)都有可能對用戶某一時間段或長期的上網(wǎng)的內(nèi)容有關(guān)。基于這些原因,本文利用上述用戶聚類的規(guī)則,將用戶的URL訪問類別根據(jù)時間段進行劃分和統(tǒng)計,用戶在每個時間段中所屬的用戶類型可能會有所不同,因此,將用戶在總時間段中出現(xiàn)次數(shù)最多的用戶類型作為該用戶所屬的類型,即對用戶的長期興趣進行預(yù)測,當用戶的長期興趣與用戶的實際的偏好不同時,應(yīng)該根據(jù)用戶最近的短期偏好或者用戶的地理位置預(yù)測類型向用戶推送服務(wù)(此次實驗選取的時間段為15 min。)
表8表明了利用K-means聚類算法所聚成的8個類別的百分比和在通過人工判別修改后每個類別所占的百分比。其中改變較大的是HL類型,該類型的用戶數(shù)占總用戶數(shù)目從3.8%增長到了11.9%;其次是Ed類型中用戶數(shù)目百分比下降了7.7%;SE類型用戶數(shù)卻增長了5.6%;其余的類型變化不大,SN類型用戶數(shù)目沒有改變。

表8 用戶聚類并人工修改后的用戶類型百分比
5.3 地理位置類型與用戶類型相關(guān)性
僅通過地理位置類型去判斷用戶偏好,會將用戶都統(tǒng)歸為四種基于地理位置類型的用戶。比如,推測出用戶位于車站,只對用戶推送旅游、天氣等與車站相關(guān)的服務(wù),這并不能為用戶提供高質(zhì)量服務(wù)。同樣,只對用戶推送與公寓、校園和餐廳相關(guān)的服務(wù)無法滿足用戶的實際需求。
通過表9可以看到,在對用戶分類后,用戶的用戶類型分布與用戶所在的地理位置類型是有關(guān)系的。比如在校園中ED類型的用戶占比率最大;因為校園中大部分用戶可能是學(xué)生和老師群體,他們更傾向于利用無線終端設(shè)備來學(xué)習(xí);同時發(fā)現(xiàn)SN、ED和SE用戶類型在公寓、學(xué)校和餐廳中比重都在用戶類型中的前三位,只是在順序上有變化;主要原因是用戶在利用無線網(wǎng)絡(luò)上網(wǎng)的過程中更加傾向于娛樂休閑、聊天和學(xué)習(xí)這三個方面。而在車站中,HL型用戶比重僅次于SN型用戶占百分比;說明在車站中大部分偏愛社交軟件,但有很多用戶對于車站類型的相關(guān)服務(wù)(比如旅游軟件、天氣查詢等)也很感興趣。

表9 地理位置分類預(yù)測結(jié)果中不同用戶類型的人數(shù)
另外,在同一地理位置類型中的用戶是屬于不同類型的用戶。比如,在公寓中,用戶類型比重從大到小前三位的分別是SN、SE和ED,在學(xué)校中比重較大的三種用戶類型依次是ED、SN和SE,在餐廳中比重較大的前三位用戶類型依次是SN、ED和SE,在車站中用戶類型數(shù)目前三位分別是SN、HL和ED。說明在同一位置類型中,用戶的偏好與地理位置類型相關(guān)程度不一樣,因此,僅根據(jù)地理位置類型來判斷用戶的偏好是不夠的。
用戶的偏好在同一地理位置類型中是存在差異性的,相同的用戶類型在不同的地理位置類型中所占的比重也不一樣。地理位置類型與用戶類型的結(jié)合,為用戶的偏好提供了更準確的判斷。
本文通過對用戶的多層網(wǎng)絡(luò)信息的提取,能夠以85%的準確率預(yù)測出用戶的地理位置類型,并對用戶以興趣愛好進行劃分,在現(xiàn)實中能夠?qū)⒂脩舻牡乩砦恢煤陀脩纛愋拖嘟Y(jié)合,進而提供更準確的個性化服務(wù)。然而,今后還有很多工作要做。首先在用戶設(shè)備指紋集方面,將繼續(xù)挖掘其他可以確定用戶的“指紋”識別信息;其次,將提高在地理位置類型中數(shù)量較少的用戶類型對用戶偏好的預(yù)測率;最后,本文中的用戶大部分是在校園里,這也跟用戶使用無線終端設(shè)備上網(wǎng)的方式有關(guān),今后將考慮更多其他位置類型的用戶。
References)
[1] AHMED M, MAHMOOD A N. Network traffic analysis based on collective anomaly detection [C]// Proceedings of the 2014 IEEE 9th Conference on Industrial Electronics and Applications. Piscataway, NJ: IEEE, 2014: 228-237.
[2] BEKERMAN D, SHAPIRA B, ROKACH L, et al. Unknown malware detection using network traffic classification [EB/OL]. [2016- 01- 12]. https://www.researchgate.net/publication/304605520_Unknown_malware_detection_using_network_traffic_classification.
[3] LAI Y, CHEN Y, LIU Z, et al. On monitoring and predicting mobile network traffic abnormality [J]. Simulation Modelling Practice and Theory, 2014, 50: 176-188.
[4] XIA N, MISKOVIC S, BALDI M, et al. GeoEcho: inferring user interests from geotag reports in network traffic [C]// Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies. Washington, DC: IEEE Computer Society, 2014, 2: 1-8.
[5] FUKUDA K, ASAI H, NAGAMI K. Tracking the evolution and diversity in network usage of smartphones [C]// Proceedings of the 2015 ACM Conference on Internet Measurement Conference. New York: ACM, 2015: 253-266.
[6] TANG H, LIAO S S, SUN S X. A prediction framework based on contextual data to support mobile personalized marketing [J]. Decision Support Systems, 2013, 56(4): 234-246.
[7] 蔡君,余順爭.基于復(fù)雜網(wǎng)絡(luò)社團劃分的網(wǎng)絡(luò)流量分類[J].計算機科學(xué),2011,38(3):80-82.(CAI J, YU S Z. Internet traffic classification based on detecting community structure in complex network [J]. Computer Science, 2011, 38(3): 80-82.)
[8] AL KHATER N, OVERILL R E. Network traffic classification techniques and challenges [C]// Proceedings of the 2015 10th International Conference on Digital Information Management. Piscataway, NJ: IEEE, 2015: 43-48.
[9] DAS A K, PATHAK P H, CHUAH C N, et al. Contextual localization through network traffic analysis [EB/OL]. [2016- 02- 04]. http://spirit.cs.ucdavis.edu/pubs/conf/infocom14.pdf.
[10] ZHANG F, HE W, LIU X, et al. Inferring users’ online activities through traffic analysis [C]// Proceedings of the 4th ACM Conference on Wireless Network Security. New York: ACM, 2011: 59-70.
[11] HE H, QIAO Y, GAO S, et al. Prediction of user mobility pattern on a network traffic analysis platform [C]// Proceedings of the 10th International Workshop on Mobility in the Evolving Internet Architecture. New York: ACM, 2015:39-44.
[12] ZAMAN M, SIDDIQUI T, AMIN M R, et al. Malware detection in Android by network traffic analysis [C]// Proceedings of the 2015 International Conference on Networking Systems and Security. Piscataway, NJ: IEEE, 2015: 1-5.
[13] ZHANG J, XIANG Y, WANG Y, et al. Network traffic classification using correlation information [J]. IEEE Transactions on Parallel and Distributed Systems, 2013, 24(1): 104-117.
[15] 劉建偉,劉媛,羅雄麟.半監(jiān)督學(xué)習(xí)方法[J].計算機學(xué)報,2015,38(8):1592-1617.(LIU J W, LIU Y, LUO X L. Semi-supervised learning method [J]. Chinese Journal of Computers, 2015, 38(8): 1592-1617.)
[16] BAKHSHI T, GHITA B. User traffic profiling [C]// Proceedings of the 2015 Internet Technologies and Applications. Piscataway, NJ: IEEE, 2015: 91-97.
[17] ANGELOV P, KANGIN D, ZHOU X, et al. Symbol recognition with a new autonomously evolving classifier autoclass [C]// Proceedings of the 2014 IEEE Conference on Evolving and Adaptive Intelligent Systems. Piscataway, NJ: IEEE, 2014: 1-7.
[18] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學(xué)報,2009,20(10):2692-2704.(XU P, LIN S. Traffic classification method based on C4.5 decision tree [J]. Journal of Software, 2009, 20(10): 2692-2704.)
[19] WANG Y, XIANG Y, ZHANG J. Network traffic clustering using random forest proximities [C]// Proceedings of the 2013 IEEE International Conference on Communications. Piscataway, NJ: IEEE, 2013: 2058-2062.
[20] 屠金路,金瑜,王庭照.bootstrap法在合成分數(shù)信度區(qū)間估計中的應(yīng)用[J].心理科學(xué),2005,28(5):1199-1200.(TU J L, JIN Y, WANG T Z. The application of bootstrap method in the estimation of synthetic fractional reliability [J]. Psychological Science, 2005, 28(5): 1199-1200.)
[21] 汪中,劉貴全,陳恩紅.一種優(yōu)化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2):299-304.(WANG Z, LIU G Q, CHEN E H.K-means algorithm for optimizing initial center point [J]. Pattern Recognition and Artificial Intelligence, 2009, 22(2): 299-304.)
This work is supported by the National Natural Science Foundation of China (61202353, 61272084).
MU Tao, born in 1992, M. S. candidate. Her research interests include wireless network security, user privacy protection .
CHEN Wei, born in 1979. Ph. D., professor. His research interests include wireless sensor network, network security.
CHEN Songjian, born in 1992. M. S. candidate. His research interests include wireless network security, user privacy protection.
User classification method based on multiple-layer network traffic analysis
MU Tao, CHEN Wei*, CHEN Songjian
(SchoolofComputerScience&Technology,NanjingUniversityofPostsandTelecommunications,NanjingJiangsu210023,China)
Accurate classification of users plays an important role in improving the quality of customized services, but for privacy considerations users, often do not meet the network service providers, refusing to provide personal information, such as location information, hobbies and so on. To solve this problem, by analyzing the multi-layer network traffic such as network layer and application layer under the premise of protecting user privacy, and then using machine learning methods such asK-means clustering and random forest algorithm to predict the user’s geographic location types (such as apartments, campuses, etc.) and hobbies, and the relationship between geographic location types and the user interests was analyzed to improve the accuracy of user classification. The experimental results show that the proposed scheme can adaptively partition the user types and geographic location types, and improve the accuracy of user behavior analysis by correlating the user’s geographic location type and the user type.
traffic classification; geographic localization; user preference;K-means clustering; random forest
2016- 08- 01;
2016- 10- 19。
國家自然科學(xué)基金資助項目(61202353, 61272084)。
穆桃(1992—),女,湖南臨湘人,碩士研究生,主要研究方向:無線網(wǎng)絡(luò)安全、用戶隱私保護; 陳偉(1979—),男,江蘇淮安人,教授,博士,CCF會員,主要研究方向:無線傳感器、網(wǎng)絡(luò)安全; 陳松健(1993—),男,江蘇蘇州人,碩士研究生,主要研究方向:無線網(wǎng)絡(luò)安全、用戶隱私保護。
1001- 9081(2017)03- 0705- 06
10.11772/j.issn.1001- 9081.2017.03.705
TP393.08
A