趙丙秀
DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.014
摘 ?要: 針對網絡運營商所關心的用戶行為分析問題,探討如何對網絡用戶的行為進行分析, 提出了一種用戶行為分析分類的模型。首先根據關鍵字的關聯性進行聚類分析,通過關鍵字被用戶檢索或瀏覽的次數對用戶進行分類,然后在此基礎上提出了加速算法和半衰期的概念,全面地闡述和分析了用戶行為分析的總體框架。
關鍵詞: 用戶行為分析; 聚類算法; 關聯性; 加速算法
中圖分類號:TP393.4 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2016)02-46-03
Research on user behavior analysis and classification model
Zhao Bingxiu1,2
(1. Wuhan Vocational College of Software and Engineering, Wuhan, Hubei 430205, China; 2. The Open University of Wuhan)
Abstract: In this paper, the problems of user behavior analysis of network operators and how to analyze the behavior of network users are discussed, and a model of user behavior analysis and classification is put forward. The cluster analysis is performed according to the correlation of the key words, users are classified by the number of the keyword searched or browsed by the user, and then the concepts of acceleration algorithm and half-life are put forward to comprehensively expound and analyze the general framework of user behavior analysis.
Key words: user behavior analysis; clustering algorithm; correlation; acceleration algorithm
0 引言
隨著互聯網絡的迅猛發展,以信息獲取、交流溝通類為主的基礎網絡服務正逐漸發展為以休閑娛樂、電子服務、電子商務三大類服務為主的網絡服務。與此同時,商業網站等贏利性站點需要分析用戶的行為及愛好來提供更滿意的服務使得其利潤最大化,這與提高網站服務的效率和個性化程度密切相關;政府、科研機構等非贏利性的網站也需要通過分析用戶構成與其網絡行為上的特點來構建科學的決策支持系統。在國內,由于網絡的連通性和拓撲結構,用戶的數據包信息是可以通過分光器獲得,服務的提供商可以通過對此分析而得到用戶行為分析的基本數據。
1 模型的假設
用戶行為分析依據的選取:用戶在搜索引擎上查找的關鍵字和其瀏覽的網頁均可作為用戶行為分析的依據。我們可以把用戶查找的關鍵字和其瀏覽網頁標題的分詞作為用戶感興趣的信息,關鍵詞的數目是龐大的,同時很多關鍵字之間存在相關性,可以定性的將所有的關鍵字按照其相關程度劃分為幾十個類別,從而方便對用戶的行為進行分析。
建立這個模型時,我們作了如下假設:
⑴ 用戶的興趣是經過一段比較長的時間形成的,長期形成的興趣是穩定的,對于用戶行為的分析是以時間為維度的。
⑵ 用戶經常關注的內容必然是其感興趣的內容。
⑶ 用戶長期關注的某方面內容在該方面內容上相對于一般人必然更專業。
⑷ 專業人士看的內容也是專業的(不區分熱點問題和專業問題)。
⑸ 經常看某方面專業文章的人,必然比看普及文章的人更專業。
⑹ 用戶某時間段內不關注某方面內容,其在該方面的了解程度會有一個衰減。
2 模型的建立與求解
2.1 模型算法設計
⑴ 關鍵詞的聚類算法設計
所有用戶在搜索引擎上檢索的關鍵詞和其瀏覽的網頁標題對其提取分詞然后對搜集到的分詞進行處理。假設存在n個關鍵詞,分別將其標識為P1,P2,P3,…,Pn,Pi與Pj之間的關聯度的值設為xij ,xij初始值設為0,若關鍵詞Pi與Pj同時出現一次,即將其xij值加1,顯然有xij=xji。
對一段相對比較長的時間內出現所有關鍵詞進行處理之后得到一個無方向的強關聯圖。圖內的每點都與多個其他點相聯系且其聯系程度可通過關聯度值的大小來確定。
根據關聯度我們對關鍵詞劃分類別。劃分方法:先遍歷一下關鍵詞關聯圖,看哪個關鍵詞周圍的加權邊最大,以這個關鍵詞為核心,作為一個類別;一共劃分出m個類別,其中包括關聯度小于某一臨界值q的其他類;然后根據這個關鍵詞最大加權邊的關鍵詞,劃入這個分類之中,對全部的m個分類都做一次,如果遇到沖突關鍵字(即此關鍵字已經劃為另一類),則立即斷開圖里面的2個分類關鍵字的邊,繼續計算,直到m個分類劃分完畢;針對孤立點的操作在這次分類中遺棄,等待下次分類時候看是否其是否能發展成為一個分類。
⑵ 用戶分類的算法設計
一共s個用戶,每個用戶瀏覽一次某個關鍵詞,該用戶在該關鍵詞所屬的類別的權值加1,一定時間的統計后,該用戶對m個類別分別有一個權值,將其定為用戶在該類別上的等級分,分別標記為s1,s2,s3,…,sm,顯然si的大小反映出該用戶對該類別的興趣的大小,取前t個興趣作為用戶主要興趣。
⑶ 用戶等級分衰減的算法設計
當用戶某天沒有瀏覽某類別的文章或檢索相關字段時,其等級分相應會產生一個衰減。這里采取最常見的半衰期算法,等級分衰減的速度與等級分的高低成反比。設等級分為y,時間為t(單位為天,以天為單位進行衰減),r為常量,根據長期數據分析可以獲得:
⑷ 用戶專家等級分的計算
用戶等級分到達一定程度,根據長期關注一個領域,就是傻瓜也會逐步精通,直至成為專家。同時專家關注的大部分文章必然也是專業性文章的原則,對專家的分類顯得非常重要,一個是對等級分計算的加速能起到非常關鍵的作用,另外一個他也能決定文章的等級,同時也是區分用戶群的重要標志。
專家等級一般采取3級制或5級制,常用的是設置臨界值a1,a2,這些臨界值的選取采取正態分布抽取,按照等級分為橫軸,根據預先設定的用戶數比例來得到專家分界值,當然也可以采取平均分段來選取臨界值。
為了簡化計算,提高后臺的負載能力或者鼓勵用戶,一般用戶達到某個等級后,會保留等級一個時間t0,這個時間將不會再計算用戶的等級,從而大大減小分析系統是開銷,保持用戶的熱度。
2.2 方程式求解、算法的最優解
⑴ 關鍵詞的聚類算法分析
依照關鍵詞的聚類算法我們將關聯度較高的關鍵詞歸為同一個類別,而類別劃分出的數目顯然和我們選取的關聯度的臨界值是有關的。選取的關聯度的臨界值越高,劃分出的類別數目越多;選取關聯度的臨界值越低,劃分出的類別數目越少。
選取的一個重要原則是能顯著的劃分類,這里將劃分類時的臨界值設為q,在劃分第i個類時,該類中最小的關聯度為Qi,該類與無向圖中其他的結點最大的關聯度為qi(顯然有qi<q<=Qi),這里要求顯著性程度很高即要求Qi與qi的差值盡可能大。若n個變量劃分出(m-1)個類別與一個其他類別,其他類別不予考慮,我們可以設一個顯著性水平變量p=(∑(Qi-qi))/(m-1),當p值越大時,類別的劃分越顯著。
同時我們需考慮劃分出的類別數目,過多的類別不便管理,而過少的類別不能全面反應用戶的行為。
綜合考慮p和m,選取合適的臨界值q,使得劃分出的類數目和顯著性都較為合適。
⑵ 用戶分類的算法分析與方程式求解
在對用戶根據其在m個類別上的積分取前t個最大積分從而獲得用戶最感興趣的類別時,其中t的選取,如果參照前面的顯著性的劃分實在很龐大,數量計算量比較大,可能用戶差不多感興趣的話題有數個,其積分相差不大,積分相同的概率很小,忽略之。為了方便投放廣告,t選取4-8即可。
根據半衰期模型等級分y相對于時間t的為:
y(t)=sme-rt
其中,sm是代表用戶第m個興趣點的初始等級分,t為多少天沒有看過相關興趣點的關鍵類別,r為衰減常數,一般通過長期數據分析獲取。
衰減過程先快再變慢,符合人的記憶規律和興趣的規律,并且接近人的記憶曲線。
3 模型的優化
以上算法雖然可以實現對用戶的分類,但是有很多常數和用戶等級都需要長時間的數據積累。根據實踐經驗,一般能夠對用戶開始精準分類需要半年甚至一年的時間,這對于互聯網需要即時發現新用戶興趣,而非粘連用戶,從而保護用戶不流失來說,并不是很理想,因此我們必須引入加速算法。
加速算法描述:
一段時間后,用戶的積分達到某一固定值,對m個類別而言,某類別上s個用戶的積分分別為m1,m2,m3,…,ms,必然有用戶的積分的差異,將積分占該類別積分前固定百分比的用戶定位為專業級用戶,在另一個百分比段的用戶定位為一般級用戶,剩下的是菜鳥級別用戶(建議專業級,一般級,菜鳥級),在假設中已假定各種級別瀏覽的文章的專業程度不同,然后高級、中級、低級用戶給文章的加分不同,反過來文章作用于用戶給用戶加分的等級不同。
4 結束語
在實際中,網絡運營商和服務提供商通過對用戶行為分析的分類,掌握用戶訪問網站的規律性特點,挖掘出的用戶訪問模式,發現用戶的群體構成以及其興趣和偏好,從而為用戶提供更具個性化服務以及商品推薦,更好地制定網絡規劃和業務運營支撐決策, 將用戶的數據轉化為用戶的價值。
參考文獻(References):
[1] 董富強,馬力,武波.一種基于Ineternet的用戶行為分類方法
與模型的研究[J].現代電子技術,2004.22.
[2] 王攀,張順頤,陳雪嬌.基于動態行為輪廓庫的Web用戶行為
分析關鍵技術[J].計算機技術與發展,2009.2.
[3] 張軻智.基于Web的數據挖掘系統設計與實現 [D].電子科技
大學碩士學位論文,2013.
[4] 任文君.基于網絡用戶行為分析的問題研究[D]. 北京郵電大
學碩士學位論文,2013.
[5] 高志琨,康鑫,郭玉翠.互聯網中基于用戶行為的信任分類模
型[J].北京郵電大學理學報,2011.3.