999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

用戶行為分析分類模型的研究

2016-02-19 22:04:17趙丙秀
計算機時代 2016年2期

趙丙秀

DOI:10.16644/j.cnki.cn33-1094/tp.2016.02.014

摘 ?要: 針對網絡運營商所關心的用戶行為分析問題,探討如何對網絡用戶的行為進行分析, 提出了一種用戶行為分析分類的模型。首先根據關鍵字的關聯性進行聚類分析,通過關鍵字被用戶檢索或瀏覽的次數對用戶進行分類,然后在此基礎上提出了加速算法和半衰期的概念,全面地闡述和分析了用戶行為分析的總體框架。

關鍵詞: 用戶行為分析; 聚類算法; 關聯性; 加速算法

中圖分類號:TP393.4 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2016)02-46-03

Research on user behavior analysis and classification model

Zhao Bingxiu1,2

(1. Wuhan Vocational College of Software and Engineering, Wuhan, Hubei 430205, China; 2. The Open University of Wuhan)

Abstract: In this paper, the problems of user behavior analysis of network operators and how to analyze the behavior of network users are discussed, and a model of user behavior analysis and classification is put forward. The cluster analysis is performed according to the correlation of the key words, users are classified by the number of the keyword searched or browsed by the user, and then the concepts of acceleration algorithm and half-life are put forward to comprehensively expound and analyze the general framework of user behavior analysis.

Key words: user behavior analysis; clustering algorithm; correlation; acceleration algorithm

0 引言

隨著互聯網絡的迅猛發展,以信息獲取、交流溝通類為主的基礎網絡服務正逐漸發展為以休閑娛樂、電子服務、電子商務三大類服務為主的網絡服務。與此同時,商業網站等贏利性站點需要分析用戶的行為及愛好來提供更滿意的服務使得其利潤最大化,這與提高網站服務的效率和個性化程度密切相關;政府、科研機構等非贏利性的網站也需要通過分析用戶構成與其網絡行為上的特點來構建科學的決策支持系統。在國內,由于網絡的連通性和拓撲結構,用戶的數據包信息是可以通過分光器獲得,服務的提供商可以通過對此分析而得到用戶行為分析的基本數據。

1 模型的假設

用戶行為分析依據的選取:用戶在搜索引擎上查找的關鍵字和其瀏覽的網頁均可作為用戶行為分析的依據。我們可以把用戶查找的關鍵字和其瀏覽網頁標題的分詞作為用戶感興趣的信息,關鍵詞的數目是龐大的,同時很多關鍵字之間存在相關性,可以定性的將所有的關鍵字按照其相關程度劃分為幾十個類別,從而方便對用戶的行為進行分析。

建立這個模型時,我們作了如下假設:

⑴ 用戶的興趣是經過一段比較長的時間形成的,長期形成的興趣是穩定的,對于用戶行為的分析是以時間為維度的。

⑵ 用戶經常關注的內容必然是其感興趣的內容。

⑶ 用戶長期關注的某方面內容在該方面內容上相對于一般人必然更專業。

⑷ 專業人士看的內容也是專業的(不區分熱點問題和專業問題)。

⑸ 經常看某方面專業文章的人,必然比看普及文章的人更專業。

⑹ 用戶某時間段內不關注某方面內容,其在該方面的了解程度會有一個衰減。

2 模型的建立與求解

2.1 模型算法設計

⑴ 關鍵詞的聚類算法設計

所有用戶在搜索引擎上檢索的關鍵詞和其瀏覽的網頁標題對其提取分詞然后對搜集到的分詞進行處理。假設存在n個關鍵詞,分別將其標識為P1,P2,P3,…,Pn,Pi與Pj之間的關聯度的值設為xij ,xij初始值設為0,若關鍵詞Pi與Pj同時出現一次,即將其xij值加1,顯然有xij=xji。

對一段相對比較長的時間內出現所有關鍵詞進行處理之后得到一個無方向的強關聯圖。圖內的每點都與多個其他點相聯系且其聯系程度可通過關聯度值的大小來確定。

根據關聯度我們對關鍵詞劃分類別。劃分方法:先遍歷一下關鍵詞關聯圖,看哪個關鍵詞周圍的加權邊最大,以這個關鍵詞為核心,作為一個類別;一共劃分出m個類別,其中包括關聯度小于某一臨界值q的其他類;然后根據這個關鍵詞最大加權邊的關鍵詞,劃入這個分類之中,對全部的m個分類都做一次,如果遇到沖突關鍵字(即此關鍵字已經劃為另一類),則立即斷開圖里面的2個分類關鍵字的邊,繼續計算,直到m個分類劃分完畢;針對孤立點的操作在這次分類中遺棄,等待下次分類時候看是否其是否能發展成為一個分類。

⑵ 用戶分類的算法設計

一共s個用戶,每個用戶瀏覽一次某個關鍵詞,該用戶在該關鍵詞所屬的類別的權值加1,一定時間的統計后,該用戶對m個類別分別有一個權值,將其定為用戶在該類別上的等級分,分別標記為s1,s2,s3,…,sm,顯然si的大小反映出該用戶對該類別的興趣的大小,取前t個興趣作為用戶主要興趣。

⑶ 用戶等級分衰減的算法設計

當用戶某天沒有瀏覽某類別的文章或檢索相關字段時,其等級分相應會產生一個衰減。這里采取最常見的半衰期算法,等級分衰減的速度與等級分的高低成反比。設等級分為y,時間為t(單位為天,以天為單位進行衰減),r為常量,根據長期數據分析可以獲得:

⑷ 用戶專家等級分的計算

用戶等級分到達一定程度,根據長期關注一個領域,就是傻瓜也會逐步精通,直至成為專家。同時專家關注的大部分文章必然也是專業性文章的原則,對專家的分類顯得非常重要,一個是對等級分計算的加速能起到非常關鍵的作用,另外一個他也能決定文章的等級,同時也是區分用戶群的重要標志。

專家等級一般采取3級制或5級制,常用的是設置臨界值a1,a2,這些臨界值的選取采取正態分布抽取,按照等級分為橫軸,根據預先設定的用戶數比例來得到專家分界值,當然也可以采取平均分段來選取臨界值。

為了簡化計算,提高后臺的負載能力或者鼓勵用戶,一般用戶達到某個等級后,會保留等級一個時間t0,這個時間將不會再計算用戶的等級,從而大大減小分析系統是開銷,保持用戶的熱度。

2.2 方程式求解、算法的最優解

⑴ 關鍵詞的聚類算法分析

依照關鍵詞的聚類算法我們將關聯度較高的關鍵詞歸為同一個類別,而類別劃分出的數目顯然和我們選取的關聯度的臨界值是有關的。選取的關聯度的臨界值越高,劃分出的類別數目越多;選取關聯度的臨界值越低,劃分出的類別數目越少。

選取的一個重要原則是能顯著的劃分類,這里將劃分類時的臨界值設為q,在劃分第i個類時,該類中最小的關聯度為Qi,該類與無向圖中其他的結點最大的關聯度為qi(顯然有qi<q<=Qi),這里要求顯著性程度很高即要求Qi與qi的差值盡可能大。若n個變量劃分出(m-1)個類別與一個其他類別,其他類別不予考慮,我們可以設一個顯著性水平變量p=(∑(Qi-qi))/(m-1),當p值越大時,類別的劃分越顯著。

同時我們需考慮劃分出的類別數目,過多的類別不便管理,而過少的類別不能全面反應用戶的行為。

綜合考慮p和m,選取合適的臨界值q,使得劃分出的類數目和顯著性都較為合適。

⑵ 用戶分類的算法分析與方程式求解

在對用戶根據其在m個類別上的積分取前t個最大積分從而獲得用戶最感興趣的類別時,其中t的選取,如果參照前面的顯著性的劃分實在很龐大,數量計算量比較大,可能用戶差不多感興趣的話題有數個,其積分相差不大,積分相同的概率很小,忽略之。為了方便投放廣告,t選取4-8即可。

根據半衰期模型等級分y相對于時間t的為:

y(t)=sme-rt

其中,sm是代表用戶第m個興趣點的初始等級分,t為多少天沒有看過相關興趣點的關鍵類別,r為衰減常數,一般通過長期數據分析獲取。

衰減過程先快再變慢,符合人的記憶規律和興趣的規律,并且接近人的記憶曲線。

3 模型的優化

以上算法雖然可以實現對用戶的分類,但是有很多常數和用戶等級都需要長時間的數據積累。根據實踐經驗,一般能夠對用戶開始精準分類需要半年甚至一年的時間,這對于互聯網需要即時發現新用戶興趣,而非粘連用戶,從而保護用戶不流失來說,并不是很理想,因此我們必須引入加速算法。

加速算法描述:

一段時間后,用戶的積分達到某一固定值,對m個類別而言,某類別上s個用戶的積分分別為m1,m2,m3,…,ms,必然有用戶的積分的差異,將積分占該類別積分前固定百分比的用戶定位為專業級用戶,在另一個百分比段的用戶定位為一般級用戶,剩下的是菜鳥級別用戶(建議專業級,一般級,菜鳥級),在假設中已假定各種級別瀏覽的文章的專業程度不同,然后高級、中級、低級用戶給文章的加分不同,反過來文章作用于用戶給用戶加分的等級不同。

4 結束語

在實際中,網絡運營商和服務提供商通過對用戶行為分析的分類,掌握用戶訪問網站的規律性特點,挖掘出的用戶訪問模式,發現用戶的群體構成以及其興趣和偏好,從而為用戶提供更具個性化服務以及商品推薦,更好地制定網絡規劃和業務運營支撐決策, 將用戶的數據轉化為用戶的價值。

參考文獻(References):

[1] 董富強,馬力,武波.一種基于Ineternet的用戶行為分類方法

與模型的研究[J].現代電子技術,2004.22.

[2] 王攀,張順頤,陳雪嬌.基于動態行為輪廓庫的Web用戶行為

分析關鍵技術[J].計算機技術與發展,2009.2.

[3] 張軻智.基于Web的數據挖掘系統設計與實現 [D].電子科技

大學碩士學位論文,2013.

[4] 任文君.基于網絡用戶行為分析的問題研究[D]. 北京郵電大

學碩士學位論文,2013.

[5] 高志琨,康鑫,郭玉翠.互聯網中基于用戶行為的信任分類模

型[J].北京郵電大學理學報,2011.3.

主站蜘蛛池模板: 久久久精品久久久久三级| 四虎在线观看视频高清无码| 国产精品无码制服丝袜| 久久精品最新免费国产成人| 久久国产精品麻豆系列| 蜜芽国产尤物av尤物在线看| 欧美人与性动交a欧美精品| 久操中文在线| a级毛片毛片免费观看久潮| 亚洲—日韩aV在线| 在线观看国产黄色| 亚洲中久无码永久在线观看软件| 国产一区二区丝袜高跟鞋| 日韩在线网址| 亚洲日韩精品伊甸| a亚洲天堂| 国产精品久久久久无码网站| 国产成人精品综合| 91精品视频在线播放| 亚洲国产精品不卡在线| 日韩成人午夜| 91毛片网| 国产亚洲精品yxsp| 日韩精品专区免费无码aⅴ| 免费中文字幕在在线不卡| 日韩精品专区免费无码aⅴ| 日韩在线第三页| 免费看一级毛片波多结衣| 亚洲国产成人久久精品软件| 亚洲av色吊丝无码| 久久国产V一级毛多内射| 久久精品无码一区二区国产区| 国产精品尤物在线| 亚洲人妖在线| 国产95在线 | 国产精品亚洲片在线va| 福利国产在线| 成人av手机在线观看| 91青青草视频在线观看的| 97综合久久| 国产成人高清亚洲一区久久| 婷婷色狠狠干| 9966国产精品视频| 97超爽成人免费视频在线播放| 婷婷伊人久久| 在线看片国产| 天天婬欲婬香婬色婬视频播放| 国产精品免费p区| 亚洲国产成人精品无码区性色| 欧美国产日本高清不卡| 直接黄91麻豆网站| 亚洲欧美国产五月天综合| 日本91在线| 视频一本大道香蕉久在线播放| 国产黄色片在线看| 成人免费黄色小视频| 色精品视频| 青青极品在线| 91福利在线看| 伊人久久福利中文字幕| 国产免费久久精品99re不卡| 成人一区在线| 亚洲激情99| 在线国产三级| 久久人人爽人人爽人人片aV东京热| 国模粉嫩小泬视频在线观看| 国产一级小视频| 夜夜操狠狠操| 欧美国产综合色视频| 精品国产成人av免费| 99视频全部免费| 亚洲三级成人| 91精品国产自产在线老师啪l| 色综合激情网| 国产精品一区在线麻豆| 中文无码精品A∨在线观看不卡 | 伊人久久久大香线蕉综合直播| 亚洲三级影院| 毛片a级毛片免费观看免下载| 中文字幕第1页在线播| 欧美在线综合视频| 亚洲视频影院|