999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于訪問日志挖掘的高校綜合信息門戶頁面推薦研究

2017-01-11 14:17:10楊富華彭鋼
計算技術與自動化 2016年4期

楊富華 彭鋼

摘要:研究基于訪問日志挖掘的高校綜合信息門戶頁面推薦。從高校綜合信息門戶服務器日志中獲取用戶日志數據,對日志數據中的“臟”數據進行預處理,通過改進的Kmeans聚類算法將用戶瀏覽興趣度數據集劃分為多個具有相近興趣度的用戶集合,憑此為用戶提供個性化的頁面推薦。實驗結果表明,在高校綜合信息門戶頁面推薦方面具有不錯的效果。

關鍵詞:用戶日志挖掘;高校綜合信息門戶;頁面推薦

中圖分類號:TP393文獻標識碼:A

Abstract:This paper discussed a page recommendation of college synthetical information portals based on server logs mining. Firstly, the user log data was obtained from server logs, which were then pretreated with “dirty” data. Secondly, the interestmeasure of each user pairs was calculated by the processed data sets, and the data set of interestmeasure of each user pairs was divided into multiple classes with similar interestmeasure based on improved Kmeans clustering algorithm. Finally, personalized page recommendation method was provided to each user. The experimental results prove the effectiveness of the method in college information portals.

Key words:server logs mining; college synthetical information portals; page recommendation

1引言

通常,Web挖掘可分為Web內容挖掘、Web結構挖掘和Web日志挖掘[1]。目前,已有部分學者進行了基于Web挖掘實現網頁推薦的研究。如:Yan[2]等將用戶瀏覽網頁時間作為權值加入到基于關聯規則的網頁推薦系統中;楊正余等[3]提出了一種基于用戶訪問序列的實時網頁推薦方法;解男男等[4]提出一種基于Web日志挖掘的個性化網頁推薦模型;吳瑞[5]討論了基于雙層聚類方法的網頁推薦模型。

本文研究了基于訪問日志挖掘的網站頁面個性化推薦。以本校綜合信息門戶為例,從本校綜合信息門戶服務器日志中獲取用戶日志數據,對日志數據中的“臟”數據進行預處理,以適應數據挖掘的需要,通過改進的Kmeans聚類算法將用戶瀏覽興趣度數據集劃分為多個具有相近興趣度的用戶集合,憑此為用戶提供個性化的頁面推薦。

本文利用數據挖掘技術對日志數據進行處理,通過分析大量日志數據發現用戶的偏好和需求,為用戶提供個性化頁面推薦[6],從而節省用戶搜索頁面的時間,提高用戶對學校綜合信息門戶的滿意度。

日志挖掘就是從大量的日志數據、文檔和活動中發現用戶感興趣的潛在信息的過程。聚類是目前日志挖掘常用的方法[7]。本文在現有Kmeans算法的基礎上,提出一種改進的Kmeans聚類算法,設計了高校綜合信息門戶頁面推薦的實現方案。該方案針對高校綜合信息門戶用戶提供個性化頁面主動推薦, 幫助用戶更快獲取有用信息, 提高工作效率。

2總體方案

學校綜合信息門戶服務器日志是用來記錄用戶訪問活動的,是獲取用戶訪問綜合信息門戶活動情況的首要數據來源。服務器日志的基本信息包括用戶訪問請求時間、訪問某個頁面的次數、持續時間及該頁面長度等。圖1為總體方案流程圖。具體過程如下:首先從高校綜合信息門戶服務器日志中獲取用戶日志數據,然后對用戶日志數據進行清理、識別等,為數據挖掘與分析奠定基礎;接著從待處理的用戶日志數據集計算用戶瀏覽興趣度,并基于改進的Kmeans聚類,將用戶瀏覽興趣度數據集劃分為多個具有相近興趣度的類,分析用戶的偏好和需求,為用戶提供個性化頁面推薦,最終使系統功能更加友好實用、善解人意。

在上述方案實現過程中,采用基于改進的Kmeans聚類算法,考慮如下:由于現有的 Kmeans算法初始點是建立在隨機選取的基礎上的,如果初始化點選擇不好,一般很難跳出局部最優,而且產生的最終聚類結果也會很差[8]。因此,本文通過選取周圍密度最大 k個點作為初始化點,該方式不僅能夠有效地解決Kmeans初始化點選擇問題,而且也能有效地降低孤立點對Kmeans算法的影響,具體算法如4.2節所示。3日志數據預處理

數據預處理是實施有效挖掘算法的前提, 在日志挖掘中具有非常重要的作用。主要因為:數據是來自多個數據源未被加工的、高維、冗余、含有噪音且非均勻分布的復雜數據, 在數據模型、含義、模式、結構和語義上存在不一致性和沖突,因此數據預處理是日志挖掘質量保障的關鍵。數據預處理一般包括數據清理、用戶識別、會話識別、路徑補全等[9],具體過程如圖2所示[10]。

1) 數據清理:主要是清除 Web 服務器日志文件中無關數據項的過程。一般包括數據合并、刪除無關數據、處理代理訪問、規范 URL 等。

2) 用戶識別:主要是識別訪問學校綜合信息門戶的獨立用戶,當用戶轉換使用瀏覽器或直接輸入 URL 時,一般視為多個用戶; 而同一操作系統、同一IP、同一瀏覽器訪問網站,且瀏覽頁面集合相同,一般視為同一個用戶。

3) 會話識別:用戶會話是指用戶從進入站點到離開站點期間所訪問的一系列頁面序列集合,通過研究這些序列,獲得用戶在站點中的瀏覽愛好或是訪問模式。

4)路徑補全:由于本地緩存和代理服務器緩存的存在, 使得服務器的日志會遺漏一些重要的頁面請求。在無法以客戶端進行網頁瀏覽跟蹤的情況下, 可利用每個請求頁面內容推斷出一些緩存網頁的瀏覽情況, 通過路徑補充將這些遺漏的請求補充到用戶會話中,使不完整的訪路徑變得完整。可利用網站的拓撲結構信息填充路徑。

4高校綜合信息門戶頁面推薦

經過數據預處理環節后,現在需要對這些日志數據進行挖掘,本文首先建立用戶興趣度參數來衡量用戶對某個頁面的興趣大小,然后將按照用戶共同的訪問習慣進行聚類,最后基于聚類結果完成針對高校綜合信息門戶個性化頁面推薦。

4.1用戶興趣度計算

興趣度表示用戶對某事物感興趣的程度。但是在網絡訪問領域興趣度的定義并不是十分明確。文獻[6,11]提出了用戶興趣度的概念,并給出了量化計算公式。本文用訪問頻率系數F(i)和瀏覽時間系數C(i)進行量化。

1)訪問頻率系數F(i)

定義l 如果用戶u訪問了某一頁面i,即認為用戶u對i感興趣。用戶感興趣的程度即興趣度的計算依賴于用戶對頁面的訪問頻度。設n為u訪問i的次數,total為u訪問的所有頁面的總次數,u對i的興趣度F(i)的計算方法如下[11]:

F(i)=n/total(1)

即F(i)表示頁面i在一次會話中被瀏覽次數與本次會話瀏覽的所有頁面總次數之比值, 細化為式(2):

F(i)=V(i)∑im∈SjV(im)(2)

上式中, V(i)表示頁面i在一次會話中被瀏覽次數,Sj是一次會話瀏覽的頁面集合。

F(i)越大,則u對i越感興趣。

在定義l中給出的用戶興趣度計算公式,興趣度大小由點擊量確定。曾經,點擊量是衡量網站熱門程度的主要指標。不過,隨著AJAX技術的發展,百度、雅虎和Google等搜索網站因是瀏覽器首頁造成其點擊量較大,但往往不是用戶最感興趣的頁面。因此,僅僅以點擊量計算用戶興趣度有失偏頗。

2)瀏覽時間系數 C(i)

用戶在一個頁面上瀏覽的時間越長,說明用戶對該頁面越感興趣。用戶瀏覽時間應作為衡量網站訪問量的最好方式[6,11,12],改變傳統過度看重點擊量的做法。一個用戶在網站上瀏覽時間(在線時間)的長短,反應出一個網站的粘度和吸引用戶的能力。

用戶瀏覽時間,即用戶在網站頁面從打開到瀏覽內容結束并關閉頁面的時間。用戶瀏覽頁面的時間長短也與該頁面長度有關,因此需要將頁面的長度與“瀏覽時間”聯系起來。 C(i)表示“瀏覽時間系數”,是瀏覽頁面i單位長度上的所耗時間與本次會話瀏覽的所有網頁單位長度上所耗的最長時間的比值,如式(3)所示:

C(i)=T(i)/L(i)max im∈Sj(T(i)/L(i))(3)

上式中,T(i)表示用戶瀏覽頁面i所用時間,L(i)表示頁面i的長度,Sj是一次會話瀏覽的頁面集合。

綜上,可以看出:用戶訪問興趣度與用戶訪問頻率和用戶瀏覽時間有關,為了更準確地反映用戶的興趣度,必須考慮將頻率和瀏覽時間結合起來計算。本文綜合F(i)和C(i),表示在某一會話中用戶對某個頁面i的興趣度 I(i),I(i)的定義如(4)式所示:

I(i)=2·F(i)·C(i)F(i)+C(i)(4)

上式表明,興趣度 I(i)只有在用戶訪問頻率系數F(i)和瀏覽時間系數 C(i)同時較高的情況下才會具有較高的值,換言之,若用戶頻繁訪問某一頁面,并且瀏覽這個頁面的時間也較較長,則表明用戶對該頁面比較感興趣。有些頁面被用戶訪問的次數比較少,不能反映用戶的興趣度,所以在進行用戶頁面興趣度計算時需要設定一個最小的閾值,這樣可以排除訪問總次數比較少的頁面,提高系統的處理速度,同時也提高頁面推薦的可用性。

4.2改進的 Kmeans用戶聚類算法

將得到的用戶興趣度數據集進行聚類,聚類結果則為多個用戶類(簇),每個類(簇)中的用戶訪問習慣相近,稱為用戶訪問模式。用戶訪問模式是用來描述具有相同瀏覽訪問特征的用戶組。由于多個不同用戶在其訪問期間可能有相同的興趣,用戶訪問模式能有效獲得這些用戶共同的興趣或共同的訪問需求。此外,用戶訪問模式也能將不同興趣的用戶區分開來。本文采用改進的 Kmeans聚類算法獲得用戶訪問模式,該算法下。

基于改進的Kmeans用戶聚類算法

輸入:D={x1,x2,…,xn},k

//用戶興趣度數據集和期望的類數目

輸出:k個類集//用戶訪問模式

1)初始化k個類別中心。

按照公式(5)選取密度最大的前k個數據作為初始聚類中心點 C={c1, c2, …, ck},公式(5)如下:

density(xi)=∑nj=1ed(xi-xj)22σ2(5)

式中σ選取0.5。

2)對于數據集中其它每個對象xj,則根據它們與各個聚類中心點ci的距離,分別將它們分配給與其具有最小距離的聚類中心點的類中,形成k個類。

repeat

for j=1 to n do

將xj分配給距離最近的聚類中心所屬的聚類Ci

3)重新計算每個類的聚類中心。

for i=1 to k do

用當前聚類Ci中所有樣本的質心點更新聚類中心,即x′i=1Ci∑x∈Cix

4)計算誤差函數E=∑ki=1∑x∈Ci|x-x′i|2

UntilE不再明顯變化或聚類內的數據點不再發生改變。即所有聚類中心點達到穩定, 則結束聚類; 否則跳至步驟2), 重復執行, 直至聚類中心點不再發生變化。

上述算法中,首先針對現有的Kmeans算法初始點選擇容易陷入局部最優問題[8,13,14],通過迭代的方式選取密度最大的前k個數據作為初始化聚類中心,該方式能夠有效地解決初始點敏感的問題,而且降低了孤立點對Kmeans算法的影響;再依次計算初始數據集中每一個對象到各個聚類中心點的距離,并根據計算結果將數據對象逐個分派到其最近聚類中心點的類中去,然后重新計算接受新對象的類和失去對象類的均值,如此重復,直到各類再無元素進出。聚類結果得到用戶類集合 C={c1, c2,…, ck},其中每個類 ci是具有共同訪問興趣的用戶集合。

4.3熱點頁面推薦

基于聚類算法找到的具有共同訪問興趣的用戶集合,本節主要通過這些集合對網站頁面的訪問興趣度進行匹配,計算每個頁面的推薦度,按推薦度從大到小進行排序,完成用戶個性化推薦。

主要通過以下方式進行熱點頁面推薦。根據每一個類 ci的共同的用戶瀏覽興趣度,構建面向用戶的熱點頁面推薦集合,選取Top 10個熱點頁面,當用戶登錄到系統時,將這10個熱點頁面以快捷方式推薦給該類用戶。

5實驗結果

為了驗證改進的Kmeans聚類算法的有效性,本文選用了本校綜合信息門戶平臺中的用戶行為數據集,并選取 2015 年 3 月1 日至2015 年 6 月 30 日期間的用戶行為日志,具體包括2200個用戶、400個系統功能菜單以及805200條用戶點擊記錄。運行環境為Win7 系統,主頻3.5GHz,內存8G,硬盤1000G,程序使用Java語言實現。用戶行為數據集包括了10類用戶,分別是:校領導、處級干部、科級干部、一般管理人員、院系領導、教研室主任、實驗室主任、普通教師、研究生、本科生,并與K-means聚類算法進行比較,實驗中分別設置了400、700、1000、1300、1600 、1900以及2200個用戶作為比較對象,聚類結果如圖 3 所示。

在圖3中,橫軸為選取的用戶個數,縱軸為聚類結果的準確度。聚類結果準確度在[0,1]之間,結果越大則說明聚類效果越好。從上圖中可以看出采用改進的 Kmeans 算法,聚類準確度區間為[0.72,0.88],而一般的Kmeans算法的準確度區間為[0.61,0.75],兩個算法的準確度均隨著用戶個數的增加而增加,但改進的Kmeans 算法要比一般的Kmeans算法性能更佳,因此使用改進的Kmeans 算法聚類效率更高, 將該算法用在高校綜合信息門戶頁面推薦上將進一步提高用戶工作效率及其滿意度。

6結語

基于服務器日志挖掘的網站頁面推薦服務研究,一方面協助用戶很快找到感興趣的頁面,另一方面能夠幫助信息系統內容和結構的個性化完善。本文首先建立用戶瀏覽興趣度計算模型,接著通過改進的Kmeans算法對用戶進行聚類,然后實現用戶興趣頁面推薦,最后通過實驗驗證算法的有效性。目前,信息系統基于用戶興趣的頁面推薦研究仍處在快速發展時期,研究更智能、更優化的信息系統頁面推薦技術會有廣闊應用前景。

參考文獻

[1]韓家煒,孟小峰,王靜,等.Web挖掘研究[J].計算機研究與發展,2001,38(4):405-414.

[2]YAN Liang,LI Chunping.Incorporating Pageview Weight into an AssociationRuleBased Web Recommendation System [M].Lecture Notes in Computer Science.Berlin:Springer,2006:577-586.

[3]楊正余,王衛平.基于用戶訪問序列的實時網頁推薦研究[J].計算機系統應用,2008,17(5):50-53.

[4]解男男,胡亮,努爾布力等.基于Web日志挖掘的網頁推薦方法[J].吉林大學學報:理學版,2013,51(2):267-272.

[5]吳瑞.基于雙層聚類方法的網頁推薦模型[J].系統工程學報,2013,28(2):265-270.

[6]郭巖.網絡日志中用戶興趣的挖掘及利用[D].北京:中國科學院計算技術研究所,2004.

[7]呂佳.基于興趣度的Web用戶訪問模式分析[J].計算機工程與設計,2007,28(10):2403-2407.

[8]趙晶晶.基于Web日志挖掘的用戶訪問興趣研究[D].武漢理工大學計算機科學與技術學院,2014.5.

[9]楊鵬.Web日志挖掘數據預處理算法研究與實現[D].北京郵電大學計算機科學與技術學院.2010.5.

[10]孫宇航,孫應飛.基于網絡日志的數據挖掘預處理改進方法[J].系統工程與電子技術.2009(12):2994-2996.

[11]張珠玉,劉培玉,朱振方,等.改進的訪問統計方法及對用戶興趣度的計算[J].計算機工程與設計,2011,32(2):424-426,627.

[12]邢東山,沈鈞毅.一個可以準確反映Web瀏覽興趣的度量值—偏愛度[J].控制與決策,2004.19(3):307-310.

[13]邵必林,邊根慶,張維琪,等.采用k一均值聚類算法的資源搜索模型研究[J].西安交通大學學報,2012.46(10):55-59.

[14]殷賢亮,張為.Web使用挖掘中的一種改進的會話識別方法[J].華中科技大學學報:自然科學版,2006(7):33-35.

主站蜘蛛池模板: 亚洲天堂视频网站| 欧美国产中文| 亚洲另类国产欧美一区二区| 色网站在线视频| 欧美精品xx| 亚洲一区黄色| 免费无遮挡AV| 日本免费高清一区| 亚洲精品第五页| 欧美激情视频二区三区| 国产成人免费| 国产亚洲精品资源在线26u| 欧美无专区| 国产无遮挡猛进猛出免费软件| 久久女人网| 999国产精品| m男亚洲一区中文字幕| 亚洲aaa视频| 国产一区二区免费播放| 亚洲欧美激情另类| 亚洲综合色区在线播放2019| 天天干伊人| 女人一级毛片| 青青草原国产免费av观看| 一级看片免费视频| 久久99热这里只有精品免费看| 亚洲国产亚综合在线区| 日本妇乱子伦视频| 国产精品99r8在线观看| 亚洲中文字幕23页在线| 国产成+人+综合+亚洲欧美| 亚洲AV无码不卡无码| 亚洲三级影院| 国产视频你懂得| 国产无码精品在线| 日韩精品成人网页视频在线| 精品免费在线视频| 中文字幕首页系列人妻| 日本精品视频一区二区| www欧美在线观看| 免费欧美一级| 国产区91| 亚洲高清日韩heyzo| 国产欧美在线观看一区| 欧美视频在线不卡| 女人av社区男人的天堂| 亚洲另类国产欧美一区二区| 欧美日韩国产在线播放| 亚洲综合色婷婷| 国产成人1024精品| 亚洲精品无码高潮喷水A| 日本草草视频在线观看| 亚洲无码不卡网| 中文字幕va| 最新加勒比隔壁人妻| 日本亚洲欧美在线| 亚洲欧美日韩成人高清在线一区| 久久久久中文字幕精品视频| 无码专区国产精品一区| 久久久久中文字幕精品视频| 国产成人精品一区二区三在线观看| 97av视频在线观看| 亚洲一区二区三区麻豆| 久久亚洲欧美综合| 中国国语毛片免费观看视频| 色综合天天娱乐综合网| 在线视频精品一区| 四虎在线高清无码| 久久毛片基地| 国产超碰在线观看| 精品小视频在线观看| 欧美a网站| 91毛片网| 毛片在线看网站| 国产乱人视频免费观看| 亚洲日韩在线满18点击进入| 97se亚洲| 亚洲日韩高清无码| 亚洲日本www| 久久亚洲国产一区二区| 999精品视频在线| 婷婷六月综合|