999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Markov網頁預測模型綜述*

2010-05-18 07:28:06劉超慧吳慶濤
網絡安全與數據管理 2010年18期
關鍵詞:用戶模型

劉超慧,吳慶濤

(1.鄭州航空工業管理學院 計算機科學與應用系,河南 鄭州 450015;2.鄭州航空工業管理學院 計算中心,河南 鄭州 450015)

建立有效的用戶瀏覽預測模型,對用戶的瀏覽做出準確的預測,是導航工具實現對用戶瀏覽提供有效幫助的關鍵。

在瀏覽預測模型方面,很多學者都進行了卓有成效的研究。AZER[1]提出了基于概率模型的預取方法,根據網頁被連續訪問的概率來預測用戶的訪問請求。SARUKKAI[2]運用馬爾可夫鏈進行訪問路徑分析和鏈接預測,在此模型中,將用戶訪問的網頁集作為狀態集,根據用戶訪問記錄,計算出網頁間的轉移概率,作為預測依據。SCHECHTER[3]構造用戶訪問路徑樹,采用最長匹配方法,尋找與當前用戶訪問路徑匹配的歷史路徑,預測用戶的訪問請求。XU Cheng Zhong等[4]引入神經網絡實現基于語義的網頁預取。徐寶文等[5]利用客戶端瀏覽器緩沖區數據,挖掘其中蘊含的興趣關聯規則,預測用戶可能選擇的鏈接。朱培棟等人[6]按語義對用戶會話進行分類,根據會話所屬類別的共同特征,預測用戶可能訪問的文檔。

在眾多的瀏覽模型中,Markov模型是一種簡單而有效的模型。Markov模型最早是ZUKERMAN[7]等人于1999年提出的一種用途十分廣泛的統計模型,它將用戶的瀏覽過程抽象為一個特殊的隨機過程——齊次離散Markov模型,用轉移概率矩陣描述用戶的瀏覽特征,并基于此對用戶的瀏覽進行預測。之后,BOERGES[8]等采用了多階轉移矩陣,進一步提高了模型的預測準確率。在此基礎上,SARUKKAI建立了一個實驗系統[9],實驗表明,Markov預測模型很適合作為一個預測模型來預測用戶在Web站點上的訪問模式。

1 Markov模型

1.1 Markov模型

Markov預測模型[10]對用戶在Web上的瀏覽過程作了如下的假設。

假設1(用戶瀏覽過程假設):假設所有用戶在Web上的瀏覽過程是一個特殊的隨機過程——齊次的離散Markov模型。即設離散隨機變量的值域為Web空間中的所有網頁構成的集合,則一個用戶在Web中的瀏覽過程就構成一個隨機變量的取值序列,并且該序列滿足Markov性。

一個離散的Markov預測模型可以被描述成三元組<S,A,B>,S代表狀態空間;A 是轉換矩陣,表示從一個狀態轉換到另一個狀態的概率;B是S中狀態的初始概率分布。其中S是一個離散隨機變量,值域為{x1,x2,…xn},其中每個xi對應一個網頁,稱為模型的一個狀態。

Markov預測模型是一個典型的無后效性隨機過程,也就是說模型在時刻t的狀態只與它的前一個時刻t-1的狀態條件相關,與以前的狀態獨立。即:

一個Markov預測過程可以由它的轉移矩陣和初始分布向量確定,其中轉移矩陣集中描述了該Markov鏈預測模型的動態特征。該預測模型的轉移概率矩陣用A表示,初始分布向量用B表示,如式(1)、式(2)所示。

其中pij表示在矩陣中,頁面xi到頁面xj的轉移概率,即:P(Xt=xj|Xt-1=xi);Pi表示初始概率分布。

用向量 H(t)=(0,…,1,…)表示用戶在時刻 t的狀態,如果用戶在t時刻訪問的頁面為x,則用戶在向量的第i維就是1,其余為零。用向量M(t)表示時刻t時的狀態概率向量 ,M(t)=P(Xt=x1),P(Xt=x2),…P(Xt=xn))表示在t時刻不同狀態的概率,t時刻用戶訪問狀態可表示為:

根據式(3)將得到一個 n=|H(t)|的向量 M(t),其中概率值最大的那一維就是用戶在t時刻的最有可能的狀態,式(3)中A即為一階Markov模型狀態轉移矩陣。

在許多應用中,一階Markov預測模型不能很準確地找到用戶將要訪問的頁面。這是由于這些模型沒有細致地考慮用戶的訪問歷史,所以不能很好地區分不同用戶的行為模式。為了得到較好的預測結果,一般偏向于使用二階以上高階的Markov預測模型,其基本公式如式(4)所示:

其中Ak是 k階狀態轉移矩陣,H(t-k)為過去的(tk)時刻的狀態向量,此時M(t)表示的是k階Markov模型的預測狀態。

1.2 性能指標

為了評測Markov模型的性能,常使用以下兩個性能指標。

定義1:預測精確率P

即,預測精確率P表示正確預測的Web對象數與預測Web對象數的比率。其中,Paccurate為預測結果中至少有一個在當前請求后時間窗口內被請求的次數;Pall為總預測次數,它表述了模型的準確程度。

定義2:覆蓋率A

即模型能使用的次數占總申請次數的百分比。其中,Pall為總預測次數,Precord為記錄總數,它描述了模型的預測能力,反映了模型的可用性。

2 擴展預測模型

2.1 隱Markov預測模型

隱Markov模型最早由BAUM提出,在許多領域,尤其是語音識別中得到了廣泛的應用。先用隱Markov模型對用戶進行分類,然后針對具有不同類別的用戶提煉出不同的預測模型[11],是隱Markov模型的一種具體應用。采用離散化輸出一階隱馬爾科夫模型,模型可以表示為λ=(A,B,π),式中:A 為狀態轉移概率分布,A={aij|1≤i,j≤N},aij=P[qt|qt-1=i];B為輸出符號的概率分布,B={bj(k)|1≤k≤M,1≤j≤N},bj(k)=P[ot=vk|qt=i];

Π為初始狀態概率,π={πi|1≤i≤N},πi=P[q0=i]

N為狀態個數,t時刻狀態表示為qt;

M為離散輸出符號個數,輸出符號集V={v1,v2…vM}

給定 A,B,π,N,M 的隱 Markov模型可以產生序列O=(o1,o2…on),oi為狀態輸出符號。假設狀態序列其q=(q1,q2,…,qn)已知,則觀察序列O的概率為:

王實[12]等提出一種新的基于隱馬爾可夫模型的興趣遷移模式發現方法,并利用用戶遷移模式間的關聯規則來發現興趣遷移模式。而借助隱馬爾可夫模型,挖掘蘊涵在用戶訪問路徑中的信息需求概念,以此進行預取頁面的評價,也可以實現基于語義的網頁預取[13]。

隱Markov模型盡管考慮了用戶興趣,但和簡單的Markov模型一樣,存在一定的不足:用戶訪問序列串長是動態時變的,采用固定階數的傳統Markov鏈模型并不能準確地對用戶的訪問行為建模。

2.2 多Markov模型

雖然用戶在Web空間的瀏覽過程是一個受瀏覽目的、文化背景、興趣愛好等多種因素影響的復雜過程,有很多差異,然而觀察大量用戶的瀏覽過程可以發現,某些用戶的瀏覽過程表現出相同或相近的特點,如他們瀏覽的網頁基本相同,瀏覽各個網頁的順序相似等,這一現象引發了對Web用戶分類的研究。通過對用戶分類,同一類別的用戶用同一個模型來描述它,而不同類別的用戶其瀏覽過程差別較大,用不同的模型來描述他們的特征則更為合理[14]。

假設 2(用戶分類假設):假設根據用戶在 Web空間的瀏覽特點,可以將所有用戶分為K類。如果用C={c1,c2,…,ck}表示用戶的類別,則任意一個用戶屬于類別ck的概率為P(C=ck),而且有:

假設 3(類 Markov鏈假設):假設同一類別的用戶具有相同或相近的瀏覽特征,且其瀏覽過程是一個特殊的隨機過程——齊次離散Markov鏈。基于這兩條假設建立用戶瀏覽預測模型,并把這種基于用戶分類的含有多個Markov鏈的模型稱為多Markov鏈模型。

定義3:多Markov鏈模型可以表示為一個四元組

<X,K,P(C),MC>。其中,X 是一個離散隨機變量,值域為{x1,x2,…,xn},每個 xi對應一個網頁,稱為模型的一個狀態;K表示模型包含的用戶類別的數目;C={c1,c2,…,ck}表示用戶的類別,其分布函數P(C)表示不同類別用戶的概率分布;MC={mc1,mc2,…,mck}為類 Markov鏈的集合,每一個元素mci是描述類別為ck的用戶瀏覽特征的Markov鏈,稱為類Markov鏈,它的轉移矩陣可以表示為:

對多模型的學習主要是確定以下幾個參數:

(1)用戶類別數K;

(2)任意一個用戶屬于類別ck的概率P(C=ck);

(3)類Markov鏈的轉移矩陣。

實驗證明這樣就克服了單Markov鏈模型中用一個Markov鏈描述所有用戶的瀏覽特征而帶來的不準確性,從而更精確地描述用戶的瀏覽特征,并有希望得到更高的預測準確率。

多Markov鏈模型的時間復雜度較高,在處理一個包含m個用戶瀏覽序列和n個網頁的日志文件時,其時間復雜度達O(m5n2)。如果日志文件較大,m和n的取值也會很大,因此,多Markov鏈模型的時間消耗極大。

2.3 混合Markov模型

多Markov模型充分考慮了不同用戶間的差別,但對于個體沒有考慮請求在時序上的先后,沒有考慮請求的網頁之間的內在聯系。混合Markov模型能克服類似的不足。

假定用戶的瀏覽模式滿足簡單的Markov性下,則下面兩式成立:

以上兩式中ak代表了具體的一個網頁W,L=a1,a2,…,an-1,an代表用戶所經歷的W序列。X(i,j)表示隨機變量序列(Xi,Xi+1,…,Xj-1,Xj),其中 i≤j。

上述模型稱為二步Markov模型[15],它的核心任務是建立一個與一階Markov模型的轉移概率矩陣同規模的轉移概率矩陣。矩陣的行元素代表用戶瀏覽的上一個網頁,列元素代表用戶下一步可能瀏覽的網頁。通過該矩陣可以根據用戶上一步瀏覽的網頁來預測下一步要瀏覽的網頁。

定義4:混合模型表述如下

(8)式中的λ1、λ2分別是一階模型和二步模型的混合系數。混合模型的關鍵就是根據極大似然函數定理求出λ1和λ2。

在多Markov模型方面,劉業政等[16]提出可變多階Markov鏈模型VMOMC。VMOMC將用推薦目標網頁概率值度量的可變多階Markov鏈并行組合,組合模型中采用遺傳算法確定各單階Markov鏈模型的最優權重。陳佳[17]提出了基于混合模型的一種挖掘用戶群在頁面上興趣分布程度的模式發現,計算用戶群從一個頁面到另外一個頁面的導航路徑模式的概率大小,可得到大量的用戶對所訪問Web的興趣及導航模式,從而預測用戶的瀏覽路徑。

2.4 結構相關性模型

有研究表明,用戶在進行Web瀏覽的絕大部分時間里都是從當前頁面中挑選一個鏈接繼續瀏覽;在用戶將來訪問的網頁中,46%能在最近3個網頁的鏈接中找到,75%能在所有歷史網頁的鏈接中找到 。因此,可以認為用戶將來的可能請求大部分存在于由當前頁面上所有鏈接組成的集合中。基于結構相關性的一階Markov模型包括以下三部分[19]:

(1)用戶訪問序列集合:一個序列是指用戶在一段連續時間內先后訪問的一系列網頁,記作Seq={sm},sm=<pml,…,pmn,…,>(m=1,2,…M,M 為序列個數;n=1,2,…,Nm,Nm為序列 s中網頁的個數)。

(2)用戶狀態集合:即用戶訪問序列集合中所有節點網頁組成的集合,記作 Stat={p1,…,pi,…}(i=1,2,…I,I為狀態個數)。顯然Seq中每一個pmn都在Stat中有一個對應的 pi。

(3)狀態轉移概率:記作tij=P(pj|pi),表示用戶從當前網頁pi轉至訪問網頁pj的概率。

用有向圖G=(P,E)描述基于結構相關性的Markov模型。 其頂點 pi(pi∈P)為用戶狀態,有向邊 eij(eij∈E)表示用戶曾從pi根據鏈接訪問pj。另外還要為pi定義一個鏈接集合p.Link,表示網頁 pi上包含的所有鏈接;為 pi的每條eij定義一個計數器eij.Count,表示用戶從網頁pi轉至訪問網頁pi的次數,并用它來代替用戶的狀態轉移概率tij。

通過遍歷用戶訪問序列的節點,可以得到用戶的狀態空間和轉移情況,并最終建立上述模型。

結合頁面內容及站點結構來調整狀態轉移矩陣,以獲得更精確的預取結果,提高Web服務的質量[20]。而利用頻繁訪問模式樹存儲Markov鏈,能夠大幅減小存儲空間[21]。

3 進一步研究的問題

盡管現有的Markov瀏覽預測模型在預測準確率、覆蓋率方面已取得較滿意的成果,但瀏覽預測問題的實際應用背景中的一些特殊要求使得這一領域仍存在一些需要進一步研究的問題。這些問題包括:

(1)Markov轉移概率矩陣的處理。該模型的存儲空間主要用于保存狀態轉移概率矩陣,所以其存儲空間的復雜度是網頁數目n的平方,即為0(n)。由于n的值一般都比較大,存儲復雜率較高。同時為了提高Web預取的命中率,常常聯合多個Markov鏈模型,即用到了多階狀態轉移矩陣,使得存儲復雜率成倍提高。因此如何存儲及處理Markov模型的概率矩陣、降低復雜度是急需解決的問題。此外,在很多情況下狀態轉移矩陣是稀疏矩陣,采用什么樣的數據結構來存儲這樣的矩陣也是需要研究的課題。

(2)混合Markov模型的求解問題。混合Markov模型在預測用戶的瀏覽行為方面越來越受到學者的重視。有效的模型求解方法,能大大提高模型的效率。雖有學者[15,22]進行了有益的探索,但這方面的工作仍需要更多學者的參與。

(3)在實際瀏覽預測問題中,Markov的隨機統計方法與其他方法,如神經網絡、貝葉斯網絡、聚類、關聯規則、遺傳算法等相結合能獲得較高的預測準確率。

(4)用戶在Web空間的瀏覽過程是一個受瀏覽目的、文化背景、興趣愛好等多種因素影響的復雜動態過程,如能有效地度量用戶的瀏覽興趣,并及時發現用戶的興趣遷移[25],對于提高預測準確率非常重要。此外,隨著無線網絡的普及,怎樣預測無線網絡環境下用戶的瀏覽行為,是研究人員面臨的又一個課題。

全文概述了基于Markov的各種預測模型,分析了各個模型的原理及優缺點,指出了今后的研究方向。

[1]BESTRAVROS A.Using speculation to reduce server load and service time on the WWW proceedings of the CIKM′95,Baltimore,1995:403-410.

[2]SARUKKAI R.Link prediction and path analysis using Markov chains[J].Computer Networks,2000,33(1-6):337-386.

[3]SCHECHTER S,KRISHNAN M,SMITH M D.Using path profiles to predict HTTP requests[J].Computer Networks and ISDN Systems,1998,30(1-7):457-467.

[4]XU C Z,TAMER.Semantics-based personalized prefetching to improve Web performance[C].Proceedings of the 20th IEEE Conference on Distributed Computing Systems,2000:636-643.

[5]徐寶文,張衛豐.數據挖掘技術在Web預取中的應用研究[J].計算機學報,2001,24(4):10-17.

[6]朱培棟,盧錫城,周興銘.基于客戶行為模式的 Web文檔預送[J].軟件學報,1999,10(11):1142-1147.

[7]ZUCKERMAN I D.Albrcht predicting user’s requests on the WWW[C].In:Proceedings of the 7th International conference on User Modeling,New York,springer,1999:275-284.

[8]BORGES J,LEVENE M.Data mining of user navigation patterns.In:Proceedings of the1999 KDD Workshop on Web Mining,CA:Springer Verlag Press,1999:92.

[9]SARUKKAI R.Link prediction and path analysis using Markov chains[C].Amsterdam,Nether-lands Proceedings of the 9th World Wide Web Conference,2000:234-247.

[10]林文龍,劉業政,姜元春.Web瀏覽預測的Markov模型綜述[J].計算機科學,2008,35(1):9-14.

[11]金民鎖,劉紅祥,王佐,基于隱馬爾科夫模型的瀏覽路徑預測[J].黑龍江科技學院學報,2005,15(3):167-170.

[12]王實,高文,李錦濤,等.基于隱馬爾可夫模型的興趣遷移模式發現[J].計算機學報,2001,24(2):152-157.

[13]許歡慶,王永成,孫強.基于隱馬爾可夫模型的Web網頁預取[J].上海交通大學學報,2003,37(3):404-407.

[14]刑永康,馬少平.多Markov鏈用戶瀏覽預測模型[J].計算機學報,2003,26(11):1510-1517.

[15]余雪崗,劉衍珩,魏達,等.用于移動路徑預測的混合Markov模型[J].通信學報,2006,27(12):61-69.

[16]劉業政,林文龍.可變多階 Markov鏈模型及在 WWW 個性化推薦中的應用[J].情報學報,2008,27(6):819-824.

[17]陳佳,吳軍華.基于混合Markov模型的用戶瀏覽預測[J].計算機工程與設計,2009,30(4):903-906.

[18]葉海琴,石磊,王意鋒.基于網絡訪問行為的混合階Markov預測模型[J].計算機工程與設計,2008,29(2):333-336.

[19]張麗,郭成城.基于結構相關性Markov模型的Web網頁預取方法[J].計算機工程與應用,2O04(2):163-167.

[20]徐燕.基于內容和結構的Markov模型在網頁預取中的應用[J].計算機工程與科學,2007,29(4):25-27.

[21]閆永權,張大方.基于頻繁的 Markov鏈預測模型[J].計算機應用研究,2007,24(3):41-43.

[22]胡必錦.Markov模型的熵與參數估計[J].重慶交通學院學報,2005,25(6):162-164.

[23]韓真,曹新平.TOP-N選擇 Markov預測模型[J].計算機應用,2005,25(3):670-672.

[24]石磊,古志民,衛琳,等.基于 Web流行度的選擇 Markov預取模型[J]計算機工程,2006,32(11):72-74.

[25]吳晶,張品,羅辛,等.門戶個性化興趣獲取與遷移模式發現[J].計算機研究與發展,2007,44(8):1284-1292.

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 激情综合五月网| 最新亚洲人成网站在线观看| 三级毛片在线播放| 亚洲一区二区三区在线视频| 亚洲制服中文字幕一区二区| 18禁黄无遮挡网站| 久久精品国产在热久久2019| 91精品在线视频观看| 久久美女精品| 久久精品一卡日本电影| 久996视频精品免费观看| 无码一区18禁| 首页亚洲国产丝袜长腿综合| 中文字幕亚洲专区第19页| 制服丝袜在线视频香蕉| 国产亚洲高清视频| 亚洲精品视频网| 一本色道久久88| 91九色最新地址| 精品欧美视频| www.精品国产| 无码高清专区| 日韩AV手机在线观看蜜芽| 亚洲手机在线| 国产在线拍偷自揄观看视频网站| 色偷偷综合网| 欧洲免费精品视频在线| 国产成人午夜福利免费无码r| 国产精品久久久久无码网站| 中文字幕伦视频| 久久精品一卡日本电影| 福利在线不卡一区| 亚洲欧洲自拍拍偷午夜色无码| 91精品专区国产盗摄| 国产视频只有无码精品| 九九这里只有精品视频| 久久一本精品久久久ー99| 国产高清在线丝袜精品一区| 四虎成人精品| 国产精品黑色丝袜的老师| 色天天综合| 久久性视频| 原味小视频在线www国产| 日韩精品亚洲人旧成在线| 青草娱乐极品免费视频| 浮力影院国产第一页| 国产色伊人| 色综合天天视频在线观看| 污污网站在线观看| 国产99视频精品免费视频7| 亚洲国产欧美中日韩成人综合视频| 综合网天天| 人妻夜夜爽天天爽| 国产a v无码专区亚洲av| 亚洲欧美综合在线观看| 乱人伦99久久| 国产精品视频系列专区| 精品无码一区二区在线观看| 久久久精品无码一二三区| www.youjizz.com久久| 国产亚卅精品无码| 第一页亚洲| 人妻中文久热无码丝袜| 久久久久人妻一区精品色奶水 | 亚洲精品大秀视频| 伊人狠狠丁香婷婷综合色| 人妻免费无码不卡视频| 亚洲丝袜第一页| 97国产在线播放| 成年人午夜免费视频| 国产精品免费入口视频| 看国产毛片| 免费国产小视频在线观看| 中文字幕久久亚洲一区| 高清免费毛片| 国产18在线播放| 丁香六月综合网| 经典三级久久| 欧美成人午夜影院| 成AV人片一区二区三区久久| 国产精品亚洲一区二区三区z| 日韩不卡免费视频|