999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于云端的Web數據挖掘預取技術研究

2010-01-05 06:10:08陳鋒敏
統計與決策 2010年22期
關鍵詞:頁面數據挖掘關聯

陳鋒敏

(湖北經濟學院 網絡與教育技術中心,武漢 430205)

基于云端的Web數據挖掘預取技術研究

陳鋒敏

(湖北經濟學院 網絡與教育技術中心,武漢 430205)

WWW以其多媒體的傳輸及良好的交互性而倍受青睞。 但由于Web服務和網絡固有的延遲,用戶并沒有得到與帶寬相應的服務體驗。為此文章提出了一種基于云端的智能Web預取技術,它能夠加快用戶瀏覽Web頁面時獲取頁面的速度。該技術通過簡化的WWW數據模型表示用戶瀏覽器緩沖器中的數據,在云端利用數據挖掘技術挖掘類聚用戶隱含的興趣關聯規則,并利用類聚用戶的歷史連接記錄創建確定的影射關系模型,存放在云端興趣關聯知識庫中,作為對用戶行為進行預測的依據。在用戶端,瀏覽器插件負責在用戶帶寬空閑時根據用戶興趣進行Web預取,從而對用戶實現透明的高速瀏覽。

WWW;互聯網;數據模型;數據挖掘;預取;映射;云端

隨著互聯網高速普及以及互聯網基礎設施的逐步完善,人均享有帶寬也在逐步的增加,但由于Web服務和網絡固有的延遲,用戶并沒有得到與帶寬相應的服務體驗。根據用戶當前的請求,預測用戶將來可能發出的訪問請求,在用戶瀏覽當前Web頁面時將預測的內容取到本地高速緩存(cache)中,通過主動的高速緩存可以有效提高用戶瀏覽體驗。預取技術的基礎是預測算法。數據挖掘是從大量的數據中采掘出隱含的、先前未知的、對決策有潛在價值的知識和規則的一種技術。我們可以根據用戶訪問的歷史數據和當前訪問的數據、利用數據挖掘技術來預測用戶將來的可能行為,從而為用戶預取一些Web頁面。

本文首先討論了Web預取的解決思路,然后通過簡化WWW數據模型建立興趣關聯知識庫,最后討論了一個基于云端和插件的Web預取原型系統。

1 Web預取映射關系研究

1.1 Web預取面臨的問題及解決思路

從根本上說,Web預取面臨的問題只有一個,那就是:從用戶訪問的過的大量歷史鏈接記錄中推測和判斷出用戶在當前頁面下最有可能點擊的鏈接頁面并提前將預測的內容取到本地高速緩存中,從而在很大程度上減小用戶的訪問延遲。如下圖所示:

雖然互聯網中具有海量的數據,但對于具體的某一用戶而言,其所接觸的只是萬維網的有限的極小一部分,所以我們可以通過Web頁面的向量類型作為有限集合,以類聚用戶的歷史鏈接記錄(包含有用戶的偏好)確定映射關系。

1.2 預取映射關系的構建

(1)用戶訪問過的歷史Web頁面通過TFIDF向量表示法進行聚類。

(2)用戶的鏈接記錄加入到兩集合之間作為確定的映射關系,同時記下鏈接次數作為權重。

所構建的集合之間的映射包含下列二種具體的映射關系:

第①種映射是一一映射。

第②種映射是一對多的關系,我們可以通過記錄其分別映射的次數形成權重來限制在預取的過程中沿著權重大的目標結點進行映射。最終形成一一映射。

1.3 基于確定映射關系的新的預取思路

在確定的映射關系構建之后

step1:將當前的Web頁面進行詞條切分,應用TFIDF向量表示法與知識庫中的源Web頁面類型進行匹配,在知識庫的源Web頁面集合中找出對應的源Web頁面類型;

Step2:沿著知識庫中確定的映射關系找出對應的目標Web頁面類型;

Step3:將當前Web頁面鏈接集合中的Web頁面與目標Web頁面類型進行匹配,并按匹配程度進行排序,并按規定的預取數量按順序從前向后進行預取。

該預取思路的優點:

①構建了確定的映射關系,提高了預取的效率。

②算法的復雜度為,大大節省了計算資源,提高了響應速度。

2 簡化WWW數據模型

Web頁面之間可以通過超級鏈接而相互鏈接,從而構成一個相互鏈接的超媒體系統。為了對用戶行為做出預測,必須有一種數據模型能夠很好地描述Web頁面間的興趣關聯規則。為便于本文的討論,我們將定義一種數據模型一一簡化WWW數據模型。

定義1 頁面節點用三元組(P Id,P,time)表示,其中,P Id唯一標記一個頁面節點,time為其最近被訪問的時間,P為屬性集,P={pi|pi為屬性,i=1,2,…}。

定義2 頁面中的鏈接點用三元組 (L Id,string,target.node.id)表示,L Id唯一標記一個鏈接點,string描述了該鏈接的展示信息,target.node.id是L Id所標記的鏈接點所指向的目標頁面節點的P Id.

定義3 頁面中的鏈接用三元組(source.node,L,target.node)表示,其中,source.node為源頁面節點,L為source.node中的鏈接點,target.node為目標頁面節點,L.target.node.id=target.node.

針對數據挖掘的要求及高速緩存的特點,我們通過頁面節點鏈接點和鏈接描述一種簡化WWW數據模型。

定義4 簡化WWW數據模型可以用三元組(Page.node.set,Page.linknode.set,Link.set)表示,其中,Page.node.set為頁面節點集合,Page.linknode.set為鏈接點集合,L ink.set為鏈接集合。

如圖2所示,頁面節點N1,N2,N3,N4,N5分別表示不同的Web頁面,這些頁面節點之間可以通過有向邊相互鏈接。這些有向邊直觀地表示了頁面間的鏈接。

高速緩存中保存的歷史數據反映了用戶訪問頁面過程中的興趣愛好。利用用戶的興趣間的關聯信息可以對用戶的行為進行預測。高速緩存中頁面間的聯系可以很方便地用圖2中的簡化WWW數據模型來描述,但是這種數據模型不能直觀地表示用戶的興趣間的關聯信息.為了對用戶的行為進行預測,從而實現主動的緩沖(預取),需要通過某種方法將由簡化WWW數據模型所表示的高速緩存中的數據反映到適合于預測的數據模型中去。

3 云端興趣關聯知識庫與用戶行為預測

一般的用戶都是喜歡訪問有限的網站中的感興趣的Web頁面,受用戶習慣行為的影響,其點擊頁面的順序中隱含了該用戶的興趣關聯規則,因此我們可以將用戶曾經訪問過的Web頁面進行抽象提取成向量的形式后存入興趣關聯知識庫(設有存儲上限和自動更新功能),同時將Web頁面鏈接順序(L Id—>target.node.Id)一并存入,則該條記錄就隱含了用戶的興趣關聯規則,例如:用戶訪問Web頁面的順序為A—>B—>C—>D,則我們可以將下列記錄存入興趣關聯數據庫:

序號次數123…….N Source.page P(A)P(B)P(C)…….P(N)L Id L Id(A)L Id(B)L Id(C)…….L Id(N)target.node.Id target.node.Id(B)target.node.Id(C)target.node.Id(D)……target.node.Id()target.page P(B)P(C)P(D)……P()N1N2 N3 Nn

興趣關聯知識庫中的記錄隱含了用戶的興趣關聯規則,即用戶從某一詞條(興趣)轉向其它詞條(興趣)的可能性。利用它再結合用戶訪問的當前頁面可以預測用戶可能訪問的鏈接(圖 1)。

興趣關聯知識庫中的興趣關聯規則記錄建立在對大量歷史數據進行統計的基礎上。用戶在訪問頁面時,一般是連續訪問多個頁面。這些頁面實際上表明了用戶當前的興趣狀況,它們相對那些用于構造興趣關聯知識庫的歷史數據來說,對預測用戶的行為更有價值,即它們的新鮮度更高。根據用戶目前訪問軌跡進行類聚分析,從而獲取最可能預取頁面路徑。

4 基于云端的Web預送技術

通過瀏覽器插件在用戶空閑時段與云端進行交互,云端基于興趣關聯知識庫預測用戶行為算法對用戶當前頁面進行分析,云端根據用戶興趣,返回最可能興趣頁面路徑,由插件負責預取Web頁面并將之存放到本地高速緩存中。同時云端通過興趣關聯知識庫調整增量算法,對興趣關聯知識庫進行更新,插件的存在對用戶是透明的。用戶仍像平時一樣使用瀏覽器。

5 總結

本文在給出簡化WWW數據模型的基礎上,利用數據挖掘技術對用戶瀏覽器高速緩存中的數據進行挖掘,從中獲取知識,并將其存放在興趣關聯知識庫中,用來預測用戶即將訪問的鏈接。通過對用戶行為興趣分析形成龐大的興趣關聯知識庫不僅可以為用戶帶來快速的瀏覽體驗,還可以在不泄露用戶隱私的前提下為Web服務商提供詳實的服務報告以及訪問用戶行為分析。

[1]陳康,云計算.系統實例與研究現狀[J].軟件學報,2009,(5).

[2]張建勛.云算研究進展綜述[J].計算機應用研究,2010,(2).

[4]朱志國.持久偏愛的Web用戶訪問路徑信息挖掘方法[J].情報學報,2010,(2).

[5]王繼承,潘金貴等.Web文本挖掘技術研究[J].計算機研究與發展,2000,37(5).

[6]王晗.一種新的增量式關聯規則數據挖掘方法研究[J].儀器儀表學報,2009,(2).

[7]班志杰.Web預取技術綜述[J].計算機研究與發展,2009,(2).

TP3

A

1002-6487(2010)22-0161-02

(責任編輯/易永生)

猜你喜歡
頁面數據挖掘關聯
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
探討人工智能與數據挖掘發展趨勢
奇趣搭配
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 欧美成a人片在线观看| 亚洲男人天堂2020| 日韩午夜福利在线观看| av在线5g无码天天| 青青极品在线| 最新国产高清在线| 国产精品太粉嫩高中在线观看| 亚洲国产高清精品线久久| 成年人福利视频| 亚洲制服丝袜第一页| 国产麻豆福利av在线播放 | 日韩成人免费网站| 国产精品99r8在线观看| 三级视频中文字幕| 亚洲人成色在线观看| 色综合久久综合网| 亚洲无码免费黄色网址| 成年人国产视频| 99精品免费欧美成人小视频| 国产乱人伦精品一区二区| 中文字幕天无码久久精品视频免费| 亚洲成网站| 国产一级二级三级毛片| 日韩色图在线观看| 伊人国产无码高清视频| 午夜视频免费试看| 欧美三级自拍| 激情無極限的亚洲一区免费 | 国产精品高清国产三级囯产AV| 国产真实乱子伦精品视手机观看 | 高清无码不卡视频| 伊人激情综合| 国产成人综合久久精品尤物| 日本一区高清| 亚洲第一页在线观看| 国产成人综合亚洲网址| 免费看一级毛片波多结衣| 白浆免费视频国产精品视频| 日日拍夜夜嗷嗷叫国产| 一本视频精品中文字幕| 免费国产在线精品一区| 成人噜噜噜视频在线观看| 美女高潮全身流白浆福利区| 99久久99这里只有免费的精品| 99热这里只有精品5| 视频二区亚洲精品| 性视频一区| 欧美日韩va| 久久成人18免费| 国产精品无码制服丝袜| 国产成人久久综合777777麻豆| 久久频这里精品99香蕉久网址| 日韩欧美国产另类| 精品国产免费观看| 久久国产av麻豆| 久久永久免费人妻精品| 久久99蜜桃精品久久久久小说| 欧美日韩高清| 欧美精品伊人久久| 欧美精品一二三区| 91视频精品| 人妻丰满熟妇αv无码| 色综合狠狠操| 久久久久青草大香线综合精品| 制服丝袜亚洲| 国产精品女同一区三区五区| 日韩在线永久免费播放| 114级毛片免费观看| 九九久久精品免费观看| julia中文字幕久久亚洲| 国产精品专区第1页| 亚洲天堂免费在线视频| 粉嫩国产白浆在线观看| 精品欧美一区二区三区在线| 香蕉网久久| 亚洲不卡av中文在线| 欧美国产在线看| www精品久久| 香蕉视频国产精品人| 国产精品护士| 天天综合色网| 欧美三级不卡在线观看视频|