999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數據挖掘及常用技術淺析

2012-10-21 14:55:59鄧紅梅
卷宗 2012年5期
關鍵詞:頁面數據挖掘數據庫

摘要:Web挖掘是通過挖掘Web日志記錄來發現客戶訪問Web頁面的模式。用戶在面對大量的網上信息束手無策時,Web挖掘技術為用戶提供了方便快捷的解決方案。

關鍵詞:Web 挖掘;數據挖掘

引 言

近年來,Internet在不斷地普及,WWW在迅速地發展,人們可以通過網絡方便地得到自己需要的信息,但是網上信息的大量涌現使得用戶經常感到束手無策,甚至常常不知道如何查找自己所需要的信息,用戶為此苦惱萬分。Web數據挖掘技術提供一個很好的解決方法,它不但可以為訪問用戶提供方便,而且對提高站點效率、吸引客戶等都有很大的幫助。

在現實當中人們常常將Web挖掘與Web信息檢索或信息抽取等同起來。實際上它們不是等同的,并且是有區別的:一、信息檢索只能以關鍵詞去查找與關鍵字匹配的簡單目標,如果用戶給出的不是關鍵字,而是信息樣本,這時信息檢索就無法滿足用戶的要求,但是挖掘系統是可以滿足用戶要求的,它能夠從文本中提取出目標信息的特征,然后根據目標特征在網絡中有目的地進行搜索,最后將搜索結果返給用戶。二、信息檢索實際上是在一定的領域內對特定的信息進行查找和檢索,在某種程度上可以看作是Web挖掘中文檔分類的一種特殊情況。三、信息檢索只是一部分使用到了數據挖掘技術,正是因為這樣,在信息檢索中在一般情況下是很難發現隱式的數據聯系,而Web挖掘卻不同,它能從大量看似無關的數據中發現數據聯系和知識,并對于決策給予支持。

1 Web挖掘

Web挖掘是利用數據挖掘技術從Web頁面內容、頁面之間的關系與結構、用戶的訪問記錄等Web數據中提取滿足用戶目標的有用知識、有用信息,以便為Web用戶的訪問提供方便或為網站經營者改善站點結構提供決策支持等[1]。Web挖掘不是一個單一的技術,涉及互聯網技術、統計學、信息學等多個領域[2]。Web挖掘過程可分為多個處理階段:確定挖掘目標、準備源數據、數據選擇及數據預處理、數據挖掘及模式識別、分析評價等階段。

傳統數據庫中的數據都是結構化的數據,而Web上的數據是半結構化的,半結構化是相對于數據庫中的結構化數據而言的。由于Web的異構性、動態性與開放性等特點,要從這些分散的、沒有統一管理的、異構的大量數據中準確、迅速地獲取信息是Web挖掘要解決的問題,這也決定了在進行Web挖掘時不能完全依賴于數據庫的挖掘技術。面向Web的數據挖掘比面向數據庫的數據挖掘要復雜很多,進行Web挖掘要考慮很多問題[3]。

1.數據來源分析。進行Web挖掘時所需要的數據主要來自于三個方面:Web服務器上記錄的訪問日志、Web服務器上的頁面所包含的信息以及客戶的相關資料信息。用戶訪問Web 站點時,站點會記錄其訪問記錄。借助一些工具可以處理和分析Web服務器上的日志文件從而得到有意義、有價值的信息。Web服務器還可以記錄用戶其他的訪問信息,例如:Cookie和用戶提交的查詢信息等。與此同時,服務器也記錄文件的相關屬性,例如文件的創建者、修改時間等。而注冊用戶的資料信息存儲在資料數據庫中,內容如:客戶的姓名、年齡,對于產品的看法,顧客的個人偏好等。Web挖掘的一個難點就是如何從非結構化數據信息中進行有效地信息和數據挖掘。

2.異構數據庫環境。從數據庫角度來看,Web網站上的信息也可以被當作一種特殊的、復雜的數據庫。互聯網上的任何站點都是數據源,而且都是異構的數據源,因而站點之間的信息和組織都是有差別的,這就構成了一個巨大的異構數據庫環境。如果想在這個巨大的異構數據庫上進行數據挖掘必須解決幾個問題。第一,必須要想辦法把這些分布的數據集成起來,只有將這些不同站點的數據都集成在一起,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的信息或知識。第二,還要解決Web上的數據查詢問題,如果不能快速、準確地查找這些數據,就不能對這些數據進行分析、集成和處理。

3.半結構化的數據結構。數據庫中的數據和Web上的數據有著很大的不同,數據庫中的數據都是根據一定的數據模型來進行具體描述的。而Web上的數據則不同,它沒有特定的數據模型來描述,各Web站點的數據是獨立設計出來的,之間的差異很大,并且在自述性和動態性上也表現得相當的大的差異。因而,Web上的數據的結構性不是很強,只能說有一定的結構性,同時因自述層次的存在,Web上的數據是一種非完全結構化的或者是半結構化數據。半結構化是Web上數據的最大特點。

4.半結構化的數據源問題的解決。由于數據源的特殊性,要進行Web數據挖掘第一步就建立半結構化數據源模型和半結構化數據模型,解決其中的集成和查詢難題。這就必須要建立一個模型來來對Web上的數據進行描述。Web上的半結構化的數據需要定義一個半結構化的數據模型和模型的抽取技術來對現有數據自動地的抽取半結構化模型。面向Web數據挖掘的前提條件就是半結構化模型和半結構化數據模型抽取技術這種技術。

Web挖掘的基本構架如下圖所示:

2 Web數據挖掘中的常用技術

常用的Web數據挖掘中技術包括:路徑分析技術,關聯規則挖掘技術、序列模式挖掘技術和聚類分類技術等[3]。下面對它們進行簡單的分析:

1.路徑分析技術

對Web數據挖掘時,路徑分析技術比較常用的是運用圖的方法。因為我們可以用一個有向圖來表示Web站點,即:G=(P,I),P代表了頁面的集合,每一個頂點就是一個頁面,I表示的事頁面之間的超連接的集合,有向圖中的邊被定義為頁面之間的超鏈接。以頂點v為頭的邊來表示對v的引用,以頂點v為尾的邊定義為v引用了其他的頁面值,這樣形成網站結構圖[4]。

2.關聯規則挖掘技術

數據挖掘中最常用、最易被人們所接受的研究方法就是關聯規則挖掘。使用關聯規則技術可以從Web訪問事務中找到有價值的知識,這些有價值的知識是隱藏在數據集中的,是事先未知的,不是簡單通過數據庫的邏輯操作可以推出的,需要經過仔細分析才能得到。例如:75%的用戶在訪問頁面A的同時也訪問了頁面B,A與B之間的關聯性就屬于隱式的知識。最常用的是用APRIOR算法,從事務數據庫中挖掘出最大頻繁訪問項集,它就是挖掘出來的用戶訪問模式。

3.序列模式挖掘技術

序列模式是指在時間有序的事務集上找出那些時間上有先后次序的數據項,也就是尋找那些形如“一些項跟在另一些項后面”的內部事務模式。例如:訪問過頁面A的客戶中有60%的人在上一禮拜內也訪問過與頁面A相似的頁面B。發現序列模式可以預測用戶的訪問興趣。

4.聚類分類技術[4]

分類規則可以挖掘出識別特殊群體的公共特性的描述,這個特性可以用來對數據庫里的新數據項進行分類。分類算法的研究比較多,常用的算法有:CART 、C4.5、 ID3等。聚類是將物理的或抽象的對象分為幾個組或群體,每個組內的對象很相似,不同組內的對象不相似,與分類最大的不同是事先并不知道類結構及每個對象所屬的類。聚類技術則是對符合某一規律特征訪問的用戶進行用戶特征挖掘。最后進行模式分析,挖掘出人們可理解的知識的模式解釋。

3 結語

隨著互聯網應用業務的不斷展開,互聯網已經發展成為商業、政府等機構從事業務和信息傳播的重要渠道。建立互聯網動態應用模型,已經成為互聯網應用中最活躍的研究領域之一。Web挖掘是利用數據挖掘技術從Web頁面內容、頁面之間的關系與結構、用戶的訪問記錄等Web數據中提取來滿足用戶目標的有用知識、有用信息的。通過分析和探究Web日志記錄中的規律,可識別網站的潛在客戶,增強對最終客戶的國際網絡信息服務品質,并改進Web站點的結構、運營形式、Web服務器系統的性能和結構。

參考文獻

[1] Perkowitz M, Etzioni 0.Adaptive sites: automatically learning from user access patterns.6th Int. World Wide Web Conf.SantaClara, Califormia, 1997

[2] Hahn U,Schnattinger K.Deep Knowledge discovery from natural language texts.In Proc Of the 3rd Intl Conf on Knowledge Discovery and Data Mining.New port Beach,1997,pp.175-178

[3] Tan P N,Steinbach M,Kumar V.《數據挖掘導論》.范明等譯.北京:人民郵電出版社,2006年第95頁

[4] 王欣如:《基于關聯規則的Web日志挖掘技術研究》[D],《重慶大學碩士學位論文》,2007年。

作者簡介:

鄧紅梅(1977-),女(漢),廣東省輕工業高級技工學校教師,研究方向:計算機科學與技術。

猜你喜歡
頁面數據挖掘數據庫
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 最新亚洲人成无码网站欣赏网| 又爽又大又光又色的午夜视频| 国产毛片高清一级国语| 亚洲天堂网在线观看视频| 国产小视频a在线观看| 伦精品一区二区三区视频| 久久综合色天堂av| 欧美性爱精品一区二区三区| 一级爆乳无码av| 亚洲无码久久久久| 精品国产黑色丝袜高跟鞋| 91欧美在线| 日韩天堂视频| 国产精品亚洲а∨天堂免下载| 国产伦精品一区二区三区视频优播 | 免费av一区二区三区在线| 伊人欧美在线| 亚洲无码37.| 欧美福利在线观看| 国产精品国产三级国产专业不| 免费日韩在线视频| 国产香蕉在线视频| 日韩欧美综合在线制服| 国产成人h在线观看网站站| 专干老肥熟女视频网站| 久久91精品牛牛| 亚洲AⅤ波多系列中文字幕| 国内毛片视频| 在线视频亚洲欧美| 免费xxxxx在线观看网站| 国内精品久久九九国产精品| 日本欧美一二三区色视频| 国产精品yjizz视频网一二区| 亚洲一区二区在线无码| 欧美午夜网| 91久久天天躁狠狠躁夜夜| 另类专区亚洲| 就去吻亚洲精品国产欧美| 亚洲伊人电影| 亚洲女人在线| 国产丝袜无码精品| 热久久这里是精品6免费观看| 欧美日韩第三页| 日韩免费成人| 5555国产在线观看| 亚洲精品人成网线在线| 国产97视频在线| 亚洲综合二区| 欧美中文字幕一区| 怡红院美国分院一区二区| 国内精自视频品线一二区| 天天色综网| 中文字幕在线永久在线视频2020| 88av在线| 鲁鲁鲁爽爽爽在线视频观看| 久久国产黑丝袜视频| 99精品影院| 国产精品亚洲片在线va| 欧美成人亚洲综合精品欧美激情| 中文字幕无码电影| 无码中文字幕加勒比高清| 久久久久久久蜜桃| 白浆视频在线观看| 亚洲欧美另类色图| 真人免费一级毛片一区二区 | 国产日韩丝袜一二三区| 40岁成熟女人牲交片免费| 亚洲bt欧美bt精品| 精品视频在线观看你懂的一区| 亚洲综合欧美在线一区在线播放| 色综合网址| 日本精品视频一区二区| 欧美日韩在线第一页| 乱人伦99久久| 欧美成人h精品网站| 性网站在线观看| 亚洲熟妇AV日韩熟妇在线| 成人精品视频一区二区在线 | 亚洲国产精品美女| 国产精品专区第一页在线观看| 欧美一级特黄aaaaaa在线看片| 免费a级毛片18以上观看精品|