999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數(shù)據(jù)挖掘綜述

2016-10-24 05:03:35三峽電力職業(yè)學(xué)院電力工程學(xué)院熊富琴
電子世界 2016年18期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息

三峽電力職業(yè)學(xué)院電力工程學(xué)院 熊富琴

Web數(shù)據(jù)挖掘綜述

三峽電力職業(yè)學(xué)院電力工程學(xué)院熊富琴

本文對(duì)Web數(shù)據(jù)挖掘進(jìn)行了詳細(xì)的綜述。首先探討了Web上面數(shù)據(jù)特征提取方法,從Web內(nèi)容挖掘、結(jié)構(gòu)挖掘、使用挖掘三個(gè)角度介紹了相應(yīng)的技術(shù)。由于Web的異構(gòu)性,使得Web數(shù)據(jù)挖掘稱為一個(gè)難點(diǎn),必須綜合數(shù)據(jù)挖掘的各種技術(shù),才能得以實(shí)現(xiàn)。然后本文介紹了一個(gè)關(guān)于電子商務(wù)數(shù)據(jù)挖掘應(yīng)用的實(shí)例并強(qiáng)調(diào)了Web數(shù)據(jù)挖掘的重要意義。最后總結(jié)和現(xiàn)存的問題,并對(duì)未來的研究熱點(diǎn)進(jìn)行展望。

Web數(shù)據(jù)挖掘;挖掘流程;網(wǎng)頁(yè);Web內(nèi)容挖掘;Web日志挖掘

1 前言

隨著互聯(lián)網(wǎng)絡(luò)蓬勃發(fā)展,計(jì)算機(jī)已經(jīng)稱為人們生活中無法缺少的工具,由此人人都在想互聯(lián)網(wǎng)上增加信息,Web上的數(shù)據(jù)日益增多,從企業(yè)角度和普通用戶角度,怎樣更好的訪問互聯(lián)網(wǎng),怎樣更好的讓互聯(lián)網(wǎng)為人們服務(wù),稱為網(wǎng)絡(luò)發(fā)展下一個(gè)重要課題,本文探討了Web數(shù)據(jù)挖掘技術(shù),它是勝過數(shù)據(jù)庫(kù)技術(shù)的一種更高效獲取信息的技術(shù)。

2 Web數(shù)據(jù)特征提取的方法

2.1Web數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘是指使用算法抽取信息和模式,是從數(shù)據(jù)中發(fā)現(xiàn)有用的信息和模式的過程的一個(gè)步驟。Web數(shù)據(jù)挖掘就是挖掘與萬(wàn)維網(wǎng)有關(guān)的數(shù)據(jù),既可以是網(wǎng)頁(yè)包含的數(shù)據(jù)也可以是Web操作所產(chǎn)生的數(shù)據(jù)。

2.2Web挖掘流程

Web上的信息是異構(gòu)的或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁(yè)上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的數(shù)據(jù)處理流程包括:(1)查找資源;(2)信息清理和預(yù)處理;(3)模式發(fā)現(xiàn);(4)模式分析。

2.3Web數(shù)據(jù)挖掘活動(dòng)分類[1]

Web數(shù)據(jù)挖掘活動(dòng)可分為三種:Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘和Web使用挖掘。

(1)Web內(nèi)容挖掘

網(wǎng)頁(yè)使用HTML語(yǔ)言定義,因此是異構(gòu)的,無法使用數(shù)據(jù)庫(kù)的查詢方法,查詢變得異常困難,而XML用于描述結(jié)構(gòu)化的文檔,容易進(jìn)行挖掘操作。基本的Web內(nèi)容挖掘是一種文本挖掘。文本挖掘的功能可以用一個(gè)層狀結(jié)構(gòu)表示,最簡(jiǎn)單的位于最上一層,最下一層對(duì)應(yīng)最復(fù)雜功能。目前已有研究把自然語(yǔ)言處理技術(shù)用于文本挖掘,以發(fā)現(xiàn)文本中隱含的語(yǔ)義。

(2)Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是為Web的組織建立一個(gè)模型,模型用來對(duì)網(wǎng)頁(yè)進(jìn)行分類或者為網(wǎng)頁(yè)建立相似性度量。同樣用于提高搜索引擎的效率,通過度量網(wǎng)頁(yè)的重要性,以及為傳統(tǒng)搜索引擎使用關(guān)鍵字搜索的結(jié)果進(jìn)行優(yōu)先級(jí)排序。PageRank算法用于提高搜索引擎的效果和效率,網(wǎng)頁(yè)的PageRank值通過指向它的網(wǎng)頁(yè)計(jì)算。

(3)Web使用挖掘

Web使用挖掘的研究對(duì)象是Web使用數(shù)據(jù)或者Web日志,Web日志是一列網(wǎng)頁(yè)訪問數(shù)據(jù)。Web日志有時(shí)被稱為點(diǎn)擊數(shù)據(jù)流,當(dāng)從服務(wù)器角度分析時(shí),挖掘發(fā)現(xiàn)的是提供服務(wù)的網(wǎng)站的信息,挖掘的結(jié)果可以幫組改善網(wǎng)站的設(shè)計(jì)。Web使用日式的格式需要進(jìn)行格式轉(zhuǎn)換和清洗才能用于挖掘程序,稱之為預(yù)處理。然后使用若干種數(shù)據(jù)結(jié)構(gòu)來記錄識(shí)別出的模式,例如trie就是一種樹結(jié)構(gòu)。通過對(duì)存儲(chǔ)模式進(jìn)行模式發(fā)現(xiàn)并歸類,最后將發(fā)現(xiàn)的模式拿來分析以確定其如何使用,例如刪除用戶不感興趣的模式。舉例說明,對(duì)電子商務(wù)網(wǎng)站的顧客和非顧客用戶的瀏覽模式進(jìn)行比較,網(wǎng)站的訪問者被分為短期訪問者、調(diào)查者和顧客,通過預(yù)處理首先過濾掉短息訪問者,使用概念層次把網(wǎng)頁(yè)內(nèi)容進(jìn)行抽象,在將Web日志分為顧客和非顧客的,然后按照次數(shù)分析每部分日志以尋找模式,最后對(duì)每部分找到的模式作相似性比較,如果兩個(gè)模式的序列最開始至少n個(gè)網(wǎng)頁(yè)相同,那么這兩個(gè)模式相似,否則不相似。如果發(fā)現(xiàn)非顧客的模式,并且沒有相似的顧客模式,表明網(wǎng)站的鏈接結(jié)構(gòu)或者網(wǎng)頁(yè)的內(nèi)容設(shè)計(jì)需要更新。

圖1 Web挖掘分類

3 Web數(shù)據(jù)挖掘應(yīng)用實(shí)例

隨著互聯(lián)網(wǎng)的規(guī)模壯大,許多企業(yè)都建立了自己的電子商務(wù)網(wǎng)站。通過Web數(shù)據(jù)挖掘,及時(shí)了解企業(yè)的整體運(yùn)營(yíng)情況,針對(duì)問題快速做出反應(yīng);收集市場(chǎng)信息,及時(shí)反饋給高層決策者和研究開發(fā)等有關(guān)部門,進(jìn)行高效、準(zhǔn)確的市場(chǎng)決策。對(duì)銷售記錄、顧客信息的挖掘與分析,掌握最新的信息以獲得更多的市場(chǎng),甚至可以根據(jù)顧客的查找興趣、查找頻率、查找時(shí)間動(dòng)態(tài)地調(diào)整頁(yè)面結(jié)構(gòu),改進(jìn)服務(wù),給客戶個(gè)性化的界面,開發(fā)有鎖定性的電子商務(wù),以更好地滿足查找者的需要。根據(jù)數(shù)據(jù)挖掘流程,建立以下模型[2],如圖2所示。

圖2 基于數(shù)據(jù)挖掘的電子商務(wù)模型

4 Web數(shù)據(jù)挖掘的意義

保存在計(jì)算機(jī)硬盤和數(shù)據(jù)庫(kù)中的數(shù)據(jù)正在飛速的增長(zhǎng),否則也不會(huì)有海量存儲(chǔ)問題的提出了。同時(shí),這些數(shù)據(jù)是否值得繼續(xù)存儲(chǔ),怎樣從現(xiàn)有數(shù)據(jù)中獲取更有價(jià)值的信息,成為計(jì)算機(jī)使用者的面臨的問題和期望實(shí)現(xiàn)的目標(biāo)。只要人們一直使用計(jì)算機(jī),那么數(shù)據(jù)就會(huì)一直不斷的增長(zhǎng),數(shù)據(jù)庫(kù)管理系統(tǒng)中的查詢即使再優(yōu)化,它始終面臨由于數(shù)據(jù)量太大而效率異常低的問題。人們希望能夠更加高效的使用數(shù)據(jù),數(shù)據(jù)挖掘就是能夠解決這些問題的技術(shù)。

5 Web數(shù)據(jù)挖掘現(xiàn)存的問題

數(shù)據(jù)挖掘當(dāng)前的研究進(jìn)展類似于早期數(shù)據(jù)庫(kù)的發(fā)展情況。由于可以將數(shù)據(jù)定義抽象化并且通過較少的必需的核心原語(yǔ)來存取數(shù)據(jù),數(shù)據(jù)庫(kù)管理系統(tǒng)獲得了成功,對(duì)于數(shù)據(jù)挖掘任務(wù)也要進(jìn)行這個(gè)抽象過程,并且分別處理每個(gè)任務(wù)。然后到目前為止數(shù)據(jù)挖掘工作都只是專注于特定的算法來實(shí)現(xiàn)每個(gè)單獨(dú)的數(shù)據(jù)挖掘任務(wù),并沒有將數(shù)據(jù)挖掘任務(wù)進(jìn)行抽象化。

6 Web數(shù)據(jù)挖掘的研究熱點(diǎn)

在未來一段時(shí)間內(nèi),Web挖掘中的以下方面可能成為研究和應(yīng)用熱點(diǎn)[3]。

(1)高性能Web搜索引擎。

(2)Web數(shù)據(jù)的特征描述與監(jiān)控。

(3)Web數(shù)據(jù)的獲取與集成。

(4)Web數(shù)據(jù)流的挖掘。

(5)安全與非法訪問檢測(cè)。

(6)個(gè)性化與安全的隱私。

(8)Web挖掘的算法改進(jìn)與質(zhì)量的評(píng)估。

(9)Web挖掘在社會(huì)領(lǐng)域的應(yīng)用。

7 小結(jié)

本文從Web數(shù)據(jù)特征提取的方法入手,詳細(xì)介紹了Web數(shù)據(jù)挖掘技術(shù)的相關(guān)理論,數(shù)據(jù)挖掘流程、數(shù)據(jù)挖掘任務(wù)分類、數(shù)據(jù)挖掘相關(guān)算法等,并引用了一個(gè)在電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘的實(shí)例對(duì)數(shù)據(jù)挖掘的重要性進(jìn)行了驗(yàn)證,然后探討了Web數(shù)據(jù)挖掘的意義和現(xiàn)存的問題,最后就當(dāng)前社會(huì)應(yīng)用問題對(duì)未來Web數(shù)據(jù)挖掘的研究熱點(diǎn)進(jìn)行了總結(jié)。

[1]Margaret H.Dunham.Data Mining[M].北京:清華大學(xué)出版社.

[2]程苗.電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘方案設(shè)計(jì)[J].計(jì)算機(jī)科學(xué),2007(8):34.

[3]胡學(xué)鋼.Web數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007(6):24.

[4]R.Kosla and H.Blockeel.Web mining research a survey[J].SIG KDD Explorations,vol.2,pp.1-15,July 2000.

[5]YANG Xin,LIU Heng.A Data Mining Based on Intrusion Detection System Model[J].Computer Science,2003,30(1):124-127.

[6]李娟,董軍.Web數(shù)據(jù)挖掘技術(shù)綜述[J].南京職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008,8(2).

熊富琴(1982—),女,湖北鄖縣人,三峽電力職業(yè)學(xué)院講師,主要研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 在线免费看片a| 在线色国产| 97免费在线观看视频| 国产第一页免费浮力影院| 玖玖精品视频在线观看| 国产精品美女免费视频大全 | 久久亚洲国产视频| 少妇被粗大的猛烈进出免费视频| 26uuu国产精品视频| 亚洲国产成人久久精品软件| 毛片免费在线视频| 日本不卡在线播放| 国产一区自拍视频| 99久久性生片| 亚洲大尺码专区影院| 女人18毛片一级毛片在线 | 91原创视频在线| 日韩国产亚洲一区二区在线观看| 日本一区二区三区精品国产| 成人在线观看一区| 国产一级二级三级毛片| 国产精品人人做人人爽人人添| 91视频精品| 久久免费看片| 天堂网亚洲系列亚洲系列| 91精品视频在线播放| 一区二区理伦视频| 欧美日韩亚洲国产| 午夜精品区| 亚洲一级毛片免费观看| 99在线国产| 亚洲精品老司机| 免费无码AV片在线观看中文| 婷婷综合色| 中文字幕第4页| 国产一区三区二区中文在线| 日本一本正道综合久久dvd| 超清人妻系列无码专区| a天堂视频在线| 国产香蕉在线视频| 久久精品国产亚洲麻豆| 亚洲首页在线观看| a级毛片一区二区免费视频| 92精品国产自产在线观看 | 呦女亚洲一区精品| 一本综合久久| 伊人成色综合网| 幺女国产一级毛片| 国产精品蜜芽在线观看| 国模私拍一区二区三区| 青青青视频免费一区二区| 亚洲第一区欧美国产综合| 伊人久久婷婷| 欧美一级夜夜爽www| 天天爽免费视频| 国产微拍精品| a级毛片免费网站| 热这里只有精品国产热门精品| 国产成人亚洲无码淙合青草| 亚洲黄网视频| 国产va免费精品| 欧美激情综合一区二区| 伊人色天堂| 99久久国产综合精品2020| 欧美特黄一级大黄录像| 人人看人人鲁狠狠高清| 亚洲精品欧美日本中文字幕| 欧美国产日产一区二区| 欧美一区二区精品久久久| 欧美不卡视频在线观看| 啪啪免费视频一区二区| 亚洲综合亚洲国产尤物| 一区二区三区在线不卡免费| 国产在线高清一级毛片| 日韩乱码免费一区二区三区| 久久精品最新免费国产成人| 特级欧美视频aaaaaa| 亚洲第一网站男人都懂| 国产欧美在线| 国产精品无码翘臀在线看纯欲| 亚洲欧洲综合| 成人日韩精品|