999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web數(shù)據(jù)挖掘技術(shù)綜述

2009-07-16 09:33:54
新媒體研究 2009年8期
關(guān)鍵詞:數(shù)據(jù)挖掘

孟 叢

[摘要]Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web信息集合上的應(yīng)用,Web數(shù)據(jù)具有本身的特點(diǎn),Web數(shù)據(jù)挖掘可以分為三類(lèi),各自有其相關(guān)技術(shù),Web數(shù)據(jù)挖掘技術(shù)有著廣泛的應(yīng)用,而且隨著Internet的不斷發(fā)展,必將有著更加開(kāi)闊的應(yīng)用前景。

[關(guān)鍵詞]數(shù)據(jù)挖掘 內(nèi)容挖掘 結(jié)構(gòu)挖掘 日志挖掘

中圖分類(lèi)號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0420044-01

數(shù)據(jù)挖掘(Data Mining,DM)是近年來(lái)發(fā)展迅速的知識(shí)發(fā)現(xiàn)的一個(gè)重要步驟,在科學(xué)研究和社會(huì)應(yīng)用領(lǐng)域都得到了廣泛的應(yīng)用。目前數(shù)據(jù)挖掘沒(méi)有一個(gè)完全公認(rèn)的定義,一般認(rèn)為:數(shù)據(jù)挖掘是運(yùn)用計(jì)算機(jī)及信息技術(shù),從大量的、不完全的數(shù)據(jù)集中獲取隱含在其中的有用知識(shí)的高級(jí)過(guò)程。Web數(shù)據(jù)挖掘是從數(shù)據(jù)挖掘發(fā)展而來(lái),是數(shù)據(jù)挖掘技術(shù)在Web技術(shù)中的應(yīng)用。Web數(shù)據(jù)挖掘是一項(xiàng)綜合技術(shù),通過(guò)從Internet上的資源中抽取信息來(lái)提高Web技術(shù)的利用效率,也就是從Web文檔結(jié)構(gòu)和試用的集合中發(fā)現(xiàn)隱含的模式[1]。

一、Web數(shù)據(jù)挖掘的特點(diǎn)

傳統(tǒng)的數(shù)據(jù)挖掘是以數(shù)據(jù)庫(kù)為基礎(chǔ),對(duì)結(jié)構(gòu)化的數(shù)據(jù)源進(jìn)行信息的加工、分析和模式挖掘。從理論上講,數(shù)據(jù)挖掘的各種理論和技術(shù)都可以直接或間接地應(yīng)用于Web數(shù)據(jù)挖掘,然而由于Web的自身特點(diǎn),使得Web數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有很大的不同[2]。

(一)分布式數(shù)據(jù)。相關(guān)主題的信息雜亂地散布在Web站點(diǎn)上的多個(gè)目錄下, 這樣就需要有一個(gè)強(qiáng)大的搜索引擎,通過(guò)查找關(guān)鍵字,來(lái)定位超文本的位置。

(二)Web上數(shù)據(jù)特點(diǎn)。特點(diǎn)一是動(dòng)態(tài)性,Internet本身就是一個(gè)時(shí)刻在動(dòng)態(tài)更新和變化的系統(tǒng),需要借鑒數(shù)據(jù)倉(cāng)庫(kù)的技術(shù),以此保存Web上動(dòng)態(tài)更新的數(shù)據(jù);特點(diǎn)二是多樣性, Web數(shù)據(jù)經(jīng)過(guò)過(guò)濾后,既有數(shù)值型,又有分類(lèi)數(shù)據(jù)、性質(zhì)描述數(shù)據(jù)以及Web特有的數(shù)據(jù)類(lèi)型;特點(diǎn)三是數(shù)據(jù)源之間可能存在冗余、不一致甚至矛盾。

(三)用戶目標(biāo)的模糊性。Web挖掘用戶對(duì)挖掘的主題提不出明確的目標(biāo),因此需要數(shù)據(jù)挖掘系統(tǒng)具有一定的智能性和學(xué)習(xí)機(jī)制,不斷地跟蹤用戶的興趣,直至獲得所需的結(jié)果。

(四)異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。數(shù)據(jù)庫(kù)本身、運(yùn)行環(huán)境和非結(jié)構(gòu)化的數(shù)據(jù)都存在差異。Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源,每個(gè)數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。

(五)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)大多是HTML格式,數(shù)據(jù)復(fù)雜,沒(méi)有特定的模型描述,因此是半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的主要特點(diǎn)。

二、Web數(shù)據(jù)挖掘的分類(lèi)及技術(shù)現(xiàn)狀

Web上信息的多樣性決定了Web挖掘任務(wù)的多樣性,按照處理對(duì)象的不同我們將Web挖掘分為三大類(lèi)[3]。

(一)Web內(nèi)容挖掘。Web內(nèi)容挖掘是指對(duì)Web頁(yè)面內(nèi)容進(jìn)行挖掘,從Web文檔的內(nèi)容信息中抽取知識(shí)。它分為Web文本挖掘和Web多媒體挖掘,針對(duì)的對(duì)象分別是Web文本信息和Web多媒體信息。Web內(nèi)容挖掘的重點(diǎn)是頁(yè)面分類(lèi)和聚類(lèi)。Web頁(yè)面的分類(lèi)是根據(jù)頁(yè)面的不同特征,將其劃歸為事先建立起來(lái)的不同的類(lèi)。Web頁(yè)面的聚類(lèi)是指在沒(méi)有給定主題類(lèi)別的情況下,將Web頁(yè)面集合聚成若干個(gè)簇,并且同一簇的頁(yè)面內(nèi)容相似性盡可能大,而簇間相似度盡可能小。

(二)Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對(duì)Web頁(yè)面之間的超鏈結(jié)構(gòu),Web頁(yè)面內(nèi)部結(jié)構(gòu)和URL中的目錄路徑結(jié)構(gòu)進(jìn)行挖掘,從中抽取知識(shí)。Web在邏輯上可以用有向圖表示出來(lái),頁(yè)面對(duì)應(yīng)圖中的點(diǎn),超級(jí)鏈接對(duì)應(yīng)圖中的邊。超鏈也體現(xiàn)了Web頁(yè)面之間的某種關(guān)系,WebKB就是通過(guò)對(duì)超級(jí)鏈接的分類(lèi)來(lái)辨別instructor-of, members-of-department等關(guān)系實(shí)例。PageRa

-nk方法則是通過(guò)分析頁(yè)面的引用次數(shù)和引用關(guān)系來(lái)發(fā)現(xiàn)重要頁(yè)面。Spertus對(duì)Web頁(yè)面的內(nèi)部結(jié)構(gòu)和URL做了研究并提出一些啟發(fā)式規(guī)則,用于收索新頁(yè)面和自動(dòng)索引。

(三)Web日志挖掘。個(gè)人瀏覽Web服務(wù)器時(shí),服務(wù)器方會(huì)產(chǎn)生三種類(lèi)型日志文件:Server Logs,Error Logs,Cookie Logs,記錄了關(guān)于用戶訪問(wèn)和交互的信息。Web日志挖掘正是對(duì)這三種日志文件進(jìn)行挖掘,從而發(fā)現(xiàn)用戶的訪問(wèn)模式、相似用戶群體、頻繁路徑等知識(shí)[4]。

Web日志挖掘方法可分為基于Web事物的方法和基于數(shù)據(jù)立方的方法。前者是將用戶會(huì)話劃分成事物序列,然后采用數(shù)據(jù)挖掘的方法挖掘頻繁路徑等知識(shí),后者則將Web日志組織成數(shù)據(jù)立方用于數(shù)據(jù)挖掘和OLAP,WAP2Mine采用的是第一種方法。

三、Web數(shù)據(jù)挖掘的應(yīng)用

數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融業(yè)、零售業(yè)、遠(yuǎn)程通信業(yè)、政府管理、制造業(yè)、醫(yī)療服務(wù)和體育等行業(yè)中,而它在網(wǎng)絡(luò)中的應(yīng)用(即Web挖掘)已經(jīng)成為當(dāng)今國(guó)際學(xué)術(shù)界的研究熱點(diǎn),并開(kāi)始在許多行業(yè)得到應(yīng)用。

Web數(shù)據(jù)挖掘的典型應(yīng)用領(lǐng)域是在搜索引擎中的應(yīng)用,通過(guò)引入Web挖掘技術(shù)可以提高搜索引擎的查詢速度、關(guān)鍵詞匹配的相關(guān)度以及網(wǎng)頁(yè)的權(quán)重,改善檢索效果。

另一個(gè)典型應(yīng)用是網(wǎng)站設(shè)計(jì), 通過(guò)對(duì)網(wǎng)站內(nèi)容的Web挖掘可以有效地組織網(wǎng)站信息,如采用自動(dòng)歸類(lèi)技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;以結(jié)合對(duì)用戶訪問(wèn)日志記錄信息的挖掘,把握用戶的興趣,有助于開(kāi)展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù)。

在電子商務(wù)中的應(yīng)用也是一個(gè)成功的范例,通過(guò)對(duì)客戶訪問(wèn)日志數(shù)據(jù)應(yīng)用神經(jīng)元網(wǎng)絡(luò)、模型化算法和其它信息處

理技術(shù),進(jìn)行分析加工,可獲得商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷(xiāo)的決策信息。

四、結(jié)語(yǔ)

Web數(shù)據(jù)挖掘是把Internet、WWW和數(shù)據(jù)挖掘結(jié)合起來(lái)的一種新興技術(shù),Web數(shù)據(jù)挖掘的應(yīng)用非常廣泛,不但涉及頁(yè)面信息的提取、站點(diǎn)的分析和設(shè)計(jì),在基于Internet的電子商務(wù)方面也有很好的應(yīng)用前景。目前,在國(guó)內(nèi)Web挖掘的研究仍處于起步階段,是前沿性的研究領(lǐng)域,有待進(jìn)一步研究的課題有:Web知識(shí)庫(kù)的動(dòng)態(tài)維護(hù)和更新方法;各種知識(shí)和模式的綜合評(píng)價(jià)方法;數(shù)據(jù)挖掘的語(yǔ)言及評(píng)價(jià)標(biāo)準(zhǔn)的制定;滿足實(shí)時(shí)性和深層分析的算法等。

參考文獻(xiàn):

[1]馬保國(guó)、侯存軍、王文豐等,Web數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2006,6:20-22.

[2]蔣良孝、蔡之華,Web挖掘及其應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2003,3:24-27.

[3]張小松、竇炳琳,Web挖掘研究[J].唐山學(xué)院學(xué)報(bào),2003,12:80-84.

[4]高祥華,Web2.0中的技術(shù)及應(yīng)用[J].中國(guó)科技信息,2006,13:127-128.

作者簡(jiǎn)介:

孟叢,女,漢族,山東濟(jì)南人,碩士,濟(jì)南職業(yè)學(xué)院技術(shù)教育部,助教,主要研究方向:數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘,信息管理,電子商務(wù)。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣(mài)OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
主站蜘蛛池模板: 国产成人精品一区二区秒拍1o| 另类欧美日韩| 97se亚洲综合在线| 无码内射中文字幕岛国片| 97国内精品久久久久不卡| 2018日日摸夜夜添狠狠躁| 久久国产精品娇妻素人| 精品福利视频网| 永久在线播放| 亚洲天堂免费在线视频| 亚洲欧美激情小说另类| 欧美a在线看| 国产va在线观看免费| 永久免费无码日韩视频| 免费午夜无码18禁无码影院| 国产又爽又黄无遮挡免费观看| 91在线一9|永久视频在线| 红杏AV在线无码| 国产香蕉在线视频| 91美女视频在线观看| 国产精品分类视频分类一区| 精品国产美女福到在线直播| 国产精品美女在线| 国产女人在线视频| 无码专区在线观看| 国产小视频免费观看| 中文字幕久久亚洲一区 | 伊人91在线| 亚洲无码高清一区二区| 无码精油按摩潮喷在线播放 | 国产另类视频| 国产精品专区第1页| 91久久精品日日躁夜夜躁欧美| 国产真实乱子伦精品视手机观看 | 丁香婷婷久久| 亚洲欧美国产视频| 午夜小视频在线| 国产爽歪歪免费视频在线观看| 亚洲人成网站色7799在线播放| 噜噜噜综合亚洲| 91久久国产综合精品女同我| 国产xx在线观看| 日韩在线影院| 人妖无码第一页| 精品无码视频在线观看| 亚洲婷婷丁香| 久久99热这里只有精品免费看 | 青青草原国产av福利网站| 不卡网亚洲无码| 91精品人妻互换| 午夜日本永久乱码免费播放片| 欧美在线三级| 亚洲视频免费播放| 伊人AV天堂| 亚洲欧洲日韩综合| 国产乱人伦精品一区二区| 久青草国产高清在线视频| 欧美一区日韩一区中文字幕页| 性色一区| 在线国产你懂的| 国产伦精品一区二区三区视频优播| 秋霞一区二区三区| 国产超薄肉色丝袜网站| 久久特级毛片| 亚洲性影院| 免费国产黄线在线观看| 黄片在线永久| 欧美日韩成人在线观看| 国产老女人精品免费视频| 亚洲人成电影在线播放| 无码专区国产精品第一页| 97se亚洲综合| 在线色国产| 一级毛片在线免费看| 无码 在线 在线| 国产精品亚欧美一区二区三区| 亚洲欧美国产视频| 暴力调教一区二区三区| 免费看a毛片| 成人免费视频一区二区三区| Jizz国产色系免费| 亚洲va在线∨a天堂va欧美va|