999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

第二代網(wǎng)絡(luò)搜索引擎中的Web挖掘

2009-12-31 00:00:00楊松梅
華章 2009年12期

[摘 要]在Web信息資源迅猛發(fā)展的今天,“信息爆炸”的問題也相應(yīng)出現(xiàn),即信息極大豐富而知識相對匱乏。在這些大量、異質(zhì)的Web信息資源中,蘊含著具有巨大潛在價值的知識。人們迫切需要能夠從Web上快速、有效地發(fā)現(xiàn)資源和知識的工具。為了從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有效、新穎、有用、可理解的模式,數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù)。但是,數(shù)據(jù)挖掘的絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫,很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作。而本文介紹的web挖掘會對Web上的異質(zhì)、非結(jié)構(gòu)化信息有很好的處理效果。

[關(guān)鍵詞]Web挖掘 數(shù)據(jù)挖掘 信息檢索

[中圖分類號]TP [文獻標識碼]A [文章編號]1009-5489(2009)12-0204-02

一、Web挖掘的定義、特點及其與相關(guān)科學(xué)的聯(lián)系

1.Web挖掘的定義和特點

Web挖掘是一項綜合技術(shù),涉及網(wǎng)絡(luò)、數(shù)據(jù)挖掘、計算機語言學(xué)、信息學(xué)等多個領(lǐng)域。不同研究者從自身的領(lǐng)域出發(fā),對Web挖掘的含義有著不同的理解,項目開發(fā)也各有其側(cè)重點。我們對Web挖掘作如下定義:

定義1 Web挖掘是指從大量Web文檔的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入,將p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個映射ξ:C→p

Web挖掘的特點

Web挖掘以Internet上的信息作為操作對象。這些信息包括:頁面內(nèi)容信息、頁面連接結(jié)構(gòu)信息、用戶行為信息。這些信息具有如下特點:

信息的海量性(Bulk)

信息的動態(tài)性(Dynamic)

信息的異構(gòu)性(Heterogeneous)

Web文檔的規(guī)范標準多種多樣

信息的重復(fù)性(Duplication)

強連接性(High Linkage)

2.Web挖掘與數(shù)據(jù)挖掘的區(qū)別和聯(lián)系

Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有許多獨特之處:

(1)Web挖掘的對象是大量、異質(zhì)、分布的Web文檔。

(2)Web在邏輯上是一個由文檔節(jié)點和超鏈構(gòu)成的圖。

3.Web挖掘與信息檢索的區(qū)別和聯(lián)系.

Web挖掘的某些重要理論和方法,如Web文檔的內(nèi)容挖掘、特征選擇、基于引用的連接分析是借鑒信息檢索領(lǐng)域的知識得到的。但是,它們之間也存在一些區(qū)別:

(1)方法論不同。信息檢索是目標驅(qū)動的,用戶需要明確提出查詢要求;而挖掘是機會主義的,其結(jié)果獨立于用戶的信息需求,也是用戶所無法預(yù)知的。

(2)著眼點不同。信息檢索著重于文檔中顯式存儲的字詞,而挖掘試圖更多地理解其內(nèi)容和結(jié)構(gòu)。

(3)目的不同。信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量文檔中找到滿足其查詢請求的文檔子集,而挖掘是為了揭示文檔中隱含的知識。

(4)評價方法不同。信息檢索使用精度(precision)和召回率(recall)來評價其性能,要求返回盡可能多的相關(guān)文檔,同時不相關(guān)的文檔盡可能少,而挖掘采用收益(gain)、置信度(certainty)、簡潔性(simplicity)等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性。

(5)使用場合不同。有時信息檢索系統(tǒng)返回太多的結(jié)果以致用戶無法一一瀏覽,有時用戶沒有明確的信息需求,有時用戶希望發(fā)現(xiàn)文檔集合中所具有的結(jié)構(gòu)、趨勢、含義,在這些場合下,就需要使用挖掘技術(shù)。

二、Web挖掘類型分類

根據(jù)挖掘的對象不同,Web挖掘可以分為:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Web structure mining)以及..Web應(yīng)用挖掘(Web usage mining)。

1.Web內(nèi)容挖掘

Web內(nèi)容挖掘即從網(wǎng)絡(luò)的內(nèi)容(數(shù)據(jù)/文檔)中發(fā)現(xiàn)有用信息的過程。網(wǎng)絡(luò)信息資源類型眾多,Internet出現(xiàn)之前的..Gopher、FTP、Usenet資源逐漸隱藏到..WWW形式之后,但這些資源仍可以通過..web進行訪問;目前..WWW信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體。然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實現(xiàn)檢索服務(wù)的資源之外,一些網(wǎng)絡(luò)信息是“隱藏”著的數(shù)據(jù),如由用戶的提問而動態(tài)生成的結(jié)果,或是存在在..DBMS(數(shù)據(jù)庫管理系統(tǒng))中的數(shù)據(jù),或是那些私人數(shù)據(jù),它們無法被索引,從而無法提供對它們有效的檢索方式。以上是從網(wǎng)絡(luò)信息源的角度探討,若從資源形式看,網(wǎng)絡(luò)信息內(nèi)容是由文本、圖象、音頻、視頻、元數(shù)據(jù)等等形式的數(shù)據(jù)組成的。一般的,Web內(nèi)容挖掘又分為對文本文檔(包括text,HTML等格式)和多媒體文檔(包括..image,audio,video等媒體類型)的挖掘。

2.Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘即挖掘..Web潛在的鏈接結(jié)構(gòu)模式。這種思想源于信息檢索中的引文分析,即通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且可以由此獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(Authority Page),并且可以找到概觀指向眾多權(quán)威站點的相關(guān)主題的站點(Hub Page)。

3.Web應(yīng)用挖掘

通過Web應(yīng)用挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。內(nèi)容挖掘、結(jié)構(gòu)挖掘的對象是網(wǎng)上的原始數(shù)據(jù),而..Web應(yīng)用挖掘則不同于前兩者,它面對的是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息等等。

三、Web挖掘的體系結(jié)構(gòu)及步驟

Web挖掘分為如下四個步驟:(1)資源發(fā)現(xiàn),即檢索所需的網(wǎng)絡(luò)文檔;(2)信息選擇和預(yù)處理,即從檢索到的網(wǎng)絡(luò)資源中自動挑選和預(yù)先處理得到專門的信息;(3)概括化,即從單個的Web站點以及多個站點之間發(fā)現(xiàn)普遍的模式;(4)分析,對挖掘出的模式進行確認或者解釋。

四、Web挖掘的任務(wù)

1.Web內(nèi)容挖掘任務(wù)

Web內(nèi)容挖掘任務(wù):包括對Web上大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及利用Web文檔進行趨勢預(yù)測等。

(1)文檔總結(jié)是指從文檔中抽取關(guān)鍵信息,用簡潔的形式對文檔內(nèi)容進行摘要或解釋。

(2)文檔分類是指先按照預(yù)先定義的主題類別和訓(xùn)練文檔集合,采用某種學(xué)習(xí)方法訓(xùn)練出一個或多個分類器。

(3)文檔聚類,是一種典型的無教師指導(dǎo)的機器學(xué)習(xí)問題,它與分類的不同之處在于,聚類沒有預(yù)先定義好的主題類別和訓(xùn)練文檔集合,它的目標是將文檔集合分成若干個簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能地大,而不同簇間的相似度盡可能地小。

(4)關(guān)聯(lián)分析是指從文檔集合中找出不同詞語之間的關(guān)系。

(5)分布分析與趨勢預(yù)測是指通過對Web文檔的分析,得到特定數(shù)據(jù)在某個歷史時刻的情況或?qū)淼娜≈第厔荨?/p>

2.Web結(jié)構(gòu)挖掘任務(wù)

在邏輯上,我們可以把Web看作是位于物理網(wǎng)絡(luò)之上的一個有向圖G=(N,E),其中節(jié)點集N對應(yīng)于Web上的所有文檔,而有向邊集E則對應(yīng)于節(jié)點之間的超鏈。由于Web中包含的結(jié)構(gòu)信息處理起來比較困難,因此通常的Web搜索引擎等工具僅將Web看作是一個平面文檔的集合,而忽略了其中的結(jié)構(gòu)信息。Web結(jié)構(gòu)挖掘的目的在于揭示蘊含在這些文檔結(jié)構(gòu)信息中的有用模式。

3.Web應(yīng)用挖掘的任務(wù)

Web應(yīng)用挖掘的任務(wù)主要是對用戶模式的挖掘。用戶訪問模式又可稱為用戶導(dǎo)航信息。在Web的用戶訪問模式的挖掘中,描述用戶訪問模式的數(shù)據(jù)包括:IP地址、參考頁面、訪問日期和時間、用戶的Web站點及配置信息。這些數(shù)據(jù)可以來自于服務(wù)器端、客戶端、代理服務(wù)器端或者是公司的數(shù)據(jù)庫。常用的有兩種方法發(fā)現(xiàn)用戶導(dǎo)航信息。一種方法是通過對日志文件進行分析;另一種方法是通過對用戶點擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。

五、小結(jié)

隨著Internet/Intranet技術(shù)的日益成熟,尤其是WWW的全球化普及,使得數(shù)據(jù)挖掘技術(shù)的研究重點已經(jīng)從傳統(tǒng)的基于結(jié)構(gòu)化數(shù)據(jù)庫的應(yīng)用轉(zhuǎn)移到基于Web的應(yīng)用上來。在搜索引擎中的Web挖掘是本文研究的重點。本文從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用等三個方面介紹了Web挖掘的理論知識和最新研究成果,并對這三個方面做了詳細的比較。其次,本文對Web挖掘的體系結(jié)構(gòu)與應(yīng)用步驟做了總體概括。最后從Web內(nèi)容、Web結(jié)構(gòu)、Web應(yīng)用這三個方面對Web挖掘的任務(wù)做了詳細介紹。

[參考文獻]

[1]琪鋒:《基于WEB挖掘的站點設(shè)計的研究》,廣東工業(yè)大學(xué)2007年。

[2]石佑紅、趙宏、喬敏:《Web挖掘在個性化遠程教育中的應(yīng)用》,《計算機技術(shù)與發(fā)展》2006年第9期。

[3]吉根林、孫志輝:《Web挖掘技術(shù)研究》,《計算機工程》2002年第10期。

[4]袁方:《面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究》,東北大學(xué)2006年。

主站蜘蛛池模板: 一级毛片在线播放免费| 国产成人盗摄精品| 青青草原国产精品啪啪视频| 亚洲中文字幕av无码区| 国产成人做受免费视频| 午夜精品影院| 亚洲区一区| 欧美一区二区啪啪| 1769国产精品免费视频| 最近最新中文字幕免费的一页| 国产视频欧美| 99久久精品免费看国产免费软件| 国产主播在线一区| 欧美三級片黃色三級片黃色1| 欧美国产综合视频| 美女被躁出白浆视频播放| 成人午夜免费视频| 亚洲欧洲日韩综合色天使| 99re在线免费视频| 国产福利在线观看精品| 国产产在线精品亚洲aavv| 久久亚洲国产一区二区| 美女视频黄又黄又免费高清| 国产免费观看av大片的网站| 99精品福利视频| 久久96热在精品国产高清| 色欲不卡无码一区二区| 国产精品不卡永久免费| 国产精品第| 欧美日韩综合网| 国产成人精品男人的天堂| 精品亚洲欧美中文字幕在线看| 又大又硬又爽免费视频| 日韩在线成年视频人网站观看| 九色视频一区| 日韩一区二区在线电影| 国产乱码精品一区二区三区中文 | 粉嫩国产白浆在线观看| 欧美.成人.综合在线| 黄色一级视频欧美| 大香伊人久久| 亚洲中文精品人人永久免费| 国产精品尤物铁牛tv | 国产又色又爽又黄| 中文字幕一区二区视频| 久久永久精品免费视频| 成人综合在线观看| 亚洲区一区| 午夜日本永久乱码免费播放片| 亚洲天堂网在线观看视频| AV不卡无码免费一区二区三区| 91精品视频网站| 亚洲精品国产首次亮相| 欧美日韩一区二区在线播放| 亚洲毛片在线看| 国产高清国内精品福利| 色男人的天堂久久综合| 欧洲熟妇精品视频| 亚洲综合在线最大成人| 夜夜操国产| 国产精选自拍| 色亚洲成人| 欧美精品啪啪一区二区三区| 在线中文字幕日韩| 国产精品成人啪精品视频| 91精品国产一区| www.youjizz.com久久| 亚洲一级色| 女人一级毛片| a级免费视频| 国产精品久久久久久久久久久久| 丁香亚洲综合五月天婷婷| 香蕉eeww99国产精选播放| 国产精品极品美女自在线网站| 视频在线观看一区二区| 国产高清毛片| 日韩在线2020专区| 久久女人网| av大片在线无码免费| 全午夜免费一级毛片| 国产91透明丝袜美腿在线| 成人免费网站久久久|