999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XML進行Web數據挖掘淺析

2009-01-01 00:00:00溫華菁陳紅娟
商場現代化 2009年4期

[摘 要] Web數據挖掘已經成為當前廣泛研究的課題。目前許多網站都是用HTML構建的,給Web數據挖掘帶來了諸多困難,XML的出現為Web數據挖掘帶來了便利。本文介紹了Web數據挖掘的概念和遇到的困難,分析了XML在Web數據挖掘中的應用。

[關鍵詞] Web數據挖掘 XML 半結構化數據

數據挖掘是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。Web上有大量的數據信息,怎樣對這些數據進行挖掘以實現復雜的應用,已成為現今數據庫技術的研究熱點。

一、Web數據挖掘的概念

Web數據挖掘是一項涉及Web技術、數據庫、機器學習、數據挖掘、統計學、計算機語言學等多學科的綜合技術,不同的研究人員從不同的角度出發,對Web數據挖掘有著不同的理解。研究搜索引擎的人著重于Web頁面的文本數據的分析;而設計Web站點結構的人,則著重于用戶對Web站點訪問模式的研究。具體來說,Web數據挖掘是指通過一定的算法,從大量的、不完全的隨機的Web數據中抽取模式、提取知識的過程,其實質是一種從數據庫中學習的方法,可以彌補數據檢索的不足。

二、Web數據挖掘面臨的困難

從數據準備階段來看,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多,主要體現在以下兩個方面:

1.異構數據庫環境。從數據庫研究的角度出發,Web網站上的信息也可以看作一個大而復雜的數據庫。Web上的每個站點就是一個數據源,每個數據源都是異構的,而且每個站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。要利用這些數據進行數據挖掘,首先,要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決web上的數據查詢問題,因為如果不能有效地得到所需的數據,對這些數據進行分析、集成,處理就無從談起。

2.半結構化的數據結構。Web上的數據與傳統的數據庫中的不同,傳統的數據庫都有一定的數據模型,可以根據模型來描述特定的數據。而Web上的數據非常復雜,沒有特定的模型,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,使其成為一種非完全結構化的數據,這也被稱為半結構化數據。半結構化是Web上數據的最大特點 。

三、XML在Web數據挖掘中的應用

XML是一種標記語言,具有簡單、開放、高效可擴充和標準國際化等特點。它可被看作一種半結構化的數據模型,能很容易地與關系數據庫中的屬性一一對應,實施精確的查詢與模型抽取,方便地實現數據挖掘。XML在Web數據挖掘中的應用分析如下:

1.實現異構數據集成管理。XML是一種半結構化的數據模型。用戶可以很容易地將其和關系數據庫中的屬性一一對應,實施精確地記錄、查詢與模型抽取。因此,XML解決了每一個站點之間信息和組織都不一樣的問題,使不同站點上的非結構性數據可以很容易地規范到一個既定數據庫上。軟件代理商可以在中間層的服務器上,對從后端數據庫和其他應用獲取的數據進行集成。

2.將負載處理從web服務器轉到web客戶端。一般來說,數據處理階段是數據挖掘的重要環節,Web挖掘也不例外,大量的數據預處理工作都需要服務器端完成。按照傳統的C/S模式來開發,客戶向服務器發出不同的請求,服務器分別予以響應,這不僅加重服務器本身的負荷,而且網絡管理員還需事先調查各種不同的用戶需求開發出相應的程序。假如用戶的需求繁雜而多變,將所有業務邏輯集中在服務器端顯然不合適。因為服務器端編程人員可能來不及滿足眾多的應用需求,也無法適應需求的變化,雙方都很被動。而XML將數據處理的主動權交給了客戶,服務器端所要做的工作只是盡可能準確、完善地將數據封裝成XML文件后發送給客戶??蛻舳烁鶕约旱男枨筮x擇和制作不同的應用程序以解析所接收的數據,并對數據進行編輯和處理。XML自帶的解釋執行系統在接收到數據的同時也理解了數據的邏輯結構和含義,因而使分布式計算成為可能。

3.促進數據交換。在Web數據挖掘過程中,用戶經常需要在不同結構的數據源之間進行業務數據傳遞?;赬ML的數據是自我描述的,數據不需要內部描述就能被交換和處理。利用XML,用戶可以方便地進行本地計算和處理。XML格式的數據發送給客戶后,客戶可以用應用軟件方便地解析數據,以及對數據進行編輯和再處理,使用者可以用不同的方法處理數據,而不僅僅是顯示它,XML文檔對象模式(DOM)允許用腳本或其他編程語言處理Web數據,數據計算不需要回到服務器就能進行??傊谶@類應用中XML解決了數據的統一接口問題。但是,與其他的數據傳遞標準不同的是XML并沒有定義文件中具體數據規范,而是在數據中附加標志來表達數據的邏輯結構和含義,這使得XML成為一種程序能自動理解的規范。

4.根據用戶需求裁減信息內容。傳統HTML主要描述數據的外觀,而XML可以描述數據的類別。由于數據顯示與內容分開,XML允許為數據指定不同顯示方式,使數據更合理地表現出來。XML還可以對所取得的信息進行裁減和編輯以適應不同的用戶需求:它采用簡單靈活的格式分離使用者觀察數據的界面,將同樣的數據以不同瀏覽形式提供給不同用戶。與其他數據傳遞標準不同的是,XML并沒有定義數據文件中數據出現的具體規范,而是在數據中附加標志來表達數據的邏輯結構和含義,這使XML成為一種程序能自動理解的規范。

四、結束語

由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多樣的不兼容的數據庫能夠成為可能,從而為解決Web數據挖掘難題帶來了希望。隨著XML作為在Web上交換數據的一種標準方式廣泛普及,Web數據挖掘將會變得高效與輕松。

參考文獻:

[1]Han Jiawei, Micheline K:數據挖掘概念與技術[M].北京:機械工業出版社,2001,290~294

[2]王澤彬 金 飛 李 夏 王 冠:Web數據挖掘技術及實現. 哈爾濱工業大學學報,2005.Vol.37.No.10

主站蜘蛛池模板: 亚洲男人天堂网址| 久久毛片免费基地| 国产在线拍偷自揄拍精品| 欧美另类视频一区二区三区| 日韩成人午夜| 亚洲aaa视频| 成AV人片一区二区三区久久| 久久青草免费91观看| 国产欧美日韩视频怡春院| 久久中文字幕2021精品| 国产黄色视频综合| 亚洲国产成人久久77| 亚洲一级无毛片无码在线免费视频| 国产99久久亚洲综合精品西瓜tv| 91久久夜色精品国产网站| 五月婷婷丁香综合| 国产亚洲日韩av在线| 久久青青草原亚洲av无码| a在线观看免费| 久久精品娱乐亚洲领先| 国产区福利小视频在线观看尤物| 国产欧美日韩专区发布| 亚洲精品大秀视频| 亚洲视频免费播放| 超清无码熟妇人妻AV在线绿巨人| 99久久精品免费视频| 成人在线观看不卡| 97国产在线观看| 亚洲天堂啪啪| 婷婷六月综合网| a毛片在线播放| 制服丝袜亚洲| 91黄色在线观看| 国产女人18毛片水真多1| 国产va免费精品观看| 怡红院美国分院一区二区| 青草国产在线视频| 亚洲开心婷婷中文字幕| 伊人91视频| 手机在线国产精品| 国产流白浆视频| 国产在线观看一区二区三区| 日韩欧美综合在线制服| 国内丰满少妇猛烈精品播| 日韩精品久久无码中文字幕色欲| 91福利一区二区三区| 中文国产成人精品久久| 一本综合久久| 欧美亚洲一二三区| 亚洲大学生视频在线播放| 国产大片黄在线观看| 日韩大片免费观看视频播放| 国产日韩久久久久无码精品| 亚洲无码久久久久| 国产成人av大片在线播放| 欧美www在线观看| 国产精品爆乳99久久| 久久久久亚洲AV成人人电影软件| 美臀人妻中出中文字幕在线| 国产丝袜无码精品| 久久香蕉国产线看观看式| 亚洲最大情网站在线观看 | 暴力调教一区二区三区| 亚洲国产中文综合专区在| 在线欧美日韩国产| 成年人久久黄色网站| 在线日韩一区二区| 91无码视频在线观看| 人妻一区二区三区无码精品一区| 亚洲成人网在线播放| 人妻无码中文字幕一区二区三区| 91娇喘视频| 素人激情视频福利| 久草国产在线观看| 91精品国产自产91精品资源| 国产SUV精品一区二区| 亚洲 成人国产| 看国产毛片| 日韩第一页在线| 国产精品精品视频| 国产91av在线| 久久亚洲欧美综合|