999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據采掘與知識發現

2008-12-31 00:00:00杜麗英
華章 2008年11期

[摘 要]如何從大規模數據庫中發掘深層次的知識和信息,而不僅僅是那些從傳統數據庫查詢方法所獲得的平凡內容,這方面的研究正受到越來越多的關注。作為一門獨立于應用的研究課題,它已成為眾多研究領域的熱點內容,已經有相當多的應用報道并取得了豐碩的成果。本文試就數據采掘和知識發現的各方面內容:如采掘過程、方法、算法和應用等,作一個完整的回顧,文章也討論了這一領域未來的工作和挑戰。

[關鍵詞]數據采掘 知識發現 機器學習 分類 聚類

[中圖分類號]TP [文獻標識碼]A [文章編號]1009-5489(2008)11-0241-02

近些年來,商務貿易電子化,企業和政府事務電子化的迅速普及都產生了大規模的數據源,同時日益增長的科學計算和大規模的工業生產過程也提供了海量數據;而日益成熟的數據庫系統和數據庫管理系統都為這些海量數據的存儲和管理提供了技術保證;另一方面,計算機網絡技術的長足進步和規模的爆炸性增長,則為數據的傳輸和遠程交互提供了技術手段,特別是國際互聯網更是將全球的信息源納入了一個共同的數據庫系統之中。這些都表明人們生成、采集和傳輸數據的能力都有了巨大增長,為步入信息時代奠定了基礎。

在這些能力迅速提高的同時,我們看到數據操縱中的一個重要環節:信息提取及其相關處理技術卻相對地大大落后了。毫無疑問,這些龐大的數據庫及其中的海量數據是極其豐富的信息源,但是僅僅依靠傳統的數據檢索機制和統計分析方法已經遠遠不能滿足需要了。因此,一門新興的自動信息提取技術:數據采掘和知識發現,應運而生并得到迅速發展。它的出現為自動和智能地把海量的數據轉化成有用的信息和知識提供了手段。

數據采掘和知識發現作為一門新興的研究領域,涉及到諸如機器學習、模式識別、統計學、數據庫和人工智能等等眾多學科。特別地,它可看作數據庫理論和機器學習的交叉學科。作為一種獨立于應用的技術,一經出現立即受到廣泛的關注。目前這方面的研究發展很快。知識發現和數據采掘的學術期刊不斷增加;大量的期刊也為此領域開辟專欄;眾多的學術會議也頻頻舉行。與此同時,一大批實用化的知識發現工具也投入市場并得到廣泛應用。

一、數據采掘的特點

數據采掘與機器學習都是從數據中提取知識,其主要區別在于:機器學習主要針對特定模式的數據進行學習;數據采掘則是從實際的海量數據源中抽取知識,這些海量數據源通常是一些大型數據庫。由于數據采掘使用的數據直接來自數據數據庫,數據的組織形式、數據規模都具有依賴數據庫的特點,特別的,數據采掘處理的數據量非常巨大,數據的完整性、一致性和正確性都難以保證。所以,數據采掘算法的效率、有效性和可擴充性都顯得至關重要。然而充分利用現代數據庫技術優勢也是提高數據采掘的算法效率的有效途徑。

與傳統的數據庫查詢系統相比較,數據采掘技術也存在著顯著的不同。

首先,傳統的數據庫查詢一般都具有嚴格的查詢表達式,可以用SQL語句描述。而數據采掘則不一定具有嚴格的要求,常常表現出即時、隨機的特點。查詢要求也不確定。整個采掘過程也無法僅用SQL語言就能完整表達,實際上,數據采掘常常用一種類SQL語言來描述。

再者,傳統的數據庫查詢一般生成嚴格的結果集,但數據采掘可能并不生成嚴格的結果集。采掘過程往往基于統計規律,產生的規則并不要求對所有的數據項總是成立,而是只要達到一定的事先給定的閾值就可以了。

第三,通常情況下,數據庫查詢只對數據庫的原始字段進行;而數據采掘則可能在數據庫的不同層次上發掘知識規則。

二、采掘的分類

數據采掘和知識發現技術發展到現在,出現了許多技術分支和研究方向。這些技術適用于不同的數據庫系統,應用不同的采掘技術從而采掘出不同種類的知識。下面就數據采掘的常見分類方法,分別加以描述:

1.按操縱的數據庫分類

不同的數據庫其數據的描述、組織和存儲方式均有很大不同,一般可以分為關系數據庫、面向對象數據庫、事務數據庫、演繹數據庫等等。因此,數據采掘可以按數據庫的不同而劃分成不同的種類。如從關系數據庫采掘知識的關系數據采掘,這是使用最為廣泛,也是最為成熟的一類數據采掘技術。

2.按采掘的知識分類

采掘的知識具有多種形式,如關聯規則、分類規則、聚類規則、特征規則、時序規則等等。同時,這些知識也可以在不同的層面上表達,如:泛化知識、原始知識、多層知識等等。所以,數據采掘系統也可由采掘的知識種類分類。顯然,即使是在同一個數據庫中,隱含的知識也是多種多樣的。所以,一個優秀的數據應該能全面完整地采掘出隱含在不同層面內的不同種類的知識。

3.按應用的技術方法分類

基于規則和決策樹的方法:現今的數據采掘大都是基于這類方法的。采用規則發現和決策樹分類技術來發現數據模式和規則的核心是某種歸納算法。其通常是先對數據庫中的數據進行

采掘,產生規則和決策樹,然后,對新數據進行分析和預測。

三、數據聚類

聚類則是識別一組數據對象的內在規則,從而將對象分組,構成相似對象類,以導出數據的分布規律。分類與聚類的主要區別在于分類是把既有的分類規則應用到數據對象上去;而聚類則是試圖去發現隱含在一組混雜的數據對象的分類規則,這種隱含分類規則的分類規則可能是非常難于理解的。

聚類算法在統計方法、機器學習、神經元網絡等領域同樣得到廣泛的研究。

傳統的聚類分析的主要方法是似然分析。但這類方法的假設前提是不同數據屬性的概率分布相互獨立。然而,在實際應用的數據采掘系統中,也就是說在一般的大數據集情況下,這個假設很可能是不成立的。在數據庫中,數據屬性之間可能包含嚴重的耦合;另外,基于概率的樹是非平衡樹,對于這樣的數據結構,其插入、檢索的時間和空間代價都提高;當然這也使得聚類結果的存取和更新都非常困難的。

Ng和Han發展了適用于大規模應用的基于隨機搜索的算法:CLARANS。其算法復雜性基本上是正比于對象的個數的。Ester等人針對CLARANS算法的缺點,并提出了改進技術。通過引入更為有效的空間數據庫存取算法,如R——樹,來提升CLARANS算法的性能。T.Zhang等人則提出了另一種聚類算法:BIR CH。這是一種很好的聚類算法,具有很好的聚類品質和對階數的不敏感性;應用表明它基本上具有線性的規模伸縮性,以及其計算復雜度都是O(N)階的。

四、發展方向及面臨的技術挑戰

1.算法效率和可伸縮性

數據采掘與傳統的機器學習的區別在于:數據采掘是直接面向海量數據庫系統的。這類數據庫通常有上百個屬性和數百萬個記錄,并且數據表之間包含復雜的關系。這就必然導致數據采掘過程中搜索維數和搜索空間的激增,同時這也增加了出現不確定性、錯誤和病態模式的可能性。因此,提高算法的效率以及具有規模伸縮性是它們在實際應用中必須面對的巨大挑戰。

2.處理不同類型的數據和數據源

現今的數據庫模型大都是關系數據庫模型,所以,在這類數據庫模型上執行數據采掘的能力是非常重要的。并且,隨著數據庫的應用范圍日益擴大,數據庫的規模和功能業日益完善,因此,新的數據庫模型不斷出現,在數據庫中,包含著大量復雜的數據類型。所以,數據采掘系統對這些數據庫的操縱能力是至關重要的。

更進一步,隨著計算機網絡技術的發展和企業需求的擴張,把企業網和國際互聯網上的眾多數據源連接成一個大型的分布、異構的數據庫。從這些包含不同語義的格式化和非格式化數據中開采知識無疑是對數據采掘的重大挑戰。數據采掘可揭示大型異構數據庫中存在的普通查詢所不能發現的知識。數據庫的巨大規模、異地分布及數據采掘方法的計算復雜性要求建立并行分布數據采掘算法。

3.私有性和安全性

數據采掘能從不同的角度、不同的抽象層上看待數據,這潛在將影響到數據的私有性和安全性。研究數據采掘可能導致的非法數據入侵,同樣是實際應用過程中亟待解決的問題。

4.國際互聯網上的數據采掘

互聯網規模的爆炸性增長,使其成為一個全球規模的信息源,從中可以發現大量的新知識,因此,國際互聯網數據采掘具有誘人的前景,正吸引越來越多研究人員的興趣。

5.數據采掘系統交互性

數據采掘是一個復雜的過程,數據采掘過程中操作者的適當參與是必不可少的。系統的交互能力對系統的性能是至關重要的,一方面,交互界面接收用戶的檢索、查詢要求和數據采掘策略,為用戶提供方便的手段來表達其要求和策略是這方面的關鍵;另一方面,交互界面又把生成的結果傳遞給用戶,在這里,由于生成的結果是多種多樣的,因此,準確而直觀地描述采掘的結果和友好而高效的用戶界面一直是這方面研究的重要課題。

主站蜘蛛池模板: 久久黄色免费电影| 无码AV动漫| 亚洲第一成年网| 国产玖玖视频| 欧美a√在线| 九九热精品免费视频| aⅴ免费在线观看| 色婷婷久久| 久久婷婷国产综合尤物精品| 特级aaaaaaaaa毛片免费视频| 91免费国产高清观看| 国产免费羞羞视频| 成年人国产网站| 成人福利在线观看| 日本手机在线视频| 亚洲精品第1页| 国产精品部在线观看| 久久一色本道亚洲| 久久精品免费看一| 成人国内精品久久久久影院| 久久亚洲中文字幕精品一区| 青青青国产精品国产精品美女| 久久精品中文无码资源站| 扒开粉嫩的小缝隙喷白浆视频| 国产又大又粗又猛又爽的视频| 久无码久无码av无码| 亚洲午夜福利在线| 亚洲精品老司机| 99热线精品大全在线观看| 免费在线一区| 欧美黄色a| 日韩精品一区二区三区免费在线观看| 茄子视频毛片免费观看| 欧美精品亚洲精品日韩专区| 免费A∨中文乱码专区| 国产无码精品在线播放| 99热6这里只有精品| 国产亚洲日韩av在线| 国产一区二区精品福利| 特级欧美视频aaaaaa| 国产精品无码影视久久久久久久| 国产精品吹潮在线观看中文| 天堂成人av| 亚洲最新地址| 欧美一级高清片欧美国产欧美| 国内a级毛片| 国产乱人伦偷精品视频AAA| 99re热精品视频国产免费| 国产国语一级毛片在线视频| 亚洲中字无码AV电影在线观看| 在线观看欧美国产| 亚洲无线观看| 999福利激情视频| 四虎国产精品永久一区| 国产欧美日韩精品综合在线| 婷婷亚洲视频| 国产免费人成视频网| 国产导航在线| 精品国产www| 亚洲视频在线青青| 国产粉嫩粉嫩的18在线播放91 | 日韩午夜伦| 国产一区二区网站| 日韩精品视频久久| 天天操精品| 日韩av高清无码一区二区三区| 精品人妻无码中字系列| 亚洲青涩在线| 天堂成人在线| 欧美精品导航| 国产一级α片| 国产精品亚洲欧美日韩久久| 午夜少妇精品视频小电影| 欧美一级视频免费| 久久婷婷色综合老司机| 精品夜恋影院亚洲欧洲| 亚洲手机在线| 成人字幕网视频在线观看| 亚洲中文无码av永久伊人| 乱人伦中文视频在线观看免费| 国产精品第一区在线观看| 毛片免费观看视频|