999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術及其發展

2009-04-29 00:00:00朱明苑
科教導刊 2009年28期

摘要本文就數據挖掘的定義和功能,數據挖掘系統分類,數據挖掘過程 ,現代數據挖掘技術與其發展以及數據挖掘面臨的問題做了分析。

關鍵詞數據挖掘技術數據挖掘系統數據挖掘過程

中圖分類號:TP39文獻標識碼:A

1 引言

近年來,數據挖掘引起了極大關注。數據挖掘能夠充分利用了當今服務器的運算能力,將大量數據轉換為有用的信息,其利用了來自統計學、人工智能等一些領域的思想,一些其他領域也起到重要的支撐作用。計算機不斷增長的物理存儲能力和處理能力,使得復雜的數據分析成為可能。為了以種種方法來挖掘數據,理解那些可用的技術,以及對特定的數據存儲如何應用這些技術的理解十分重要。

2 數據挖掘的定義和功能

2.1數據挖掘的定義

2.1.1 數據挖掘的技術定義

數據挖掘是指從海量數據中挖掘有用知識。

(1)原始數據可以是結構化或半結構化的,甚至是異構的。

(2)數據挖掘是一門交叉學科,它涉及到了AI、機器學習、統計學、可視化技術等多個學科領域。

2.1.2 數據挖掘的商業定義

(1)數據挖掘是一種嶄新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉化、分析和模式化處理,從中提取輔助商業決策的關鍵知識,即從一個數據庫中自動發現相關商業模式。

(2)數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。

2.2數據挖掘的功能

數據挖掘綜合了各個學科技術,有很多的功能。當前的主要功能以及它們可以發現的模式類型如下:

2.2.1概念/類描述:特征化和區分

數據可以與類或者是概念相關聯。數據特征化是目標類數據的一般特征或特性的匯總。通常,用戶指定類的數據通過數據庫查詢收集。數據特征的輸出可以用多種形式提供。其中包括餅圖、條圖、曲線、多維數據立方體和包括交叉表在內的多維表。 數據區分是將目標類對象的一般特性與一個或多個對比類對象的一般特性比較。

2.2.2關聯規則和序列模式的發現

關聯是某種事物發生時其他事物會發生的這樣一種聯系。規則歸納是數據挖掘的一種主要形式,并且是無教師學習系統中最普遍的知識發現形式。

2.2.3分類和預測

分類就是找出一組能夠描述數據集合典型特征的模型(或函數),以便能夠分類識別未知數據的歸屬或類別,即將未知事例映射到某種離散類別之一。在一些情況下,需要預測某數值屬性的值(連續數值),這樣的分類就被稱為預測。

2.2.4聚類分析

聚類:識別出分析對內在的規則,按照這些規則把對象分成若干類。分析數據對象,而不考慮已知的類標記。對象根據最大化類內的相似性、最小化類間的相似性的原則進行聚類或分組。所形成的每個簇可以看作一個對象類,由它可以導出規則。

2.2.5演變分析

數據演變分析描述行為隨時間變化的對象的規律或趨勢,并對其建模。盡管這可能包括時間相關數據的特征化、區分、關聯、分類或聚類,這類分析的不同特點包括時間序列數據分析、序列或周期模式匹配和基于類似性的數據分析。

3 數據挖掘系統分類

為幫助正確認識數據挖掘系統并準確有效使用合適的數據挖掘系統解決實際問題,這里將對數據挖掘系統分類標準作詳細介紹。一個數據挖掘系統可以按照其所挖掘的數據庫類型進行分類:

(1)數據庫系統本身就有多個劃分標準,這些數據庫系統均與各自的數據挖掘技術相對應。因此數據挖掘系統可以按照數據庫系統類型進行劃分。(2)若根據數據模型進行分類,就會有關系類型、事務類型、面向對象類型、對象關系類型和數據倉庫類型等數據挖掘系統。(3)若按照所處理數據類型進行劃分,就會有空間數據類型、時序數據類型、文本類型和多媒體類型等數據挖掘系統,或互聯網挖掘系統。(4)其他的系統類型還包括:異構數據挖掘系統和歷史數據挖掘系統。根據所挖掘的知識進行分類,可以根據所挖掘的知識類型對數據挖掘系統進行分類。

4 數據挖掘的過程

前面討論了數據挖掘的定義、功能和系統分類,現在關鍵的問題是如何實施,其一般的過程如下:

般過程包括:定義商業問題—>建立數據挖掘模型—>分析數據—>數據準備—>數據整理—>建立模型—>評價和解釋—>實施。

(1)定義商業問題:在開始知識發現之前最先的同時也是最重要的要求就是了解數據和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想干什么。

(2)建立數據挖掘庫:建立數據挖掘庫包括以下幾個步驟:a數據收集;b數據描述;c選擇;d數據質量評估和數據清理;e合并與整合;f構建元數據;g加載數據挖掘庫;h維護數據挖掘庫。

(3)分析數據:分析的目的是找到對預測輸出影響最大的數據字段,和決定是否需要定義導出字段。如果數據集包含成百上千的字段,那么瀏覽分析這些數據將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強大的工具軟件來協助你完成這些事情。

(4)數據準備:獲取原始的數據,并從中抽取一定數量的子集,建立數據挖掘庫,其中一個問題是如果企業原來的數據倉庫滿足數據挖掘的要求,就可以將數據倉庫作為數據挖掘庫。

(5)數據整理:由于數據可能是不完全的、有噪聲的、隨機的,有復雜的數據結構,就要對數據進行初步的整理,清洗不完全的數據,做初步的描述分析,選擇與數據挖掘有關的變量,或者轉變變量。

(6)建立模型:建立模型是一個反復的過程。需要仔細考察不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分數據建立模型,然后再用剩下的數據來測試和驗證這個得到的模型。有時還有第三個數據集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的數據集來驗證模型的準確性。

(7)評價和解釋:模型建立好之后,必須評價得到結果、解釋模型的價值。從測試集中得到的準確率只對用于建立模型的數據有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多少。經驗證有效的模型并不一定是正確的模型。因此直接在現實世界中測試模型很重要。先在小范圍內應用,取得測試數據,覺得滿意之后再向大范圍推廣。

(8)實施:模型建立并經驗證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的數據集上。

以上的步驟不是一次完成的,可能其中某些步驟或者全部要反復進行。每一個數據挖掘過程模型都隨著社會發展、人們需求的改變而不斷發展。

5 現代數據挖掘技術與其發展

現代數據挖掘技術是指20世紀80年代末所出現的數據挖掘技術,從數據倉庫中提取人們感興趣的、事先不知的、隱含在數據中的信息和知識。

數據挖掘中的現代挖掘技術按其不同的技術特點,可以分成規則型、決策樹型、神經網絡、遺傳算法、粗糙集等多種技術。下面主要闡述一下規則型和決策樹型技術。

5.1規則型

規則歸納是數據挖掘的一種主要形式,并且是無教師學習系統中最普遍的知識發現形式。關聯分析的目的是為了挖掘隱藏在數據間的相互關系,即對于給定的一組項目和一個記錄集,通過對記錄集的分析,得出項目集中的項目之間的相關性。項目之間的相關性用關聯規則來描述,關聯規則反映了一組數據項之間的密切程度或關系。

5.2決策樹型

a.決策樹又稱為判定樹,是運用于分類的一種樹結構。其中的每個內部結點代表對某個屬性的一次測試,每條邊代表一個測試結果,葉結點代表某個類或者類的分布,最上面的結點是根結點。

b.ID3算法是分類規則挖掘算法中最有影響的算法。ID3即決策樹歸納。早期的ID算法只能就兩類數據進行挖掘;經過改進后,現在ID算法可以挖掘多類數據。待挖掘的數據必須是不矛盾的、一致的,也就是說,對具有相同屬性的數據,其對應的類必須是唯一的。在ID3算法挖掘后,分類規則由決策樹來表示。

6 數據挖掘的主要問題

數據挖掘技術在社會生活中得到充分運用,但也面臨諸多問題:

(1)在數據庫中挖掘不同類型的知識 :由于不同的用戶可能對不同類型的知識感興趣,數據挖掘系統應當覆蓋范圍很廣的數據分析和知識發現任務。這些任務可能以不同的方式使用相同的數據庫,并需要開發大量數據挖掘技術。

(2) 多個抽象層的交互知識挖掘 :由于很難準確地知道能夠在數據庫中發現什么,數據挖掘過程應當是交互的。對于包含大量數據的數據庫,應當使用適當的抽樣技術,進行交互式數據探查。交互式挖掘允許用戶聚焦搜索模式,根據返回的結果提出和精煉數據挖掘請求。

(3)結合背景知識:需要使用背景知識或關于所研究領域的信息來指導發現過程,并使得發現的模式以簡潔的形式在不同的抽象層表示。

(4)數據挖掘查詢語言和特定的數據挖掘:關系查詢語言允許用戶提出特定的數據檢索查詢。類似地,需要開發高級數據挖掘查詢語言,使得用戶通過說明分析任務的相關數據集、領域知識、所挖掘的數據類型、被發現的模式必須滿足的條件和約束,描述特定的數據挖掘任務。

(5)數據挖掘結果的表示和顯示 :發現的知識應當用高級語言、可視化表示或其他表示形式表示,使得知識易于理解,能夠直接被人們使用。如果數據挖掘系統是交互的,這一點尤為重要。

7結束語

在數據庫日益龐大的今天,利用數據挖掘從數據倉庫中提取自己感興趣的知識,可最終為決策發現提供有效的支持,對社會經濟等方面發展起到關鍵作用。數據挖掘是從海量的數據中發現有用的知識,將大大提高我們的工作效率和決策的準確性。數據挖掘技術仍未形成統一理論,許多問題在實踐上的可行性不夠,有待進一步發展與研究。

主站蜘蛛池模板: 青青青国产免费线在| 国产精品视频公开费视频| 91视频国产高清| 青草国产在线视频| 99精品视频九九精品| 自拍欧美亚洲| 久久久久国产精品熟女影院| 亚洲伊人天堂| 草草影院国产第一页| 国产精品亚洲五月天高清| 国产精品综合色区在线观看| 国产精品无码制服丝袜| 中文国产成人精品久久| 久久久久88色偷偷| 一级爆乳无码av| 青青青国产视频| 中文字幕人成乱码熟女免费| 亚洲欧美日韩视频一区| 狼友视频国产精品首页| 国产伦精品一区二区三区视频优播| 久久国产成人精品国产成人亚洲| 九九视频在线免费观看| 中文字幕调教一区二区视频| 伊人色综合久久天天| 欧美亚洲香蕉| 国产在线视频自拍| 国产亚洲欧美日本一二三本道| 国产精品无码AV片在线观看播放| 久久久久亚洲精品成人网| 91精品国产综合久久香蕉922| 亚洲国产av无码综合原创国产| 亚洲小视频网站| 亚洲第一区在线| 精品少妇人妻无码久久| 成人噜噜噜视频在线观看| 亚洲91精品视频| 欧美激情视频一区二区三区免费| 乱人伦视频中文字幕在线| 欧美久久网| 国产日韩久久久久无码精品| 国产高清自拍视频| 国产真实自在自线免费精品| 成人另类稀缺在线观看| 国产精品片在线观看手机版 | 欧美日韩一区二区三区在线视频| 色综合久久无码网| 久久综合五月婷婷| 国产成人综合日韩精品无码不卡| 欧美日本激情| 久久美女精品| 亚洲精品777| 中字无码av在线电影| 午夜毛片免费观看视频 | 欧美α片免费观看| 亚洲第一香蕉视频| 国产福利微拍精品一区二区| 伊人成人在线| 久久久精品国产亚洲AV日韩| 国产亚洲视频播放9000| 欧美精品成人| 日本草草视频在线观看| 在线a网站| 免费激情网站| 国产日韩欧美一区二区三区在线 | 精品免费在线视频| 性视频久久| 国产黄网永久免费| 国产人人射| 激情爆乳一区二区| 干中文字幕| 91精品啪在线观看国产60岁| 一本久道久综合久久鬼色| 亚洲天堂精品在线观看| 波多野结衣久久高清免费| 国产导航在线| 国产精品99一区不卡| 国产裸舞福利在线视频合集| 丝袜无码一区二区三区| 青青热久免费精品视频6| 伊人婷婷色香五月综合缴缴情| 波多野结衣一二三| 精品在线免费播放|