999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘技術方法的研究

2011-12-31 08:49:13郭佳
中國新技術新產品 2011年23期
關鍵詞:數據挖掘關聯規則

郭佳

(蘭州石化職業技術學院信息處理與控制工程系,甘肅 蘭州 730060)

數據挖掘作為近年來新興的一種數據處理技術,不僅被許多研究人員看作是數據庫系統和機器學習方面一個重要的研究課題,而且已經被工商界人士看作是一個能帶來巨大回報的重要領域。

1 數據挖掘的定義

目前有關數據挖掘的定義有很多,一種比較公認的定義如下:

數據挖掘是指從大量數據中抽取隱含的、不為人知的、有用的信息。數據挖掘被描述為從大型數據庫的數據中提取人們感興趣的知識。這些知識是隱含的、事先未知的潛在有用信息,提取的知識表示為概念(Concepts)、規則(Rules)、規律(Regularities)、模式(Patterns)等形式。試圖創建一個數據庫中描述的復雜世界的簡單模型,因而我們也可以說數據挖掘是處理大量信息的方法,并且它有助于以比人更快的速度發現有用的信息。

2 數據挖掘的任務

數據挖掘的任務就是從數據集中發現模式。模式可以有很多種,按功能可分為兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。具體任務主要有以下幾種:

2.1 分類:用于預測事件所屬的類別,其中樣本數據中包含標識樣本事件所屬類別的數據項,類別是已知的,由數據挖掘根據樣本數據構建對這些類別的模式的描述,再利用所發現的模式,參照新的數據的特征變量,將其映射入已知類別中。

2.2 聚類:用于描述和發現數據庫中以前未知的數據類型,其中樣本數據中不包含類別變量,數據挖掘將具有共同趨勢和模式的數據元組聚集為一類,使類內各元組相似程度最高,類間差異最大。

2.3 關聯規則:用于發現給定事件或紀錄中經常一起發生的項目,由此推斷事件間潛在的關聯,識別有可能重復發生的模式。

2.4 序列模式:與關聯分析相似,只是擴展為一段時間的項目集間的關系。常把序列模式看作由時間變量連接起來的關聯。序列分析可分析長時間的相關紀錄,發現經常發生的模式。

3 數據挖掘的方法

數據挖掘中采用的方法綜合了數據庫、人工智能、統計學、模式識別、機器學習、數據分析等領域的研究成果。下面我們給出主要數據挖掘方法:

3.1 決策樹方法

決策樹的每個內部節點表示在一個屬性上的測試,每個分支表示一個測試的輸出,每個樹葉節點表示類和類的分布。構造一個決策樹分類器通常分為兩步:樹的生成和剪枝。樹的生成采用自上而下的遞歸分治法。剪枝就是使用統計度量,剪去那些不可靠的分枝。ID3及其后續版本C4.5,C5是使用最為廣泛的決策樹方法,采用信息嫡增益及其改進增益率進行屬性選擇。

3.2 關聯分析

關聯規則挖掘需要找出的是支持率和置信度分別大于或等于用戶指定的臨界值的關聯規則。關聯規則挖掘過程分為兩步:首先找出所有的頻繁項目集及其支持率;然后根據找到的頻繁項目集導出所有的置信度大于或等于用戶指定的最小置信度的關聯規則。關聯規則的研究一般都在尋找頻繁項目集上。

3.3 聚類分析

聚類是按照某個特定標準 (通常是某種距離)把一個數據集分割成不同的類,使得類內相似性盡可能的大;同時,類間的區別性也盡可能的大。聚類方法可以劃分為以下幾類:①劃分方法;②層次方法;③基于密度的方法;④基于網格的方法;⑤基于模型的方法等。

3.4 遺傳算法

遺傳算法是Holland于1967年提出的[1],模擬生物進化過程的計算模型,是自然遺傳學和計算機科學相互結合滲透而形成的新的計算方法。遺傳算法由3個基本算子組成:繁殖、交叉和變異。遺傳算法已在優化計算和分類機器學習方面顯示了明顯的優勢。

3.5 粗糙集方法

粗糙集理論是上世紀八十年代初Z.Pawlak針對G.Firege的邊界域思想提出的[2],基于給定訓練數據內部的等價類,用上、下近似集合來逼近數據庫中的不精確概念。用于分類,可以發現不準確數據或噪聲數據內在的結構聯系;用于屬性約簡,可以識別和刪除無助于給定訓練數據分類的屬性;用于相關分析,可以根據分類任務評估每個屬性的貢獻或意義。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則。

3.6 支持向量機方法

支持向量機方法是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的一種新的學習方法,是根據有限的樣本信息在模型復雜性和學習能力之間尋求最佳折衷,以期獲得最好的泛化能力。它是Vapnik于1995年提出的,近年受到國際學術界的高度重視。

數據挖掘算法是對數據挖掘方法的具體實現,其好壞將直接影響到所發現知識的好壞,因此選取適當的算法或算法組合至關重要,目前對數據挖掘的研究也主要集中在算法及其應用方面。一般來說,不存在一個普遍適用的算法,一個算法在某個領域非常有效,但在另一個領域卻可能不太合適。因此,在實際應用中要針對具體應用的目標和情況,精心選擇有效的數據挖掘算法。

4 數據挖掘的步驟

數據挖掘的實施大體可分為以下三步:數據準備、數據挖掘、結果表達和解釋,其中數據準備又可以劃分為數據集成、數據選擇、預處理三個階段,結果表達和解釋包含模式評估和知識表示的內容。

4.1 數據準備

數據準備的過程是整理原始數據,給數據挖掘過程提供可供挖掘的材料。數據準備過程按照數據的處理順序可以細分為若干個階段,數據集成是將多種數據源組合在一起,開始著手提供發現任務的操作對象,這個過程中也進行數據清理工作,對各個數據源中的噪音數據和不一致數據進行處理,可能包括補充殘缺值、消除重復記錄、完成數據類型轉換等內容。數據選擇從完成數據集成后的數據庫中檢索和分析任務相關的數據作為發現任務的操作對象,形成目標數據。數據預處理將數據變換為適合挖掘的形式,如匯總或聚集操作、屬性量化或數據降維等。

4.2 數據挖掘

數據挖掘階段首先要確定挖掘任務中要找的模式類型,也就是要確定挖掘的任務和目的,數據挖掘任務一般可以分為兩類:描述和預測。描述性任務刻劃數據集中數據的一般特征,預測性任務在當前數據集上進行推斷,以進行預測。其次還要考慮采用什么樣的挖掘算法,對于同樣的任務類型可能存在多種算法實現,此時要考慮數據集的具體特點和表現形式,對比各種挖掘算法,對各種算法的要求和前提假設要有充分的理解,然后最終確定合適的算法類型。

4.3 結果表達與解釋

數據挖掘系統具有產生數以千計、甚至上萬的模式或規則的潛在能力。在這些模式中,用戶只對其中的一小部分模式感興趣,這就需要數據挖掘系統能提供對各種模式的評估能力,依據用戶對模式的興趣度進行評估,剔除掉大多數無關模式,把能夠表示知識的有趣模式提交給用戶。知識發現由于最終是面向人類用戶的,因此可能要對發現的模式進行可視化,或把結果轉換為用戶易于理解的另一種表示方式。

[1]Holland J H.Adaptation in natural and artificialsystems [M].Univ of Michigan Press,Ann Arbor Mich,1975

[2]Pawlak Z.Rough sets[J].International journal of computer & information sciences.1982,11(5):341-356

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产精品白浆在线播放| 97综合久久| 19国产精品麻豆免费观看| 九九热在线视频| 精品视频福利| 67194亚洲无码| 日韩毛片在线播放| 免费在线播放毛片| 欧美成a人片在线观看| 91香蕉国产亚洲一二三区 | av午夜福利一片免费看| 国产成人综合日韩精品无码不卡 | 欧美精品亚洲精品日韩专区| 久久这里只精品国产99热8| 国产va在线观看免费| av在线手机播放| 秘书高跟黑色丝袜国产91在线| 国产精品va| 亚洲色图狠狠干| 国产精品视频第一专区| 国产精品视频a| 亚洲天堂视频在线观看免费| JIZZ亚洲国产| 日本高清有码人妻| 亚洲水蜜桃久久综合网站| 四虎永久在线精品国产免费| 激情乱人伦| 超碰色了色| 成人福利在线免费观看| 免费一级毛片在线播放傲雪网| 伊人五月丁香综合AⅤ| 在线免费亚洲无码视频| 中文一级毛片| 一本久道久综合久久鬼色| 看你懂的巨臀中文字幕一区二区| 亚洲天堂网站在线| 日本道综合一本久久久88| 日韩一级毛一欧美一国产| 天天躁狠狠躁| 青草精品视频| 992tv国产人成在线观看| 国产丝袜啪啪| 一本久道热中字伊人| 性欧美精品xxxx| 69av在线| 亚洲人成网线在线播放va| 秘书高跟黑色丝袜国产91在线| 国产情侣一区二区三区| 在线精品自拍| 午夜国产精品视频| 亚洲精品自产拍在线观看APP| 伊人久久青草青青综合| 日韩在线播放中文字幕| 欧洲在线免费视频| 精品日韩亚洲欧美高清a| 精品综合久久久久久97超人该| 国产在线精彩视频二区| 国产乱人伦精品一区二区| 九色最新网址| 亚洲人成网7777777国产| 伊在人亚洲香蕉精品播放| 日韩成人午夜| 亚洲第一成年人网站| 国内老司机精品视频在线播出| 国产成人精品一区二区| 久久久受www免费人成| 五月天在线网站| 伊人成人在线| www.youjizz.com久久| 国产一二视频| 一级福利视频| 超碰91免费人妻| 亚洲精品卡2卡3卡4卡5卡区| 99精品在线视频观看| 国产精品网址你懂的| 久久久久88色偷偷| 四虎综合网| 日韩欧美国产三级| 国产精品va免费视频| 成人亚洲国产| 亚洲va在线观看| 中文字幕无码中文字幕有码在线|