999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數據挖掘技術

2011-10-21 22:33:44侯玉香劉華云
卷宗 2011年6期
關鍵詞:數據挖掘

侯玉香 劉華云

摘要:數據挖掘(Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識。該文簡單介紹數據挖掘的概念﹑區別﹑常用技術﹑方法及發展趨勢。

關鍵詞:數據挖掘;數據;聚類;決策樹

近十幾年來,隨著科學技術飛速的發展,人們利用信息技術生產和搜集數據的能力大幅度提高,無數個數據庫被用于商業管理、科學研究、政府辦公和工程開發等。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示強大的生命力。

1 數據挖掘與傳統分析方法的區別

數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出來未知的、有價值的模式和有規律等知識的復雜過程。

數據挖掘與傳統分析方法區別如下:

1)本質區別為數據挖掘是在沒有明確的假設的前提下,挖掘信息并發現知識。

數據挖掘所得到的信息應該具備先前未知﹑有效性﹑可實用三個特征。

2)數據挖掘的數據源與傳統分析方法相比有了顯著的改變,數據是海量的,數據是有噪聲,數據可能是非結構化的。

3)先前未知的信息指該信息是預先未曾預料到的,數據挖掘是發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出信息越是出乎意料的,就可能越有價值.

2 數據挖掘中的常用技術

數據挖掘是指從數據庫的大量數據中揭示出隱含的﹑先前未知的﹑并有潛在價值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識別、機器學習、數據庫、統計學、可視化技術等,高度自動化地分析企業的數據,并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略并減少風險,做出正確的決策。

常見的數據挖掘技術包括如下:

1)統計分析方法:利用統計學和概率論的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。它是最基本的數據挖掘技術之一。

2)決策樹方法:以樹型結構表示分類或決策集合,產生規則和發展規律,尋找數據庫中具有最大信息量的字段,建立決策樹的一種人工智能和識別技術,主要用于分類挖掘。

3)神經網絡方法:由大量的簡單經元,通過極其豐富和完美的連接構成自適應非線性動態系統,具有分布存儲﹑大規模并行處理﹑聯想記憶﹑自學習﹑自組織﹑自適應等功能。

4)遺傳算法:模擬生物進行過程,以達到優化的目的。由交叉﹑繁殖﹑變異三個基本算子組成,可起產生優良后代的作用。經過若干代的遺傳,將得到滿足要求的后代。

5)聚類分析:根據事物的特征,對其分類或聚類。即所謂物以類聚,以期發現規律和典型模式。聚類分析技術是數據挖掘的最重要的技術之一。

6)粗集方法:在數據庫中視行為對象列為元素,定義等價關系R為不同對象在某個或幾個屬性上取值相同,滿足R的對象組成的集合稱為其等價類。

7)可視化技術:采用比較直觀的圖形圖表方式將信息模式﹑數據關聯或趨勢呈現給決策者,廣大擴展了數據和挖掘結果的表達和理解力。

8)最近鄰技術:通過K個與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術可用作聚類﹑偏差分析等挖掘任務。

3 數據挖掘的方法

數據挖掘的實現方法有兩種:直接數據挖掘和間接數據挖掘。

1)直接數據挖掘

給出所有已知的因素和輸入變量,便于數據挖掘引擎數據模型的規則,找出各個屬性之間最合理的關系。直接數據挖掘以預測未知值或目標變量為基礎,即直接數據挖掘是基于已知的輸入變量值預測未知數據的最大可能的取值。

2)間接數據挖掘

間接數據挖掘不用于預測,不受目標值的限制和約束,它只對數據進行整理,發掘整個數據集合的結構和數據組織形式,進行理解和應用。

例如,通過整理圖書的借閱歷史,可以發現喜歡讀某類圖書的讀者有哪些共同的特點。

例如,可能會發現喜歡讀金庸小說的讀者主要是年輕的男孩子。

采用聚類是對歷史數據進行數據挖掘中常用的一種算法。可以先提取聚類,再利用決策樹算法,對感興趣的數據集合進行直接數據挖掘。

4 數據挖掘的發展趨勢

數據挖掘的任務和數據挖掘方法的多樣化對數據挖掘提出了許多挑戰性的研究問題,在將來會形成更大的高潮。數據挖掘發展趨勢包括新應用領域的探索方面所作的進一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進﹑數據挖掘與數據倉庫和數據庫系統的集成﹑可視化方法和處理復雜數據類型的新方法﹑數據挖掘語言的標準化。

數據挖掘的發展趨勢主要如下:

1)數據倉庫日益普及:盡管數據挖掘并不一定要有數據倉庫的支持,但它仍然經常被看成數據倉庫的后期產品,因那些努力建立數據倉庫的人有最豐富的數據資源可供挖掘。

2)Internet 數據挖掘:許多供應商將數據挖掘技術應用于電子商務,以提高Internet 站點和客戶的關聯行。如IBM公司發布Web為中心的數據挖掘解決方案SurAid。

3)數據挖掘供應商更注重縱向市場:數據挖掘涉及到對數據內在本質的理解,因些供應商們更注重縱向市場。比如DataMind 公司的重點是電信業的跳槽。電信業競爭的不規范和白熱化已使保持客戶成為一個備受關注的熱點問題。

4)EIS工具供應商也在集成數據挖掘功能:將數據挖掘工具﹐查詢及EIS工具集成起來將導致一個基于發現的過程。由此發現過程最終用戶能獲得最有用的東西,進而根據這些新的信息對有關問題進行更明確的闡述。

5 結束語

數據挖掘是一個多學科的交叉領域。不再是數據庫的研究者和開發者關注的問題,它已經成為統計學﹑機器學習等諸多領域的研究者和開發者的熱點課題之一。就連“數據挖掘”術語本身也已經成為這些領域的流行詞匯。數據挖掘學科交叉融合引起的良性互動無疑會進一步促進該學科的發展與繁榮。

參考文獻

[1]陳志泊.數據倉庫與數據挖掘[M] .北京:清華大學出版社,2009

[2]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008

[3]劉世平.數據挖掘技術及應用[M].北京:高等教育出版社,2010

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产国产人成免费视频77777 | 国产成人无码综合亚洲日韩不卡| 国产成人精品一区二区三在线观看| 亚洲乱强伦| 国产在线专区| 狠狠ⅴ日韩v欧美v天堂| 精品久久人人爽人人玩人人妻| 四虎永久在线精品国产免费 | 亚洲欧美另类日本| 一本久道久综合久久鬼色| 狠狠五月天中文字幕| 2021国产精品自产拍在线| 丁香五月婷婷激情基地| 国产成人免费高清AⅤ| 亚洲精选高清无码| 亚洲欧美精品日韩欧美| 免费av一区二区三区在线| 中字无码av在线电影| 欧美综合区自拍亚洲综合绿色 | 无码 在线 在线| 91丝袜在线观看| 露脸真实国语乱在线观看| 日本a级免费| 2022国产无码在线| 美女高潮全身流白浆福利区| 91破解版在线亚洲| 91在线一9|永久视频在线| 久久久成年黄色视频| 日韩小视频在线观看| 四虎国产永久在线观看| 国产成人1024精品| 日韩精品成人在线| 亚洲大尺码专区影院| 性视频一区| www.91在线播放| 久久女人网| 国产精品美女网站| 久久伊人操| 婷五月综合| 蜜臀AV在线播放| 91亚洲视频下载| 人妻丝袜无码视频| 成人福利在线免费观看| 国产女人18水真多毛片18精品 | 麻豆精品国产自产在线| 亚洲婷婷在线视频| 亚洲欧美国产五月天综合| 午夜啪啪网| 亚洲第一成年人网站| 国产精品永久不卡免费视频| 国产成人综合日韩精品无码首页| 国产一级无码不卡视频| 久久香蕉国产线看观看式| 国产女人18毛片水真多1| 天天躁狠狠躁| 免费一级毛片| 狠狠色综合网| 最新亚洲av女人的天堂| 国产精品亚洲欧美日韩久久| 国产成人亚洲日韩欧美电影| 久久婷婷六月| 久草网视频在线| 亚洲男人天堂2018| 国产成人1024精品| 亚洲一区毛片| 狠狠色综合久久狠狠色综合| 日韩欧美91| 欧美激情成人网| 色香蕉影院| 国产女人在线视频| 奇米精品一区二区三区在线观看| 91蜜芽尤物福利在线观看| 日韩精品一区二区三区swag| 三上悠亚一区二区| 久久精品这里只有国产中文精品| 成人精品午夜福利在线播放| 伊人久久精品无码麻豆精品| 欧美成人日韩| 中文字幕在线观| Aⅴ无码专区在线观看| 蝴蝶伊人久久中文娱乐网| 国产乱子伦手机在线|