999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數據挖掘技術

2011-10-21 22:33:44侯玉香劉華云
卷宗 2011年6期
關鍵詞:數據挖掘

侯玉香 劉華云

摘要:數據挖掘(Data Mining,簡稱DM),簡單地講就是從大量數據中挖掘或抽取出知識。該文簡單介紹數據挖掘的概念﹑區別﹑常用技術﹑方法及發展趨勢。

關鍵詞:數據挖掘;數據;聚類;決策樹

近十幾年來,隨著科學技術飛速的發展,人們利用信息技術生產和搜集數據的能力大幅度提高,無數個數據庫被用于商業管理、科學研究、政府辦公和工程開發等。為了充分利用現有信息資源,從海量數據中找出隱藏的知識,數據挖掘技術應運而生并顯示強大的生命力。

1 數據挖掘與傳統分析方法的區別

數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數據中抽取挖掘出來未知的、有價值的模式和有規律等知識的復雜過程。

數據挖掘與傳統分析方法區別如下:

1)本質區別為數據挖掘是在沒有明確的假設的前提下,挖掘信息并發現知識。

數據挖掘所得到的信息應該具備先前未知﹑有效性﹑可實用三個特征。

2)數據挖掘的數據源與傳統分析方法相比有了顯著的改變,數據是海量的,數據是有噪聲,數據可能是非結構化的。

3)先前未知的信息指該信息是預先未曾預料到的,數據挖掘是發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出信息越是出乎意料的,就可能越有價值.

2 數據挖掘中的常用技術

數據挖掘是指從數據庫的大量數據中揭示出隱含的﹑先前未知的﹑并有潛在價值的信息的非平凡過程。它是一種決策支持過程,主要基于人工智能、模式識別、機器學習、數據庫、統計學、可視化技術等,高度自動化地分析企業的數據,并做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略并減少風險,做出正確的決策。

常見的數據挖掘技術包括如下:

1)統計分析方法:利用統計學和概率論的原理對關系中各屬性進行統計分析,從而找出它們之間的關系和規律。它是最基本的數據挖掘技術之一。

2)決策樹方法:以樹型結構表示分類或決策集合,產生規則和發展規律,尋找數據庫中具有最大信息量的字段,建立決策樹的一種人工智能和識別技術,主要用于分類挖掘。

3)神經網絡方法:由大量的簡單經元,通過極其豐富和完美的連接構成自適應非線性動態系統,具有分布存儲﹑大規模并行處理﹑聯想記憶﹑自學習﹑自組織﹑自適應等功能。

4)遺傳算法:模擬生物進行過程,以達到優化的目的。由交叉﹑繁殖﹑變異三個基本算子組成,可起產生優良后代的作用。經過若干代的遺傳,將得到滿足要求的后代。

5)聚類分析:根據事物的特征,對其分類或聚類。即所謂物以類聚,以期發現規律和典型模式。聚類分析技術是數據挖掘的最重要的技術之一。

6)粗集方法:在數據庫中視行為對象列為元素,定義等價關系R為不同對象在某個或幾個屬性上取值相同,滿足R的對象組成的集合稱為其等價類。

7)可視化技術:采用比較直觀的圖形圖表方式將信息模式﹑數據關聯或趨勢呈現給決策者,廣大擴展了數據和挖掘結果的表達和理解力。

8)最近鄰技術:通過K個與之最相近的歷史記錄的組合來辨別新記錄。最近鄰技術可用作聚類﹑偏差分析等挖掘任務。

3 數據挖掘的方法

數據挖掘的實現方法有兩種:直接數據挖掘和間接數據挖掘。

1)直接數據挖掘

給出所有已知的因素和輸入變量,便于數據挖掘引擎數據模型的規則,找出各個屬性之間最合理的關系。直接數據挖掘以預測未知值或目標變量為基礎,即直接數據挖掘是基于已知的輸入變量值預測未知數據的最大可能的取值。

2)間接數據挖掘

間接數據挖掘不用于預測,不受目標值的限制和約束,它只對數據進行整理,發掘整個數據集合的結構和數據組織形式,進行理解和應用。

例如,通過整理圖書的借閱歷史,可以發現喜歡讀某類圖書的讀者有哪些共同的特點。

例如,可能會發現喜歡讀金庸小說的讀者主要是年輕的男孩子。

采用聚類是對歷史數據進行數據挖掘中常用的一種算法。可以先提取聚類,再利用決策樹算法,對感興趣的數據集合進行直接數據挖掘。

4 數據挖掘的發展趨勢

數據挖掘的任務和數據挖掘方法的多樣化對數據挖掘提出了許多挑戰性的研究問題,在將來會形成更大的高潮。數據挖掘發展趨勢包括新應用領域的探索方面所作的進一步努力﹑可伸縮和交互方法(包括基于約束的挖掘)的改進﹑數據挖掘與數據倉庫和數據庫系統的集成﹑可視化方法和處理復雜數據類型的新方法﹑數據挖掘語言的標準化。

數據挖掘的發展趨勢主要如下:

1)數據倉庫日益普及:盡管數據挖掘并不一定要有數據倉庫的支持,但它仍然經常被看成數據倉庫的后期產品,因那些努力建立數據倉庫的人有最豐富的數據資源可供挖掘。

2)Internet 數據挖掘:許多供應商將數據挖掘技術應用于電子商務,以提高Internet 站點和客戶的關聯行。如IBM公司發布Web為中心的數據挖掘解決方案SurAid。

3)數據挖掘供應商更注重縱向市場:數據挖掘涉及到對數據內在本質的理解,因些供應商們更注重縱向市場。比如DataMind 公司的重點是電信業的跳槽。電信業競爭的不規范和白熱化已使保持客戶成為一個備受關注的熱點問題。

4)EIS工具供應商也在集成數據挖掘功能:將數據挖掘工具﹐查詢及EIS工具集成起來將導致一個基于發現的過程。由此發現過程最終用戶能獲得最有用的東西,進而根據這些新的信息對有關問題進行更明確的闡述。

5 結束語

數據挖掘是一個多學科的交叉領域。不再是數據庫的研究者和開發者關注的問題,它已經成為統計學﹑機器學習等諸多領域的研究者和開發者的熱點課題之一。就連“數據挖掘”術語本身也已經成為這些領域的流行詞匯。數據挖掘學科交叉融合引起的良性互動無疑會進一步促進該學科的發展與繁榮。

參考文獻

[1]陳志泊.數據倉庫與數據挖掘[M] .北京:清華大學出版社,2009

[2]胡可云,田鳳占,黃厚寬.數據挖掘理論與應用[M].北京:清華大學出版社,2008

[3]劉世平.數據挖掘技術及應用[M].北京:高等教育出版社,2010

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产精品第一区| 伊人AV天堂| 全裸无码专区| 色欲不卡无码一区二区| 中国一级特黄视频| 亚洲综合极品香蕉久久网| 99精品免费欧美成人小视频| 久久香蕉国产线| 国产成人AV综合久久| 中国一级特黄视频| 亚洲最大福利网站| 精品视频福利| 91久久大香线蕉| 国产精品手机在线观看你懂的| 国产在线自揄拍揄视频网站| 国产在线视频自拍| 九九九九热精品视频| 91精品在线视频观看| 米奇精品一区二区三区| 毛片网站观看| AV老司机AV天堂| 国内精品视频| 成年网址网站在线观看| 精品国产三级在线观看| 九九九精品成人免费视频7| 亚洲视屏在线观看| 国产福利微拍精品一区二区| 最新无码专区超级碰碰碰| 999精品视频在线| AV无码无在线观看免费| 亚洲av无码专区久久蜜芽| 中文国产成人精品久久一| 亚洲精品制服丝袜二区| 国产一级一级毛片永久| 在线a网站| 国产成人精品男人的天堂下载 | 国产亚洲精| 欧美精品亚洲日韩a| 99国产在线视频| 亚洲人成日本在线观看| 99热最新网址| 亚洲欧美日韩另类| 狼友视频国产精品首页| 国产第一福利影院| 国产特一级毛片| 国产探花在线视频| 国产av无码日韩av无码网站| 午夜精品一区二区蜜桃| 日韩黄色精品| 日韩麻豆小视频| 日韩天堂视频| 福利在线一区| 在线观看网站国产| 看国产一级毛片| 波多野结衣一区二区三区四区视频| 人妻中文字幕无码久久一区| 97成人在线观看| 国产第四页| 一区二区三区四区精品视频 | 麻豆精品视频在线原创| 天堂av综合网| 亚洲欧洲AV一区二区三区| 国产欧美日韩综合在线第一| 色成人综合| 国产色婷婷| 高潮毛片免费观看| 国产欧美精品专区一区二区| 国内精品自在自线视频香蕉| 99久久精品视香蕉蕉| 999国产精品永久免费视频精品久久 | 伊人精品成人久久综合| 国产亚洲精品无码专| 精品久久香蕉国产线看观看gif| 全部免费毛片免费播放| 久久青草视频| 国产www网站| 91亚洲视频下载| 51国产偷自视频区视频手机观看| 久久精品人人做人人爽| 亚洲男人天堂久久| 自拍偷拍欧美| 亚洲乱码在线视频|