999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談數據挖掘

2013-12-31 00:00:00張曉華郭喜超鄭愛軍紀兆華
科技創新導報 2013年12期

摘 要:數據挖掘是從海量數據中分析發現具有特定的模式、關聯規則關系以及異常信息所表達出來的特點功能等在統計學有意義的結構和事件。該文簡要分析介紹了數據挖掘的含功能、技術及其應用等。

關鍵詞:數據挖掘 技術 應用

中圖分類號:TP311文獻標識碼:A文章編號:1674-098X(2013)04(c)-0054-01

數據挖掘是在信息的海洋中從統計學的角度分析發現有用的知識,并且能夠充分利用這些信息,發揮其巨大的作用,從而創造價值,為社會生產服務。數據挖掘工具能夠掃描整個數據庫,并且識別潛在的以往未知的模式。

1 數據挖掘

數據挖掘是與計算機科學相關,包括人工智能、數據庫知識、機器學習、神經計算和統計分析等多學科領域和方法的交叉學科,是從大量信息中提取人們還不清楚的但具有對于潛在決策過程有用的信息和知識的過程[1]。數據挖掘能夠自動對數據進行分析,并歸納總結,推理,分析數據,從而幫助決策者對信息預測和決策其作用[2]。

對比數據挖掘及傳統數據分析(例如查詢、報表),其本質區別在于:前者在沒有明確假設的前提下通過挖掘信息,提取有用的資料,并提升到知識層面,從而幫助提供決策支持。所以數據挖掘又稱為知識挖掘或者知識發現。數據挖掘通過統計學、數據庫、可視化技術、機器學習和模式識別等諸多方法來實現叢大量數據中自動搜索隱藏在其中的有著特殊關聯性的信息[3]。

2 數據挖掘技術

數據挖掘有許多挖掘分析工具,可以在大量數據中發現模型和數據間關系,常用數據挖掘技術包括:聚類分析和分類分析,偏差分析等。

分類分析和聚類分析的主要區別在于前者是已知要處理的數據對象的類,后者不清楚處理的數據對象的類。聚類是對記錄分組,把相似的記錄在一個聚集里,聚集不依賴于預先定義好的類,不需要訓練集。分類分析是預先假定有給定的類,并假定數據庫中的每個對象歸屬于這個類,并把數據分配到這個給定類中。通過分析訓練集中的數據,準確描述每個類別,并進行建模、挖掘分類規則,并依據該分類規則,劃分其他數據庫中的數據類別。聚類分析是非監督學習,不依靠預先定義的類和帶類標號的訓練數據集,實體對象集合依照某種相似性度量原則,歸納為若干個類似實體對象組成的多個類或簇的過程,不同類中的數據盡可能存在差異,同類中的數據之間各個數據盡可能相似。

存在大量數據的數據庫中,數據中存在著偏差,而在偏差中也包括了大量的知識。偏差分析是當數據庫中存在異常行為,就顯示出要采取預防措施;否則,正常的變化,則需要更新數據庫中的記錄[4]。

3 數據挖掘方法

要的數據挖掘方法包括決策樹、遺傳算法、人工神經網絡、近鄰算法和規則推導等。通過描述和可視化來對數據挖掘結果進行表示。

決策樹是以實例為基礎的歸納學習算法。著決策集的樹形結構代表決策樹,樹型結構表示分類或決策集合。決策樹是采用自頂向下的遞歸方式,樹的非終端節點表示屬性,葉節點表示所屬的不同類別。

遺傳算法是基于種群“多樣性”和“優勝劣汰”原則等進化理論,模擬生物進化過程的全局優化方法,將群體中將較劣的初始解通過復制、交叉和變異3個基本算子優化求解的技術,在求解空間隨機和定向搜索特征的多次迭代過程,直到求得問題的最優解[5]。

人工神經網絡對人腦神經元進行模擬,依據其非線形預測模型,通過模式識別的方式展開,獲取的知識需要存儲在網絡各單元之間的連接權中。人工神經網絡能夠完成分類和聚類等挖掘[5]。

關聯規則是進行數據挖掘的重要的可悲發現的知識,對于兩個或多個變量的取值之間存在某種規律性,并對其進行可信度的分析,挖掘其中的關聯關系。這對于發現數據中存在的各種有用的信息,發現其數據模式和特征,然后發現目標行為具有重要意義。

4 數據挖掘的應用

在醫學領域,科學家從異構和分布式基因數據發現的基因序列的識別、發現基因表達譜數據中的差異表達基因,疾病不同階段的致病基因等,運用各種數據挖掘技術了解各種疾病之間的相互關系、發展規律,總結治療效果這對疾病的診斷、治療和醫學研究都是很有價值的。在零售業/市場營銷,通過對顧客購物籃的分析,把顧客經常同時買的商品放在一起,幫助如何擺放貨架上的商品,挖掘購買商品的關聯關系,規劃如何相互搭配進貨,促銷產品組合等商業活動[6]。

數據挖掘在生物信息學中有著廣泛的應用。生物信息學就是通過對生物學實驗產生的海量數據,進行分類、處理、分析和存儲,達到深入理解生命科學中基于分子水平的生物信息的生物學意義。如差異基因表達檢測的基因芯片,就是具有高通量的特點,并同時能夠產生許多生物學數據,在其中蘊含著豐富的生物學意義。分析和挖掘基因芯片數據,檢測差異表達基因在不同環境條件的異常表達值,能夠生層次的了解生物學知識,提高對生命科學研究的科學性和效率。對癌癥差異基因的分析結果分析,能夠更好的檢測有關疾病,并根據相關疾病的基因特性,就能有針對性的進行個體化治療,開發個體化的新藥。

進入2013年,有許多媒體都在稱之為“大數據元年”。大數據也就是擁有龐大的數據信息,事務數據量大規模增長,而且大數據是要處理大量的非規范化數據,數據挖掘和分析是必不可少的。爆炸性的大數據的產生,可能會改變人們的思考方式,也重塑了人類交流的方式[7]。

5 結語

數據挖掘技術能自動分析數據,廣泛應用于各個企事業單位,分析調查大量數據,分析企業經營對社會,經濟和環境的綜合影響,并預測企業未來的發展趨勢,從數據倉庫中揭示出數據之間的潛在價值的規律性,形成知識發現,為決策管理提供依據。

參考文獻

[1]孟曉明.淺談數據挖掘技術[J].計算機應用與軟件,2004(8).

[2]丁樣武,楊瑩.數據挖掘在醫學上的應川[J].鄖陽醫學院學報,1999(3):130-132.

[3]黃曉霞,蕭蘊詩.數據挖掘集成技術研究[J].計算機應用研究,2003(4):37.39.

[4]王陽,張春華.數據挖掘技術、應用及發展趨勢[J].信息化與網絡建設,2003(4).

[5]任承業.校園信息系統中數據挖掘的研究與應用[D].廣州:暨南大學,2005.

[6]唐曉萍.數據挖掘與知識發現綜述[J].電腦開發與應用,2002(2).

[7]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究月發展,2013(1).

主站蜘蛛池模板: 亚洲中文字幕久久精品无码一区| 国产91色在线| 亚洲区视频在线观看| 亚洲人成网站日本片| 日韩一区精品视频一区二区| 国产麻豆精品久久一二三| 精品91在线| 精品视频免费在线| 国产精品分类视频分类一区| 99视频全部免费| 成年人午夜免费视频| 亚洲午夜18| 亚洲一区二区在线无码| 欧美色综合久久| 国产资源站| 中文字幕亚洲第一| 亚洲精品无码在线播放网站| 精品久久国产综合精麻豆| 亚洲伊人电影| AV老司机AV天堂| 白丝美女办公室高潮喷水视频| 成年片色大黄全免费网站久久| 久久无码av一区二区三区| 日韩精品专区免费无码aⅴ| 5555国产在线观看| 亚洲AV一二三区无码AV蜜桃| 亚洲av日韩av制服丝袜| 久久久精品国产亚洲AV日韩| 国产美女精品在线| 久久人人妻人人爽人人卡片av| 亚洲男女在线| 国产熟睡乱子伦视频网站| 欧美一区中文字幕| 美女视频黄频a免费高清不卡| 国产国语一级毛片在线视频| 亚洲AV成人一区国产精品| 国产靠逼视频| 九九免费观看全部免费视频| 欧美性爱精品一区二区三区| 亚洲欧美天堂网| 国产精品污视频| 51国产偷自视频区视频手机观看| 久久人体视频| 日本色综合网| 久久99精品久久久大学生| 国产青榴视频| 91精品国产丝袜| 国产一区二区在线视频观看| 国产真实乱了在线播放| 国产精品青青| 国产91在线|日本| 国产区精品高清在线观看| 手机在线看片不卡中文字幕| 亚洲第一中文字幕| 美女啪啪无遮挡| 91精品情国产情侣高潮对白蜜| 九九香蕉视频| 国产亚洲高清视频| 老司机久久99久久精品播放| 亚洲一区二区黄色| 尤物特级无码毛片免费| 国内精品免费| 久久国产毛片| 无码久看视频| 亚洲a级在线观看| 亚洲国产精品日韩专区AV| 国产成人精品午夜视频'| 久青草免费视频| 国产自在线播放| 中文字幕亚洲第一| 啪啪啪亚洲无码| www.国产福利| 91探花在线观看国产最新| 免费观看成人久久网免费观看| 久久狠狠色噜噜狠狠狠狠97视色| 尤物午夜福利视频| 欧美a在线| 日本一本正道综合久久dvd| 欧洲精品视频在线观看| 99久久亚洲综合精品TS| 欧美日韩激情| 日韩视频免费|