999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘取樣方法研究

2016-05-14 16:35:01羅陽倩子
中國管理信息化 2016年4期
關鍵詞:數據挖掘

羅陽倩子

[摘 要]此文主要闡述了數據挖掘的概念、本質和特征,深入分析了數據挖掘取樣方法,以期為數據挖掘的計算流程的優化提供幫助。

[關鍵詞]數據挖掘;取樣方法;SAS數據

doi:10.3969/j.issn.1673 - 0194.2016.04.125

[中圖分類號]TP311.13 [文獻標識碼]A [文章編號]1673-0194(2016)04-0-01

隨著數據庫技術的飛速發展和廣泛使用,在數據庫里,存儲的數據越來越龐大。在數據挖掘的領域里,要使用科學的方式、方法降低挖掘算法的時間,使數據挖掘的效率更高。

1 數據的挖掘概念

數據庫中的知識發現又稱數據挖掘,數據庫領域研究和人工智能是目前的熱點問題。數據挖掘就是從擁有大量數據的數據庫中找出先前未知的、有著潛在價值的信息過程。數據挖掘是決策支持過程,它基于模式識別、人工智能、機器學習、數據庫、可視化、統計學等技術,自動分析企業數據進行推理,挖掘出潛在模式,幫助決策者調整策略,作出正確決策。

發現具有潛在價值信息的過程,包含三個步驟:第一是數據準備,第二是數據的挖掘,第三是挖掘的數據結果表達和解釋。數據挖掘可以與知識庫或用戶交互。

數據挖掘是在大量數據中找其規律,準備數據、尋找規律和表達解釋規律。準備數據就是從數據源中挑選需要的數據并合成用作數據挖掘的數據集;尋找規律就是從數據集中把它所含的規律找出來;挖掘數據結果表達和解釋就是把找出的規律表示出來。

數據挖掘任務包括聚類分析、關聯分析、特異群組分析、分類分析和演變分析等。

2 數據挖掘的特征和本質

按常規來說,狹義的觀點認為常規數據分析區別于數據挖掘的關鍵點是,常規數據分析側重于交叉報告、描述性統計、假設檢驗等,數據挖掘則側重于預測、分類、聚類與關聯等4類問題。廣義的觀點認為從數據庫中挖掘的任何信息都叫做數據挖掘。這樣看來,數據挖掘就是商業智能。如果從技術術語上說,數據挖掘指的是以前的數據經過清洗轉換變成適合挖掘的數據集。數據挖掘就是在這種有著固定形式的數據集上完成了知識提煉,用合適的知識模式做下一步分析決策工作。通過以上分析,筆者把數據挖掘定義為:數據挖掘就是從數據集中挖掘和提煉知識的過程。

3 數據挖掘的取樣方法

取樣是一種成熟的統計技術,已被研究了上百年,隨機抽樣技術更是如此。在數據管理領域里,關于隨機抽樣的有效性已有很多描述,隨機抽樣能捕捉到數據基本特征的很小部分數據子集來代表總數據集,根據該樣本集能獲得相似的或近似的查詢結果,這樣的樣本集還可以用于數據挖掘工作。近年來在很多領域中都采用了抽樣技術,并達得了非常不錯的效果,這充分說明了抽樣技術的應用越來越廣泛流行。

抽樣的方法與分類:數據項根據在抽樣技術中被選中的數據是否相同,抽樣方法可以被分為偏倚抽樣和均勻抽樣兩種。在偏倚抽樣中,不一樣的元素入選的概率也可能不一樣。而在均勻抽樣中各個元素入選的概率是相同的。相同的抽樣概率能以相同尺寸的抽樣產生互動類同。均勻抽樣經典的兩種設計是,伯努利抽樣和水庫抽樣,這兩種抽樣方法是其他所有抽樣方法的基礎。伯努利抽樣是均勻抽樣,它的主要特點是所用的時間短、操作簡單。生成的均勻抽樣及大小為K,如果很多個元素到達時,數據流中的元素會以K/N的概率所選中,當樣本集的大小超出了K,就會從中隨機除去這個樣本,各個元素的入選概率都是相同的。水庫抽樣方法是非常重要的隨機均勻抽樣方法,是由原來的傳統方法拓展到數據庫領域。大小空間固定、時間復雜度為零,更適合挖掘數據流的環境,成功的抽樣技術確保了抽樣的質量。從提高抽樣質量的角度上說,采取了三個類型的抽樣策略:第一,漸進抽樣,漸進抽樣就是先從一個小的抽樣開始,慢慢再加大抽樣的抽樣率或抽樣尺寸,直到抽樣的正確性不隨之改變為止;第二,從實驗樣本集中獲取數據集的特征假定或預評估,在這樣的基礎上再進行抽樣;第三,為具體的應用抽取特定的數據特征,而不是產生一個能適用于多種應用的取樣集。

4 挖掘SAS數據的方法

SAS/EN可實現數據集市和同數據倉庫,以及商務智能報表工具的無縫集成。它有著數據抽樣工具、數據獲取工具、數據挖掘工具、數據篩算工具、數據挖掘過程、數據變量轉換工具和數據挖掘評價工具。

第一,數據抽樣。進行數據抽樣時,要從企業大量的數據里找出要探索問題的樣板數據子集,并不是調用全部數據。在數據抽樣的過程中,一定要確保數據的質量,保證抽樣的數據的有效性、真實性、完整性和代表性。只有這樣才能使以后的分析研究得出規律性的結果。

第二,探索數據特征,預處理分析和子處理分析。有了樣本數據集后,看它是不是達到了以前的設想要求,趨勢和規律是否明顯,是否有沒有設想過的數據狀態,因素之間是否有關聯性,這些內容是首先要探索的。分析探索數據的特征,可視化操作是最理想的操作方法。

第三,技術選擇和數據調整、問題明確化。想讓解決的問題更加明確時,盡可能把解決的問題進一步量化。在問題量化后的基礎上,就能按問題要求審視數據集了,針對問題的需求看它是不是適應,必要時要對數據進行刪除或增加,在數據挖掘過程會有新的認識,生成或組合新的變量,對狀態的有效描述就得到充分體現。

5 結 語

隨著計算機科學的快速發展,數據挖掘已成為重要工具,本文對數據挖掘的概念、特征和本質、取樣方法等進行了詳細分析,希望為數據挖掘的計算流程優化作出一定的貢獻。

主要參考文獻

[1]高彩霞.數據挖掘取樣方法研究[J].電子技術與軟件工程,2014(10).

[2]陳陽.數據挖掘取樣方法研究[J/OL].城市建設理論研究:電子版,2013(22).

[3]胡文瑜,孫志揮,吳英杰.數據挖掘取樣方法研究[J].計算機研究與發展,2011(1).

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美色亚洲| 九色综合伊人久久富二代| 国产视频a| 国产亚洲高清在线精品99| 精品撒尿视频一区二区三区| 国产麻豆va精品视频| 999精品免费视频| 亚洲天堂视频在线观看免费| 美女免费精品高清毛片在线视| 亚洲无码免费黄色网址| 国产91视频观看| 欧美精品1区| 国产成+人+综合+亚洲欧美| 国产日韩精品一区在线不卡 | 干中文字幕| 毛片a级毛片免费观看免下载| 国产女人综合久久精品视| a免费毛片在线播放| 人妻无码中文字幕第一区| 国产日产欧美精品| 亚洲一区国色天香| 狼友av永久网站免费观看| 亚洲视频免费在线看| 久草视频精品| 亚洲人成人无码www| 精品无码一区二区在线观看| 日韩无码一二三区| 亚洲国产精品成人久久综合影院| 欧美国产在线一区| 国产一级特黄aa级特黄裸毛片 | 美女毛片在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 亚洲色图欧美视频| 日韩高清成人| 国产成a人片在线播放| 欧美精品成人| 丁香亚洲综合五月天婷婷| 亚洲一区毛片| 欧美日韩午夜| 99re在线视频观看| 国产尤物jk自慰制服喷水| 九色在线视频导航91| 亚洲欧美日韩天堂| 四虎永久在线视频| 在线精品欧美日韩| 最新午夜男女福利片视频| 中文纯内无码H| 亚洲视频免| 欧美成人一级| 999国内精品久久免费视频| 91精品小视频| 午夜视频免费试看| 在线看片国产| 国产欧美另类| 无码一区二区三区视频在线播放| 国产毛片片精品天天看视频| 中国国产一级毛片| 中文字幕免费播放| 青青青伊人色综合久久| 国产亚洲精久久久久久无码AV| 国产福利小视频高清在线观看| 91网在线| 99热这里都是国产精品| 亚洲精品老司机| 天天色天天综合| 99久久精品国产综合婷婷| 99久久国产综合精品2020| 熟妇丰满人妻av无码区| 欧美亚洲一区二区三区导航| www亚洲天堂| 国产又粗又猛又爽视频| 四虎影视8848永久精品| 成人永久免费A∨一级在线播放| 国内精品小视频福利网址| 中文字幕啪啪| 日韩无码视频专区| 天堂成人在线| 中文字幕啪啪| 亚洲成人高清在线观看| 欧美激情视频二区三区| 成人在线综合| 青青国产成人免费精品视频|