羅陽倩子
[摘 要]此文主要闡述了數據挖掘的概念、本質和特征,深入分析了數據挖掘取樣方法,以期為數據挖掘的計算流程的優化提供幫助。
[關鍵詞]數據挖掘;取樣方法;SAS數據
doi:10.3969/j.issn.1673 - 0194.2016.04.125
[中圖分類號]TP311.13 [文獻標識碼]A [文章編號]1673-0194(2016)04-0-01
隨著數據庫技術的飛速發展和廣泛使用,在數據庫里,存儲的數據越來越龐大。在數據挖掘的領域里,要使用科學的方式、方法降低挖掘算法的時間,使數據挖掘的效率更高。
1 數據的挖掘概念
數據庫中的知識發現又稱數據挖掘,數據庫領域研究和人工智能是目前的熱點問題。數據挖掘就是從擁有大量數據的數據庫中找出先前未知的、有著潛在價值的信息過程。數據挖掘是決策支持過程,它基于模式識別、人工智能、機器學習、數據庫、可視化、統計學等技術,自動分析企業數據進行推理,挖掘出潛在模式,幫助決策者調整策略,作出正確決策。
發現具有潛在價值信息的過程,包含三個步驟:第一是數據準備,第二是數據的挖掘,第三是挖掘的數據結果表達和解釋。數據挖掘可以與知識庫或用戶交互。
數據挖掘是在大量數據中找其規律,準備數據、尋找規律和表達解釋規律。準備數據就是從數據源中挑選需要的數據并合成用作數據挖掘的數據集;尋找規律就是從數據集中把它所含的規律找出來;挖掘數據結果表達和解釋就是把找出的規律表示出來。
數據挖掘任務包括聚類分析、關聯分析、特異群組分析、分類分析和演變分析等。
2 數據挖掘的特征和本質
按常規來說,狹義的觀點認為常規數據分析區別于數據挖掘的關鍵點是,常規數據分析側重于交叉報告、描述性統計、假設檢驗等,數據挖掘則側重于預測、分類、聚類與關聯等4類問題。廣義的觀點認為從數據庫中挖掘的任何信息都叫做數據挖掘。這樣看來,數據挖掘就是商業智能。如果從技術術語上說,數據挖掘指的是以前的數據經過清洗轉換變成適合挖掘的數據集。數據挖掘就是在這種有著固定形式的數據集上完成了知識提煉,用合適的知識模式做下一步分析決策工作。通過以上分析,筆者把數據挖掘定義為:數據挖掘就是從數據集中挖掘和提煉知識的過程。
3 數據挖掘的取樣方法
取樣是一種成熟的統計技術,已被研究了上百年,隨機抽樣技術更是如此。在數據管理領域里,關于隨機抽樣的有效性已有很多描述,隨機抽樣能捕捉到數據基本特征的很小部分數據子集來代表總數據集,根據該樣本集能獲得相似的或近似的查詢結果,這樣的樣本集還可以用于數據挖掘工作。近年來在很多領域中都采用了抽樣技術,并達得了非常不錯的效果,這充分說明了抽樣技術的應用越來越廣泛流行。
抽樣的方法與分類:數據項根據在抽樣技術中被選中的數據是否相同,抽樣方法可以被分為偏倚抽樣和均勻抽樣兩種。在偏倚抽樣中,不一樣的元素入選的概率也可能不一樣。而在均勻抽樣中各個元素入選的概率是相同的。相同的抽樣概率能以相同尺寸的抽樣產生互動類同。均勻抽樣經典的兩種設計是,伯努利抽樣和水庫抽樣,這兩種抽樣方法是其他所有抽樣方法的基礎。伯努利抽樣是均勻抽樣,它的主要特點是所用的時間短、操作簡單。生成的均勻抽樣及大小為K,如果很多個元素到達時,數據流中的元素會以K/N的概率所選中,當樣本集的大小超出了K,就會從中隨機除去這個樣本,各個元素的入選概率都是相同的。水庫抽樣方法是非常重要的隨機均勻抽樣方法,是由原來的傳統方法拓展到數據庫領域。大小空間固定、時間復雜度為零,更適合挖掘數據流的環境,成功的抽樣技術確保了抽樣的質量。從提高抽樣質量的角度上說,采取了三個類型的抽樣策略:第一,漸進抽樣,漸進抽樣就是先從一個小的抽樣開始,慢慢再加大抽樣的抽樣率或抽樣尺寸,直到抽樣的正確性不隨之改變為止;第二,從實驗樣本集中獲取數據集的特征假定或預評估,在這樣的基礎上再進行抽樣;第三,為具體的應用抽取特定的數據特征,而不是產生一個能適用于多種應用的取樣集。
4 挖掘SAS數據的方法
SAS/EN可實現數據集市和同數據倉庫,以及商務智能報表工具的無縫集成。它有著數據抽樣工具、數據獲取工具、數據挖掘工具、數據篩算工具、數據挖掘過程、數據變量轉換工具和數據挖掘評價工具。
第一,數據抽樣。進行數據抽樣時,要從企業大量的數據里找出要探索問題的樣板數據子集,并不是調用全部數據。在數據抽樣的過程中,一定要確保數據的質量,保證抽樣的數據的有效性、真實性、完整性和代表性。只有這樣才能使以后的分析研究得出規律性的結果。
第二,探索數據特征,預處理分析和子處理分析。有了樣本數據集后,看它是不是達到了以前的設想要求,趨勢和規律是否明顯,是否有沒有設想過的數據狀態,因素之間是否有關聯性,這些內容是首先要探索的。分析探索數據的特征,可視化操作是最理想的操作方法。
第三,技術選擇和數據調整、問題明確化。想讓解決的問題更加明確時,盡可能把解決的問題進一步量化。在問題量化后的基礎上,就能按問題要求審視數據集了,針對問題的需求看它是不是適應,必要時要對數據進行刪除或增加,在數據挖掘過程會有新的認識,生成或組合新的變量,對狀態的有效描述就得到充分體現。
5 結 語
隨著計算機科學的快速發展,數據挖掘已成為重要工具,本文對數據挖掘的概念、特征和本質、取樣方法等進行了詳細分析,希望為數據挖掘的計算流程優化作出一定的貢獻。
主要參考文獻
[1]高彩霞.數據挖掘取樣方法研究[J].電子技術與軟件工程,2014(10).
[2]陳陽.數據挖掘取樣方法研究[J/OL].城市建設理論研究:電子版,2013(22).
[3]胡文瑜,孫志揮,吳英杰.數據挖掘取樣方法研究[J].計算機研究與發展,2011(1).