張本文
摘要:取樣是一種非常通用的近似技術。取樣方法在數據挖掘研究中能顯著減小數據處理規模,使數據挖掘算法更加大規模的作用到數據流中。對數據結構的研究也成為了數據挖掘取樣方法的中心。本文主要闡述了數據挖掘領域中取樣方法的靈活性,并且對數據挖掘取樣方法的發展和面臨的挑戰做出了展望。
關鍵詞:數據挖掘 取樣方法 數據結構
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)12-0106-01
正是由于數據庫技術的廣泛應用和快速的發展,數據庫所能儲存的數據也順應時代潮流越來越大。如何采用適當的技術來降低數據流的規模成為一個重要的問題,特別是最近的某些領域廣泛應用數據流信息,比如通信管理和網絡監測,為了維護數據結構的動態穩定性,取樣成為了最通用的近似技術。取樣在保證一定的精確度下,使得數據挖掘算法廣泛應用到數據流中去。目前常用的概要結構設計方法有小波方法、直方圖方法、Hash等。
1 數據挖掘中的取樣方法
1.1 A/R Sampling
A/R Sampling算法主要是通過挖掘算法從數據流中不定向抽選一個候選元素,然后通過把此元素與所要求的條件作出對比,只有符合條件的元素才會接受,作為樣本集,不符合的拒絕,重復此循環。
1.2 精確取樣方法
精確取樣用元素代碼表示在樣本集中僅僅出現一次的元素,而用value,count來表示重復出現的元素,當中的value是表示元素所對應的代碼,count則表示元素出現的次數數量。一般情況,元素是否放入樣本集是有條件的,假如元素沒有在樣本集里出現過則就可以直接放入樣本集,但是如果元素已經存在于樣本集中了,那么就在數量count上加1。這樣,當樣本集容量已滿時,樣本集中的每個元素數據都會按照原始對應參數來進行對比然后刪除,保持數據的存放性。
1.3 計數取樣方法
計數取樣是在精確取樣方法基礎上轉變過來的,在處理樣本集溢出情況時,在刪除數據之前要和原數據進行比較,然后通過新參數分之一來判斷數據時候要減1。當數據的數量值為0時,就不再對該數據進行操作。
1.4 分出取樣方法
分層取樣實際上是將數據信息曾經分布的情況用作參考來對目前的數據進行分層的,這樣,對于那些分布多的層就會采取更多的取樣點,大大提高了數據挖掘算法的準確性。同時對于每一層的數據而言,則采用均勻的取樣技術進行隨機的采取點。
1.5 國會取樣方法
國會取樣可以說是是均勻隨機取樣方法的基礎上結合了偏倚取樣技術,因為對于每個分組都會獨立取樣,不同的是取樣的概率是不同的。比如,對于某些較大的分組,就會對元素的取樣率大大增加,反過來說,對于某些較小的分組,對元素的取樣率就大大減少,這種兼顧性就突破了均勻取樣的局限性。
1.6 Distinct Sampling
Distinct Sampling相當于取樣方法的綜合說法,從按類型方面來看,屬于聚集流的搜索處理查詢中的唯一值取樣方法。通過對數據中的唯一的元素進行逐一的掃描再逐一的加入的樣本集的方法進行取樣,這樣就大大提高了對于唯一的個體數目的評估正確性。
2 數據挖掘在取樣方法中的發展
取樣方法在統計計算、數據處理和挖缺信息中普遍存在,在某些知識發展的方面扮演著無法替換的功能角色。在數據挖掘取樣方法中的應用案例非常之多,比如房地產的數據分析和用戶需求統計中一般采用均勻隨機的抽樣方法來搜集大數據。在對數據結構的構建中采用的數據挖掘算法也很多。例如CURE和CLARANS,通過算法再加上取樣方法的預處理能力,在專業人士的分析統計下,算法和取樣方法都得到了最大化的發揮。
自適應取樣是針對有窮非負數數據的一種評估方法,我們可以任意調節取樣樣本的大小,通過數據挖掘方面的整理,可以實現用最小的樣本解決更小的誤差遺留問題。為了順應需求節約取樣的成本,二階段取樣的評估方法出現了。大概含義如下:在挖掘樣本對象時,有時候會出現一些大成本的取樣對象,為了解決這種煩惱,可以尋找一種輔助的取樣對象來減少成本的代價。通過這個輔助對象的比例來推斷出原來那個大成本的取樣對象。這樣不但解決了成本問題,而且目標精確度也會提高。
取樣技術在數據集中的主要方面就是管理和挖掘:(1)針對數據集的處理模型中數據結構的需要里需要均勻取樣方法和計數取樣方法。(2)針對數據流在某些近似的查詢過程中需要國會取樣方法和Distinct Sampling等。(3)針對數據集運用的偏倚取樣技術,這樣能夠解決一些應用過程中的數據管理、分配、評判問題的分析。
3 數據挖掘取樣方法面對的挑戰
通過研究發現,傳統的取樣方法在數據挖掘領域中得到了深遠的發展,取樣技術在數據庫的搜查處理、關于頻繁元素的挖掘和數據挖掘算法的提前處理等方面有比較成熟的研究,不過在取樣技術的某些方面挑戰性還有很大的存在,比如數據集管理方面上,具體包括:
(1)怎樣在小的樣本集上獲取盡可能的精確結果,克服空間局限,滿足相應的要求下解決取樣復雜情況。(2)關于滑動窗口的一些模型取樣技術方法還是不夠成熟,很多限制的存在造成了制約,比如說內存界限的不確定性、滑動窗口較小、成本高等問題。(3)當前的算法大多數對于插入刪除情況有局限,對于用戶性的插入和頻繁刪除數據情況問題是數據流動態維護所必要解決的問題。(4)如何設計出好的偏倚取樣算法是未來發展研究的方法之一。
4 結語
數據挖掘在社會經濟的發展中展現了獨特的魅力,然后,取樣方法則是制約數據挖掘發展精確性的重要因素。在未來的發展空間中,只要運用合適的取樣方法就可以大大提高數據挖掘的效率。企業在大量的數據中能夠迅速發現對自己有價值的信息,這樣就促進了企業的競爭發展,在促進企業健康發展的同時,正確的取樣方法也完善了數據挖掘的算法。隨著研究的深入,一定會在原有的基礎上取得更高的成就。
參考文獻
[1]張成叔關于數據挖掘取樣方式的若干分析[J].赤峰學院學報(自然科學版),2014(9).
[2]胡文瑜.數據挖掘取樣技術與算法研究[D].東南大學,2011.
[3]胡文瑜,蔡文培.數據挖掘取樣方法的衡量與選用研究[J].福建工程學院學報,2011(4).