999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘取樣方法與數據結構研究

2017-04-15 20:24:49張本文
數字技術與應用 2016年12期
關鍵詞:數據挖掘

張本文

摘要:取樣是一種非常通用的近似技術。取樣方法在數據挖掘研究中能顯著減小數據處理規模,使數據挖掘算法更加大規模的作用到數據流中。對數據結構的研究也成為了數據挖掘取樣方法的中心。本文主要闡述了數據挖掘領域中取樣方法的靈活性,并且對數據挖掘取樣方法的發展和面臨的挑戰做出了展望。

關鍵詞:數據挖掘 取樣方法 數據結構

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)12-0106-01

正是由于數據庫技術的廣泛應用和快速的發展,數據庫所能儲存的數據也順應時代潮流越來越大。如何采用適當的技術來降低數據流的規模成為一個重要的問題,特別是最近的某些領域廣泛應用數據流信息,比如通信管理和網絡監測,為了維護數據結構的動態穩定性,取樣成為了最通用的近似技術。取樣在保證一定的精確度下,使得數據挖掘算法廣泛應用到數據流中去。目前常用的概要結構設計方法有小波方法、直方圖方法、Hash等。

1 數據挖掘中的取樣方法

1.1 A/R Sampling

A/R Sampling算法主要是通過挖掘算法從數據流中不定向抽選一個候選元素,然后通過把此元素與所要求的條件作出對比,只有符合條件的元素才會接受,作為樣本集,不符合的拒絕,重復此循環。

1.2 精確取樣方法

精確取樣用元素代碼表示在樣本集中僅僅出現一次的元素,而用value,count來表示重復出現的元素,當中的value是表示元素所對應的代碼,count則表示元素出現的次數數量。一般情況,元素是否放入樣本集是有條件的,假如元素沒有在樣本集里出現過則就可以直接放入樣本集,但是如果元素已經存在于樣本集中了,那么就在數量count上加1。這樣,當樣本集容量已滿時,樣本集中的每個元素數據都會按照原始對應參數來進行對比然后刪除,保持數據的存放性。

1.3 計數取樣方法

計數取樣是在精確取樣方法基礎上轉變過來的,在處理樣本集溢出情況時,在刪除數據之前要和原數據進行比較,然后通過新參數分之一來判斷數據時候要減1。當數據的數量值為0時,就不再對該數據進行操作。

1.4 分出取樣方法

分層取樣實際上是將數據信息曾經分布的情況用作參考來對目前的數據進行分層的,這樣,對于那些分布多的層就會采取更多的取樣點,大大提高了數據挖掘算法的準確性。同時對于每一層的數據而言,則采用均勻的取樣技術進行隨機的采取點。

1.5 國會取樣方法

國會取樣可以說是是均勻隨機取樣方法的基礎上結合了偏倚取樣技術,因為對于每個分組都會獨立取樣,不同的是取樣的概率是不同的。比如,對于某些較大的分組,就會對元素的取樣率大大增加,反過來說,對于某些較小的分組,對元素的取樣率就大大減少,這種兼顧性就突破了均勻取樣的局限性。

1.6 Distinct Sampling

Distinct Sampling相當于取樣方法的綜合說法,從按類型方面來看,屬于聚集流的搜索處理查詢中的唯一值取樣方法。通過對數據中的唯一的元素進行逐一的掃描再逐一的加入的樣本集的方法進行取樣,這樣就大大提高了對于唯一的個體數目的評估正確性。

2 數據挖掘在取樣方法中的發展

取樣方法在統計計算、數據處理和挖缺信息中普遍存在,在某些知識發展的方面扮演著無法替換的功能角色。在數據挖掘取樣方法中的應用案例非常之多,比如房地產的數據分析和用戶需求統計中一般采用均勻隨機的抽樣方法來搜集大數據。在對數據結構的構建中采用的數據挖掘算法也很多。例如CURE和CLARANS,通過算法再加上取樣方法的預處理能力,在專業人士的分析統計下,算法和取樣方法都得到了最大化的發揮。

自適應取樣是針對有窮非負數數據的一種評估方法,我們可以任意調節取樣樣本的大小,通過數據挖掘方面的整理,可以實現用最小的樣本解決更小的誤差遺留問題。為了順應需求節約取樣的成本,二階段取樣的評估方法出現了。大概含義如下:在挖掘樣本對象時,有時候會出現一些大成本的取樣對象,為了解決這種煩惱,可以尋找一種輔助的取樣對象來減少成本的代價。通過這個輔助對象的比例來推斷出原來那個大成本的取樣對象。這樣不但解決了成本問題,而且目標精確度也會提高。

取樣技術在數據集中的主要方面就是管理和挖掘:(1)針對數據集的處理模型中數據結構的需要里需要均勻取樣方法和計數取樣方法。(2)針對數據流在某些近似的查詢過程中需要國會取樣方法和Distinct Sampling等。(3)針對數據集運用的偏倚取樣技術,這樣能夠解決一些應用過程中的數據管理、分配、評判問題的分析。

3 數據挖掘取樣方法面對的挑戰

通過研究發現,傳統的取樣方法在數據挖掘領域中得到了深遠的發展,取樣技術在數據庫的搜查處理、關于頻繁元素的挖掘和數據挖掘算法的提前處理等方面有比較成熟的研究,不過在取樣技術的某些方面挑戰性還有很大的存在,比如數據集管理方面上,具體包括:

(1)怎樣在小的樣本集上獲取盡可能的精確結果,克服空間局限,滿足相應的要求下解決取樣復雜情況。(2)關于滑動窗口的一些模型取樣技術方法還是不夠成熟,很多限制的存在造成了制約,比如說內存界限的不確定性、滑動窗口較小、成本高等問題。(3)當前的算法大多數對于插入刪除情況有局限,對于用戶性的插入和頻繁刪除數據情況問題是數據流動態維護所必要解決的問題。(4)如何設計出好的偏倚取樣算法是未來發展研究的方法之一。

4 結語

數據挖掘在社會經濟的發展中展現了獨特的魅力,然后,取樣方法則是制約數據挖掘發展精確性的重要因素。在未來的發展空間中,只要運用合適的取樣方法就可以大大提高數據挖掘的效率。企業在大量的數據中能夠迅速發現對自己有價值的信息,這樣就促進了企業的競爭發展,在促進企業健康發展的同時,正確的取樣方法也完善了數據挖掘的算法。隨著研究的深入,一定會在原有的基礎上取得更高的成就。

參考文獻

[1]張成叔關于數據挖掘取樣方式的若干分析[J].赤峰學院學報(自然科學版),2014(9).

[2]胡文瑜.數據挖掘取樣技術與算法研究[D].東南大學,2011.

[3]胡文瑜,蔡文培.數據挖掘取樣方法的衡量與選用研究[J].福建工程學院學報,2011(4).

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 欧美性天天| 福利视频久久| 国产精品亚洲精品爽爽| 毛片久久久| 99久久国产综合精品2023| h视频在线观看网站| 色爽网免费视频| 色婷婷电影网| 中国国产高清免费AV片| 亚洲免费三区| 99r在线精品视频在线播放 | 福利一区三区| 米奇精品一区二区三区| 99偷拍视频精品一区二区| 亚洲欧洲日产国产无码AV| 青青青国产免费线在| 亚洲欧美日韩精品专区| 国产成人精品高清在线| 亚洲免费人成影院| 黄网站欧美内射| 欧美日本在线播放| 成年人视频一区二区| 国产一区二区三区在线无码| 欧美啪啪精品| 宅男噜噜噜66国产在线观看| 国产99视频在线| 啪啪国产视频| 九色在线视频导航91| 国产精品深爱在线| 91麻豆精品国产高清在线| 91青青草视频在线观看的| 国产小视频免费观看| 女同久久精品国产99国| 国产大片黄在线观看| 国产激情在线视频| 欧美天堂在线| 三级欧美在线| 在线无码九区| 欧美中文字幕在线视频| 中文字幕欧美成人免费| 亚洲国产91人成在线| 亚洲黄网视频| 黄色网站在线观看无码| 精品一区二区三区视频免费观看| 亚洲一区无码在线| 久久亚洲国产视频| 欧美日韩第三页| 日韩精品一区二区三区中文无码 | 日本高清成本人视频一区| 久草青青在线视频| 日韩欧美成人高清在线观看| 久热re国产手机在线观看| 亚洲va在线∨a天堂va欧美va| 中文天堂在线视频| 亚洲午夜综合网| 国产美女91视频| 国产成人精品2021欧美日韩 | 午夜国产精品视频| 欧美午夜视频在线| 亚洲国产日韩在线观看| 国产亚洲欧美在线人成aaaa | 中文字幕天无码久久精品视频免费 | 国产91在线|日本| 91麻豆国产视频| 欧美人人干| 国产迷奸在线看| 久久精品这里只有精99品| 国产精品伦视频观看免费| 91网址在线播放| 久精品色妇丰满人妻| 91 九色视频丝袜| 91精品啪在线观看国产| 国产精品v欧美| 国产香蕉在线视频| 久久精品最新免费国产成人| 亚洲天堂久久| 中文字幕亚洲乱码熟女1区2区| 欧日韩在线不卡视频| av大片在线无码免费| 青青青视频免费一区二区| 国产精品9| 一级毛片免费不卡在线|