999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘取樣方法與數據結構研究

2017-04-15 20:24:49張本文
數字技術與應用 2016年12期
關鍵詞:數據挖掘

張本文

摘要:取樣是一種非常通用的近似技術。取樣方法在數據挖掘研究中能顯著減小數據處理規模,使數據挖掘算法更加大規模的作用到數據流中。對數據結構的研究也成為了數據挖掘取樣方法的中心。本文主要闡述了數據挖掘領域中取樣方法的靈活性,并且對數據挖掘取樣方法的發展和面臨的挑戰做出了展望。

關鍵詞:數據挖掘 取樣方法 數據結構

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)12-0106-01

正是由于數據庫技術的廣泛應用和快速的發展,數據庫所能儲存的數據也順應時代潮流越來越大。如何采用適當的技術來降低數據流的規模成為一個重要的問題,特別是最近的某些領域廣泛應用數據流信息,比如通信管理和網絡監測,為了維護數據結構的動態穩定性,取樣成為了最通用的近似技術。取樣在保證一定的精確度下,使得數據挖掘算法廣泛應用到數據流中去。目前常用的概要結構設計方法有小波方法、直方圖方法、Hash等。

1 數據挖掘中的取樣方法

1.1 A/R Sampling

A/R Sampling算法主要是通過挖掘算法從數據流中不定向抽選一個候選元素,然后通過把此元素與所要求的條件作出對比,只有符合條件的元素才會接受,作為樣本集,不符合的拒絕,重復此循環。

1.2 精確取樣方法

精確取樣用元素代碼表示在樣本集中僅僅出現一次的元素,而用value,count來表示重復出現的元素,當中的value是表示元素所對應的代碼,count則表示元素出現的次數數量。一般情況,元素是否放入樣本集是有條件的,假如元素沒有在樣本集里出現過則就可以直接放入樣本集,但是如果元素已經存在于樣本集中了,那么就在數量count上加1。這樣,當樣本集容量已滿時,樣本集中的每個元素數據都會按照原始對應參數來進行對比然后刪除,保持數據的存放性。

1.3 計數取樣方法

計數取樣是在精確取樣方法基礎上轉變過來的,在處理樣本集溢出情況時,在刪除數據之前要和原數據進行比較,然后通過新參數分之一來判斷數據時候要減1。當數據的數量值為0時,就不再對該數據進行操作。

1.4 分出取樣方法

分層取樣實際上是將數據信息曾經分布的情況用作參考來對目前的數據進行分層的,這樣,對于那些分布多的層就會采取更多的取樣點,大大提高了數據挖掘算法的準確性。同時對于每一層的數據而言,則采用均勻的取樣技術進行隨機的采取點。

1.5 國會取樣方法

國會取樣可以說是是均勻隨機取樣方法的基礎上結合了偏倚取樣技術,因為對于每個分組都會獨立取樣,不同的是取樣的概率是不同的。比如,對于某些較大的分組,就會對元素的取樣率大大增加,反過來說,對于某些較小的分組,對元素的取樣率就大大減少,這種兼顧性就突破了均勻取樣的局限性。

1.6 Distinct Sampling

Distinct Sampling相當于取樣方法的綜合說法,從按類型方面來看,屬于聚集流的搜索處理查詢中的唯一值取樣方法。通過對數據中的唯一的元素進行逐一的掃描再逐一的加入的樣本集的方法進行取樣,這樣就大大提高了對于唯一的個體數目的評估正確性。

2 數據挖掘在取樣方法中的發展

取樣方法在統計計算、數據處理和挖缺信息中普遍存在,在某些知識發展的方面扮演著無法替換的功能角色。在數據挖掘取樣方法中的應用案例非常之多,比如房地產的數據分析和用戶需求統計中一般采用均勻隨機的抽樣方法來搜集大數據。在對數據結構的構建中采用的數據挖掘算法也很多。例如CURE和CLARANS,通過算法再加上取樣方法的預處理能力,在專業人士的分析統計下,算法和取樣方法都得到了最大化的發揮。

自適應取樣是針對有窮非負數數據的一種評估方法,我們可以任意調節取樣樣本的大小,通過數據挖掘方面的整理,可以實現用最小的樣本解決更小的誤差遺留問題。為了順應需求節約取樣的成本,二階段取樣的評估方法出現了。大概含義如下:在挖掘樣本對象時,有時候會出現一些大成本的取樣對象,為了解決這種煩惱,可以尋找一種輔助的取樣對象來減少成本的代價。通過這個輔助對象的比例來推斷出原來那個大成本的取樣對象。這樣不但解決了成本問題,而且目標精確度也會提高。

取樣技術在數據集中的主要方面就是管理和挖掘:(1)針對數據集的處理模型中數據結構的需要里需要均勻取樣方法和計數取樣方法。(2)針對數據流在某些近似的查詢過程中需要國會取樣方法和Distinct Sampling等。(3)針對數據集運用的偏倚取樣技術,這樣能夠解決一些應用過程中的數據管理、分配、評判問題的分析。

3 數據挖掘取樣方法面對的挑戰

通過研究發現,傳統的取樣方法在數據挖掘領域中得到了深遠的發展,取樣技術在數據庫的搜查處理、關于頻繁元素的挖掘和數據挖掘算法的提前處理等方面有比較成熟的研究,不過在取樣技術的某些方面挑戰性還有很大的存在,比如數據集管理方面上,具體包括:

(1)怎樣在小的樣本集上獲取盡可能的精確結果,克服空間局限,滿足相應的要求下解決取樣復雜情況。(2)關于滑動窗口的一些模型取樣技術方法還是不夠成熟,很多限制的存在造成了制約,比如說內存界限的不確定性、滑動窗口較小、成本高等問題。(3)當前的算法大多數對于插入刪除情況有局限,對于用戶性的插入和頻繁刪除數據情況問題是數據流動態維護所必要解決的問題。(4)如何設計出好的偏倚取樣算法是未來發展研究的方法之一。

4 結語

數據挖掘在社會經濟的發展中展現了獨特的魅力,然后,取樣方法則是制約數據挖掘發展精確性的重要因素。在未來的發展空間中,只要運用合適的取樣方法就可以大大提高數據挖掘的效率。企業在大量的數據中能夠迅速發現對自己有價值的信息,這樣就促進了企業的競爭發展,在促進企業健康發展的同時,正確的取樣方法也完善了數據挖掘的算法。隨著研究的深入,一定會在原有的基礎上取得更高的成就。

參考文獻

[1]張成叔關于數據挖掘取樣方式的若干分析[J].赤峰學院學報(自然科學版),2014(9).

[2]胡文瑜.數據挖掘取樣技術與算法研究[D].東南大學,2011.

[3]胡文瑜,蔡文培.數據挖掘取樣方法的衡量與選用研究[J].福建工程學院學報,2011(4).

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产超碰在线观看| 久久中文字幕av不卡一区二区| 老汉色老汉首页a亚洲| 毛片免费网址| 午夜毛片福利| 亚洲日本中文字幕天堂网| 欧美国产日韩在线| 国产白浆视频| 欧美日本视频在线观看| 97国产精品视频自在拍| 无码内射在线| 中文无码精品A∨在线观看不卡 | 亚洲精品大秀视频| 亚洲黄网在线| 国产在线自揄拍揄视频网站| 在线观看国产精品一区| 亚洲AV无码久久精品色欲| 亚洲色图在线观看| 午夜一级做a爰片久久毛片| 自拍中文字幕| 亚洲欧洲一区二区三区| 国产精品短篇二区| 丁香婷婷综合激情| 国产极品美女在线播放| 精品撒尿视频一区二区三区| 免费国产高清视频| 国产亚洲精品在天天在线麻豆| 久久黄色免费电影| 无码高潮喷水在线观看| 国产麻豆va精品视频| 99re在线视频观看| 91在线视频福利| 日韩经典精品无码一区二区| 伦精品一区二区三区视频| 国产乱论视频| 国产成人8x视频一区二区| 国产高清自拍视频| 女高中生自慰污污网站| 亚洲日韩精品无码专区97| 国产女人综合久久精品视| 亚洲不卡影院| 三上悠亚在线精品二区| 国产成人精品一区二区秒拍1o| 亚洲精品无码久久毛片波多野吉| 天天做天天爱天天爽综合区| 婷婷综合色| 视频二区中文无码| 午夜在线不卡| 一本色道久久88| 不卡无码网| 亚洲人成影视在线观看| 五月天在线网站| 久久免费精品琪琪| 久久综合成人| 黄色片中文字幕| 91欧美亚洲国产五月天| 欧美性精品不卡在线观看| 日韩成人免费网站| 成人噜噜噜视频在线观看| 无码精品一区二区久久久| 秋霞国产在线| 有专无码视频| 日韩欧美国产另类| 国产成人亚洲精品无码电影| 国产激情在线视频| 麻豆精品在线播放| 亚洲精品午夜天堂网页| 九九视频在线免费观看| 国产视频欧美| 久久久久久久久亚洲精品| 亚洲天堂网视频| 一本大道香蕉高清久久| 亚洲天堂首页| 综合色在线| 在线播放国产一区| 99热这里只有精品久久免费| 青青热久麻豆精品视频在线观看| 性69交片免费看| 亚洲日韩精品综合在线一区二区 | 精品无码日韩国产不卡av| 亚洲香蕉在线| 蜜芽一区二区国产精品|