999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

試談大數據分析的方法與應用

2020-12-02 07:51:42水冰潔趙思思王碧華
數碼設計 2020年12期
關鍵詞:大數據分析方法

水冰潔 趙思思 王碧華

摘要:本文先從隨機做減法采樣、隨機做加法采樣、基于聚類的加法重采樣、合成少數類的加法采樣、優化的合成少數類加法采樣方法等方面分析大數據分析采集不平衡樣本的方法,再分別闡述這些大數據分析采集不平衡樣本集在電力企業中的應用,為大數據分析人員提供參考。

關鍵詞:大數據;分析;方法;應用手段

中圖分類號:TP311.13?? 文獻標識碼:A?? 文章編號:1672-9129(2020)12-0032-01

引言:大數據分析是互聯網時代行業經常使用的技術,大數據分析的方法有很多,但是其原理均是通過大量數據的采樣得到數據的發展模型,最終為企業的發展方向或者危機預測提供參考。而大數據分析的第一步是數據采集工作,數據采樣的精確度會直接影響大數據分析的結果。

1 大數據分析采集不平衡樣本集的方法

1.1隨機做減法采樣方法。隨機做減法采樣方法的原理是通過減少較多類型的樣本,從而使不同類型樣本的數量達到平衡。該方法的優點是可以降低采樣所需要的時間,因為總體的采樣數量減少了;該方法的缺點是在隨機減少樣本數量比較多的種類樣本時可能會丟失一些關鍵數據,最后導致采樣結果不夠精準。

1.2隨機做加法采樣方法。隨機做加法采樣方法的原理是增加樣本數量比較少的種類樣本,最終使不同種類的樣本數量達到平衡。該方法的優點是不會丟失某些樣本的關鍵信息,采樣結果相對比較精準;該方法的缺點是增加了采樣的總體數量,導致采樣過程所需要的時間大大增加,而且還會由隨機加樣本的原因造成過擬合風險增加。

1.3基于聚類的加法重采樣方法。基于聚類的加法重采樣方法的原理是將所有樣本按照數量的多少分為兩類,然后將樣本數量較多的一類聚集到一起、將樣本數量較少的另一類聚集到一起,最后再將隨機做加法采樣方法與樣本數量較少的聚集類結合,將所有樣本的數量增加到一致,即可得到較為精準的采樣結果。該方法的優點為能夠克服樣本不平衡帶來的挑戰;該方法的缺點與隨機做加法相同,即容易造成過擬合風險增加。

1.4合成少數類的加法采樣方法。合成少數類的加法采樣方法是原理是將樣本數量較少的一類選擇出來,然后選擇這類數據的一部分創建新的數據樣本,最終將新創建的樣本與原樣本集整合,即可解決原樣本種類數量不平衡的問題。該方法的優點是不會丟失樣本中的關鍵數據導致樣本采樣精準度降低,而且相比隨機做加法采樣和聚類加法重采樣方法的過擬合風險降低;該方法的缺點是容易由于樣本數量的額外增加導致負類樣本的增加,所以該方法采集樣本的適用范圍有限。

1.5優化的合成少數類加法采樣方法。優化的合成少數類加法采樣的原理是將樣本數量較少的種類進行整合,然后按照樣本的不同特征將其分成不同組,最后在這些不同組的樣本數據中使用隨機做法采樣方法即可解決原樣本集中數量不平衡的問題。該方法的優點為不會導致額外負類樣本的增加,而且樣本數據中的關鍵信息不會丟失,采樣精準度不會降低;該方法的缺點是大量的數據堆疊導致其適應范圍有限。

2 大數據分析采集不平衡樣本集的應用

假設電力企業 大數據樣本集中電力違章導致的安全事故樣本總數為10300個,而非電力違章導致的安全事故樣本數量為10000個、電力違章導致的安全事故樣本數量為300個,可知該電力企業電力違章導致安全事故發生的幾率為300/10300=2.9%。

2.1隨機做減法采樣在電力企業中的應用。隨機做減樣法在電力企業中采集安全事故樣本需要先從所有非事故樣本中選出1/10數量的樣本形成樣本集,然后可知樣本集的數量為10000×10%=1000個,最后結合電力違章導致的安全事故300個形成新的樣本集數量即1300個,該采樣方法計算出電力違章安全事故發生幾率為300/1300=23%。

2.2隨機做加法采樣在電力企業中的應用。隨機做加法采樣在電力企業中采集安全事故樣本需要先復制電力違章安全事故發生的樣本,假設復制15個電力違章安全事故樣本300次,則現在樣本集中數量總數為300×15+10000=14500個,該采樣方法計算出電力違章安全事故發生幾率為(300×15)/14500=31%。

2.3基于聚類的加法重采樣在電力企業中的應用。基于聚類的加法重采樣在電力企業中采集安全事故樣本需要先進行聚類,假設樣本數量較多的共分為8類且樣本數量依次為1250、240、980、1380、1520、1050、1230、1350個,而數量較少的樣本分4類依次為90、89、78、49個,根據隨機做加法采樣可以將樣本數量較多的8類處理為1250個樣本、樣本數量較少的樣本處理為750個樣本,該采樣方法計算出電力違章安全事故發生幾率為(750×4)/(1250×8+750×4)=23%。

2.4合成少數類的加法采樣方法在電力企業中的應用。合成少數類的加法采樣方法在電力企業中采集安全事故樣本假設隨機復制15個違章樣本共250次,該采樣方法計算出電力違章安全事故發生幾率為(15×250)/10000=27.3%。

2.5優化的合成少數類加法采樣方法在電力企業中的應用。優化的合成少數類加法采樣方法在電力企業中采集安全事故樣本將數量較少的電力違章事故樣本分為數量為210、60、30的三組,則隨機取樣本數量180個生成電力違章樣本220次,該采樣方法計算出電力違章安全事故發生幾率為(180×20)/(180×20+10000)=26%。

結論:綜上所述,大數據分析采集不平衡樣本集的方法有很多種,很多行業在數據采樣時都可以利用大數據分析方法,數據采集是大數據分析的基礎,數據采集得越全面,最后的預測結果就越精準。而計算機大數據分析方法中的運用可以顯著提高預測結果的準確率,因此大數據分析方法和應用無論在哪個行業都離不開計算機的使用。

參考文獻:

[1]黃淼. 公共交通運營大數據聚類分析方法及應用研究[D].武漢輕工大學,2018.

[2]汪海濤,余永奎,段春雨.基于大數據不平衡樣本集的重采樣方法及應用[J].現代計算機(專業版),2018(22):26-29.

猜你喜歡
大數據分析方法
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 直接黄91麻豆网站| 91综合色区亚洲熟妇p| 久996视频精品免费观看| jizz亚洲高清在线观看| 亚洲成人在线免费观看| 亚洲天堂久久新| 国产精品手机视频| 欧美视频在线第一页| 久久99精品国产麻豆宅宅| 亚洲免费黄色网| 国产午夜人做人免费视频中文| 3344在线观看无码| 国产成人精品视频一区二区电影 | 国产一区二区三区在线无码| 欧美日韩免费观看| 无码一区二区波多野结衣播放搜索| 国产美女精品在线| 国产成人调教在线视频| 欧美国产成人在线| 香蕉蕉亚亚洲aav综合| 午夜国产精品视频| 久久久久久国产精品mv| 欧美一级高清免费a| 91精品国产自产91精品资源| 国产美女在线免费观看| 在线播放91| 日韩av手机在线| 国产一级片网址| 亚洲国产日韩视频观看| 毛片免费视频| 国产午夜无码片在线观看网站| 亚卅精品无码久久毛片乌克兰 | 成人年鲁鲁在线观看视频| 久久久噜噜噜久久中文字幕色伊伊| 国产在线无码av完整版在线观看| 国产精品浪潮Av| 久久精品人人做人人爽电影蜜月| 国产精品妖精视频| 亚瑟天堂久久一区二区影院| 女人18毛片水真多国产| 九九热免费在线视频| 久久精品丝袜| 色婷婷国产精品视频| 青青操视频在线| 亚洲国产精品无码AV| 国产亚洲高清在线精品99| 狠狠色狠狠综合久久| 久久黄色小视频| 色九九视频| 欧美综合一区二区三区| 亚洲精品成人片在线观看| 国产99欧美精品久久精品久久| 特级aaaaaaaaa毛片免费视频| 国产亚洲精| 色综合综合网| 午夜少妇精品视频小电影| 色婷婷亚洲综合五月| 国产精品视频3p| 2024av在线无码中文最新| 亚洲日韩欧美在线观看| 国产丝袜无码一区二区视频| 三区在线视频| a色毛片免费视频| 91麻豆精品视频| 成人91在线| 青青操国产视频| 国产69精品久久| Aⅴ无码专区在线观看| 亚洲欧美天堂网| 亚洲精品第一在线观看视频| 日本精品视频一区二区| 久久国产香蕉| 亚洲欧美成人| 丁香六月综合网| julia中文字幕久久亚洲| 久久精品人妻中文视频| 白丝美女办公室高潮喷水视频| 欧美日本激情| 国产精品专区第1页| 九九九精品成人免费视频7| 国产极品美女在线播放| a毛片在线免费观看|