水冰潔 趙思思 王碧華
摘要:本文先從隨機做減法采樣、隨機做加法采樣、基于聚類的加法重采樣、合成少數類的加法采樣、優化的合成少數類加法采樣方法等方面分析大數據分析采集不平衡樣本的方法,再分別闡述這些大數據分析采集不平衡樣本集在電力企業中的應用,為大數據分析人員提供參考。
關鍵詞:大數據;分析;方法;應用手段
中圖分類號:TP311.13?? 文獻標識碼:A?? 文章編號:1672-9129(2020)12-0032-01
引言:大數據分析是互聯網時代行業經常使用的技術,大數據分析的方法有很多,但是其原理均是通過大量數據的采樣得到數據的發展模型,最終為企業的發展方向或者危機預測提供參考。而大數據分析的第一步是數據采集工作,數據采樣的精確度會直接影響大數據分析的結果。
1 大數據分析采集不平衡樣本集的方法
1.1隨機做減法采樣方法。隨機做減法采樣方法的原理是通過減少較多類型的樣本,從而使不同類型樣本的數量達到平衡。該方法的優點是可以降低采樣所需要的時間,因為總體的采樣數量減少了;該方法的缺點是在隨機減少樣本數量比較多的種類樣本時可能會丟失一些關鍵數據,最后導致采樣結果不夠精準。
1.2隨機做加法采樣方法。隨機做加法采樣方法的原理是增加樣本數量比較少的種類樣本,最終使不同種類的樣本數量達到平衡。該方法的優點是不會丟失某些樣本的關鍵信息,采樣結果相對比較精準;該方法的缺點是增加了采樣的總體數量,導致采樣過程所需要的時間大大增加,而且還會由隨機加樣本的原因造成過擬合風險增加。
1.3基于聚類的加法重采樣方法。基于聚類的加法重采樣方法的原理是將所有樣本按照數量的多少分為兩類,然后將樣本數量較多的一類聚集到一起、將樣本數量較少的另一類聚集到一起,最后再將隨機做加法采樣方法與樣本數量較少的聚集類結合,將所有樣本的數量增加到一致,即可得到較為精準的采樣結果。該方法的優點為能夠克服樣本不平衡帶來的挑戰;該方法的缺點與隨機做加法相同,即容易造成過擬合風險增加。
1.4合成少數類的加法采樣方法。合成少數類的加法采樣方法是原理是將樣本數量較少的一類選擇出來,然后選擇這類數據的一部分創建新的數據樣本,最終將新創建的樣本與原樣本集整合,即可解決原樣本種類數量不平衡的問題。該方法的優點是不會丟失樣本中的關鍵數據導致樣本采樣精準度降低,而且相比隨機做加法采樣和聚類加法重采樣方法的過擬合風險降低;該方法的缺點是容易由于樣本數量的額外增加導致負類樣本的增加,所以該方法采集樣本的適用范圍有限。
1.5優化的合成少數類加法采樣方法。優化的合成少數類加法采樣的原理是將樣本數量較少的種類進行整合,然后按照樣本的不同特征將其分成不同組,最后在這些不同組的樣本數據中使用隨機做法采樣方法即可解決原樣本集中數量不平衡的問題。該方法的優點為不會導致額外負類樣本的增加,而且樣本數據中的關鍵信息不會丟失,采樣精準度不會降低;該方法的缺點是大量的數據堆疊導致其適應范圍有限。
2 大數據分析采集不平衡樣本集的應用
假設電力企業 大數據樣本集中電力違章導致的安全事故樣本總數為10300個,而非電力違章導致的安全事故樣本數量為10000個、電力違章導致的安全事故樣本數量為300個,可知該電力企業電力違章導致安全事故發生的幾率為300/10300=2.9%。
2.1隨機做減法采樣在電力企業中的應用。隨機做減樣法在電力企業中采集安全事故樣本需要先從所有非事故樣本中選出1/10數量的樣本形成樣本集,然后可知樣本集的數量為10000×10%=1000個,最后結合電力違章導致的安全事故300個形成新的樣本集數量即1300個,該采樣方法計算出電力違章安全事故發生幾率為300/1300=23%。
2.2隨機做加法采樣在電力企業中的應用。隨機做加法采樣在電力企業中采集安全事故樣本需要先復制電力違章安全事故發生的樣本,假設復制15個電力違章安全事故樣本300次,則現在樣本集中數量總數為300×15+10000=14500個,該采樣方法計算出電力違章安全事故發生幾率為(300×15)/14500=31%。
2.3基于聚類的加法重采樣在電力企業中的應用。基于聚類的加法重采樣在電力企業中采集安全事故樣本需要先進行聚類,假設樣本數量較多的共分為8類且樣本數量依次為1250、240、980、1380、1520、1050、1230、1350個,而數量較少的樣本分4類依次為90、89、78、49個,根據隨機做加法采樣可以將樣本數量較多的8類處理為1250個樣本、樣本數量較少的樣本處理為750個樣本,該采樣方法計算出電力違章安全事故發生幾率為(750×4)/(1250×8+750×4)=23%。
2.4合成少數類的加法采樣方法在電力企業中的應用。合成少數類的加法采樣方法在電力企業中采集安全事故樣本假設隨機復制15個違章樣本共250次,該采樣方法計算出電力違章安全事故發生幾率為(15×250)/10000=27.3%。
2.5優化的合成少數類加法采樣方法在電力企業中的應用。優化的合成少數類加法采樣方法在電力企業中采集安全事故樣本將數量較少的電力違章事故樣本分為數量為210、60、30的三組,則隨機取樣本數量180個生成電力違章樣本220次,該采樣方法計算出電力違章安全事故發生幾率為(180×20)/(180×20+10000)=26%。
結論:綜上所述,大數據分析采集不平衡樣本集的方法有很多種,很多行業在數據采樣時都可以利用大數據分析方法,數據采集是大數據分析的基礎,數據采集得越全面,最后的預測結果就越精準。而計算機大數據分析方法中的運用可以顯著提高預測結果的準確率,因此大數據分析方法和應用無論在哪個行業都離不開計算機的使用。
參考文獻:
[1]黃淼. 公共交通運營大數據聚類分析方法及應用研究[D].武漢輕工大學,2018.
[2]汪海濤,余永奎,段春雨.基于大數據不平衡樣本集的重采樣方法及應用[J].現代計算機(專業版),2018(22):26-29.