


[關鍵詞]AE-OCSVM 模型;電力;大數據;異常值檢測方法
[中圖分類號]TP311.13 [文獻標志碼]A [文章編號]2095–6487(2024)11–0124–03
在過去的幾十年中,異常值檢測技術已從簡單的統計測試發展到復雜的機器學習方法。簡單統計方法主要有3sigma 準則、四分位算法、Z-score 等。復雜的機器學習方法主要為K-Means 聚類、孤立森林、隨機森林、DBSCAN 等。文獻[1] 基于改進的K-Means和DNN(深度神經網路)對數據進行檢測,對大數據的異常情況進行檢測與修正;文獻[2] 融合異常檢測與區域分割的高效K-Means 聚類算法提高算法執行效率;文獻[3] 對K-Means 聚類進行了相應的改進,提高了異常值檢測效率;文獻[4] 結合SVM 和孤立森林算法進行檢測,可快速有效地識別出異常值;文獻[5] 結合孤立森林算法和改進X-Means 保障了數據的穩定性;文獻[6] 使用DBSCAN 算法進行檢測,提高了準確率、適用性和魯棒性。然而目前異常值檢測依然面臨著一系列挑戰,因此,文章提出一種AEOCSVM(深度自動編碼一類支持向量機)組合算法對異常值進行檢測,以適應高維大數據的情況。該方法首先用深度自動編碼對輸入空間降維和特征表示,然后基于支持向量和余量的OC-SVM 進行異常預測。對9 種不同的算法進行分析對比,結果顯示,能夠有效提高預測準確性和精確度。
1"AE-OCSVM
2.2評價指標分析
準確度指總樣本中準確預測的百分比。雖然準確率可判斷整體準確率,但在樣本不平衡的情況下,其并不是衡量結果的好指標。例如,在樣本集中,有90個正樣本和10 個負樣本,樣本嚴重失衡。在這種情況下,只需要將所有樣本預測為正樣本,就可以獲得90% 的準確率,但這完全沒有意義。對于新數據,根本沒有準確性。因此,在樣本不平衡的情況下,所獲得的高精度沒有任何意義,并且精確度將無效。因此,需要找到新的指標評估該模型的優缺點。
精確度指預測結果,即在所有預測為正的樣本中,樣本實際為正的概率。精確度和準確度看起來很相似,但概念完全不同。精確度表示正樣本結果中預測的準確性,準確度表示整個預測的準確性,包括正樣本和負樣本。
召回率是針對原始樣本的,這意味著在實際為正的樣本中被預測為正樣本的概率。
Precision 和Recall 可用P-R 圖表示。為確定P-R曲線上最佳閾值點,希望準確率和召回率高,但事實上這兩個指標相互矛盾,無法達到雙高。因此,選擇正確的閾值點需要根據實際問題的要求,例如,如果想要高精度,必須犧牲一些召回率;為了獲得高的召回率,必須犧牲一些精確度。但通常,可根據他們之間的平衡來定義一個新的指標,即F1 指數。F1 指數平衡了準確度和召回率,同時考慮了準確度和召回率。
2.3結果對比分析
在準確性方面,Isolation Forest 和OC-SVM 的準確性低于80%,Isolation Forest 算法模型測量的數據最低準確性為0.6184,比平均值0.7975 低近10個百分點。剩余算法模型的最高精度為PCA+GMM(TN=0),為0.8508,并且PCA+ KMeans、DBSCAN、DAGMM、LOF、AE-OCSVM、VAEGMM 在(0.8000,0.8500)的區間內增加。在精度方面,OC-SVM 和DBSCAN 算法的精度特別突出,比其余算法模型高出約5 個百分點。DAGMM、VAEGMM 和AE-OCSVM與其余算法模型相比具有約1~2 個百分點的優勢。召回數據的狀態和準確性相似,Isolation Forest 和OC-SVM 遠未達到平均水平,PCA GMM(TN=0)尤為突出,其值為0.9444。F1 指數是精度和召回率平衡的結果,Isolation Forest 和OC-SVM 的指數比其他算法低,其余算法的F1 指數在90% 左右略有波動。
基于以上分析,Isolation Forest 的4 個指標相對較低,數據處理能力最差。OC-SVM 和DBSCAN 只具有更高的精度,而準確度、召回率和F1 指數都低于平均值,但DBSCAN 的評估指標值高于OC-SVM,并且都適合于只注重準確度的試驗數據處理。除準確度一般外,PCA+GMM(TN=0)的準確度、召回率和F1 指數在所有模型中最高,數據處理能力最好。PCA+K-Means 的值都是平均值,其余數據模型的數據處理能力相對較強且相似。具體的選擇取決于試驗對象。9種不同算法分析見表1。
3結束語
針對電力數據維數較高,數量龐大,以及數據的多源異構特點,文章引入深度自編碼模型(AE),提出了AE-OCSVM(深度自動編碼一類支持向量機)組合算法對異常值進行檢測。試驗結果表明,該方法取得了良好的檢測效果,準確率,精確率,召回率和F1指數4個指標在9個模型對比分析中具有突出優勢,能夠處理電力高維大數據的異常值檢測情況。