999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的白洋淀生態數據的異常檢測

2022-02-17 07:39:26吳瓊,李永飛
電腦知識與技術 2022年35期

吳瓊,李永飛

摘要:異常數據檢測的問題近年來日益成為統計分析、機器學習、數據挖掘等諸多領域的研究熱點之一,異常數據檢測是實現數據質量提升的一個關鍵。異常數據檢測中存在物聯網數據來源不可靠、異常數據檢測結果不穩定和不準確等問題,實驗采用基于機器學習的異常數據檢測算法,通過python數據分析,采用真實的數據即白洋淀生態物聯網數據進行實驗驗證,對比幾種基于機器學習的異常檢測算法的異常檢測效果,采用真實數據具有一定的應用意義。

關鍵詞:真實數據;異常數據檢測;聚類分析;K-means算法;DBSCAN算法

中圖分類號:TP181? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)35-0007-03

1 概述

白洋淀是華北地區最大的濕地生態系統被稱為“華北之腎”,多年來由于上游生活污水和工業污水的排放、機械船只增多等因素,白洋淀水質不斷惡化。自2017年4月1日起,白洋淀生態環境治理和保護攻堅戰打響。修復白洋淀生態的關鍵在于水域環境,改善水域內水體環境才能保障和恢復生物的多樣性。白洋淀的生態數據通過物聯網傳感器實時采集,為了保證白洋淀生態物聯網數據的真實性和可信性,需要對采集到的數據做出預處理。異常數據影響數據質量,異常數據檢測能實現數據質量的提升與潛在信息的挖掘。在當前生態環境監測中應用物聯網技術,建立自動監測站實現全天實時監測。物聯網技術可以對數據信息精準識別和快速傳遞,讓生態監測的整個過程變得系統化和透明化。

異常數據檢測方法是通過統計分析、數據挖掘等技術來識別數據中的“異常點”,是指從數據中找出明顯與其他數據不同的數據。離群點檢測的概念最早由Hawkins在1980年提出,異常是指非隨機產生的不同于數據集其他數據的數據[1]。異常數據可能是噪聲,也可能是有價值的數據。異常數據檢測是數據挖掘應用中的一項關鍵技術,是指從數據集中找出與預期行為不符的模式。異常數據檢測對保障數據的可信性有重要作用,異常數據通常占比可能較小但可能蘊含豐富的內容。因此異常數據檢測方法具有重要的研究意義和實踐應用,并且其對保障檢測數據可行性方面也有積極的作用。異常數據檢測作為數據分析的任務模塊之一,數據分析工作進行異常數據檢測的價值在于及時發現異常,進而準確發出風險預警信息或以此科學有力的信息輔助分析決策者如何做好系統下一步風險決策。比如消除安全隱患、擴展國內市場份額、提高公司經濟效益、生態環境監測等。異常數據分析中涵蓋大量有用數據信息,是當今數據科學前沿中一個廣泛研究的問題。異常數據的檢測已逐漸成為數據挖掘等領域的熱點研究之一[2]。根據異常檢測面向的數據類型、研究領域等的不同,各種各樣的異常數據檢測方法不斷被提出和改進。關于異常檢測領域的一個較為深入詳細的研究工作是 C. C. Aggarwal 等人做出來的。由于不同領域數據的差異性較大,根據其正、異常狀態情況。異常檢測方法為入侵攻擊檢測、欺詐交易檢測、故障檢測[3]、圖像處理、安全與監控、文本數據異常數據檢測、傳感器網絡異常檢測、應急管理、醫療公共衛生、網絡信息安全等領域的應用提供重要的參考依據[4]。

異常數據檢測方法一般分為基于統計學的、基于聚類的、基于距離的、基于密度的、基于分類的、基于預測的等等。異常數據檢測的應用最早出現在統計學領域。基于統計學的異常檢測方法在處理異常數據時,一般會構建一個概率分布模型,并會計算數據對象符合該統計模型的概率,把概率較低的對象視為異常。基于統計學的檢測方法有無參數的代表直方圖和有參數的代表高斯模型等,該模型方法優點是基于數據分布快速且精準、魯棒性比較好,不足是需要預先假設數據的分布情況,而且通常不適用于高維的數據。隨著計算機科學及相關技術的更新換代,計算機方向的專家和學者利用在數據管理方面的經驗可以對多種類型的數據進行異常的分析,之后基于機器學習的異常數據檢測方法逐漸成為一種趨勢?;跈C器學習的方法按照是否需要進行人工標記則可以分為無監督模式、半監督模式和有監督模式。在有監督的模式下需要有標簽的數據作為支撐,而樣本標簽的獲取具有很大的代價。在無監督的模式不需要依賴任何標簽,也不完全依賴完善的先驗知識,可以通過聚類分析等方法獲取邊界條件以檢測出異常值,因此無監督模式在異常數據檢測領域里應用會更加廣泛。目前基于聚類分析的異常檢測方法是異常檢測技術中最常用的一類方法[5]。

聚類算法的分析是數據挖掘和機器學習領域的重要研究課題之一,它是無監督模式識別,可以根據數據的相似度把數據劃分為多個類或類簇[6]。在計算機學科的領域中,聚類算法是數據挖掘和人工智能應用中不能或缺的研究基礎,它起著不可或缺的作用。并且異常數據的檢測是聚類分析方法下的重要組成部分,用于檢測數據樣本中所有的異常點。異常點在聚類分析中表現為單個聚類簇,可以明顯區分出正常樣本和異常樣本。比如經典的DBSCAN算法可以在聚類的同時,也可以識別出異常數據?;趯S玫漠惓祿z測算法,這些算法不像基于聚類算法的異常點檢測只是一個附加項,它們的目的是專門用來檢測異常數據的,主要的算法代表是One Class SVM算法和Isolation Forest算法?;诮彽姆椒òɑ诰嚯x和基于密度的方法,其代表算法有LOF算法和COF算法?;谧罱彽姆椒╗7]利用計算各數據實例之間的距離進而實現對該數據實例的分析,當結果中某個實例遠離它的鄰居時,則該實例被視為異常數據。這種類型的方法不依賴數據的任何先驗知識,但缺點是所設定的輸入參數對檢測結果則存在很大的影響,而且計算各數據實例之間距離的成本會比較大。基于密度的檢測方法是通過比較每個點和其鄰域點的密度來判斷該點是否為異常點。當一個點與包圍其鄰居的密度不同時,則為異常點。

2 基于機器學習的異常檢測算法

基于聚類的方法其代表算法有K-means算法和DBSCAN算法,采用距離、密度等信息,將相似度高的數據聚為一個簇,如果最終數據不屬于任何一個簇的離群點,則視為異常[8]。K-means算法實現比較簡單、聚類效果也不錯,不需要數據標簽和先驗知識。基于密度的方法其常用的算法主要有LOF算法和COF算法,可以依據異常的程度給一個定量的值,具有較好的魯棒性。還有其他基于專用的異常檢測方法主要有One Class SVM算法,它是無監督不需要標記訓練集和輸出標簽,適合用于解決極度不平衡的數據;還有Isolation Forest算法具有線性時間復雜度,處理異常數據快速且準確,并且可以滿足實時性的要求。表1介紹了基于機器學習的異常數據檢測算法。

3 算法實現及結果分析

3.1數據來源

為了驗證基于機器學習的異常數據檢測算法的有效性,采用真實的數據即白洋淀物聯網生態監測數據。該數據集包括溫度、COD、葉綠素等元素,本實驗數據分析是采用靜態數據即走航數據,該數據用excel表格存儲。以數據本身特征為研究對象,研究物聯網數據的基本特征即可變性、真實性、復雜性等。

3.2數據預處理

異常數據檢測可以保證物聯網數據的可信性和完整性。異常數據檢測算法是建立在數據特征上的,因此研究數據特征具有重要作用。首先為了避免數據受到不必要的干擾,要正確的、真實的、完全的代表實際數據發生的方式收集、記錄、報告和保存數據。其次由于采集到的數據本身存在噪聲、不一致、不可靠等問題,因此首先對數據進行預處理,然后進行下一步的數據分析處理,最后再選擇合適的異常數據檢測算法。實驗中對原始數據進行預處理,然后對5200多條數據樣本做數據分析,采用基于機器學習的異常數據檢測算法對白洋淀生態數據集進行多次異常數據檢測[9]。

3.3異常數據檢測流程

異常數據檢測的基本流程是數據采集、依據物聯網數據特征進行數據預處理、再進行異常數據檢測、最后進行異常數據判斷。異常數據檢測流程圖如圖1所示。

3.4實驗環境

實驗硬件環境:CPU是Intel(R)Core(TM)i5-6200U @2.30GHz,內存為8GB,操作系統是Windows10。實驗采用真實數據即白洋淀生態物聯網數據集。

實驗軟件環境:編程采用Python語言,仿真軟件環境為Pycharm,采用Sklearn機器學習框架下實現異常數據檢測算法。

3.5實驗過程及結果分析

實驗采用數據預處理方法得到的5200多條數據樣本。選取白洋淀物聯網生態數據中的兩列即“溫度”和“COD”兩個字段,利用基于聚類的、基于密度和基于其他專用異常數據檢測算法共三類算法做異常數據檢測工作。

數據可視化展示采用PCA降維方法,通過PCA降維后,用二維坐標展示異常數據結果分布圖。采用DBSCAN算法進行異常數據算法使用數據中“溫度”和“COD”兩個字段,每個字段選取500條數據,結果異常數據量為21個,DBSCAN算法異常數據結果分布如圖2所示。

采用K-means算法進行異常數據算法是使用數據中“溫度”和“COD”兩個字段,每個字段選取500條數據,結果異常數據量為101個,K-means算法異常數據結果分布如圖3所示。

通過實驗同樣的數據集采用的算法不同異常數據檢測的結果也不同,同一種算法選取數據量不同則異常數據量占比也不同,具體算法實現結果表2所示。

4 結論

1)通過算法實現,同樣的數據集采用不同的算法異常數據檢測的結果也不同,同一種算法選取數據量不同則異常數據量的占比不同。為了異常數據檢測的結果更準確,可以對比幾種算法的結果最終在確定異常數據情況。一個思路是在基于機器學習的異常數據檢測中沒有一種算法適合所有的情況,可以考慮采用基于集成學習的思路,把各個算法看成學習器,采用投票的方式來判斷數據是否屬于異常。另一個思路是改進算法,比如K-means算法屬于隨機選取的初始聚類中心點,因此會導致聚類結果不穩定,影響異常數據檢測的結果。改進初始聚類中心選取的方法可以提高聚類結果的穩定性方向出發,比如處理聚類中心點的可以引入“最大最小思想”到算法中,避免陷入局部最小。

2)在數據處理模型中聚類分析法具有較為廣泛的應用場景,但在產生海量數據時存在計算速度較慢的問題。因此在當前大數據背景下,需要考慮對基于機器學習的異常數據檢測算法進行改進優化,進而提高在異常數據檢測中的優勢。物聯網監測所產生的海量實時數據,已經對傳統異常數據檢測方法帶來了新的挑戰。實時的異常檢測開始成為一種趨勢,對于工業生產安全、醫療技術發展、網絡入侵、實現數據預測等領域實時的異常檢測有著重要的意義,可以避免發生意外和減少經濟損失。

參考文獻:

[1] 孟海東,孫新軍,宋宇辰.基于數據場的改進LOF算法[J].計算機工程與應用,2019,55(3):154-158.

[2] 蔣華,武堯,王鑫,等.改進K均值聚類的海洋數據異常檢測算法研究[J].計算機科學,2019,46(7):211-216.

[3] 馬速良,武亦文,李建林,等.聚類分析架構下基于遺傳算法的電池異常數據檢測方法[J/OL].電網技術:1-11[2022-12-06].DOI:10.13335/j.1000-3673.pst.2021.1871.

[4] 李科心,李靜,邵佳煒,等.多層次序列集成的高維數值型異常檢測[J].計算機與現代化,2020(6):73-82.

[5] 盧夢茹,周昌軍,劉華文,等.基于二階近鄰的異常檢測[J/OL].計算機系統應用:1-10[2022-12-06].DOI:10.15888/j.cnki.csa.008968.

[6] Breunig M M,Kriegel H P,Ng R T,et al.Lof[J].ACM SIGMOD Record,2000,29(2):93-104.

[7] Branch J W,Giannella C,Szymanski B,et al.In-network outlier detection in wireless sensor networks[J].Knowledge and Information Systems,2013,34(1):23-54.

[8] 祁超帥,何文思,焦毅,等.無人機飛行數據異常檢測算法綜述[J/OL].計算機應用,2022:1-11.(2022-11-28).https://kns.cnki.net/kcms/detail/51.1307.tp.20221125.0927.002.html.

[9] 丁衛東.基于聚類分析的異常數據檢測[J].電子技術與軟件工程,2020(15):185-186.

【通聯編輯:唐一東】

主站蜘蛛池模板: 亚洲一区二区无码视频| 亚洲综合精品香蕉久久网| 国产成人av大片在线播放| 欧美乱妇高清无乱码免费| 青青青国产精品国产精品美女| 欧美不卡二区| 国禁国产you女视频网站| 国产成人高精品免费视频| 国产簧片免费在线播放| 狠狠亚洲五月天| 国产黄色视频综合| 国产在线观看一区二区三区| 视频二区亚洲精品| 久热这里只有精品6| 乱人伦视频中文字幕在线| 欧美日韩一区二区在线免费观看 | 日本欧美成人免费| 在线看国产精品| 日韩国产亚洲一区二区在线观看| 精品视频在线观看你懂的一区| 在线日本国产成人免费的| 精品日韩亚洲欧美高清a| 国产99视频精品免费观看9e| 天天色综合4| 999在线免费视频| av午夜福利一片免费看| 日韩资源站| 欧美综合中文字幕久久| 国内熟女少妇一线天| 国产人人乐人人爱| 国产91色在线| 免费a级毛片18以上观看精品| 精品少妇人妻av无码久久| 性欧美在线| 精品少妇人妻av无码久久| 欧美一级在线播放| 日韩a级毛片| 国产主播一区二区三区| 国产福利影院在线观看| 视频二区欧美| 欧美丝袜高跟鞋一区二区| 亚洲AV无码久久天堂| 国产成人无码播放| 99视频精品在线观看| 国产网站免费看| 午夜三级在线| 国产成人精品亚洲77美色| 伊人久久婷婷五月综合97色| 91欧美在线| a毛片在线| 九色最新网址| 色成人亚洲| 欧美乱妇高清无乱码免费| 亚洲精品777| 亚洲综合久久成人AV| 欧美另类精品一区二区三区| 成人免费视频一区| 大陆国产精品视频| 欧美一级在线| 国产欧美日韩另类精彩视频| 在线播放国产一区| 色国产视频| 欧美成人精品高清在线下载| 国产91丝袜在线播放动漫| 久夜色精品国产噜噜| 欧美国产综合色视频| 在线免费观看a视频| 日韩 欧美 国产 精品 综合| 国产丝袜一区二区三区视频免下载| 欧美日韩午夜| 91美女视频在线| 视频在线观看一区二区| 成人在线观看一区| 国产香蕉在线| 欧美日韩另类在线| 午夜综合网| 亚洲精品无码久久久久苍井空| 女高中生自慰污污网站| 色偷偷综合网| 成人在线观看一区| 国禁国产you女视频网站| 青青青伊人色综合久久|