999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

生態環境監測的數據清洗研究

2019-12-24 03:45:26王志剛毛亞瓊梁永春
網絡安全技術與應用 2019年1期
關鍵詞:生態檢測方法

◆王志剛 毛亞瓊 徐 越 梁永春

生態環境監測的數據清洗研究

◆王志剛1毛亞瓊1徐 越2梁永春2

(1.青海師范大學 青海 810008;2.華北科技學院 河北 101601)

作為對生態監測數據質量的提高方法,數據清洗是一種有效的處理方法,本文對其的應用現狀與前景進行了概述。首先對物聯網在生態監測數據的數據清洗的研究背景和特點進行說明。針對監測數據清洗問題處理方法進行分類,對這幾類問題的解決途徑進行分析介紹。最后根據現有的處理方法的優缺點并結合生態監測采集數據特點提出了進一步數據修正改進的方案,對該領域的數據清洗研究作出展望。

生態監測;數據清洗

0 引言

生態環境監測數據依然遵從一條針對數據質量保障的原理,即“進去的是垃圾,出來的也是垃圾”。數據清洗作為提高數據質量的重要手段,已有很多研究對數據質量定義有過深度探討[1],生態監測數據的清洗根據其自身特點,旨在解決其中的正確性(correctness)、完整性(correctness)以及最小性(minimatality)。

物聯網數據清洗的方法隨著機器學習等技術的發展,也在逐漸應用到數據清洗領域,本文在數據清洗方法分類上提出將數據清洗方法分為基于統計方法與數據挖掘方法,并依據監測數據特點對數據修正填補進一步制定了清洗方案。

1 生態監測數特點及相關概念

新一代的數據采集,主要來源為傳感器數據、互聯網數據以及行業數據三種數據來源方式。采集的數據可分為線上的行為數據與內容數據兩大類。線上行為數據主要包括網頁數據、提交表單數據、交互型數據以及會話數據等,而內容數據包括了電子文檔數據、應用及操作日志數據、音頻視頻數據、社交媒體數據以及機器數據。生態監測數據的采集,屬于機器數據屬內容數據的范疇,因此具有自身的一些特點:

(1)生態監測數據類型固定,是由傳感器轉換為電信號的物理量或數字量與模擬量,與互聯網等直接獲取的文字性等行為數據不同,具有本質區別。

(2)數據采集方式具有周期性,通常對某一點的監測為固定時間點的瞬時數據。

(3)數據具有較強關聯性,在生態環境中同一地點不同氣象參數之間或不同地點同一參數的相關性大,通過數據分析方法得到的相關系數高,因此不容忽略,具有較強研究價值。

2 生態監測數據清洗方法及優化

根據生態檢測數據的特點,數據清洗主要處于數據傳輸的實例層,通過對重復對象檢測、異常數據處理以及缺失數據處理來實現數據質量的提高。本文將從三種異常處理數據的相關方法進行介紹。

2.1 重復記錄

對多節點采集數據源的情況下,必然在數據集成整理時產生多個記錄代表同一對象的情況,或者是同一區域非常相近的記錄,這樣的數據被稱為重復記錄。針對重復記錄,在國內外大多數研究者均采用重復記錄的相似度作為 判別指標。采用最多的方法是基于特征相似度(feature based similarity,FBS)[2],最終文獻[3]的國內學者又采用聚集與FBS的方法得到良好的檢測結果。

2.2 異常數據

監測數據的異常,通常由設備故障、人為制造不合理環境、自然災害等特殊情況造成數據產生異常值,最多的便是離群點數據。對異常值的判定主要分為基于統計計算的方法以及數據挖掘的異常偏離點。數據中最明顯的就是不符合業務規則的數據,違反生態環境規則,文獻[4]在70年代就提出過較為嚴格的形式化模型Fellegi-Hot。

電網行業對監測數據異常做了大量工作,文獻[5]在廣域測量系統(wide area measurement system,WAMS)的基礎上,采用高位隨機矩陣模型的構建,對異常數據進行檢測。最新的傳感器監測數據采集方面檢測方法是文獻[6]提出的詳細K-均值聚類的方法對異常數據檢測,計算出樣本中的異常因子,與回歸模型結合并將其中異常樣本剔除。

2.3 缺失數據

數據采集時發生數據缺失,產生原因有機器損壞造成數據存儲缺失、人為疏忽會刻意篡改以及環境客觀條件造成信息無法獲取[8]。處理缺失值的方法分為三種,即刪除整條記錄、填充缺失數據與不處理數據[8]。刪除元組的方法與不處理的方法雖然簡單易行,但僅僅適用于極少量數據缺失的情況下,不然對信息的浪費以及數據質量影響較大。而缺失數據填充是大多數據應用領域會采取的方法,可以保證數據清洗后數據較高的可用性,一方面可由人為設置固定值取代,另一方面是采用數學統計模型以及機器學習等方法進行缺失值的預測填充。設置缺失值為固定某個值或篩選值往往以對行業數據了解為前提[9]。利用模型構建與機器算法實現雖然更接近真是數據,但針對不用數據,不同填充方法也會出現不一樣的效果。宏觀角度,文獻[10]采用高位隨機矩陣模型,在時空特性分析的基礎上推導出異常檢測的理論和方法。

2.4 生態監測數據特性的數據清洗

本文針對生態監測數據的特點并結合上述清洗方法,提出了監測異常數據的處理方案,側重處理數據的修正及填充。具體步驟如下:

第一步,對采集數據的重復及異常鑒別;

第二步,進行異常處理,首先計算數據相關性。然后對數據進行分類,分為了分類變量與連續型變量,對連續型變量采取離散化處理;

第三步,對分類變量與離散化后的數據利用數據間的關聯關系進行模式挖掘與查詢,利用挖掘出的規則與相關性得到的閾值篩選并填補缺失值或修正異常值;

第四步,對連續型變量進一步采用同規則的向量回歸計算精確的缺失或異常值。

采用此方法的優勢在于適應監測數據的特點,尤其處理連續型數據,利用有限的同規則數據對缺失數據進行填補或異常修正,將具有與滑動窗口等效的占用率低以及實時性。另一方面,對數據利用統計的方法將生態監測數據的相關性作為規則挖掘的輔助信息。那么,本節清洗結構的設計在時空占用上必然略高于統計方法但低于機器學習方法,以此換來更高的數據修正精準度是可接受的。

3 結束語

在生態數據監測領域雖然目前很少有專門的數據清洗方法研究,但從上述研究分析可以看出,大多數數據清洗的方法適用于監測數據的清洗。且在很多應用研究中對監測數據的清洗已廣泛應用。精準的數據清洗能夠提高生態環境下監測數據的準確性;提高傳感器設備的工作效率;能夠及時地發現數據采集環境的異常狀況或設備狀態;為監測數據的進一步研究提供了可靠的數據。但是,數據異常的識別與處理,仍然在生態監測數據領域有很大的研究前景,在后續的研究中,將實現與已經非常成熟的行業同等效率的數據清洗。

綜合以上不同數據清洗方法的特點,本文在生態環境數據監測的適用性方面進行進一步研究,對環境以及社會都具有深遠的價值和意義。本文提出采用基礎的統計方法與基于數據挖掘關聯方法結合的理論,克服了統計方法的不確定性與機器學習方法的復雜度較高的缺陷。有望在采集數據領域獲得更高質量的數據,在今后的研究以及應用中將進一步探索和證明。

[1]宋敏,覃正.國外數據質量管理研究綜述[J].情報雜志,2007.

[2]曹建軍,刁興春,汪挺,王芳瀟.領域無關數據清洗研究綜述[J].計算機科學,2010.

[3]俞榮華,田增平,周傲英.一種檢測多語言文本相似重復記錄的綜合方法[J].計算機科學,2002.

[4]陳偉,陳耿,朱文明.基于業務規則的錯誤數據清理方法[J].計算機工程與應用,2005.

[5]魏大千,王波,劉滌塵,羅金號,冀星沛.高維隨機矩陣描述下的量測大數據建模與異常數據檢測方法[J].中國電機工程學報,2015.

[6]張仁斌,許輔昊,劉飛,李思嫻.基于K-均值聚類的工業異常數據檢測[J].計算機應用研究,2018.

[7]王雷,張瑞青,盛偉,徐治皋.基于支持向量機的回歸預測和異常數據檢測[J].中國電機工程學報,2009.

[8]曄沙.數據缺失及其處理方法綜述[J].電子測試,2017.

[9]唐菱,方若晨,李芙玲,李永飛.大氣環境監測數據審核和分析系統的設計與實現[J].華北科技學院學報,2016.

[10]魏大千,王波,劉滌塵,羅金號,冀星沛.高維隨機矩陣描述下的量測大數據建模與異常數據檢測方法[J].中國電機工程學報,2015.

本文受到國家自然科學基金(No.61472137),國家重點研發計劃(No.2017YFC0804108),青海省重點實驗室、重點研發項目(No.2017-ZJ-752,2017-ZJ-Y21)和河北省物聯網監控工程技術研究中心項目的資助(No.3142016020)。

猜你喜歡
生態檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“生態養生”娛晚年
保健醫苑(2021年7期)2021-08-13 08:48:02
住進呆萌生態房
學生天地(2020年36期)2020-06-09 03:12:30
生態之旅
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 在线观看欧美精品二区| 青青青草国产| 色哟哟国产精品| 国产区91| 欧美日韩国产在线播放| 丁香六月激情综合| 97在线碰| 亚洲 欧美 日韩综合一区| 精品一区二区三区视频免费观看| 性欧美在线| 亚洲中文在线看视频一区| 日韩在线观看网站| 国产综合欧美| 无码一区二区波多野结衣播放搜索| 手机在线免费不卡一区二| 88av在线| 人妻无码中文字幕一区二区三区| 激情国产精品一区| 无码有码中文字幕| 日韩av资源在线| 成人一区专区在线观看| 国模视频一区二区| 高清色本在线www| 国产精品免费久久久久影院无码| 国产呦精品一区二区三区网站| 国产精品美女网站| 福利视频一区| 夜夜爽免费视频| 国产精品一区二区国产主播| 欧美亚洲一二三区| 波多野结衣视频网站| 午夜精品一区二区蜜桃| 99999久久久久久亚洲| 国产成人亚洲精品蜜芽影院| 第一区免费在线观看| 四虎永久在线| 午夜日b视频| 国产综合色在线视频播放线视| 毛片大全免费观看| 91无码视频在线观看| 国产精品久久久久久久久kt| 精品第一国产综合精品Aⅴ| 在线日韩一区二区| 精品色综合| 呦女亚洲一区精品| 蜜芽国产尤物av尤物在线看| 精品成人一区二区三区电影| 国产无遮挡猛进猛出免费软件| 日韩第一页在线| 亚洲精品无码抽插日韩| 日本免费福利视频| 国产爽爽视频| 国产精品乱偷免费视频| 4虎影视国产在线观看精品| 67194成是人免费无码| 午夜激情婷婷| 无码一区二区三区视频在线播放| 欧美日韩国产一级| 欧美成人国产| 婷婷色丁香综合激情| 萌白酱国产一区二区| 国产二级毛片| 日本少妇又色又爽又高潮| 美女一级毛片无遮挡内谢| 久久精品丝袜| 亚洲精品欧美日本中文字幕| 无码免费的亚洲视频| 日本a∨在线观看| 九九久久精品国产av片囯产区| 亚洲色图欧美激情| 亚洲精品在线观看91| 亚洲免费人成影院| 毛片免费在线视频| 91欧美亚洲国产五月天| 无码精品福利一区二区三区| 日韩欧美91| 久久国产精品电影| 免费亚洲成人| 潮喷在线无码白浆| 亚洲高清在线天堂精品| 在线精品欧美日韩| 国产香蕉在线视频|