999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源異構水環境大數據清洗與交換技術研究

2021-02-26 14:54:24
科學與信息化 2021年4期

江蘇省生態環境監控中心(江蘇省環境信息中心) 江蘇 南京 210000

1 緒論

1.1 研究的背景、目的及意義

長久以來,由于政府機構內管理機制的客觀原因,一直存在多部門、多行業在流域開展水環境監測或相關調查、監測的事實,以行業需求為目的監測的水環境數據分散在各個行業部門,數據沒有集約化共同分析利用。而且涉水的水利、環保、氣象等部門之間存在信息壁壘,造成數據共享障礙、綜合決策能力低下等問題。此類現象長期以來阻礙了水環境監測數據的綜合分析利用,難以讓政府部門及時了解流域、區域的水環境質量從而及時制定或調整整治措施,影響了各地流域水污染環境治理工作的推進。

因此,實現各涉水部門(橫向)和各級環保部門(縱向)之間的數據傳輸與交換,需要建立相應的數據傳輸交換平臺,各行業各業務流程的異構數據在該交換平臺上進行數據轉換后,統一傳輸到中心數據庫中進行管理,然后根據具體業務需求交換到對應的業務部門數據庫中,最終實現水環境監測信息的交換、集成和共享,數據資源有效合并,最大限度地發揮各路水環境監測信息資源的潛在價值。

水環境數據的清洗和交換技術是建立數據交換平臺實現數據傳輸與交換的一項重要技術手段。對數據進行數據清洗,一方面可以減少數據收集、存儲中存在的錯誤數據和空缺數據,提高數據質量;另一方面通過對數據多維度清洗方法進行研究,全面地對數據進行清洗,便于后面對數據進行決策性分析和數據挖掘等。

1.2 研究現狀及存在問題

近十年,國外數據清洗技術發展很快,但國內專業進行數據清洗的軟件幾乎沒有。

水環境相關的信息系統涉及斷面水質監測、水質自動站監測、重點污染源自動監控、藍藻水華監測預警、污染源普查、排污權交易、氣象監測等多個系統,種類繁雜。這些系統從技術路線、網絡結構、部署方式、數據格式、編碼體系等各個方面均有很大的差別,數據分散在不同的業務部門,在物理上和邏輯上都是相對獨立的,數據結構差異很大,難以直接交換,形成了“信息孤島”或“應用孤島”。

這種環境信息的多方面管理局面導致政府和公眾獲取到的信息較為混亂,給上層決策帶來干擾,不利于政府管理和服務以及政務公開服務成效,也影響了對環境信息綜合集成分析和決策支持功能深化應用[1]。

在數據清洗中,數據挖掘算法一般無法直接處理不完整的數據集,因此,處理此問題通常的最簡單方法是刪除,即直接刪除有缺失值的數據。但是,這種方法僅適用于非常小的丟失率,如5%。丟失率非常大的時候,比如20%,僅僅使用原始數據集的剩余80%(包含其余的完整數據)可能無法完全反映收集的數據集所涵蓋的現實問題,最大程度上會影響到挖掘結果。因此衍生了一個更好的解決方案,即缺失值插補法。缺失值估算可大致分為統計學和機器學習技術,統計學通?;诰?模式和回歸,而近十年已經采用了機器學習技術。因為有時,更復雜的算法雖然可以產生更好的插補結果,但通常需要更高的計算成本,這是混合機器學習技術與單機學習技術相關的考慮因素。大多數的機器學習技術通常比許多統計技術在計算上更昂貴,成本更高,因為它們需要模型訓練和構造的過程。

2 水環境數據清洗與交換

2.1 數據清洗

(1)數據清洗的概念

數據清洗是對數據進行重新審査和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。通俗來說就是把“臟”的數據“洗掉”,指發現并糾正數據文件中可識別錯誤的最后一道程序,包括檢査數據一致性、處理異常值和缺失值等。由于數據庫內的數據是面向某一主題的數據的集合,而這些數據來自于多個業務系統且包含有歷史信息,有的數據是錯誤數據,有的數據相互之間有沖突,這樣的情況很難避免,這些錯誤的或有沖突的數據顯然是不需要的,稱之為“臟數據”。我們要按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。數據清洗的任務就是過濾掉不符合要求的數據,將過濾后的數據交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三類[2]。

(2) 數據清洗的模型、流程

由于數據中出現了數值的錯誤,例如由于人工錄入出錯、傳感器失靈等產生了不合法值、空值等問題的臟數據,釆用數據清洗策略/規則如數據統計、數據挖掘等方法對臟數據進行異常檢驗和空缺值填補,使數據達到滿足數據質量要求的數據,為后面進行數據挖掘和決策性分析提供干凈的數據。一般情況下,數據清洗的流程包含:①數據分析:數據清洗的基礎是首先要進行數據分析,通過分析可以檢測并歸納出數據集中存在的錯誤問題種類。②數據清洗轉換規則:根據數據分析結果以及“臟數據”的產生和特點,制定清洗“臟數據”的清洗算法規則。③驗證:主要是驗證數據清洗轉換規則是否正確,假如不符合數據清洗的質量要求,就要改進清洗規則或調整模型參數,直到形成滿足數據清洗任務要求的清洗規則和模型。④清洗工作流:對數據源中的數據樣本執行數據清洗轉換規則。⑤干凈數據回流:數據清洗完成以后,將清洗干凈的數據替換掉原始數據源中的“臟數據”。

(3)數據清洗的規則

1)缺失值清洗。缺失值清洗處理有很多方法,一般按照以下四個步驟進行:①確定缺失值范圍:對每個字段都計算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略。②去除不需要的字段:清洗每一步均備份,或者在小規模數據上試驗成功再處理全量數據,可以避免刪除錯誤。③填充缺失內容:某些缺失值可以進行填充,方法有以下三種:a.以行業經驗或相關知識推測并填充缺失值;b.以同一指標的計算結果(均值、中位數、眾數等)填充缺失值;c.以不同指標的計算結果填充缺失值。④重新取數:假如某些指標非常重要而缺失率又很高,那就需要和取數人員或相關業務人員了解,是否有其他渠道可以取到相關數據。

2)格式內容清洗。假如數據來源于系統日志,通常格式和內容方面會與元數據的描述一致。而如果數據是來自于人工收集或用戶填寫,則很可能在格式和內容上存在一些問題。大多數情況,格式內容問題有以下幾種類型:①時間、日期、數值、全半角等顯示格式不一致。此類問題一般與輸入端有關,在整合多來源數據時常常會遇到,將其處理成一致的格式即可。②內容中有不該存在的字符。某些內容可能只包括一部分字符,比如身份證號是數字+字母,中國人姓名是漢字(趙C這種情況還是少數)。最典型的情況就是頭、尾、中間的空格,有時也會出現姓名中存在數字符號、身份證號碼中出現漢字等等問題。以上這類情況,需要以半自動校驗半人工校驗的方式找出問題,去除不需要的字符。③內容與該字段類型不符。例如監測日期寫了水質因子監測值,斷面名稱寫成了上報單位名稱等,都屬于這種問題??墒谴祟悊栴}的特殊在于:不能以簡單的刪除來解決,因為造成該類問題的原因可能是人工填寫有誤,也可能是前端缺乏校驗,還可能是導入數據時部分或全部列沒有對齊,因此要針對性地詳細識別問題類型。

3)邏輯錯誤清洗。這部分工作是去除根據簡單邏輯推理即可直接發現問題的數據,防止分析結果走偏。主要包含以下幾個步驟:①去重。建議把去重放在格式內容清洗之后,如果數據不加以清洗,多個空格可能會導致工具認為“陳丹奕”和“陳 丹奕”不是一個人,導致去重失敗。②去除不合理值。即去除邏輯上不符合常理的數據,如河流斷面位于浙江省內,上報方卻為江蘇某市,這種明顯不符合正常情況的數據就要么刪掉,要么按缺失值處理。③前后矛盾內容修正。有些字段是可以互相驗證的,例如:目標河流是III類水質,監測結果達標標準卻是IV類水質標準,這時候,要根據字段的數據來源判定哪個字段提供的信息更為可靠,去除或重構不可靠的字段。

4)非需求數據清洗。刪除字段的方法看起來簡單,實際操作起來可能會產生很多問題,例如:①把看上去不需要但實際上對業務很重要的字段刪了;②某個字段覺得有用,但暫時還不知道怎么用,不確定是否該刪;③一時失誤刪錯字段。

針對前兩種情況,如果數據量沒有大到不刪字段就沒辦法處理的程度,那么能不刪的字段盡量不刪。第③個情況,要做好數據的備份工作。

5)關聯性驗證。如果數據有多個來源,那么有必要進行關聯性驗證。例如,有河流的名稱信息,也有該河流上斷面的名稱信息,兩者具有相關性,那么要看一下,斷面是不是屬于該河流的,如果不是,那么需要調整或去除數據。

2.2 數據交換

(1)數據交換的概念。數據交換指在多個數據終端設備(DTE)之間,為任意兩個終端設備建立數據通信臨時互連通路的過程。

(2) 數據交換的流程。應用系統通過數據共享與交換平臺提供的接口接入應用系統所在中心的數據共享與交換平臺,實現和其他應用系統的數據交換。一個完整的數據收發流程如圖所示:

圖2-1 數據收發流程圖

(3) 數據交換的節點與方式

1)交換節點。水環境管理系統數據共享與交換涉及省市各級水利、水文部門等,每個節點均配備1臺數據共享與交換服務器,實現與其他數據節點的數據交換與服務。

數據共享與交換平臺為各個應用系統提供標準的API調用,不同節點上的數據共享與交換平臺間通過消息中間件實現數據交換。

數據共享與交換平臺需要交換的數據包括水位、流量、水質、工情、氣象和預警等信息。

2) 交換的方式。交換的方式有文件到數據庫、數據庫到文件、文件到文件、數據庫到數據庫等多種方式,對于各類數據的交換,數據共享與交換平臺應為相應的數據采集或應用系統提供統一的調用接口,保證所有數據都能交換到數據中心。

為保證數據交換的安全,數據共享與交換平臺需要支持多層次的安全及權限管理,如基于數字證書的安全連接認證;支持DES、3DES、RC4等加密算法;提供應用程序認證機制等。通過管理工具進行簡單的配置,無須編碼可以實現對關鍵業務數據的多層次的安全保護及用戶權限管理[3]。

3 結束語

本文重點解決了多源異構水環境數據共享交換中的數據清洗和交換的方式問題,根據數據特點分析了數據交換的節點和方式,設計了數據清洗和交換的流程。通過數據交換共享,有助于各級主管部門及時完整獲取水環境數據,提高監管效率。

主站蜘蛛池模板: 呦系列视频一区二区三区| 国产成人精品免费av| 在线欧美a| 亚洲福利网址| 国产精品人成在线播放| 91系列在线观看| 免费无遮挡AV| 久草国产在线观看| 91黄视频在线观看| 欧美日韩另类在线| 国产丝袜无码一区二区视频| 久久人搡人人玩人妻精品| 在线视频一区二区三区不卡| 精品久久人人爽人人玩人人妻| 国产另类视频| 亚洲日韩精品欧美中文字幕| 成人看片欧美一区二区| 性欧美久久| 国禁国产you女视频网站| 黄片在线永久| 婷婷综合色| 久久久久久久久亚洲精品| 97视频在线观看免费视频| 另类重口100页在线播放| 2021国产乱人伦在线播放| 美女啪啪无遮挡| 精品少妇人妻av无码久久| 无码视频国产精品一区二区| 天天色天天操综合网| 四虎精品黑人视频| 国产情侣一区| 一级毛片基地| 国产男人天堂| 国产女人在线| 一级高清毛片免费a级高清毛片| 国产女人在线| 亚洲综合第一区| 高清乱码精品福利在线视频| 成人午夜视频网站| 免费高清a毛片| 国产97视频在线观看| 成·人免费午夜无码视频在线观看| 国产精品性| 在线精品亚洲一区二区古装| 丝袜国产一区| 欧美精品一区在线看| 国产免费久久精品99re丫丫一| 热99精品视频| 特级毛片8级毛片免费观看| 一级毛片免费观看不卡视频| 国产成人综合亚洲网址| 四虎国产在线观看| 丁香婷婷久久| 国产一区三区二区中文在线| 97狠狠操| 亚洲人成成无码网WWW| 亚洲国产成人久久精品软件| 亚洲精品第五页| 又粗又硬又大又爽免费视频播放| 人妖无码第一页| 日本免费高清一区| 中文字幕日韩视频欧美一区| 色噜噜在线观看| 色吊丝av中文字幕| 四虎永久免费地址| 欧美亚洲一二三区| 国产香蕉在线| 毛片免费试看| 新SSS无码手机在线观看| 丁香六月激情婷婷| 亚洲啪啪网| 色偷偷av男人的天堂不卡| 五月婷婷综合网| 国产丰满大乳无码免费播放| 国产精品亚洲一区二区三区z| 国产精品性| 91精品国产一区自在线拍| 亚洲女人在线| 99热国产在线精品99| 在线色综合| 国产精品大白天新婚身材| 成人福利在线看|