999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間序列分析的環境γ輻射劑量率數據預處理方法研究及評估

2023-04-29 00:44:03白帆李雪貞馬國學等
輻射防護 2023年2期
關鍵詞:環境

白帆 李雪貞 馬國學等

關鍵詞:數據預處理;環境γ 輻射劑量率;時間序列;特殊數據檢測;LSTM

中圖分類號:X830. 3 文獻標識碼:A

輻射環境質量數據來源于多種監測設備,由環境γ 輻射劑量率數據、氣象數據及各類監測數據等共同組成時序多元數據集。這些傳感器連續數據間隔時間短,因此在短期內數據規模極大且含有噪音,由于傳統的手工數據清洗方法成本高、效率慢,因此基于時間序列的數據預處理方法成為研究的熱點。

與此同時,特殊數據檢測也是數據挖掘的重要部分。特殊數據是指與其他數據分布有較為顯著不同的數據對象,也被稱作離群點,我們通常可以通過檢測離群點得知離群點產生的因素,精確的數據可以幫助我們更有效地對特殊數據進行檢測及分析,提高檢測效率。

早在19 世紀,統計學家就已經對檢測數據中的特殊數據值展開了研究,并隨著時間的推移,研究出多種基于統計的特殊數據檢測技術。常見的有3 倍標準差準則、箱線圖等傳統統計方法,以及由Box 和Jenkins 于20 世紀70 年代初提出的自回歸移動平均模型、由Facebook 提出的Prophet 模型等時間序列預測方法[1] 。隨著機器學習的不斷發展,許多基于傳統機器學習的方法被提出,例如基于二元線性的支持向量機、基于決策樹的隨機森林、基于距離的K-最近鄰、具有噪聲的基于密度的聚類方法、局部離群因子檢測方法等聚類模型[2] ,Dorothy Denning 在1986年提出了第一個入侵檢測系統的特殊數據檢測模型,通過機器學習來進行特殊數據檢測的方法被廣泛應用。而當前主流的特殊數據檢測算法通常基于深度學習技術,按照使用的監督信息可以分為有監督方法、無監督方法、半監督方法。例如自動編碼器、生成式對抗網絡[3] , 長短期記憶網絡[4] (LSTM) 等。有監督模型通常根據現有特殊數據標簽學習,對數據更為精確地進行預測分類。由于LSTM 具有學習長期依賴關系的能力,可以更好地適應多元時間序列數據,本文主要探究有監督LSTM 的特殊數據檢測模型。

本文涉及的數據類型包括γ 輻射劑量率數據及氣象數據,以某地區某時段γ 輻射劑量率的逐時數據為例,研究數據預處理方法對特殊檢測結果帶來的影響,將詳細介紹使用到的數據預處理技術,包括:輻射劑量率數據和氣象數據的解析、數據頻率的轉換、時序數據去噪、劑量率數據及氣象數據的完善、數據標準化處理等,并利用基于LSTM 的有監督特殊數據檢測算法對數據預處理的結果從準確率、精確率、召回率、F1-分數方面進行評估,進一步提升輻射自動監測數據的篩選與優化。

1 數據預處理

為確保γ 輻射劑量率數據反饋的準確性,更加可靠真實地反應地區輻射環境水平,我們從數據的分析目標出發,通過探究數據分布、應用數據去噪、數據清洗及數據變換等數據預處理方法[5-6]消除原始數據中可能存在的測量噪聲等造成的誤導監測,為最終算法提供優質數據,使得其成為使算法發揮最佳性能的必要部分。

1. 1 數據分析

監測傳感器數據是時間序列數據的典型實例。對數據進行統計學分析,通過計算平均值、標準差、峰值、偏度等統計值和數據正態分布的擬合情況來了解輻射劑量率數據的統計特征及分布狀態,以便于根據數據特性選擇合適的數據預處理方法,并分析時間序列數據背后隱藏的信息,理解序列模式的行為。

1. 2 數據集成

1. 2. 1 合并劑量率數據與氣象數據 根據氣象探測器與劑量率探測器地理位置坐標,將同一區域的氣象監測數據與劑量率監測數據對應時間索引相結合,完善數據,便于結合劑量率與氣象數據相關性進行分析及數據挖掘。

1. 2. 2 填充時間序列

檢查時序數據是否為等間隔數據,依據原始數據時間索引間隔(30 s) 填充時間戳,缺失數據用空值暫時填充,刪除重復時間戳。

1. 3 數據清洗

1. 3. 1 改變變量類型

時間序列是一組按照時間發生先后順序進行排列的數據點序列。本文所處理的數據均基于時間序列,這里將原始數據索引規范為時間序列,并對變量(劑量率、電池電壓、γ 輻射監測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨) 的數據類型進行轉換,其中濕度與風向屬于離散變量、感雨為分類變量(二值變量)、其他均為連續變量,為便于對數據進行分析及后續檢測工作,統一轉換為浮點數。

1. 3. 2 規定數據范圍

本文所使用到的數據集為輻射劑量率數據與對應同步時間的氣象數據,由于人為因素及自然因素均會引起劑量率數值的變化,因此在對于劑量率變化的分析研究中,可以將監測器數據及氣象數據視作變量,即電池電壓、γ 輻射監測儀高壓、溫度、濕度、氣壓、雨量、風向、風速、感雨等。由于來源不同,因此獲取的時間無法簡單地同步,數據中可能會存在數據范圍不統一、數據存在少量缺失值等問題。因此,針對變量單位不統一造成的數值范圍不統一,需要依具數據變量的固定單位,對數據的數值范圍進行調整。

1. 3. 3 數據去噪

時間序列本身具有非線性和信噪比高的特點,采用傳統的高斯去噪、中值濾波等方法往往存在諸多缺陷。由于離散小波變換(DWT)在高頻信號降噪方面的應用廣泛,因此通常采用離散小波變換,選擇緊支撐、具有對稱性、與信號波形相似的小波對時序數據進行降噪[7] 。離散小波變換公式如下[8] :

式中, α 代表比例因子, β 代表定位因子, e(λ) 為連續時間信號并非離散信號。根據設定閾值,保留大于閾值的系數,再進行反向離散小波變換來重建信號,獲得降噪后的信號。

1. 3. 4 數據缺失值處理

根據本文實驗數據集的特性,對于部分相關性不強以及無關的特征值列,為保證分析的準確性,可以通過刪除法將其去除。對于剩余特征值的行缺失數據,若通過刪除缺失值的方式對缺失值進行處理,對原始數據的子集進行挖掘,很可能造成分析結果由于基于局部產生偏差。因此,我們主要采用基于填充技術的插補法,避免了刪除法的弊端,使得數據集中的重要信息得以保留。為保證插補值的準確性,從缺失數據時間間隔的限制、變量自身特性、變量間的相關性以及與時間序列的關系等不同方面出發,對行缺失數據進行填補。主要變量類型可分為以下三種:

(1)輻射劑量率數據:由于輻射劑量率與其他變量間存在關系,且與時序變動有很強的趨勢,因此我們可以優先采用冷卡填充的方法,選擇與缺失對象特征最為相似的第一個對象并進行填充,即在所有樣本中測量不同特征值之間的歐式距離進行分類,選擇與待填充樣本在特征空間中的1個最近鄰,再對剩余劑量率數據采用線性插值法進行填充。

(2)監測器數據:監測器數據由γ 輻射監測儀高壓及電池電壓組成。由于監測器數據與其他變量相關性較弱,因此基于電壓本身隨時間變化的特性,我們根據缺失時間點前后時段相鄰最近的數據,采用線性插值法對缺失時間點處的γ 輻射監測儀高壓及電池電壓進行填充。

(3) 氣象數據:氣象數據由溫度、氣壓、濕度、雨量、感雨、風向、風速組成。由于變量間相關性較強,且隨時間波動,我們采用時序中最基本的就近插補法,替換缺失值為缺失時間點之前或之后最近的觀測值,對溫度、氣壓、濕度、雨量、感雨、風向、風速進行填充,再對剩余氣象數據采用線性插值法進行填充。

1. 4 數據變換

為了解決可能存在的站點數據采樣周期不統一、采樣周期過小而導致數據量巨大、采樣周期過大而研究過程需要更小采樣周期等問題,須依具研究需求將數據變頻為高級別或低級別周期,即降采樣或增采樣。為了控制數據規模,降低模型訓練開銷,提高運算效率,通常選用降采樣的方式。一般情況下降采樣有最大值采樣、平均值采樣和區域采樣及隨其區域采樣等。我們通過對比30 秒頻率數據采用平均值求采及最大值求采至5分鐘頻率數據后輻射劑量率的數據變化曲線,發現若劃分5 分鐘長度時間窗口進行數據平均會造成單點極大值在臨近時間段的平均,降低數據的明顯差異,因此,我們需要采用劃分5 分鐘長度時間窗口進行數據最大值的采樣方法以保證檢測長時間段內持續的特殊情況。

1. 5 數據轉換

由于不同變量的評價指標不同,具有不同的量綱,數據數值間的差別可能很大,為了消除指標之間的量綱和取值范圍差異對數據分析結果的影響,需要對數據進行標準化處理,即將數據按照比例縮放,使之落入一個特定的區間,以便于后期對數據的分析及處理。根據算法及模型的選擇,通常我們需要在數據預處理中或者模型中選擇不同標準化方法對數據進行標準化處理。常用的標準化方法主要有離差標準化,z-score 標準化等。

2 特殊數據檢測

LSTM 是一種特殊的遞歸神經網絡[9] ,由于具有長期學習依賴關系的能力,非常適合預測時間序列數據,也常被用于監測變量集體水平上的特殊數據檢測。LSTM 通過對訓練集數據進行訓練,按照固定時間步長生成預測器,來預測下一時間點的輻射劑量率特征,對預測誤差信號的分布概率進行估計,選取閾值,按照預測誤差區分正常數據與特殊數據[10] 。

如圖1 所示,LSTM 架構由LSTM 單元組成,每個LSTM 單元包含輸入節點、輸出節點及由許多智能節點組成的隱藏層。A 代表一個完整的LSTM 單元,接受序列當前時間節點的輸入向量xt ,輸出當前隱藏狀態向量ht , 并傳遞至下一單元[11] 。

每個LSTM 單元包含三個門,即遺忘門、輸入門和輸出門。這些門使 LSTM 網絡能夠不斷地重置、寫入和讀取單元格,可被表示為式(4):

3 性能評估指標

為了評估特殊數據檢測算法的性能,我們以算法檢測出來的正確樣本為主,平衡正負樣本關系,主要評估算法的準確率、精確率和召回率以及F1 分數。TP (True Positive) 表示真正樣本數,TN(True Negative ) 表示真負樣本數, FP ( FalsePositive)表示假正樣本數,FN (False Negative) 表示假負樣本數[8] 。

準確率(Accuracy) 是最為常見及直觀的評價指標,是全部樣本中被預測正確的樣本概率,對全部正負樣本結果中的預測準確程度,表達式為式(5):

4 實驗結果及評估

4. 1 數據集簡介

本文所用到的輻射劑量率及相關監測數據均由監測站點提供,所有站點均布設輻射劑量率連續監測設備及微型氣象站,提供γ 輻射劑量率數據及風向、風速、溫度、濕度、氣壓、雨量和感雨等氣象數據。數據時間范圍為2019 年1 月1 日0 時到2020 年1 月1 日0 時。另外,在特殊數據檢測實驗中,用到的測試數據來源于A 站帶人工標注標簽數據,數據時間范圍為2019 年1 月1 日0 時到2021 年1 月1 日0 時。

由于監測站點間地理位置差距較大,各監測站點本底劑量率數據存在明顯差異,某時段逐時輻射劑量率如圖2 所示。因此本論文對不同站點的數據分布狀態及數據情況進行了統計分析,表1為其中5 個監測站點輻射劑量率的分布情況,從中可以看出各站輻射劑量率監測數據偏度均大于1. 5,分布不對稱、形態偏斜、高峰陡峭,呈偏態分布。其中B 站輻射劑量率統計分布示例如圖3所示。

4. 2 數據降噪結果

小波分析庫PyWavelets 提供了眾多可供選擇的小波族, 例如Haar ( haar)、Daubechies ( db)、Symlets (sym)、Coiflets (coif)、Biorthogonal (bior)等。每個小波族下有不同的系數,共127 個小波基函數。其中多貝西小波(Daubechies Wavelet)是最常使用到的小波轉換,主要應用在離散型的小波轉換,通常使用在信號分析、信號壓縮跟噪聲去除。為保證通過離散小波變換(DWT)后的去噪結果仍保留原始時序數據的規律性等特性以及特殊數據的突出部分,我們選用db38 的結果進行去噪。圖4 展示出A 站某時段進行離散小波變換降噪后的劑量率變化與原始時序數據對比。可以看到,經過降噪后的劑量率變化曲線變得更為平滑,噪聲數據減少,可以更加明顯地區分正常數據與特殊數據,進而有效地避免了噪聲數據對特殊數據檢測效果的影響。

4. 3 實驗設置

在特殊數據檢測模型建模時使用A 站2019—2020 年帶人工標注標簽數據集(正常數據標簽為0,特殊數據標簽為1),按照0. 7、0. 15、0. 15 的比例將數據集隨機劃分為獨立的訓練集、測試集、驗證集。利用訓練集與驗證集建立模型并優化,通過測試集預測標簽結果與實際標簽從準確率、精確率、召回率、F1-分數方面進行評估。

LSTM 模型輸入數據為Z-score 標準化變換后的數據,輸入維度為:(樣本數量,時間步長,特征數量),將每個時間點的輸入當作該點數據全部特征的集合,即7 維向量,包含劑量率值、氣壓值、溫度值、濕度值、雨量值、風向值、風速值;時間步長設置為1,表示每個時間點的結果由前1 個時間點來進行預測。因此,模型的輸入維度為:(樣本數量,1,7)。

LSTM 模型激活函數為tanh,循環激活函數為sigmoid。通過RMSprop 優化器進行模型優化。為了讓模型可以快速收斂到最優解,且在訓練后期更加穩定,采用動態學習率在學習中進行調整。初始學習率設置為0. 1,當評價指標F1-分數在連續10 個epoch 后不再提升時,則減少學習率至原學習率的0. 1 倍, 直到學習率降低到最小值0. 001。

基于A 站預處理后帶標簽的數據訓練模型,通過網格搜索對RMSprop 學習效率等模型參數進行選擇。在實驗過程中,我們對模型的超參數進行調優,選擇隱藏層大小為256,設置batch 尺寸為128,epoch 數量為50。在模型對訓練數據進行訓練過程中,對每個epoch 通過F1-分數來評估模型在訓練集和驗證集上的性能,如圖5 所示。對訓練好的模型通過準確率、精確率、召回率、F1-分數來對模型進行評估。并且進行更精細的調優,例如嘗試不同數量的LSTM 隱藏單元等方法,進一步提高模型的檢測性能。

4. 4 性能評估

A 站2019 年某時段及該時段部分放大輻射劑量率數據預處理可視化如圖6 所示,可以看到,預處理后的數據對缺失數據進行了有效填充,且保留了原頻率時序數據波動特征,平滑了劑量率時間序列曲線。

同時,基于A 站2019—2020 年帶人工標注標簽數據,我們通過對特殊數據算法的評估,研究數據預處理步驟對基于LSTM 特殊數據檢測算法性能的影響,實驗結果列于表2。該表為LSTM 二分類模型5 次運行結果的平均表現,通過表2 可以得出,原始數據在經過數據清洗、數據變換后,應用LSTM 模型后的準確率、精確率、召回率及F1-分數均存在提升,其中精確率、召回率與F1-分數提升幅度較大, 分別提高了58. 8%、237. 3%、176. 6%。

為了進一步探究數據預處理是否會對特殊數據的預警產生影響,實驗將原始數據及預處理后數據分別通過檢測模型,對比得到的特殊數據與實際人工標注的特殊數據,并基于時間序列繪制經模型檢測出的輻射劑量率特殊數據散點圖,如圖7 所示。圖中,以測試集中人工標注的特殊數據為標準,對模型檢測出的特殊數據與人工標注的特殊數據重合點比例進行放大,可以更直觀的展示出,經預處理后的數據相較于原數據帶入模型后,檢測出的正確特殊數據更多,更為精確。我們不失一般性地選取一組不同輸入的模型檢測結果(即測試集的原數據與預處理數據分別輸入模型后檢測出的特殊數據),并將它們與測試集中的人工標注特殊數據進行比較,檢測出的特殊數據關系如圖8 韋恩圖所示。在測試集30 711 條數據中,人工標注的特殊數據數量為3 967 條,原數據輸入模型后檢測出的特殊數據數量為2 338 條,正確檢測出特殊數據共1 140 條,精確率為28. 74%,召回率為48. 76%;預處理數據輸入模型后檢測出的特殊數據數量為4 329 條,正確檢測出特殊數據共2 492 條,精確率為62. 82%,召回率為57. 57%,明顯優于原數據作為模型輸入數據得到的檢測結果, 通過評估此組模型不同輸入的檢測結果,可以看出經預處理后的數據更適合作為檢測模型的輸入數據,檢測效果更好。另外,預處理數據與原數據輸入模型后檢測出的特殊數據重合率占原數據檢測結果的64. 97%,其中88. 51%為正確檢測出的特殊數據,表明數據預處理并不會降低預警的靈敏度。因此,我們得出結論,數據預處理可以有效地提高數據質量,且數據預處理并不會對特殊數據的預警產生影響。

5 結論

本文介紹了基于時間序列分析的數據預處理步驟,包括數據統計分析、數據清洗、數據變換及轉換處理,并對環境輻射劑量率數據集進行了數據預處理及特殊數據檢測實驗研究,通過無預處理的原始數據及預處理后的輻射劑量率特殊數據檢測結果進行評估,結果表明,經過預處理后的數據應用于LSTM 特殊數據檢測模型后,在準確率、精確率、召回率及F1-分數方面都有所提高,這說明應用適當的預處理可以有效提高特殊數據檢測結果及數據質量,為后續數據挖掘及特殊數據分析提供有力幫助。在后續研究中,我們可以通過多個方面對數據預處理方法進行優化,其中,對缺失值的處理是影響數據預處理效果的重要部分,我們可以根據經驗及多次實驗增加更為細化的填充規則,例如,設置更為準確的缺失值填充方法的時間間隔限制,采用不同的機器學習及時間序列預測方法等。

猜你喜歡
環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境與保護
環境
孕期遠離容易致畸的環境
高等院校環境類公選課的實踐和探討
掌握“三個三” 兜底環境信訪百分百
我國環境會計初探
中國商論(2016年33期)2016-03-01 01:59:38
主站蜘蛛池模板: 国产福利一区在线| 伦伦影院精品一区| 欧美特黄一级大黄录像| 亚亚洲乱码一二三四区| 日韩一区精品视频一区二区| 国产一区二区三区夜色| 香蕉eeww99国产在线观看| 91在线一9|永久视频在线| 91破解版在线亚洲| 精品一区二区三区自慰喷水| 91精品国产自产在线老师啪l| 国产成人啪视频一区二区三区 | 亚洲乱码精品久久久久..| 少妇高潮惨叫久久久久久| 婷婷色婷婷| 亚洲精品无码抽插日韩| 欧美天堂在线| 伊人久久大香线蕉aⅴ色| 四虎精品国产AV二区| 午夜爽爽视频| 成人夜夜嗨| 91精品专区国产盗摄| 无码网站免费观看| 毛片免费高清免费| av手机版在线播放| 亚洲欧美国产视频| 亚洲免费人成影院| 天天躁夜夜躁狠狠躁图片| 久久国产高潮流白浆免费观看| Jizz国产色系免费| 黄色片中文字幕| 欧美午夜在线观看| 精品国产自在在线在线观看| 好吊妞欧美视频免费| 青青草原国产免费av观看| 二级毛片免费观看全程| 免费无遮挡AV| 久久久精品国产SM调教网站| 国内精品小视频在线| 久久亚洲国产最新网站| 国内毛片视频| 手机精品福利在线观看| 在线va视频| 在线播放91| 国产精鲁鲁网在线视频| 亚洲视频a| 视频一区视频二区中文精品| 99re66精品视频在线观看| 色天天综合久久久久综合片| 波多野结衣中文字幕一区二区| 精品国产网站| 久久久久免费精品国产| 久久精品91麻豆| 性色在线视频精品| 日韩少妇激情一区二区| 亚洲色图欧美一区| 久久久噜噜噜| A级毛片高清免费视频就| 无码aaa视频| 亚洲黄色成人| 精品久久777| 伊人成人在线| 亚洲国产欧洲精品路线久久| 亚洲精品视频免费观看| 免费一级全黄少妇性色生活片| 国产性精品| 99爱在线| 国产高清不卡视频| 国产黑丝视频在线观看| 亚洲天堂啪啪| 毛片久久网站小视频| 无码中文字幕乱码免费2| 亚洲有码在线播放| 国产精品视频白浆免费视频| 四虎影院国产| 激情六月丁香婷婷| 99无码熟妇丰满人妻啪啪| 久久久久亚洲AV成人人电影软件| 国产成人免费高清AⅤ| 国产噜噜噜视频在线观看| 午夜毛片免费观看视频 | 亚洲中文字幕在线精品一区|