駱 陽,張 旗
(1.浙江省氣象信息網絡中心,浙江杭州 310000;2.浙江省氣象服務中心,浙江杭州 310000)
在海量數據中,如何獲取對決策有利的有價值數據以及通過海量歷史數據來分析未來的發展趨勢等,已經成為數據分析領域的重要研究方向[1]。在這樣的需求背景下,數據挖掘技術應運而生。氣象數據[2]是一種時間序列數據,氣象數據挖掘是通過對氣象數據進行分析和挖掘,來發現其中的規律和趨勢,從而為氣象預測、氣象災害預警等提供支持和幫助的技術。當前領域涌現出了諸多優秀的研究成果,例如文獻[3]中提出的基于時間序列的體育產業數據挖掘方法,文獻[4]中提出的時間序列數據深度挖掘模型。但這兩種方法存在著樣本對于挖掘規則的置信度和支持度較低的問題,因此提出基于模糊關聯規則的海量氣象數據動態挖掘方法。
氣象數據中噪聲含量往往較高,為了有效去除噪聲,結合EMD和MIC設計時間序列數據去噪算法[5]。
1)對原始的氣象數據信號實施EMD 分解。具體步驟如下:
步驟1:假設Ht表示原始的氣象數據信號序列,根據Ht的波動特征確定全部局部極值點,將極值點均值n0(t)作為原始氣象數據[6]信號的均值包絡線。
步驟3:重復步驟1、2,在迭代l次后,新信號序列符合經驗模態分解的定義,則可以用式(2)表示Ht的一階經驗模態分解結果:
通過式(3)去掉其中的高頻成分:
步驟4:重復步驟1、2、3,獲取第二個經驗模態分解分量IMF2,t。不斷分解直至殘余分量fm,t等于一個常數或變成單調函數[7]。用式(4)表示最終的EMD 分解結果:
式中,m表示總分解次數。
2)對于噪聲含量比信號含量大的IMF 分量,將其稱為噪聲主導分量,反之則稱為信號主導分量。此時通過一個階數g就可以實現二者的區分。通過MIC 值確定g的取值:
3)確定g值后,對噪聲主導分量實施閾值處理,去除其中的高頻噪聲,文中選擇小波軟閾值函數進行主要噪聲成分的降噪處理[8]。
通過Sqtwolog 固定閾值準則來選取閾值,具體如式(6)所示:
式中,B表示待分析信號的對應序列長度;φ表示高斯白噪聲標準差。其中,φ是通過經驗小波系數求出的[9]。
4)假設pj表示濾波處理后的高頻分量,對信號主導分量與pj進行重構,獲取去噪后的氣象數據信號序列,如式(7)所示:
通過上述過程,能夠在保證不丟失有價值的信息前提下完成時序數據中噪聲的去除。
由于氣象數據序列跨度較長,存在不同程度的數值缺失問題,因此設計基于結合生成對抗網絡與時間指數的GAN-TRTI 缺失值補全函數,進行氣象時間序列缺失值的填補,使氣象數據變得更加完整[10]。
設計的GAN-TRTI 缺失值補全函數主要使用WGAN-GP 模型,該模型能夠提高收斂速度,避免發生陷入局部最優的問題,提升網絡訓練時的穩定性。將其與TRLSTM-AE 相結合在缺失數據集上對原始數據的分布進行學習,從而補全缺失值。該系統由判別器與生成器兩部分構成。其中,生成器由編碼器與解碼器構成,二者均由三層LSTM 網絡構成。在各隱藏層網絡中,LSTM 神經元總數大于輸出層、輸入層的神經元個數。生成器的數據生成過程可以用式(8)來表示:
式中,s()· 表示編碼器映射函數;表示預填補數據;q()· 表示解碼器映射函數;表示生成的完整氣象數據序列[11]。
在生成時,上一時刻的輸出和當前時刻的輸入共同構成生成器當前時刻的輸出,循環生成后,組合即得完整的氣象數據序列。
判別器由兩部分構成:LSTM 網絡與全連接層,其輸入為生成的補全數據,包括生成器生成的填補值與原始氣象數據中的未缺失部分,其最終輸入為各輸入值的真實概率。其損失包括對抗損失與梯度懲罰項。
通過GAN-TRTI[12]缺失值補全函數實施氣象時間序列缺失值填補的具體操作如下:
1)固定生成器參數,將x~ 輸入其中。
2)獲取生成補全數據后在判別器中輸入,實施二分類訓練。訓練時在數據缺失掩碼矩陣α中實施訓練標簽的采樣。當判別器能夠分辨輸入樣本的真假時,即可停止訓練。
3)訓練生成器。訓練時利用判別器判斷生成樣本的真假。首先固定判別器參數,串接判別器和生成器,構成聯合判別函數[13]。在函數中輸入預填充時序數據進行訓練。當判別器無法分辨生成數據的真假時,即可停止訓練。填補后的數據可以用式(10)表示:
至此完成氣象時間序列缺失值的填補。
結合模糊關聯規則[14]與粒子群優化算法[15-16]設計海量數據動態挖掘算法,實現海量氣象數據的動態挖掘。算法運行步驟具體如下:
2)計算種群C中各粒子的支持度Sj、置信度Cj,從而計算得出適應度Fj,則以下關系式成立:
式中,Sj(X?Y)表示第j個粒子的支持度;X表示規則的前項集;u表示事務項集的個數;Y表示規則的后項集;z(·) 表示判斷函數;Cj(X?Y)表示第j個粒子的置信度;Sj(X?Y)min表示最小支持度;Cj(X?Y)min表示最小置信度;Fj(X?Y)表示第j個粒子的適應度。
3)根據Fj(X?Y)更新種群與各粒子的最優歷史位置,分別用gb、wbj來表示。
4)對滿足Fj(X?Y)<1 的粒子執行MmO 變異操作,生成新的粒子群C′。
5)計算C′中各粒子的支持度、置信度、適應度Fj。
6)根據Fj更新C′中的gb、wbj,分別用來表示。
7)獲得新的粒子群:C"=C?C′。
9)消除C"內的重復粒子,在規則集中消除重復規則。
10)確認是否能夠終止。當可以終止時,直接結束算法,輸出數據動態挖掘結果;當無法終止時,更新各粒子的速度和位置,拉回搜索空間外部的粒子,返回步驟2),直至達到終止條件。
利用設計的基于模糊關聯規則的海量氣象數據動態挖掘方法在實驗數據集中挖掘關聯規則數據,以此測試所提方法的性能。
利用基于EMD 和MIC 的時間序列數據去噪算法實施實驗數據集的去噪處理。接著利用基于結合生成對抗網絡與時間指數的GAN-TRTI 缺失值補全函數實施實驗數據集的缺失值填補。填補后實驗數據集的均方誤差達到0.12,說明達到了良好的填充性能。最后利用設計的海量數據動態挖掘算法實施溫度、氣壓、降水量之間關聯規則數據的動態挖掘。挖掘中的參數設置為:
初始種群粒子數5 685 個,加速因子2 個,最終設計方法挖掘到的規則數為230 條。
觀察設計方法的數據動態挖掘性能表現,包括測試樣本對于挖掘規則的平均置信度與平均支持度等挖掘結果。
在測試中,為取得更好的實驗效果,將時間序列數據深度挖掘模型與基于時間序列的體育產業數據挖掘方法作為對比方法,共同進行性能測試,并分別用方法1、方法2 來表示。
對于三種方法來說,樣本對于挖掘規則的平均置信度和平均支持度測試數據如圖1、圖2 所示。

圖2 平均支持度
根據圖1 測試結果,在設計方法的挖掘結果中,樣本對于挖掘規則的平均置信度較高,在后期平均置信度呈現出平穩的態勢,穩定在92%左右。而方法1、方法2 的平均置信度相對設計方法低,最大置信度也比設計方法低,隨著挖掘的規則數不斷增加,其平均置信度也不斷降低,以此證明這兩種方法的數據挖掘效果并不好。
圖2 測試結果表明,在設計方法的挖掘結果中,樣本對于挖掘規則的平均支持度與最大支持度均高于兩種對比方法,說明設計方法的動態挖掘性能更好。結合平均置信度的測試結果,進一步證明了設計方法有著優越的挖掘性能。
文中利用模糊關聯規則與粒子群優化算法,實現了對海量氣象數據中關聯規則的動態挖掘,并取得了一定的研究成果,同時也有助于后續數據處理與分析。然而,由于時間和精力有限,所取得的研究成果較為初步,今后將對該方法進行更深入的細節研究。