胡麗娜
(黑龍江工業學院,黑龍江 雞西 158100)
隨著互聯網技術的發展,龐大數據中隱藏著很多價值信息,為了在大量的數據中找到其存在的規律,技術人員必須采用數據挖掘技術,從而有效預測未來的發展趨勢。氣象數據在國民經濟建設與科學研究過程中具備十分重要的價值,應用十分廣泛,可為基礎的地面與高空氣象提供更多的參考資料,且很多災害資料與雷達氣象資料中蘊藏著氣象規律,可有效預測氣象。因此,在提取價值氣象數據的過程中,應用云計算與關聯規則挖掘技術具備十分重要的作用。
當前對云計算并未形成公認,其具備高度可靠性、虛擬性、可拓展性、分布性以及資源聚合性等特點。基于云計算主要指的是結合各個服務器的資源,通過虛擬技術將開發的服務與網絡計算擴展至每一個服務器,從而實現超級計算的功能。當前關聯規則挖掘技術應用十分廣泛,其可以有效發現事物數據庫各個屬性之間的關聯,隨著關聯規則挖掘技術的深入研究,工作人員改進優化了技術算法,包括FP-Tree 算法等。
在本次研究中,首先,技術人員準備硬件與軟件環境,并開始進行算法實驗。第一步應利用一個磁盤與兩臺服務器搭建實驗環境,且實驗采用三節點集群方式,利用weiUbuntu 12.04 版的操作版本,并在服務區中采用虛擬3臺PC 機。同時,應在Hadoop 平臺版上搭建集群,且采用完全分布模式搭建Hadoop 環境,并在后期考慮Hadoop 集群的裝備配置。具體步驟為:配置Hadoop 運行環境,并通過修改配置文件啟動或關閉集群。為了便于后期的開發與調試工作,在完成之后配置基于Eclipse 的Hadoop 應用開發環境,在實現遠程操作的基礎上,在Eclipse 集成環境中測試與編譯代碼,提升開發效率。整個過程中做好集成環境與插件類型的選擇工作,在完成準備工作后便開始部署Hadoop。第二步則開始進入正式的實驗階段,技術人員應做好數據的準備工作,利用中國地面國際交換站的氣候資料數據集尋找氣象數據局。平均風速、平均氣溫、平均相對濕度、降水量以及小型蒸發量屬于收集資料內容,應根據上述資料完成數據的挖掘與預測工作。同時,技術人員在遵循氣象數據關聯規則的基礎上,離散化相關數據,并將屬性轉化為布爾型,之后挖掘關聯規則。
其次,開始進行本次實驗,在使用Eclipse 平臺的基礎上利用Java 語言編寫FP-Tree,并將待挖掘的數據上傳至Ha-doop 分布式文件系統,做好相關文件的標注工作,之后找到運算結果。之后將挖掘數據進行統一,了解程序的運行狀態,在完成程序運行后通過保存的文件獲得試驗結果。之后改變各個參數反復完成試驗,提取獲得實際數據的挖掘結果,做好氣象數據的預測工作。同時,挖掘期間應考慮數據的大小問題,大數據為集群性測試的關鍵因素,為了確保算法結果的準確性,應在單機環境與分布式環境中完成大小不同數據的試驗工作,對相同數據進行支持度的試驗,對同組數據根據Mab 數大小的不同試驗。最后,應充分了解氣象數據中氣象結果的預測作用,在本次實驗中,技術人員收集了各種真實數據信息,但利用信任度與支持度的關聯規則挖掘無法有效判斷預測結果的真實性,對此還應考慮計算規則相關性問題,計算時間同時出現可能性與各個事件完全獨立性可能性的比例,當比例小于1 時,呈負相關,無意義。當結果等于1 時則代表事件相互獨立,當結果大于1 時,呈正相關,有意義。
當前我國氣象事業正處于不斷發展的過程中,對天氣預報具備十分重要的意義。對此,相關工作人員應利用云計算與關聯規則挖掘技術在海量信息數據中挖掘更多有價值的信息,提升算法效率,增強氣象數據的可用價值。本次研究雖然獲得了一定的成效,但依然存在很多亟待改善的地方,需要更多學者投入其中,完善理論與實踐基礎。