楊 冬
(遼寧省水文局,沈陽 110003)
水文數據分析中應用數據挖掘技術的若干研究
楊 冬
(遼寧省水文局,沈陽 110003)
水文數據分析能夠有效的研究水文問題,但是由于數據得不到合理的整理,導致最終的預測結果存在著偏差性,數據挖掘技術能夠從大量的數據中提取出有用的數據,建立準確的模型,且整個預測過程比較簡單,系統的操作比較智能,能夠滿足實際的需求。文章分析了數據挖掘技術相關概念,并闡述了數據分析系統的實現與應用研究。
水文數據;數據挖掘技術;概念;應用
目前我國研究水域問題均是以水文數據為基礎,伴隨著城市建設的加劇,社會經濟的提升,大量的水文數據資料堆積,這些堆積資料的充分利用又是一個較難的問題,應用各類數據挖掘為水資源資料的管理和調度提供了科學依據。利用數據挖掘技術能夠從大量的數據中進行有效的分析、預測,再結合挖掘數據和水文的分析需求,建立了水文數據管理分析系統。
數據挖掘,顧名思義就是在大量堆積的數據匯總抽取有價值的信息,專業的解釋就是數據挖掘其實就是將數據庫的展開更深層次的應用,近而有效的提升對系統中數據資源的有效運用,通過對數據的分析探索出解決水利行業的各類問題的有效手段,以此確保我國水利行業穩定、高效的發展。
數據挖掘的流程,主要包括:①將問題定義,問題定義在整個過程中占據著重要的作用,眾所周知,數據挖掘就是發現更有價值的信息,在定義之前必須要清楚需求和目的;②將收集的數據預處理,根據問題選擇有效的數據,接著對數據進行轉換和整理,配備合適的算法;③建立起新的數據模型,確定了算法之后,結合實際的情況,建立出相應的模型;④進行模型評估,并將最后的結論進行解釋,若是建立的模型不符合相關的要求,就要返回之前的步驟,對數據的整理、算法的選擇、參數的調整這些步驟進行詳細的檢查,經過調整之后,重新建立起評估模型;⑤在實際的工作中運用模型,查看成效。
目前在水文數據分析中,應用最廣泛的數據挖掘技術主要包括4種,具體如下:①分類預測,在收集的數據中找出數據的類型,并根據類型建立模型;②關聯分析,發現數據之間的關聯性,分析具備規則的數據和不具備規則數據之前的派生關系;③聚類分析,聚類分析主要指的是沒有任何指導的學習,該分析根據系統設定的規格對數據進行分類和聚集,針對那些不同類型的數據進行詳細的描述;④時間順序分析,表示不同數之間的信息,以及不同數據之間的關系分析,見該數據排成數列,接著對數列的變化趨勢進行分析。
2.1 系統的數據集成挖掘
數據集成挖掘是在系統的內部進行的,數據集成挖掘能夠實現數據移動,數據復制、數據擴展等問題的處理時間,集成數據挖掘功能主要是對數據管理的環境進行可靠的分析,挖掘的數據和模型都直接存放在數據庫中,對數據的整理和處理也比較方面。集成數據挖掘能夠自動運行,確保挖掘過程的自動化,減少數據到信息轉換之間的所需時間。為了便于理解,將集成數據挖掘系統的功能以及算法制作成表格,見表1、表2。

表1 為水文數據集成挖掘系統功能對比表格

表2 為集成數據挖掘功能算法列表
BIEE主要是承擔數據分析應用、顯示工作,BIEE數據模型能夠進行無縫連接,通過連接將各個數據的來源進行整體的構架,具體的構架信息如圖1所示。從圖中能夠看出BIEE構架中BI Server是整個操作的核心,BI Server主要是管理數據模型(包括數據的整合、數據的后臺服務)。從屋里層面分析。數據模型的建立并非固定,能夠建立起多種不同來源、不同類型的數據模型,雖然BI Server無法對數據進行儲存,但是卻能夠為其他儲存系統顯示數據的來源、定義,業務邏輯層面主要是將數據模型(形式主要是雪花、星星的形式)抽象出來,接著對數據模型進行層次、量度的設計,需要注意的是業務邏輯不會有改動,且不同物理層之間的數據也不會相互影響。

圖1 BIEE構架示意圖
2.2 系統的實現和應用
1)數據的獲取。
首先要收集水文監測站的歷史水文數據、各個水文站點的聯系方式,同時對整體的數據進行分析,提供有用、可靠的挖掘對象。
將所有的數據進行預處理之后,對數據的空值、噪音值、重復值等進行檢查,預處理方式能夠從以下幾點入手:首先要檢查重復率,將數據中出現重復的及時刪除;針對數據中出現的大規模的空值,通過采取15日均值的方式來填充空值,超過5天的單不超過1月的空值,要采取5年內的同期平均值填充。
2)建立模型。
根據數據源中數據之間的相關關系,數據的挖掘流程,采取定義問題發現水位之間的關系模型,對平臺中的數據采取數據集成挖掘的方式,接著按照定義挖掘要求再次挖掘數據,定義挖掘數據的具體的挖掘流程如圖2所示。

圖2 定義數據挖掘方式結構示意圖
數據模型中模板的作用主要是篩選和替換數據極端值,剔除一些噪音數據和無效數據,通過采用GLM和SVM算法,其他的均使用默認值。在建立模型的過程中,其中整體數據中60%作為模型訓練數據,40%作為模型評測數據。主要是評測量模型質量以及檢測的精準度。在模型的應用獲得預測的結果之后,系統中的AWM工具將會建立起兩個數據立方體,數據立方中的GLM回歸模型平均預測精準度必須要達到85.372%以上,AVM回歸模型的平均預測精準度必須要達到87.444%以上,因此挖掘數據技術所得到的模型精度較高,能夠充分滿足需求。
3)數據效益。
建立的兩個數據立方體中(包括:水位數據、預測數據、觀察數據),BIEE數據模型的物理層包含了數據庫連接信息的連接池;業務邏輯層主要是在物理層的基礎上,對業務用戶進行更加多維度的組織,度量各個監測站的水位、平均水位、預測水位等,建立時間維表;展現層是在定義層和邏輯層的基礎上進行的,主要是將一些非重要信息(字段描述、邏輯描述)刪除、保留重要的信息內容及數據。
為了使得展示模型預測信息和水文的統計結果,利用BIEE制作水文回歸模型預測信息匯總查詢表,水文曲線圖(主要指的是預測水文、實際水位),水文站的歷史信息圖等資料制作成表格,按照圖形的形式呈現出來,將整體的數據及資料集中展示。
水文數據分析在水文工作中占據著重要的意義,但是由于數據得不到合理的整理,導致最終的預測結果存在著偏差性,數據挖掘技術能夠從大量的數據中提取出有用的數據,建立準確的模型,且整個預測過程比較簡單,系統的操作比較智能,能夠滿足實際的需求。
[1]尹濤,關興中,萬定生.數據挖掘技術在水文數據分析中的應用[J].計算機工程與設計,2012(12):4721-4725.
[2]李學學.基于數據預處理和回歸分析技術的數據挖掘算法及其應用研究[D].蘭州:蘭州交通大學,2014.
[3]吳佳文.水文時間序列數據挖掘算法研究與應用[D].沈陽:沈陽農業大學,2011.
[4]王曉陽.水文監測系統研究與實現[D].西安:西安工業大學,2016.
[5]李宏偉.基于關聯規則的數據挖掘技術在中長期水文預報中的應用[J].人民珠江,2013(06):21-25.
P337;TP311.13
B
2017-08-20
楊冬(1968-),男,遼寧凌海人,大學本科,從事水文信息化管理工作。