摘要:首先闡述了數據挖掘產生的背景、過程和一些常用的數據挖掘技術及方法,然后著重介紹其在北太平洋魷魚漁情中的應用。在該應用中采用關聯規則和人工神經網絡等數據挖掘技術,通過挖掘得出以下信息:支持度的不同決定北太平洋魷魚漁場影響因子的多少;產量與影響因子之間存在定量關系。
關鍵詞:數據挖掘;數據預處理;關聯規則;支持度;L-M算法
0 引言
漁情預報是對未來一定時期和一定水域范圍內漁業資源狀況的各要素以及可能達到的漁獲量所作出的預報。隨著計算機技術的廣泛應用,漁情預報技術進入了一個新的發展階段。目前漁情預報技術中,有的采用簡單統計方法對漁場進行定量預測,其預報方程比較單一,誤差相對較大;還有的則是綜合魚種特征和大洋特點來定性地確定出漁場,但沒有從定量的角度來確定出漁情。針對預報精確度的問題,筆者采用數據挖掘技術來對北太平洋魷魚漁情的預報作了進一步的研究,取得了滿意的效果。
1 數據挖掘技術的概念
數據挖掘是從數據集合中自動抽取隱藏在數據中的有用信息的非平凡過程。這些有用信息的表現形式為:規則、概念規律及模式等。數據挖掘技術可以幫助決策者分析歷史數據及當前數據,從中發現隱藏的關系和模式,進而預測未來可能發生的情況。
2 數據挖掘的過程
(1)確定業務對象
清晰明確地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。數據挖掘的最后結果是不可預測的,但對要探索的問題應該是有預見的,如果盲目地進行數據挖掘則是很難成功的。
(2)數據預處理
數據預處理對于數據挖掘的成功應用至關重要。IBM等咨詢公司已經證實了數據預處理需消耗整個數據挖掘過程中50%~80%的資源。如果沒有數據預處理階段,單純進行數據挖掘,將成為一個盲目搜索的過程,可能會得出毫無意義或錯誤的結果。數據預處理大致分為三步:數據集成、數據選擇和數據變換。
(3)挖掘知識和信息
要實現知識與信息的挖掘,首先要確定系統要實現的功能及任務是屬于數據挖掘中的哪種類型,然后選擇合適的挖掘技術,接著根據選定的挖掘技術選擇具體的算法——確定挖掘數據中隱藏模式的方法,用選定的算法或算法組合在模式空間中進行反復迭代搜索,從數據集合中抽取出隱藏的、新穎的規則、規律及模式。
(4)模式的解釋和評價
對數據挖掘發現的模式進行解釋和評價,過濾出有用的知識。具體包括消除無關的、多余的模式,過濾出要呈現給用戶的信息;利用可視化技術將有意義的模式以圖形或邏輯可視化的形式表示,轉化為用戶可理解的語言。此外還包括解決發現的結果與以前知識的潛在沖突,及利用統計方法對模式進行評價,決定是否要重復以前的操作,以得到最優、最適合的模式。
3 數據挖掘技術的主要方法
從不同的角度看,數據挖掘技術有多種分類方法,如根據發現的知識種類分類,根據挖掘的數據庫類型分類,根據挖掘方法分類,根據挖掘途徑分類,根據所采用的技術分類等等。
(1)關聯規則發現方法
關聯規則反映一個事件和其他事件之間的依賴或關聯的規律。如果兩項或多項屬性之間存在關聯,那么其中的一項屬性值就可以依據其他屬性值進行預測。最為著名的關聯規則發現方法是R.Agrawal提出的Apriori算法。關聯規則的發現可分兩步:一是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設定的最低值;二是從頻繁項目集中構造可信度不低于用戶設定的最低值的規則。

(2)人工神經網絡(ANN)
ANN模擬人腦神經元結構,以MP結構和Hebb學習規則為基礎,用神經網絡連接的權值表示知識,其學習體現在神經網絡權值的逐步計算上。目前主要有三大類神經網絡模型。①前饋式網絡:以感知機、反向傳播模型、函數型網絡為代表,可用于預測、模式識別等方向。②反饋式網絡:以Hopfield的離散模型和連續模型為代表分別用于聯想記憶和優化計算。③自組織網絡:以ART模型、Kohonen模型為代表,用于聚類。
4 數據挖掘在北太平洋魷魚漁情中的應用
4.1數據來源
研究所引用的數據來源于上海水產大學海洋學院陳新軍教授多年來有關北太平洋魷魚數據的積累。其中包括北太平洋魷魚漁場的表層溫度數據、垂直溫度數據、距歷史溫度值數據、鹽度數據和1995~2001之間的產量數據。
4.2數據預處理
一般通過生產實踐所獲取的原始數據是不完整的和不一致的,數據預處理技術可以改進數據的質量,從而有助于提高其后的挖掘過程的精度和性能。在原始數據中,可以看到表層水溫、垂直水溫、距歷史平均水溫、鹽度和產量之間的共同列是日期和經緯度,故此可以通過日期和經緯度為選擇條件將多個數據源集成在—起。通過數據清洗、集成和變換等預處理之后,將原來的百萬條數據歸約為僅有近千條數據。
4.3挖掘技術和算法的選擇
傳統方式上,漁場的影響因子大多數是利用綜合魚種特征、海域特點及專家知識定性地來確定,然后通過線性回歸等簡單的數學方法來粗糙地預報漁場的漁情。本文將運用關聯規則來定性地確定漁場的影響因子,通過人工神經網絡來定量預測漁情。
4.3.1關聯規則確定影響園子
關聯規則尋找給定數據集中數據項之間的有趣聯系。從預處理后得到的數據可以看出,經度的范圍在E145.15.00~E174.45.00、緯度N38.15.00~N44.45.00、距歷史溫度值-1.67~2.09、表面溫度6.26~21~94、垂直溫度1.402~22.208、鹽度0.0331~0.0347、深度在水下5~345m。
我們需要確定的是產量的漁場影響因子,問題屬于多維量化關聯規則的范疇。陳新軍[2001]指出在160℃以西漁場形成海域表層水溫一般為17~20℃,在160℃以東海域表層水溫一般為11~13℃且深度100米水溫為9~10℃左右的海域才能形成漁場。因此將維列細分為Il:E145.15.00~E160、12:E160~E174.45.00,13:-1.67~0、14:0—2.09、15:6.26~11、16:11~13、17:13~17.18:17~21.94、J9:1.402~9,110:9~10,111:10~22.208、112:0.0331~0.0347、113:產量,由此得出I={I1,I2,…,I13}。設定最小支持度閾值(rain_sup)和最小置信度閾值(min_conf),通過Apriori算法尋找頻繁項集,這些項集出現的頻繁性要滿足預定義的最小支持度。得出的頻繁集見表1。
然后由頻繁集產生強關聯規則,其中mm_sup和min_conf均由專家建議給出。
4.3.2人工神經網絡預測漁情
人工神經網絡是由大量的處理單元通過適當的方法互連構成大規模的非線性自適應系統。根據實際情況,本文采用改進的BP神經網絡對北太平洋進行魷魚漁情預測。一般BP網絡由輸入層、隱含層和輸出層組成,隱含層節點取s型函數(f(x)=1/(1+exp(-x)))輸出層取S型或線性函數。并采用糾錯規則進行學習的網絡。由于標準BP算法收斂速度等問題不盡如人意,故采用BP改進算法中的L-M算法。L-M算法在對分類問題、逼近問題的仿真結果的成功次數、迭代次數和平均時間上比BP標準算法和其他改進算法更理想。
L-M算法又稱阻尼最小乘法。在非線性問題的迭代求解過程中高斯牛頓迭代具有二階的收斂速度,L-M算法則在高斯牛頓法和最速下降法之間進行平滑調和,在遠離最小值處逐漸切換到高斯牛頓法。其公式描述如下:
W(k+1)=W(k)+Pk
Pk=-2(H+pDH)-1▽E(W(k))式中:H為能量函數、E為在w(k)處的Hessian陣。DH為對角陣,其對角元素為H。口E為E在w(k)處導數陣。μ的調KZ-dy法如下:
如果E(W(k+1))≥E(W(k))
否則μ=μ/10
選擇訓練表中由關聯規則得出的影響因子的維列和產量的數據作為輸入層的數據、輸入精度要求、隱含層的個數進行訓練,將訓練結果(權系數矩陣)進行保存,然后再調預測表中的相關數據進行預測。優化得出輸出與輸入之間的定量關系。試驗中采用4個輸入層節點,2個隱含層節點。
選取Sigmoid()(即s型函數)作為網絡神經元的激活函數,運算得到從輸入層到隱含層的權值矩陣。
5 結束語
基于北太平洋魷魚數據的數據挖掘技術能獲得如下信息:支持度的不同決定影響因子的多少;產量跟影響因子之間存在定量關系。
總之,通過數據挖掘技術的綜合使用,可以對北太平洋魷魚數據進行全面、深刻地分析,挖掘出潛在的產量模式。隨著信息技術的普及,數據挖掘技術在這一特定領域將得到更加廣泛的使用。