徐曉
(恩施職業技術學院湖北恩施445000)
對數據與信息快速有效地進行分析加工提煉以獲取所需知識袁是在面向全球劇烈競爭環境中的決定因素遙用知識作為創新的原動力袁就能使企業或者其他團體甚至國家長期持續地保持競爭優勢遙因此要能及時迅速地從日積月累龐大的數據庫中袁以及互聯網上獲取與經營堯生產和國家政策等決策相關的知識。
二十世紀九十年代袁隨著科技的進步袁數據量的迅猛增長袁數據挖掘技術迅速發展,多數據源所引發的各種數據格式不相容性袁人們將整個機構內的數據以統一形式集成袁并存儲在一起袁這就是數據倉庫[1]。
數據倉庫的出現袁除了能管理日常工作數據的數據庫袁更重要的是便于分析針對特定主題的集成化的和易變的的數據遙為更深入對數據進行分析提供條件袁并且能適應現實世界中數據的許多種屬性袁比如含噪聲堯巨量淵TB 級別冤堯非線性堯動態堯稀疏性堯缺失性和異質等等遙近年來袁數理統計技術方法堯人工智能以及知識工程等領域的研究成果院比如機器學習堯邏輯原件推理堯模糊理論堯神經網絡堯進化計算堯粗糙集理論和模式識別等等研究成果袁為不斷滿足這類要求的數據深度分析工具提供了堅實而豐富的理論和技術基礎遙數據挖掘系統的原型如圖1 所示。

圖1 數據挖掘系統原型
數據倉庫袁是在數據庫已經大量存在的情況下袁為了進一步挖掘數據資源和決策需要而產生的袁它并不是所謂的野大型數據庫冶袁其主要功能是決策支持系統和聯機分析應用袁主要特點是院固定的堯集成的堯面向主題的堯隨時間而變化的堯大容量堯匯總性堯非規范化的和冗余的[2]。
數據挖掘主要是在數據庫中發現有用而未發現的數據模式的技術遙數據挖掘和數據倉庫緊密聯系一起遙成功的數據挖掘的關鍵之一就是通過訪問數據倉庫里的正確堯完整和集成的數據信息袁進行深層次的分析袁尋找有益的信息。
數據挖掘的典型方法主要有院分類堯估值堯預測堯相關性分組堯關聯規則堯聚類堯描述堯可視化和復雜數據類型挖掘(Text堯Web堯圖形圖像堯視頻和音頻等)。
對于數據各個方法聯合起來實施袁必須形成一個實施方案袁也就是確定一種方法論和執行思路遙目前有多種方法論來指導數據挖掘項目的實施袁比較流行的有SEMMA 和CRISP。
徑向基函數淵Radical Basis Function袁RBF冤神經網絡是一種可以廣泛應用于模式識別和非線性函數逼近等領域的RF 神經網絡遙該神經網絡與其他前饋網絡相比袁其逼近能力更強袁而且全局最優的搜索效果更好袁同時模型具有結構簡單及學習速度快的優勢[3]遙建立RBF 神經網絡模型時袁可跟根據研究的實際問題選擇合適的拓撲結構袁并且具有強大的自適應和自學能力袁對非線性連續模型具有良好的逼近效果遙因此BRF神經網絡高效地進行大范圍的數據融合處理。
徑向基函數屬于非負線性函數袁具有對中心點徑向對稱衰減的特點遙該函數主要包括對稱點和基寬度2個參數袁前者是指函數基的中心點袁后者指的是大部分區域中可能出現的較為明顯的輸出效果。
RBF 神經網絡輸入層到隱層單元之間為直接連接袁隱層到輸出層實行權連接遙隱層單元的轉移函數是關于中心對稱的RBF淵如高斯函數冤袁而且RBF 神經網絡是3 層靜態前饋神經網絡。
RBF 神經網絡的訓練算法支持在線和離線訓練袁可以動態確定網絡結構和隱層單元的數據中心和擴展常數袁學習速度快袁比其他人工神經網絡算法表現出更好的性能遙隱層單元的分配可以根據訓練樣本的容量堯類別和分布來決定袁如采用最近鄰聚類方式訓練網絡。
自異操作數據庫中的數據是數據倉庫的重要數據來源。由于源數據中含有一些臟數據,如不正確、不完整或是冗余的數據。因此,數據在進入數據倉庫之前,需要先對源數據進行清洗,保留干凈和有效的數據。數據清理時通常通過提出數據噪聲,分析并刪除冗余數據,更正不一致的數據和漏值填補等操作來完成。清理之后的數據才可進入到數據倉庫中,用經過清洗的數據來作為神經網絡的訓練樣本,這樣可有效提高訓練效果[4]。
數據預處理指的是對4.1 中經過清洗操作的數據進行進一步的增強操作。該過程中會產生由一至多個字段組成的新數據項,因此需要用容量更大的字段替換原有的多個字段。然而輸入字段的個數并不是直接用于數據挖掘算法的信息量的大小。由于可能存在冗余數據,因此造成某些屬性只是同一個信息的不同表現方式。有些冗余數據是可以檢測出來的,然而有一部分卻很難被檢測到。進行冗余數據剔除時應在元組級進行。采用合適的數據組織形式將各個源數據集成在一起,可有效避免或者減少數據的冗余性,從而提高數據挖掘的質量。
根據2個或多個字段生成一個新的屬性是數據挖掘中的一個重要環節。數據的計算屬性是必不可少的,在事務處理中,相關的記錄信息應盡量少,從而減少容量要求,提高處理效率。例如可使用2個數據的和、差、積或是比值的形式表示,例如可將一個日期數據轉化為一年中的某一天。
在計算過程中,神經網絡模型不同的激勵函數適用于不同數據情況,因此應當嘗試各種激勵函數,并選擇最優模型,使之滿足數據處理的特殊需要。由于訓練數據可能具有不同的類型、或是不同的數量級,因此首先需要對數據進行歸一化處理,將數據變換到某一個區間內。歸一化之后的數據,接下來應當做正則化處理。對于可分組的數據,可將數據序列作為一個整體做正則化處理。正則化的常用算法是利用數據的平方根與數據本身做比值。
在進行數據處理時,通常需要將符號數據進行一次轉化后,在再利用好一定的法則將符號數據變化為數值類型。數據變化法則比較多,通常采用為了方便數據的組織,將不用類型的數據序列集中為一個單一的符號。將符號類型的數據映射為類層次數據后,還需要將符號類型的數據轉化為數值類型。因為利用神經網絡模型進行數據挖掘時,只能處理數值類型的數據。比較簡單的一種方法是將符號和數值進行一一對照。另外一種比較復雜的方法是采用哈希函數,可將不同的符號數據生成一個唯一對應的數值。
數據庫所存儲的數據大多都可簡單地歸結為3 種邏輯數據類型:連續數值數據、離散數值數據和符號數據。還有一些特殊數據,比如時間和日期,可以選用適當的函數映射成數值數據處理。
采用神經網絡方法進行數據挖掘與開發其實是為了使數據更符合預測,使得預測更加準確和有序。這就必須讓數據可控,對事物的發展趨勢變得更加敏感。
首先,需要對數據進行有效的組織和管理,可隨機將數據劃分為2個數據集,一個數據集用于對神經網絡進行訓練,使之學習數據之間的規律,達到較好的預測效果。另一個數據集用于測試神經網絡的訓練效果,可測試神經網絡的學習逼近能力。比較常用的做法是,采用歷史時間段的數據作為訓練數據,而將較新的數據作為測試數據。當數據量較小,無法有效對神經網絡進行訓練時,此時訓練數據不能采用隨機選擇的方法,而需要利用統計學的方法選擇具有較好代表性的樣本數據。
決策樹是一個類似于流程圖的樹結構,其中每個內部節點表示子在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹節點代表類或者類分布[5]。通過決策樹很容易轉換成分類規則。分類規則是在給定數據集中找出分成若干類的具體分類規則。主要有2 種基本方法:①基于符號處理的方法;②基于神經網絡的連接主義方法。
神經網絡可學習分類結果與數據屬性之間的聯系,從而總結出分類結果與數據屬性之間的函數關系,并以此為基礎建立分類決策樹。
RBF 神經網絡的訓練過程是一個不斷學習數據內在規律的過程,在訓練中,模型不斷調整網絡各層之間的連接權值以及各層節點的閾值。這一特性使得神經網絡具備強大的學習能力,模型不比預先知道數據的規律,而在訓練過程中學習得到數據的規律。神經網絡具備良好的非線性函數的逼近能力,研究表明,一個3 層神經網絡即可逼近任一連續非線性函數。因此在數據挖掘中,神經網絡是一種較好的數據處理方式。
[1]王鴻斌,張立毅.新型神經網絡的發展及其應用[J].忻州師范學院學報,2007(2):78-79.
[2]徐 圓,馮 晶,朱群雄.基于可拓理論的RBF 神經網絡研究及其應用[J].控制與決策,2011(11):144-146.
[3]魯紅英,肖思和.基于改進的遺傳神經網絡數據挖掘方法研究[J].計算機應用,2006(4):95-96.
[4]潘 笑,萬 敏.基于模糊神經網絡的數據挖掘方法研究[J].微電子學與計算機,2005(12):122-123.
[5]唐昌盛,曲建嶺.基于RBF 神經網絡的飛參數據預處理[J].計測技術,2007(5):74-76.