黃朝輝
(莆田學院 信息工程學院,福建 莆田 351100)
隨著互聯網、移動互聯設備以及計算機的廣泛普及我國進入了4G時代,信息化時代的特征也更為突出.人們能夠非常容易地存儲、獲得、管理、分析、輸出數據,從傳統以獲得數據為目的,逐漸轉變到如何更好地獲取其中對自己有價值的信息.數據挖掘的英文拼寫是Data Mining(DM),它強調分析數據,從而更好地挖掘出具有潛在有價值的信息、技術、知識以及其他相關需要.數據發掘也體現為一種決策過程,它建立在數據庫技術、機器學習、信息檢索、統計學、可視化、模式識別、知識獲取、高性能計算機、知識庫系統、神經網絡、人工智能以及統計學等先進技術的基礎上,這些技術的發展也會對DM技術的發展產生直接的影響.
從當前大部分的數據分析方法來看,整體上仍然屬于統計學習方法、仿生物學方法以及機器學習方法等三大類中的其中一種或者多種方式的綜合.而且這些方法也有著各自的缺點和優點,因此在處理具體的數據挖掘問題時,要挑選最為適合的技術.如果數據挖掘系統比較復雜,通常都會運用多種類型的數據挖掘技術.
1.1 統計學習方法
在人類最初開始處理數據時,就是運用人工方法來開展統計分析,這種方法在數據挖掘范圍內有著長期的應用傳統.在數據分析過程中,可以運用統計來研究事物的外在數量以及表現,從而判斷某事情的潛在規律.在解決機器學習問題的過程中,傳統的統計方法依舊起到了至關重要的作用.重點討論漸近理論,也就是在樣本趨向于無窮多的過程中所具備的統計性質.而且它緊緊依靠顯式的基本概率模型,最為常用的分析方式為回歸、主元、聚類、主元以及相關分析等方式.
1.2 機器學習方法
從目前研究來看,機器學習方法仍然是重中之重,而且獲得了較多的研究成果.從技術運用來看,主要可以分為下面兩類:基于決策樹以及基于決策規則的技術.
1.3 仿生物技術
遺傳算法以及神經網絡方法是最為典型的仿生物技術,這些都已經變成了相對獨立的研究系統,極大地促進了數據挖掘的發展.從神經網絡來看,它能夠模擬人腦所特有的神經元結構,在Hebb以及MP學習規則的基礎上形成了前饋式、反饋式以及自組織等網絡.前饋式網絡被用來模式識別以及預測,反饋式網絡專長于優化計算以及聯想記憶,聚類研究中運用最多的是自組織網絡.
從遺傳算法來看,它是依據自然進化原理而形成的優化措施.在求解時最好借助彼此組合以及最好解的選擇.遺傳算法在數據挖掘過程中可以被用來形成變量之間的依賴關系的有關假設.
隨著信息技術的不斷發展,數據挖掘技術亦得以出現和發展,它的數據庫規模比較大、計算能力較強、計算方法非常科學,而且還能夠滿足不斷升級的商業需求,這些因素共同催生了信息挖掘技術.這意味著能夠從數據庫以及其他信息庫或者數據倉庫中,挖掘出對研究有用的數據信息.自從Ziarko提出變精度粗糙集模型,相關研究者也將變精度粗糙集模型引入到數據挖掘領域.粗糙集理論在處理噪聲數據方面的能力得到了極大的提升,而且大量的國內外學者也不斷地開展這方面的理論研究,并且將其運用在數據挖掘實踐中.從這個方面來看,變精度粗糙集模型很好地發展了粗糙集理論.此研究領域的重點在于變精度粗糙集模型中的知識約簡理論、方法、如何確定精度值、模型應用以及推廣等.
2.1 變精度粗糙集模型中的精度值的確定方法研究
從這個模型來看,精度取值能夠很好地提取近似分類的確定性規則以及質量.Su等在這個領域中提出一種能夠界定精度值的手段.吉陽生等研究者也研究出一種增量計算值的方式,這種方式能夠選擇合適的值,而且還呈現出動態增量的特征,極大地降低了計算開銷.周愛武等學者則提出了在界定近似分類質量情況下的取值范圍的方式,依據近似分類質量,可以運用不同方法來有所區別地查找正確分類率的集合,從而較快地明確查找范圍.
2.2 推廣變精度粗糙集模型
鞏增泰等在研究一般關系下的多數包含關系情況下,還提出了一種類型即一般關系下的變精度粗糙集模型.Zhao等很好融合了模糊粗糙集模型與變精度粗糙集模型,在此基礎上提出了模糊變精度粗糙集模型.Wang等討論了不完備信息系統,重點研究了變精度粗糙集模型中基于非對稱相似關系以及容差關系的性質.顏錦江等討論了在不完備信息系統中以相似度為基礎的變精度粗糙集模型,而且還提供了求約簡的有關算法.
從數據挖掘方法、任務等來看,存在著多種選擇,而且還存在著大量頗具挑戰性的研究課題.從數據視角來看,噪聲、缺失、冗余、海量和動態等相關數據等,這些問題都有待于進一步完善以及解決.從數據挖掘手段來看,相關算法要具備高效性以及可擴展性,運行時間必須具備可預測性以及可接受性.從數據挖掘語言的設計來分析,必須要開發具有效率較高、實用性強的數據挖掘系統.
從當前數據挖掘的研究現狀以及應用現況來看,建立以交互、集成為特征的數據挖掘環境,以及如何運用數據挖掘技術,科學快速地處理大型的應用問題,都是它亟需面對的挑戰.本文從以下角度分析了數據挖掘在今后的發展趨勢,而且還具體地提出了應對問題的相關策略.
3.1 可伸縮的數據挖掘方法.這種方法要具備高效處理海量數據的能力,而且人們希望這種技術具有交互式特征.為了更好地處理劇增的數據信息,開發出針對單獨以及集成的具備可伸縮的數據挖掘功能的算法就意義重大,其中的一個關鍵方向就是建立在約束基礎上的挖掘.它不僅能夠強化用戶交互環境,而且還能夠科學地提升數據挖掘、處理的整體效果.同時還為用戶提供了可供選擇的控制方法,允許使用約束以及用戶說明,從而引領數據挖掘系統搜索自身所感興趣的相關模式.
3.2 適應多種類型、克服丟失以及噪聲的相關挖掘方式.在信息化時代,數據挖掘的對象不僅涵蓋了關系數據庫模型,而且還囊括了分布、異構等在內的多類型數據庫,因此要開發出能夠適用于多種類型,而且能夠防止數據丟失以及噪聲現象的新的挖掘方式.
3.3 重視專業知識引導以及專家參與.在數據挖掘過程中,知識校驗、限定挖掘范圍、排除冗余、專業知識的引領都是不可或缺的.這樣就能夠很好克服基于非常有限的數據挖掘工具的人機交互能力,而且還能夠充分地運用專家學者的專業背景知識.
3.4 注重保護數據挖掘中的隱私以及信息安全.隨著電信、網絡數據挖掘工具的廣泛普及,數據挖掘要注重保護客戶的隱私,而且要實現信息安全.這就要開發出更好的方法,在適宜的信息訪問以及信息挖掘過程保護客戶的隱私以及信息安全.
4.1 針對海量數據的問題,在基于變精度Rough集理論中,可以綜合地分析集合正域的概念和由此定義的屬性等重要概念,構建了數據表分解的相關方法.信息理論領域的信息嫡概念可以被用來驗證從分解而獲得的樹型結構,而且還證明了這種分解方式的科學性和有效性.它不僅能夠提升計算速度,而且也不會損失信息量,對當前所運用的各種規則歸納算法來講,都能夠很好地運用在這種樹型結構上.
4.2 多次搜索數據表的問題,在關聯規則挖掘中,需要多次搜索數據表,文章認為可以運用變精度Rough分析的等效類概念,從而提出一種基于單維布爾關聯規則的挖掘方式,在整個數據庫中搜索頻繁項集時,只進行一次掃描就可以完成目標,從而科學地提升算法效率.考慮到存在單一的最小支持度閥值的缺陷,可以針對不同交易,科學地設定有所差異的最低交易頻度.此外,還要根據各項交易的交易頻度來決定關聯規則的最小支持度閥值,在此基礎上,能夠產生大量的多個最小支持度閥值,從而使計算結果規則的集合更為科學、精練,也能夠涵蓋較多的有意義規則.此外,還可以設置給出評價規則的興趣模板度量方式,從而找到更能吸引人們的相關規則.
4.3 為了彰顯出在規則挖掘過程中的條件屬性間的相互關系,可以運用因子分析技術對條件屬性分組,而且各項屬性類內部的條件屬性與有關的因子線性密切相關,全部因子都是目標概念的線性組合.可以依據屬性或者屬性類來判斷能否和相互對應的目標概念或因子呈現強相關,可以引入信息嫡評價方式,從而科學地選擇屬性,選擇那些和目標概念有關的屬性.此外,還要將此種屬性消減方法用在以變精度Rough分析為基礎的分類器設計方面,從而可以依據在分類時通常會出現的多(無)規則匹配問題,分別提出兩種不同的匹配函數,從而科學地預測未知目標概念的對象.4.4 缺失數據填補以及和重復數據發掘,在數據預處理過程中,這兩項問題非常重要,文章提出借助變精度Rough集理論來預測己知數據,從而填補缺失數據,也能夠在很大程度上提升預測精度;而且還可以借助數據表分解技術,發現大型數據表中的重復數據,減少查找重復數據的時間和工作量.
在概述了數據挖掘技術方法、技術以及研究現狀的基礎上,文章分析了在數據挖掘研究中所遇到的技術難題以及今后的發展趨勢.同時提出了在不完備信息系統下變精度的限制容差關系模型,并通過理論分析和實例計算驗證其對不完備信息系統下的等價類劃分更合理;在完備信息系統的條件下,首先分析了變精度粗糙集下的近似約簡算法和分布約簡算法,然后針對兩種約簡的優缺點,提出一種改進的近似約簡算法,并通過理論分析和實驗結果來驗證其在時間復雜度和有效性方面的改進,以期為基于變精度粗糙集的數據挖掘方法提供有益的參考.
〔1〕中華,吳成東,趙貞麗,張娜.一種基于變精度粗糙集模型的數據挖掘方法[J].科技廣場,2007(07).
〔2〕張東星,苗奪謙,李道國,張紅云.基于數據庫系統的可變精度粗糙集模型[J].計算機科學,2005(12).
〔3〕倪嘯,蔡瑞英.基于變精度粗糙集的信息系統數據挖掘應用[J].微電子學與計算機,2009(04).