張莉
(合肥工業大學,安徽 合肥 230009;淮北職業技術學院,安徽 淮北 235000)
數據挖掘研究現狀及發展趨勢
張莉
(合肥工業大學,安徽 合肥 230009;淮北職業技術學院,安徽 淮北 235000)
隨著網絡技術的不斷迅速發展,大型數據庫開始不斷出現,而如何從大量數據中獲取有特定意義的知識成為了當前技術需要解決的重要問題,由此出現了數據挖掘這種新型的信息處理技術.主要從數據挖掘概念出發,介紹了數據挖掘中的幾種比較常見的處理方法的概念與特點;同時也詳細的總結了當前情況下在這一方面的研究現狀,并最終指出了該技術在未來幾年的發展方向.
數據挖掘;信息處理;發展方向
隨著信息時代的到來,科學技術不斷進步,網絡新技術不斷出現,社會生活中的各行各業都積累大量的數據,形成了大數據倉庫.而在這些有大量數據組成的大數據倉庫中需要通過利用一定的發現方法來對其中對企業或者社會的發展有意義的信息進行發現,以往的信息挖掘的方式一般通過信息檢索或者數理統計的方法,但是這樣大數據量的條件很難得到希望的結果,因此我們就迫切的需要可以自動地或者智能地把這些等待處理的數據信息轉換成為有意義的參考信息,而為企業進行決策服務[1].就是在這樣一種環境下,一種嶄新的技術即數據挖掘技術(簡稱DM技術)開始發展起來.
DM是一種涉及到多學科領域的信息處理技術,其不僅僅融合了數據庫的技術,同時也結合了許多當今時代最新的研究成果.本文主要對數據挖掘應用中采用的比較重要的算法及其缺點進行一一介紹,并對當前數據挖掘領域的國內外研究現狀進行了細致的總結與敘述,最終指出了數據挖掘領域的發展趨勢及主要問題所在.
簡單的說所謂的數據挖掘是指從數據信息倉庫中提取出有意義、能夠對企業決策提供參考的知識,而這一數據倉庫一般情況下會具有數據量大、含有噪聲、模糊、隨機等特點.利用圖形來表示數據挖掘過程如圖1所示.

圖1 數據挖掘過程
如上圖所示,其數據挖掘的過程主要包含的步驟是,首先進行在大量數據中進行目標數據的提取,在提取出有效數據之后,要對這些原始數據進行去噪等數據處理操作.之后對數據進行轉換處理,比如說連續的數據轉換成離散的數據,或者把離散的數據轉化成連續的數據;最終采用數學的或者非數學的方法對數據中存在的知識進行提??;在完成了知識提取之后,由于其最終面向的是客戶,所以必須對得到的知識進行解釋和評價處理.
現在運用在數據挖掘技術中的具體算法包含有神經網絡算法、決策樹算法、遺傳算法、關聯規則等算法,下面對這些具體的算法進行簡單的介紹.
2.1 神經網絡法
神經網絡法實際上可以認為是一種通過訓練學習得來的非線性預測模型,這一模型的建立是在對生物的神經系統結構及其功能的模仿的基礎之上的,這一模型能夠實現多種數據挖掘的任務,比如說數據分類分析、數據聚類、特定條件的數據挖掘等,其主要的學習方式在權值的修改上有著明顯的體現.利用神經網絡法的最為主要的特點就是具有較強的抗干擾性、適應范圍廣,另外一個較為顯著的優點就是有著聯想記憶的能力;但是也存在著一定的缺點,就是在處理高維變量過程中預測結果不會那么精確,也不可以直接查看其中間學習的具體過程.在實際應用中神經網絡法一般情況下應用于DM的聚類技術中[2].
2.2 遺傳算法
應用于數據挖掘過程中的遺傳算法是機器學習方法,這一方法是以達爾文的生物進化理論作為理論基礎.根據生物進化理論中的“適者生存”的思想,其最為突出的好處在于能夠處理幾乎所有形式的數據,而且也能夠采用并行的方式來處理不同形式的數據,并對數據具有較強的適應性;不足之處在于實現過程中所需的參數太多,編碼過程困難,計算量大等.在實際應用中一般用遺傳算法解決其他技術不能解決的問題.
2.3 關聯規則算法
關聯規則主要認為是發現事物與事物的相互依賴關系及其相互的關聯性.在對數據中的關聯規則挖掘過程中存在著2個重要的參數,即最小支持度以及最小可信度.從這一方面的數據挖掘的意義而言,數據挖掘的最終目的便是要從源數據庫中提取能夠符合以上提到的兩種參數要求的關聯規則[3].
3.1 國外研究現狀
知識發現(簡稱KDD)和數據挖掘(簡稱DM)在當今的這一方面研究領域中已經逐漸成為了最為重要的研究方向之一.知識發現技術的概念是在美國上世紀八十年代末一次人工智能會議上提出的.之后在二十世紀九十年代中期在蒙特利爾的第一屆知識發現與數據挖掘國際學術會議上,把數據挖掘技術的主要研究領域定為兩個方面,分別為科研領域的KDD以及工程研究領域的DM.并且從此以后的每一年都會召開一次關于數據挖掘技術研究領域的會議.到本世紀這一時期,對于數據挖掘這一方面的研究經過這么多年的努力,已經有了相當大的成果.就目前而言,國外的對知識發現方面的研究主要集中于理論、技術以及應用這些方面[4].
現如今,國外對DM方面的最新發展趨勢為對KDD的采用算法的更深入的研究.而在實際的應用中主要面向的客戶包含有保險公司以及大型數據庫的數據挖掘工具研發企業,截止到目前為止,對于數據挖掘方面的應用技術已經相當成熟,已經完成了許多具有較高應用價值的挖掘軟件. 3.2國內研究現狀
就國內在數據挖掘技術研究領域的發展而言,與國外相比,國內對此的研究起步較晚并且在很多方面發展緩慢,沒有形成較為成熟的理論或者技術.可以說就現在而言國內這方面的研究與應用還是處于發展階段[5].當前比較新的發展方向為以下幾個方面,首先在分類分析技術研究過程中,嘗試完成對相關的集合理論的整體體系進行建立工作,其建立的主要目的就是要對當前現存的海量數據進行處理;把粗糙集法以及模糊集法這兩個不同方面的理論聯系在一起應用在該技術中;構造基于數據挖掘技術的智能專家系統;根據相關概念對文本進行挖掘.
就現在而言,國內在這一方面的軟件產業相對來說還不成熟,原因在于專門對這方面進行研究的人員一般都存在一些具有研究能力的高等院校之中,這方面的項目幾乎都是政府的項目,由政府進行資助,而對成果的要求不夠嚴格,并且研究內容主要集中與DM的學習算法及其相關理論方面知識和實際應用.同時由于這方面研究國外的起步較早,對于國內如今所研究或者設計的系統在國際市場中還不具有競爭力,說服力不強.
現如今,國內外對DM這一領域的主要研究內容集中在對文本的數據挖掘、對生物信息及其基因的數據挖掘、以及數據挖掘在網站信息中的應用.
對于一些特定網站中的數據挖掘過程表示在這些特定的網站會根據日常點擊率的積累而獲得大量用戶相關數據,在這些數據中存在著具有利用價值的信息,而這方面研究的主要目的就是找出通過什么樣的方法能夠快速準確的識別這些有利用價值的信息.
針對生物信息或者生物基因的數據挖掘有著異常重要的意義,其對人類生活質量即主要是對人類的身體狀況的健康與否有著重要的意義.不管人類還是其他動植物它們的基因組合都會有著很多的變化,其主要解決的問題就是要找出病人含有的基因同正常人的基因的區別是什么,在找到差別之后通過對相關基因進行改變來達到對病人的治療效果,在這個查出差異的過程中就必須采用數據挖掘技術的支持.
近年來,隨著這方面研究的不斷深入,數據挖掘技術也已經在社會中的各個方面都得到了廣泛的應用[6],比如說商業、醫學、科學研究等各個方面都存在著很多的應用數據挖掘技術的成功的例子.下面對以后數據挖掘研究領域的發展方向與趨勢進行簡單的介紹:
數據挖掘語言進行標準化描述的研究;不管是什么語言,想要使其能夠廣泛的得到應用,必須首先對其語言進行標準化.經過標準化之后的數據挖掘語言必將有利于DM系統化的開發與設計,同時也能夠提高多個數據挖掘系統及其功能之間的互操作性.
對DM技術中的可視化方法進行研究;對于這方面的需求已經成為數據挖掘系統必須要解決的一種主要問題.
數據挖掘領域中的模型或者系統對特定的數據存儲類型的適應問題的研究;在以后的研究過程中,對不同的數據的存儲類型自身的特點進行針對性的研究是目前流行以及將來一段時間必須面對的問題.
DM技術同數據庫技術以及網絡技術的集成;其中的數據庫與Web數據庫是當前形勢下有關信息處理的系統中不可缺少的一部分.而理想的DM系統同樣與數據庫及其web數據庫進行緊密結合.
本文主要通過介紹數據挖掘的基本概念,同時對這方面的主要的挖掘算法進行簡單介紹,對國內外在這一領域的研究現狀分別作了總結,并說明了國內與國外在這方面研究差距的巨大,在以后的研究過程中,國內必須勇于面對挑戰,才能夠在這一研究過程中有較大的提高.最后根據當前的形式,對未來數據挖掘的發展方向進行了敘述.
總的來說,數據挖掘技術可以認為是一種功能強大的應用工具,但是其在發現模型之前需要對其進行相關指導,同時最終得到的數據模型需要能夠在現實生活之中得到驗證,數據的分析人員需要了解選用的挖掘算法的原理同時也要指導它具體是如何正常工作的,并且也必須深入了解期望解決問題的相關領域,對處理的數據進行了解得到的過程,只有經過上述這樣一個過程在得到最終結果之后才能夠給出正確的評價與解釋,從而在一定程度促進挖掘模型的不斷完善與提高,使數據挖掘能夠在真正意義上滿足當代人們的需求,更好地服務社會.
〔1〕胡侃,夏紹瑋.基于大型數據倉庫的數據采掘:研究綜述①[J].軟件學報,1998,9(1).
〔2〕謝榕.基于數據倉庫的決策支持系統框架[J].系統工程理論與實踐,2000,4(4).
〔3〕韓家煒,坎伯.數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
〔4〕陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術,2006,14(1):46-49.
〔5〕王宏.基于粗糙集數據挖掘技術的客戶價值分析[J].北京:經濟出版杜,2006.
〔6〕王惠中,彭安群.數據挖掘研究現狀及發展趨勢[J].工礦自動化,2011(2):29-32.
TP181
A
1673-260X(2014)09-0014-02