韋麗紅
(呼倫貝爾學院 計算機科學與技術學院,內蒙古 海拉爾 021008)
淺析數據挖掘的技術方法及應用
韋麗紅
(呼倫貝爾學院 計算機科學與技術學院,內蒙古 海拉爾 021008)
現如今,數據挖掘是數據領域以及信息處理上最先進的一項研究技術.本文從介紹數據發掘的定義及其特征入手,歸納了數據挖掘過程的基本步驟,分析了數據挖掘的技術方法,并探討了數據挖掘的相關應用,本文的研究對加快數據挖掘技術的前進步伐,拓展數據挖掘技術的學科應用具有重要的意義.
數據挖掘;技術方法;應用
數據挖掘通常包括數據搜集、數據分析處理、規律知識展示以及知識運用等幾項因素.然而在現實社會中,絕大多數的數據均受到了一定程度的污染,導致了基本所以進行挖掘及處理的數據都是一些受污染的損壞數據,也就是說,沒有健康的原始數據做依托,根本無法得出科學可靠的規律知識.在這些大量且繁雜的數據中,部分數據屬于冗余數據,部分屬于無關數據,還有部分屬于損壞數據,它們直接影響了規律知識的研發,因此,應當充分研究并利用數據挖掘技術,從而確保數據的健康可用性,有利于數據分析處理與規律知識研發等后期工作的順利開展.
數據挖掘指的是從數據庫里挖掘出可用的、新穎的、有價值的,并且模式規范的數據的一個實現過程[1].數據挖掘即依據數據庫中數據的高效存儲功能,利用機器技術的新型設計理念,將具有潛在利用價值的數據知識挖掘出來.因此,數據挖掘技術屬于數據統計技術、機器技術與數據庫處理技術三者結合運用的成果,其多應用于工程上進行規律知識的研發.
數據挖掘同時也可以表述為一種用于大量繁雜數據處理的方法,相對與人腦而言,它能夠更快速地獲取有用的數據信息.因此,人們習慣性地賦予了數據挖掘另一個專業術語,即知識發現.
數據挖掘具有以下主要特征:首先,能夠對數量龐大且紛繁復雜的數據進行有效的處理;其次,能夠實現對數據信息的自動搜索;再次,能夠通過數據統計分析總結歸納其規律知識并做出一定的預測;最后,經過挖掘的數據能夠快速及時的展示數據的規律知識.
通常情況下,數據挖掘過程包括明確問題、數據準備、算法選定、模式評估以及知識表示五個基本步驟,具體如下:
2.1 明確問題
整個數據挖掘過程的目的是從大量繁雜的數據中獲取有價值的可用數據信心,所以在進行數據挖掘之前明確所要獲取的數據知識是整個挖掘過程中極為關鍵的一步.在明確問題的過程中,除了要根據實際情況明確相關要求外,還需要明確應當采用哪些切實可行的數據挖掘技術方法.
2.2 數據準備
數據準備的具體內容包括數據篩選、數據處理以及數據轉換三個方面.數據篩選時為了確定進行數據挖掘的具體對象,即結合實際工作需要從數據庫中選取一定的數據.數據處理主要是對數據進行形式轉換、噪音消除、缺省值推導以及重復數據合并等處理.數據轉換則是為了盡可能的縮減數據維數,為后期的數據統計分析提供便利.
2.3 算法選定
流行元素的引入能在一定意義上開拓學生的思維,幫助他們樹立正確的審美觀,以達到一個全身心投入音樂感悟的境界。流行注重的就是一個體驗過程,學生在感知和體驗當代的潮流時,自然而然地接近聲樂,配合教師的教學。而“流行”作為一種心理學概念,加強對學生的音樂節奏的感知,從時代氣息中感受到音樂是一種精神力量,是一種人文情懷,更是一種文化藝術。
算法選定指的是數據挖掘算法的選擇與確定.在根據明確問題的具體數據挖掘任務及目標(如數據聚類、關聯規則及數據模式確定等)之后,便要選定恰當的數據挖掘算法.在算法選定過程中,應當根據不同數據的數據特征以及實際工作的運行系統的具體要求進行選擇.
2.4 模式評估
在數據的挖掘結果中,存在著部分沒有利用價值或者與違背實際規律的結果,因此,對挖掘結果進行模式評估是十分必要的.一般情況下,可以通過結合相關工作經驗或者利用實際數據信息對挖掘模型的準確性進行評估,從而不斷地調整并完善數據挖掘模型.
2.5 知識表示
知識表示也就是決策者對數據挖掘結果的分析決策,即決策者依據挖掘結果并結合具體工作情況對相關策略不斷地進行調試的過程.
上述步驟并非可以一步到位,或許需要不斷反復進行某個或某些步驟才能得到最佳效果.
數據挖掘的技術方法多種多樣,比如神經網絡、統計分析法、決策樹歸納法、遺傳算法、粗糙集理論、模糊集理論、可視化、分類法、規則歸納法、證據理論、聚類法、數據倉庫等等.本文就以下幾種主要的、常用的數據挖掘技術方法進行概述:
決策樹歸納法就是通過依據信息增益來獲取數據庫中信息字段的大小來設立決策樹的節點,再依據字段的取值范圍來確定決策樹的各個分支.通過一層一層地不斷建立決策樹節點與分支,便形成了決策樹.決策樹歸納法常用于對數據進行分類及預測.
3.2 神經網絡
神經網絡計算模型的建立源自于仿造人體的神經網絡結構以及其他人體工作機能.神經網絡是以學習模式為腳本,并以此來控制神經元鏈接的權值大小(即強度).神經網絡計算模型具有通過利用眾多神經元說鏈接形成的神經網絡進行大規模的逐步計算的重要特征.
3.3 統計分析法
統計分析法在挖掘數據的關聯信息上起到重要作用.通過統計及分析數據關系表中的各項數據特性,獲取數據信心間的內在聯系.通常情況下,數據關系表的數據特性間的關系有相關關系與函數關系.常用的統計分析方法包括回歸分析、相關性分析以及規律分析等等.
3.4 模糊集理論
模糊集理論主要應與處理或者展示數據的不確定模型.此外,模糊集理論除了能夠處理或展示不完整數據、不精準數據或者噪音數據以外,還能夠研發數據的不確定模型,并確保其靈活性與平滑性.
3.5 遺傳算法
遺傳算法是在自然選擇學說和基因遺傳學說的基礎上建立起來的,并以達爾文進化論理論為模擬藍本,在計算機操作算法的一門學科[3].具體來說是通過其中的一種算法,把任何一種種群放到這種算法操作中,產生新的個體,再讓這一新個體選擇到更好的區域,并在這個區域不斷虛擬進化,最后讓這些能適用的新環境的新個體集合成新的群體,同時這些新個體又被賦予了一個新的適合值,這就是遺傳算法.遺傳算法的主要功能是用在分類和組合上.
3.6 粗糙集理論
粗糙集理論在上世紀的八十年代中首先被提出,相對于其他計算方法,它是一種軟計算方法,能夠處理不完全或者不確定的信息,對不同的屬性值進行離散分析,再對這些屬性劃分類別,再集合等價,最后是決策,最終獲取規則.實現數據挖掘技術的成功處理.
在國內數據挖掘技術的應用并不算廣泛,僅在上海寶鋼等一些大型企業有所應用,并且僅僅把數據挖掘技術當成是一種輔助的工具,對生產進行輔助決策,可是卻能提高生產的效率,節約成本.在全球上數據挖掘技術的應用很廣泛,具體如下:
4.1 科學研究方面
數據挖掘技術能夠應用到天文學科學領域、生物科學研究領域、物理科學研究領域等領域中,尤其是在微觀方面,能夠用各種數據分析遙遠的星體的距離,預測地球以外中星體狀況,能夠通過先進儀器,運用數據挖掘分析生物中的基因,發現各種基因的異同,然后研發出新的生物分子配置,推動生物工程的發展.尤其是近些年來,科學研究領域中對微觀科學研究越來越重視,數據挖掘更是得到飛速發展.
4.2 商業經營方面
當今商業領域的競爭尤其激烈,除了有一流的人才,一流的管理和一流的設備以外,對數據的收集也是非常的關鍵.如在零售業中,商品的銷售量都不一樣,單靠人工操作,也只能粗淺分析某一商品的銷量的多少,并不能分析某一類商品的性質和類別,購買的群體等.而各種數據不斷增加,人工效率不高[4].運用數據挖掘知識技術,能夠讓經營者在最短的時間內做出最有利的判斷,制定各種商業經營策略,預測各種銷售情況.很多大型的外國公司都很好利用了數據挖掘技術,如運用Intelligent Miner系統挖掘顧客的購物行為. 4.3金融投資方面
股市有風險,投資需謹慎,單憑個人的經驗以及所學到的一些金融知識,我們只能從宏觀上把握整體的金融走勢,然而若要從微觀去把握和分析某一種金融項目進行投資,則需要運用各種數據挖掘,通過這些數據才能處理人無法判斷和分析的內容,最終才能做出最合適的選擇.例如,我們能從股市中的各種微觀數據判斷整個大盤的走勢,而不僅僅是純粹了解國家的宏觀政策.
4.4 醫療設備方面
當代的醫療技術發展很快,這得益于一些先進的設備的使用.通過這些先進的設備能夠分析各種藥物的分子和原子結構,結合病情案例進行分析整合,在不同的分子結構和基因結構快速地轉換和檢查,得出治療的最佳方案.同時還能夠用不同的數據挖掘配出各種新藥,治療其他的病癥. 4.5保險評估方面
保險業本身是給顧客辦理保險的,但保險本身就是個行業,保險行業也是以盈利為目的,因而對于一些高風險的生意同樣需要檢測評估,若是風險大的保險領域,則需要挖掘高風險的數據,對這些數據評估、檢測、然后做出判斷,最后知道保險公司的進一步經營.在當今內容多煩雜亂,競爭異常激烈的保險業務,能夠建立數據挖掘數據系統,能夠促進保險業務的發展.
4.6 通信網絡方面
網絡通信中有很多網絡警告語,有的警告語是可以理解的,有的警告語是可以忽視的,但是有的警告語必須及時處理,這些急需處理的警告語一般都是根據人的經驗去處理,這樣的處理大大降低了工作效率,增加了很多成本.數據挖掘恰恰能彌補這個效率不高的短板,它通過分析各種警告數據,再獲取各種警告數據之間的邏輯關系和數據關系,從而做出正確的判斷.通過數據挖掘能有效地處理通信網絡的故障,還能檢測可能發生故障的網絡.
對于數據挖掘,現在全球都處于一個起步的研究階段,無論是科學理論、科學方法,還是各種軟件技術都不是很成熟,但是由于其能融合各種數據分析、工程知識、各種統計數據、交互環境等各種學科的特點,對人類有很大的應用價值.
〔1〕謝冬.淺談統計數據挖掘的方法及應用[J].計算機光盤軟件與應用,2012(5):69-85.
〔2〕郭佳.數據挖掘技術方法的研究[J].中國新技術新產品, 2011(23):22.
〔3〕李明江,唐穎,周力軍.數據挖掘技術及應用[J].中國新通信,2012(12):66-74.
〔4〕陳鳳蘭.數據挖掘技術在經濟統計中的應用[J].現代商業, 2010(5):128-130.
TP311.13
A
1673-260X(2014)03-0022-02