林潘能
摘要:伴隨信息化水平的不斷提高,信息系統的應用范圍不斷拓展,與此同時,信息數據量不斷增加,由此產生了大數據,也促進了大數據挖掘技術的發展。本文簡單闡述了大數據及數據挖掘的概念,并就大數據挖掘當中數據處理與數據挖掘兩方面探討了數學的運用,間接地表明了數學對于大數據挖掘的重要性和作用,在對大數據進行挖掘的過程當中應充分發揮數學的作用。
關鍵詞:大數據時代 數據挖掘 數學
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-5349(2018)09-00253-02
隨著全球進入信息化時代,現數據已滲透于人們生活及工作的各個角落,并逐步成為社會生產的重要因素之一,人們也開始運用大數據來改變傳統的生產模式及消費模式,從而推動人類社會進入大數據時代。在大數據時代,數據挖掘成為時代的核心,如何深入挖掘大數據當中有用的信息成為各行業關注的重點。數學是實施數據分析的重要手段,在挖掘大數據時,必然要運用到各種數學理論及知識。
一、大數據挖掘概述
(一)大數據的概念及特征
進入信息化時代,“大數據”已成為人們耳熟能詳的詞匯。何為“大數據”,百度百科是如此定義的:無法在一定時間內利用常規軟件工具捕捉、管理或處理的數據集合,需采取新模式才可進行處理的信息資產。維克托·邁爾-舍恩伯格及肯尼斯·庫克耶所編寫的《大數據時代》當中,是如此定義大數據的:無法利用隨機分析法而必須采取所有數據進行分析處理的數據。[1]大數據包括結構化、半結構化及非結構化數據,現多數大數據均為非結構化數據,數據量大且形式多樣。
大數據具5V特征,即Volume(大量),數據容量大;Velocity(高速),數據獲取及處理速度快;Variety(多樣),數據類型多樣;Value(低價值密度),數據價值較低;Veracity(真實性),數據質量較高且真實。相關統計表明,至2011年,全球數據量增長達1.8ZB,全球人均數據資源量超過200GB[2],且近些年來,伴隨信息化水平的不斷提高,信息技術及信息資源的廣泛應用,全球每年數據增長率高達50%,現全球已進入大數據時代。
(二)數據挖掘概念
數據挖掘是大數據的重點內容,其是伴隨大數據的出現而逐步形成的新興學科。對于數據挖掘,因側重點不同,其方法定義也有所差異,最早對于數據挖掘的定義是指全面提取數據當中暗示或未知的可能有用的信息。現數據挖掘已成為一種專業活動,其不僅僅是一種統計模型技術,而且還有著更深層的知識發現。現數據挖掘已廣泛應用于各領域和各行業,包括教育、科研、市場營銷、制造業、電信業、互聯網產業等,尤其多用于商業人工智能研究領域,通過提取大數據中潛在的有用的信息或知識,以為商業決策及建設提供客觀數據依據。[3]
二、大數據挖掘中數學的運用
(一)運用于數據處理當中
實施大數據挖掘,首先要對數據進行收集和初步處理。大數據具強時效性,在對數據進行處理時,對時間的要求非常嚴格,因此,在有效的時間內,數據必須既要保持高效率,同時又要保證良好的處理效果。若原始數據存在噪聲或是不完整、不統一等情況時,還應對數據進行預處理,以提高數據的準確性;若數據量或指標集過大,就可從中挑選一些較為重要的與研究結果相關的數據,或是一些能充分反映研究結果的關鍵指標。
在進行數據處理的過程當中,通常會利用到數學當中很多常用的或經典的分析方法,其中最為常用的便是統計學方法,如描述性分析法、回歸分析法、相關性分析法等。其中回歸分析法通常與相關性分析法相互結合,在進行相關性分析的基礎上,通過觀察某兩個或多個相關變量的數量變化關系,再建立相應的數學模式,以利用已知量來推斷未知量。進行回歸分析的主要目的在于利用樣本數據對參數進行估計,然后通過建數學模型,以檢驗、判斷或預測參數或模型。另,在進行數據處理時,還會利用到很多數學理論。如測度論,即通過運算結合兩個或多個單調測度,以構造出一個新的單調測度,在實施數據降維處理時,即可應用測度論,相比于利用傳統的主因子分析法,此分析方法可有效保證數據的完整性,從而保留更多相關信息,提高分析結果的科學性。
(二)運用于數據挖掘當中
數據挖掘是大數據的核心,大數據看似復雜、無規律,要想從巨大量的數據當中獲取有效或有價值的信息,就必須實施數據挖掘。數據挖掘具應用性、工程性、集合性和交叉性。在實施數據挖掘的過程當中,數學發揮著無可替代的作用。在進行數據挖掘時,常用的數學方法有神經網絡、關聯分析法、聚類分析法及決策樹法等,其中最重要的當屬聚類分析法,其還廣泛應用于其他行業及領域,包括心理學、醫學、統計學、市場營銷行業、數據識別等。
聚類分析法是以“物理類取”為基礎,依一定標準,將具較大相關性的對象劃為一類,且盡量拉大不同類對象間的差異,從而將數據集或關鍵指標進行科學分組。在利用聚類分析法實施數據挖掘的過程當中,所應用到的數學方法主要有灰色關聯分析、目標函數模糊及區間值算法等。首先,利用灰色關聯分析,通過比較幾何曲線間的幾何形狀來判斷數據間的關聯性大小,幾何形狀(下轉第252頁)(上接第253頁)越相近,表明關聯性越大,反之則小。灰色關聯分析實施數據挖掘多用于樣本數據量較小,或是樣本存在殘缺現象的數據分析當中,如因歷史原因導致數據樣本缺少的數據分析,或是因樣本更新速度過快導致樣本數據不統一等情況的數據分析。其次,利用目標函數模糊,將數據實施標準化后再進行標定,并建立模糊矩陣,然后采取直接聚類或模糊等價矩陣的方式實施數據集或關鍵指標的聚類,同時也可利用最大樹法或是編網法進行聚類。目標函數模糊具效率高、伸縮性大、處理維度高等特征,是數據挖掘過程當中使用的重點方法。實際上,目標函數模糊的聚類分析法在人們的日常生活當中也非常常見,各類數據分析、數據挖掘,甚至圖像處理都會應用到此方法進行數據集或關鍵指標的聚類。目標函數模糊法相對科學,其應用也相對成熟,是解決聚類問題的有效方法。最后,利用區間值算法,可對數據挖掘過程當中一些能進行轉化的“比較型”數據,或是有固定取值范圍的數據進行分析。區間值算法是一種常用的數學方法,其在數據挖掘中的應用多體現于對不完全的系統信息進行挖掘和分析。在實施數據挖掘時,所采取的區間值算法主要有以下三種:數與區間聚類法、區間與區間聚類法以及矩陣與區間聚類法,其中數與區間聚類法最為常用,可高效、準確、真實地對不完全的系統信息進行統計分析。在對區間值進行確定時,既可由具豐富經驗的專家進行確定,也可利用統計學方法進行確定。
三、結語
總而言之,發展至今,大數據已不僅僅是指單純的數據,其是一種技術,也是一種應用。要想真正做好大數據的應用,首先應牢牢掌握其應用的理論基礎,自數據的前期收集著手,進行深入分析,并形成結論。而在整個過程當中,大數據無論是處理或是挖掘都需數學理論的支撐,包括其后期應用,也需應用到數學知識。因此,在實施大數據挖掘的過程當中,應充分重視數學的作用,并合理應用數學知識。
參考文獻:
[1]王少博,景劍文,房玄驊.淺談大數據背景下數據挖掘的方法及其應用[J].管理觀察,2017(14):102-103.
[2]張倍嫻.數學在大數據挖掘中的應用研究[J].教育科學(全文版),2016(4):284.
[3]王小龍.數學在數據挖掘中的應用[J].中國科教創新導刊,2014(2):74.
責任編輯:劉健