曲萍
摘 要:隨著計算機互聯網技術的發展,信息數據在生活中顯示出了越來越重要的作用,可以說大數據時代已經到來。因此人們需要高效自動化的數據分析技術對大量冗雜無規律的信息進行分類管理,數據挖掘技術由此應運而生。為了更好地利用大數據系統,該文對大數據系統中的數據挖掘技術進行了分析,并列舉了數據挖掘技術在實際生活領域中的廣泛應用。
關鍵詞:大數據時代;數據挖掘;信息數據
中圖分類號:TP311 文獻標志碼:A
1 大數據與數據挖掘的相關概述
1.1 大數據的概念及特點
大數據的概念最早是麥肯錫研究院在2011年提出的,他們在《大數據:創新、競爭和生產力的下一個新領域》中提到,數據已經融入了人們的日常生活中。通過對大數據的研究和分析,能夠使人們的消費以及生產水平都有一個跨越式的提升。截止至2018年,全球數據量增加了4.8 ZB,換句話說,世界上的每個人都具有至少500 GB的數據量,而且這一數據在未來的幾年還會以極快的速度向上增長。
大數據的增長存在以下4個方面的挑戰:數據的含量、數據的傳輸速度、數據分類的多樣性以及數據的真實性。大量化是大數據“量”的特點,多樣性特點表現在大數據的來源和格式都多種多樣,數據傳輸的速度性表現在數據產生的速度快、處理要求快,能夠滿足人們日常對數據及時性的要求。最后大數據的真實性指的是真正能夠為人們提供服務和幫助的并不是大數據的規模,而是大數據的質量和真實程度,真實性是人們通過大數據制定計劃決策的前提和基礎。
1.2 數據挖掘的概念及意義
數據挖掘技術作為一種新興科技在20世紀80年代被提出,數據挖掘技術最初是被科學工作者應用在人工智能技術的開發和利用當中的。簡單來說,數據挖掘就是對大量數據進行發掘和創新的過程,即在大量冗雜、隨機的數據中挖掘出有用的目標數據,創造出挖掘價值和挖掘潛力。
隨著時代的發展以及網絡技術的飛速發展,現階段全球數據飛速擴張,2011年全球數據就超過了1.8萬億GB,預計幾年過后這個數值會達到90萬億GB,短短10年時間增長了50倍左右,毫無疑問我們已經邁入了大數據時代。數據挖掘技術正在發展成為一種通過計算機技術對企業運營生產產生重大影響的管理策略,尤其是在信息化發展和數據應用較多的領域,數據挖掘技術的應用意義更為重大。
2 大數據時代數據挖掘的技術方法
根據不同的目標和需要,找出最為合適的分析方法??傮w來說現階段常用的數據挖掘技術方法有以下幾種。
2.1 聚類分析
聚類分析是一種無預期、無監督的分析過程,它通過對某些事物進行集合和分組,將類似的事物組成新的集合,并找到其中有價值的部分。聚類分析的基礎是“物以類聚”,根據事物的特征將其劃分為不同的類別。
現階段數據挖掘領域中較常用的聚類算法包括CURE算法、BIRCH算法以及STING算法。
CURE算法:CURE將每個數據點定義為一簇,然后通過某一收縮條件對數據點進行收縮,這樣相距最近的代表點的簇就會相互合并,這樣一個簇就可以通過多個代表點進行表示,進而使CURE能夠適應非球形形狀。
BIRCH算法:該算法是一個綜合的層次聚類分析方法,對于具有N個數據點的簇{X}(i=1,2,3,4,5…N)其聚類特征向量可以表示為(N,,SS),其中N代表簇中含有點的數量,向量LS是這N個點的線性和,SS是各個數據點的平方和。另外,如果兩個類的聚類特征分別為(N1,S1,SS1)和(N2,S2,SS2),那么這2個類經過合并后的聚類特征可以表示為(N1+N2,S1+S2,SS1+SS2)。BIRCH算法通過聚類以上特征可以科學的對中心、半徑、直徑以及類間距離進行運算。
STING算法:STING算法將整體空間劃分為若干個矩形單元,根據分辨率的不同,將這些矩形單元分為不同的層次結構。幾個低層的單元組成了高一層的單元,因此高一層的統計參數可以通過對低層單元計算得出。這些統計參數包括最大值、最小值、平均數、標準差等。STING算法的特點是其計算與統計查詢是相互獨立的,因此其運算效率較高且易于進行并行處理以及增量更新。
2.2 分類預測
分類和預測是2個不同的重要步驟,其中分類是對各個類別中標號的估計,這些標號是分散并且沒有規律的。預測則是通過連續的函數值建立的函數模型。分類是進行數據挖掘的起始步驟,它是對可預測的數據按照相應的描述或者特征構建有關的不同區域;分類的方法有很多種,其中較為常見的包括神經網路以及決策樹等。預測主要是以及回歸基礎,對數據未來的動態方向的估計,現階段較為常見的預測方法包括回歸分析法和局勢外推法等。
2.3 關聯分析
人們在日常生產生活中不難發現,各個不同的事物之間是具有盤根錯節的關聯的,象一件事件的發生隨后會引起一系列相關事件的發生,一個意外的出現也會引發更多不同的意外。關聯分析法就是通過對一系列事件發生的概率及時地進行分析,找到它們之間的規律,利用發現的規律對未來可能發生的事件進行預估和決策。象著名的沃爾瑪啤酒和紙尿布案例的分析:沃爾瑪營銷人員發現商場內部啤酒的銷量和紙尿褲的銷量總是成正比,通過運用關聯分析方法得出結論,嬰兒的父親在購買紙尿褲的時候總是習慣性的順手買2罐啤酒,根據這一分析結果,沃爾瑪將紙尿褲貨架與啤酒貨架擺放在了一起,從而大大促進了2種產品的銷量。
3 大數據時代數據挖掘技術的應用
3.1 金融領域
金融行業需要對數據進行大量地收集和處理,通過對大量數據進行分析可以建立某些模型并發現相應的規律,從而會發現一些客戶或者商業機構的習慣和興趣,贏得客戶的信任。另外金融機構通過數據挖掘技術可以更加迅速有效地觀察出金融市場的變化趨勢,在第一時間贏得機會。數據挖掘技術在金融領域的應用主要包括賬戶分類、數據清理、金融市場預測分析以及客戶信用評估等。
3.2 醫療領域
醫療領域也具有大量的數據需要處理,與其他行業不同的是,醫療領域的數據信息由不同的數據管理系統進行管理,且保存的格式也不盡相同。在醫療領域中數據挖掘最重要的任務是對大量的數據進行清理以及對醫療保健所需費用進行預測。
3.3 市場營銷領域
大數據的數據挖掘技術在市場營銷領域的應用,主要體現在對消費者的消費習慣以及消費群體消費行為的分析上,根據分析得出的結果在生產和銷售上進行調整,提升產品的銷售量。另外通過數據挖掘技術能夠對客戶群體進行分類識別,從無規則無序的客戶群體中篩選出有潛力和有高忠誠度的客戶,幫助企業尋找到優質客戶進而對其進行重點維護。
3.4 教育領域
在教育領域,數據挖掘系統也發揮著不可或缺的作用,通過數據挖掘技術的應用,可以更好地分析出學生的學習程度和學習特點,教師可以根據分析數據及時地對教學進度和教學內容進行調整,另外可以利用數據挖掘系統對學生的學習成績進行分析,充分了解學生學習中的弱點,并對學習資源進行合理優化配置,從整體上提升教學質量。
3.5 科學研究領域
最后在信息量極為龐大的生物技術領域以及天文氣象等領域,數據挖掘技術更體現出了其強大、智能化的數據分析功能。
4 結語
總的來說,在大數據時代,數據挖掘技術作為一個新興技術具有較大的研究價值與發展空間,因此我們應該在各個領域內對該技術進行研究與探索,借助大數據系統分析提升各行業的經濟效益和社會效益。
參考文獻
[1]肖明.大數據時代下數據挖掘技術在企業中的應用[J].中國管理信息化,2015(18):58.
[2]楊華坤.大數據時代數據挖掘技術探討[J].電腦編程技巧與維護,2015(24):78-79.
[3]宋志秋.大數據時代營銷中的數據挖掘技術[J].數字技術與應用,2015(3):209.