嵇俊杰 雷霓
摘要:當今社會,人們無論在生活中,還是在學習中,都在不斷地處理信息。如何從海量的數(shù)據(jù)信息中有效地提取出高質量的數(shù)據(jù),一直是眾多專家學者關心的問題。大數(shù)據(jù)挖掘不可能沒有先進的數(shù)學知識和方法,在大數(shù)據(jù)挖掘與處理分析中有效地利用數(shù)學知識,可以有效地提高數(shù)據(jù)處理與分析的效率,幫助人們在最短的時間內(nèi)獲取有價值的數(shù)據(jù)信息。
關鍵詞:大數(shù)據(jù)挖掘技術;數(shù)學;學科;應用
引言:
大數(shù)據(jù)是網(wǎng)絡信息技術發(fā)展的一項重要科技成果。針對不同區(qū)域的海量數(shù)據(jù),通過統(tǒng)計,進行數(shù)據(jù)整合,形成數(shù)據(jù)分析。本文首先從大數(shù)據(jù)挖掘中的數(shù)學知識及其處理入手,闡述了數(shù)學在大數(shù)據(jù)挖掘中的應用。大規(guī)模的數(shù)據(jù)挖掘技術能夠有效地促進人們的研究與開發(fā)。數(shù)學知識與方法的應用是大數(shù)據(jù)挖掘的關鍵。數(shù)理統(tǒng)計是大量資料分析處理的基礎,是從大量資料中提取有用資料的關鍵。為此,研究者應將數(shù)學專業(yè)知識納入大數(shù)據(jù)的挖掘和處理之中,不斷提高數(shù)據(jù)處理和分析的水平。
1大數(shù)據(jù)挖掘技術分析
伴隨著計算機網(wǎng)絡技術的普及與應用,產(chǎn)生于社會生活各個領域的海量數(shù)據(jù)越來越多。大量的數(shù)據(jù)在不同的領域有著不同的價值,需要人們?nèi)パ芯亢屠茫瑸樯鐣髽I(yè)做出科學的決策。"歐洲大數(shù)據(jù)"是指傳統(tǒng)軟件工具收集的數(shù)據(jù),這些數(shù)據(jù)不能進行計算、處理、管理和使用。大數(shù)據(jù)要求高級處理,以提高決策、洞察和發(fā)現(xiàn)能力,以及流程優(yōu)化。與傳統(tǒng)數(shù)據(jù)倉庫應用分析相比,大數(shù)據(jù)應用分析的最大特點是:數(shù)據(jù)量大、變化多、查詢困難復雜。當前,在通信、制造、營銷、網(wǎng)絡信息等領域都有大量數(shù)據(jù)挖掘的工作。怎樣利用數(shù)據(jù)挖掘來幫助人們解決實際問題已經(jīng)成為人們關注的焦點。
2數(shù)據(jù)挖掘的概念和特征
2.1大數(shù)據(jù)概念
21世紀以來,由于傳統(tǒng)的數(shù)據(jù)分析和分類工具不能對數(shù)據(jù)進行及時、全面、全面的分析和分類,信息資源的快速發(fā)展促進了信息技術的進步和大數(shù)據(jù)時代的到來。研究結果表明:大數(shù)據(jù)領域包括天文學、生物學、計算機、電子技術、自動化、信息管理等;它能根據(jù)用戶瀏覽的內(nèi)容和查找的信息,為用戶提供準確、滿意的服務,節(jié)省大量的人力、財力、物力。在互聯(lián)網(wǎng)壓力下,傳統(tǒng)企業(yè)可以通過分析和整理大量數(shù)據(jù),確保產(chǎn)品與時俱進。
2.2數(shù)據(jù)挖掘概念
數(shù)據(jù)采掘是大數(shù)據(jù)的核心領域,是時代發(fā)展的必然產(chǎn)物,也是獨立發(fā)展的主題。研究發(fā)現(xiàn),數(shù)據(jù)采掘與商業(yè)計劃緊密相關。目前,數(shù)據(jù)挖掘技術已經(jīng)在教育、科研、機械自動化、市場營銷、互聯(lián)網(wǎng)等諸多領域得到了廣泛的應用,能夠實現(xiàn)復雜的、大規(guī)模的數(shù)據(jù)采集和排序,推動了數(shù)據(jù)挖掘技術的發(fā)展和創(chuàng)新。獲得巨大的經(jīng)濟效益,帶動了很多行業(yè)的快速發(fā)展。
2.3數(shù)據(jù)挖掘的特征及方法
數(shù)據(jù)挖掘就是根據(jù)大量數(shù)據(jù)之間特定的關系,自動發(fā)現(xiàn)隱藏的信息。有價值的信息可以通過統(tǒng)計、聯(lián)機分析、智能探索、機器學習和專家系統(tǒng)等方法來收集和分類。在人工智能知識發(fā)現(xiàn)過程中,數(shù)據(jù)獲取是一個重要環(huán)節(jié),知識獲取包括準備、挖掘、執(zhí)行和解釋。在數(shù)據(jù)分析方面,計算機技術尋求大量數(shù)據(jù)規(guī)律,并將相關數(shù)據(jù)整合為新的數(shù)據(jù)源;包括關聯(lián)分析、聚類、異常分析、特殊群體分析和進化分析。資料的獲取和編輯不夠全面。未來世界的發(fā)展屬于大數(shù)據(jù)時代,數(shù)據(jù)挖掘將在未來社會發(fā)揮重要作用。深入研究信息采集方法、規(guī)范數(shù)據(jù)挖掘技術在經(jīng)濟領域中的應用、引入新的技術體系以適應社會發(fā)展是數(shù)據(jù)挖掘的主要趨勢。
3數(shù)學學科在大數(shù)據(jù)挖掘中的應用
3.1數(shù)學在數(shù)據(jù)處理分析中的應用
對于資料處理與分析,數(shù)學家可采用多種分析方法。把回歸分析和相關分析有機的結合起來。基于關聯(lián)分析,通過對兩個或多個相關變量間的定量相互作用進行有效觀測。同時,研究人員還必須了解運用大量的數(shù)學理論來處理和分析數(shù)據(jù),如數(shù)學測量學知識,即通過兩種或多種單調測度的操作,來產(chǎn)生新的單調測度。研究者可以合理使用數(shù)據(jù)而減少數(shù)據(jù)維度。與傳統(tǒng)的因素分析方法相比,定量的理論分析方法既能保證數(shù)據(jù)處理和分析的完整性,又能提高數(shù)據(jù)的科學準確性。
3.2目標函數(shù)模糊聚類法
目標函數(shù)模糊聚類方法在大數(shù)據(jù)挖掘中的數(shù)據(jù)分析和圖像處理中得到了廣泛的應用,而配置函數(shù)模糊聚類是大數(shù)據(jù)挖掘中的主流方法。利用模糊關系,客觀事物的聯(lián)系與相似,綜合各因素,建立數(shù)據(jù)庫,進行分析與研究。利用模糊聚類算法對所需數(shù)據(jù)進行聚類分析,再利用模糊聚類算法進行聚類分析,最后利用模糊聚類算法進行聚類分析,并結合網(wǎng)絡編譯法和極大值法對聚類結果進行排序。
3.3區(qū)間算法
區(qū)間算法是一種用數(shù)學方法分析、整理數(shù)據(jù)間關系,并利用中值鎖定數(shù)據(jù)獲得重要信息的聚類方法。大規(guī)模數(shù)據(jù)挖掘過程中,不完整的系統(tǒng)信息可以被整合、分解,大型數(shù)據(jù)挖掘技術人員通過區(qū)間算法將挖掘得到的數(shù)據(jù)轉化為可比較的數(shù)據(jù),并應用科學的方法對數(shù)據(jù)進行分類和分析。經(jīng)過實證研究,研究者們提出的區(qū)間聚類算法主要有三種:矩陣和區(qū)間聚類、數(shù)和區(qū)間聚類。其中應用最多的是數(shù)值方法和區(qū)間聚類法,它可以幫助工作人員根據(jù)科學的算法快速、高效、準確地提取不完整的系統(tǒng)信息。運用最新的統(tǒng)計手段和方法,以一定的時間間隔進行科學檢驗。每一個環(huán)節(jié)都能進行一系列的分析整合工作,通過實際積累對評價信息進行分析。
3.4灰色關聯(lián)分析法
本文以系統(tǒng)中各因素發(fā)展趨勢的相似性和差異性為基礎,以灰色關聯(lián)分析為數(shù)學方法,對系統(tǒng)中各因素之間的相關性進行了度量。這種方法適用于動態(tài)開發(fā)過程中的數(shù)據(jù)分析。其具體形式為s=(x,R),其中x表示影響因子集合,而R點表示各因子之間的趨勢相關性集合。灰度數(shù)字化是數(shù)據(jù)挖掘中常用的方法之一。通過對不同幾何曲線幾何形態(tài)的科學分析和比較,實現(xiàn)了數(shù)據(jù)分析和處理。在兩個幾何圖形之間的幾何曲線越靠近,表明數(shù)據(jù)鏈越大;相反,兩個圖形越窄表明數(shù)據(jù)鏈越小。在數(shù)據(jù)挖掘過程中運用數(shù)字灰色關聯(lián)分析方法,可對數(shù)據(jù)不完整或數(shù)據(jù)量較少的樣本數(shù)據(jù)進行分析和處理,以提取有價值的數(shù)據(jù)。
結語
數(shù)據(jù)處理技術是隨著信息時代的到來而不斷發(fā)展的。信息資源是任何生產(chǎn)和生活所必需的,隨著國家對數(shù)據(jù)挖掘的重視,數(shù)據(jù)挖掘已成為數(shù)據(jù)挖掘技術的一大創(chuàng)新,越來越多的人開始有效地利用生產(chǎn)和生活中的數(shù)學知識,以支持大數(shù)據(jù)挖掘技術的發(fā)展,提高數(shù)據(jù)的處理和分析能力,更好地推動人們對大數(shù)據(jù)挖掘技術的深入研究。
參考文獻
[1]盧秋羽,蔣薇,解文琦,等.大數(shù)據(jù)挖掘技術支持下抽油機井系統(tǒng)效率影響因素分析[J].數(shù)學的實踐與認識,2020,50(19):246-252.
[2]李思辰,張公社,紀國法.基于大數(shù)據(jù)挖掘技術的頁巖氣井壓裂液產(chǎn)出規(guī)律分析[J].科學技術與工程,2019,19(25):130-134.
[3]楊媛.大數(shù)據(jù)時代數(shù)據(jù)挖掘技術的應用[J].科技傳播,2019,11(21):83-84.
[4]劉佳祿.大數(shù)據(jù)挖掘技術及數(shù)學學科的應用[J].黑龍江科學,2019,10(8):124-125.
(上海市立信會計金融學院?上海?200120)