嵇俊杰 雷霓
摘要:當今社會,人們無論在生活中,還是在學習中,都在不斷地處理信息。如何從海量的數據信息中有效地提取出高質量的數據,一直是眾多專家學者關心的問題。大數據挖掘不可能沒有先進的數學知識和方法,在大數據挖掘與處理分析中有效地利用數學知識,可以有效地提高數據處理與分析的效率,幫助人們在最短的時間內獲取有價值的數據信息。
關鍵詞:大數據挖掘技術;數學;學科;應用
引言:
大數據是網絡信息技術發展的一項重要科技成果。針對不同區域的海量數據,通過統計,進行數據整合,形成數據分析。本文首先從大數據挖掘中的數學知識及其處理入手,闡述了數學在大數據挖掘中的應用。大規模的數據挖掘技術能夠有效地促進人們的研究與開發。數學知識與方法的應用是大數據挖掘的關鍵。數理統計是大量資料分析處理的基礎,是從大量資料中提取有用資料的關鍵。為此,研究者應將數學專業知識納入大數據的挖掘和處理之中,不斷提高數據處理和分析的水平。
1大數據挖掘技術分析
伴隨著計算機網絡技術的普及與應用,產生于社會生活各個領域的海量數據越來越多。大量的數據在不同的領域有著不同的價值,需要人們去研究和利用,為社會企業做出科學的決策。"歐洲大數據"是指傳統軟件工具收集的數據,這些數據不能進行計算、處理、管理和使用。大數據要求高級處理,以提高決策、洞察和發現能力,以及流程優化。與傳統數據倉庫應用分析相比,大數據應用分析的最大特點是:數據量大、變化多、查詢困難復雜。當前,在通信、制造、營銷、網絡信息等領域都有大量數據挖掘的工作。怎樣利用數據挖掘來幫助人們解決實際問題已經成為人們關注的焦點。
2數據挖掘的概念和特征
2.1大數據概念
21世紀以來,由于傳統的數據分析和分類工具不能對數據進行及時、全面、全面的分析和分類,信息資源的快速發展促進了信息技術的進步和大數據時代的到來。研究結果表明:大數據領域包括天文學、生物學、計算機、電子技術、自動化、信息管理等;它能根據用戶瀏覽的內容和查找的信息,為用戶提供準確、滿意的服務,節省大量的人力、財力、物力。在互聯網壓力下,傳統企業可以通過分析和整理大量數據,確保產品與時俱進。
2.2數據挖掘概念
數據采掘是大數據的核心領域,是時代發展的必然產物,也是獨立發展的主題。研究發現,數據采掘與商業計劃緊密相關。目前,數據挖掘技術已經在教育、科研、機械自動化、市場營銷、互聯網等諸多領域得到了廣泛的應用,能夠實現復雜的、大規模的數據采集和排序,推動了數據挖掘技術的發展和創新。獲得巨大的經濟效益,帶動了很多行業的快速發展。
2.3數據挖掘的特征及方法
數據挖掘就是根據大量數據之間特定的關系,自動發現隱藏的信息。有價值的信息可以通過統計、聯機分析、智能探索、機器學習和專家系統等方法來收集和分類。在人工智能知識發現過程中,數據獲取是一個重要環節,知識獲取包括準備、挖掘、執行和解釋。在數據分析方面,計算機技術尋求大量數據規律,并將相關數據整合為新的數據源;包括關聯分析、聚類、異常分析、特殊群體分析和進化分析。資料的獲取和編輯不夠全面。未來世界的發展屬于大數據時代,數據挖掘將在未來社會發揮重要作用。深入研究信息采集方法、規范數據挖掘技術在經濟領域中的應用、引入新的技術體系以適應社會發展是數據挖掘的主要趨勢。
3數學學科在大數據挖掘中的應用
3.1數學在數據處理分析中的應用
對于資料處理與分析,數學家可采用多種分析方法。把回歸分析和相關分析有機的結合起來?;陉P聯分析,通過對兩個或多個相關變量間的定量相互作用進行有效觀測。同時,研究人員還必須了解運用大量的數學理論來處理和分析數據,如數學測量學知識,即通過兩種或多種單調測度的操作,來產生新的單調測度。研究者可以合理使用數據而減少數據維度。與傳統的因素分析方法相比,定量的理論分析方法既能保證數據處理和分析的完整性,又能提高數據的科學準確性。
3.2目標函數模糊聚類法
目標函數模糊聚類方法在大數據挖掘中的數據分析和圖像處理中得到了廣泛的應用,而配置函數模糊聚類是大數據挖掘中的主流方法。利用模糊關系,客觀事物的聯系與相似,綜合各因素,建立數據庫,進行分析與研究。利用模糊聚類算法對所需數據進行聚類分析,再利用模糊聚類算法進行聚類分析,最后利用模糊聚類算法進行聚類分析,并結合網絡編譯法和極大值法對聚類結果進行排序。
3.3區間算法
區間算法是一種用數學方法分析、整理數據間關系,并利用中值鎖定數據獲得重要信息的聚類方法。大規模數據挖掘過程中,不完整的系統信息可以被整合、分解,大型數據挖掘技術人員通過區間算法將挖掘得到的數據轉化為可比較的數據,并應用科學的方法對數據進行分類和分析。經過實證研究,研究者們提出的區間聚類算法主要有三種:矩陣和區間聚類、數和區間聚類。其中應用最多的是數值方法和區間聚類法,它可以幫助工作人員根據科學的算法快速、高效、準確地提取不完整的系統信息。運用最新的統計手段和方法,以一定的時間間隔進行科學檢驗。每一個環節都能進行一系列的分析整合工作,通過實際積累對評價信息進行分析。
3.4灰色關聯分析法
本文以系統中各因素發展趨勢的相似性和差異性為基礎,以灰色關聯分析為數學方法,對系統中各因素之間的相關性進行了度量。這種方法適用于動態開發過程中的數據分析。其具體形式為s=(x,R),其中x表示影響因子集合,而R點表示各因子之間的趨勢相關性集合?;叶葦底只菙祿诰蛑谐S玫姆椒ㄖ?。通過對不同幾何曲線幾何形態的科學分析和比較,實現了數據分析和處理。在兩個幾何圖形之間的幾何曲線越靠近,表明數據鏈越大;相反,兩個圖形越窄表明數據鏈越小。在數據挖掘過程中運用數字灰色關聯分析方法,可對數據不完整或數據量較少的樣本數據進行分析和處理,以提取有價值的數據。
結語
數據處理技術是隨著信息時代的到來而不斷發展的。信息資源是任何生產和生活所必需的,隨著國家對數據挖掘的重視,數據挖掘已成為數據挖掘技術的一大創新,越來越多的人開始有效地利用生產和生活中的數學知識,以支持大數據挖掘技術的發展,提高數據的處理和分析能力,更好地推動人們對大數據挖掘技術的深入研究。
參考文獻
[1]盧秋羽,蔣薇,解文琦,等.大數據挖掘技術支持下抽油機井系統效率影響因素分析[J].數學的實踐與認識,2020,50(19):246-252.
[2]李思辰,張公社,紀國法.基于大數據挖掘技術的頁巖氣井壓裂液產出規律分析[J].科學技術與工程,2019,19(25):130-134.
[3]楊媛.大數據時代數據挖掘技術的應用[J].科技傳播,2019,11(21):83-84.
[4]劉佳祿.大數據挖掘技術及數學學科的應用[J].黑龍江科學,2019,10(8):124-125.
(上海市立信會計金融學院?上海?200120)