王赫楠 岳慧平 夏書劍

摘要:由于數據的格式、信息等十分復雜,不利于分析和決策,因此如何在海量數據的背景下挖掘出更為有效的信息,以幫助決策者分析和應用數據,成為亟待解決的問題。基于此,數據挖掘技術應運而生,其主要應用于數據集。文章主要研究了如何從海量數據集中挖掘出有價值、有規律的信息。
關鍵詞:數據挖掘;系統開發;存儲
中圖法分類號:TP311文獻標識碼:A
Research on application of data mining technology underbackground of big data
WANG Henan, YUE Huiping,XIA Shujian
(Liaoning University of Traditional Chinese Mledicine,Shenyang 110000,China)
Abstract:Since the format and information of data are very complex, which is not conducive to analysis and decision-making, how to mine more effective information in the context of massive data to help decision-makers analyze and apply data has become an urgent problem to be solved. Based on this, data mining technology emerges as the times require. It is mainly used in data sets. How to mine valuable and regular information from massive data sets is the main content of data mining research.
Key words: data mining, system development,storage
1引言
各行業都會產生海量的數據,這是由于信息技術(云計算技術、移動計算技術、機器學習技術等)的不斷進步,以及硬件存儲能力、云平臺存儲能力的不斷提升所致。大量的數據背后蘊藏著有效的信息,這些信息將為教育、電商、醫療、科研等領域的發展提供參考依據,研究者需要對其進行分析和整理。如何從這些數據中提取有價值、有規律的信息,以便在分析和決策的過程中發揮更為有效的作用,是研究者急須解決的問題。
數據挖掘技術是指從海量的數據中挖掘出有用信息的一門技術。數據挖掘技術涉及統計學原理、知識工程技術、數據檢索技術、人工智能領域以及數據庫技術等[1~5],其應用范圍較廣。當下,教育、醫療、科學研究、傳統工業制造、金融分析等領域均可以利用數據挖掘技術挖掘和整理數據信息,對行業的發展產生了積極作用。
2概述
隨著技術不斷進步,人們可以方便地獲取和存儲大量數據,企業的關注點從獲取數據信息轉變為提取數據中有價值的信息,使其能夠掌握行業發展規律,以獲得更大的經濟效益,從而擴大市場份額。
數據挖掘技術的逐漸發展可以幫助各領域解決數據分析問題。數據挖掘技術涉及專業領域,如統計學知識、信息技術應用、分類聚類、人工智能技術等。如何利用各種技術和方法輔助數據挖掘技術更好地分析數據信息,是數據挖掘研究的重要方面。數據挖掘技術的逐漸發展為各行各業帶來了一定的經濟效益。因此,數據挖掘技術的研究和應用受到了企業人士以及科研工作者的重點關注,成為研究的熱門領域[6]。
利用數據挖掘技術可以對數據信息進行深度剖析,挖掘出有價值的內容。其涉及范圍較廣,并且在逐漸發展和延續。目前,數據挖掘技術主要涉及以幾個方面,即分類和聚類、預測分析、關聯規則、序列發現等。為了實現數據挖掘功能,主要基于統計分析方法和其他方法。相關統計分析方法包括時間序列分析、聚類、判別因子和因子分析等。統計分析方法在數據挖掘領域的功能支持主要表現在高級多元統計方法。這些統計分析方法目前已經較為常見,數據挖掘技術在統計分析方法的基礎上進行了擴展和延伸;其他方法主要指模糊邏輯、神經網絡、決策樹等,數據挖掘領域對這些方法的應用主要體現在工具研發和應用研究等方面。隨著技術的不斷發展和成熟,數據挖掘技術也成為各領域數據分析的主要手段和研究方向。
近年來,大數據分析成為各領域研究的熱點。與此同時,不同的研究者給出的大數據定義也各不相同。目前,較為被公眾認可的定義是由維基百科、IBM 公司、高德納大數據研究部門、國際數據中心等提出的。由以上機構給出的有關大數據的定義主要考慮大數據不同的特征,包括數據量大、數據種類的繁多、價值密度低、速度快等,給出了有關大數據的定義的不同說明。不論大數據的定義如何,其最終目的都是希望從各領域海量的數據中提取出對相關領域發展有價值的數據信息,除卻一些無意義的干擾數據信息,能夠對實時更新的數據保持處理的時效性,且要實時處理流式數據。
3數據挖掘技術
海量數據的背后離不開計算機技術的發展,也離不開數據搜集能力的提升。目前,在金融、醫療、商業、企事業單位辦公、研發及開發等領域已經有很多成型的數據庫。這些數據庫中存儲的數據除了數據量大的特點外,還有不完善、有噪聲數據干擾、模糊、格式不統一、隨機等特點。那么,對于數據分析人員來說,如何從這些大體量數據中提取出有價值、有規律的數據信息,挖掘人們很難分析出的潛在規律,是一項具有挑戰性的研究工作。分析數據之前,我們需要對時間序列進行降維操作,這可以在保留較少數據的情況下,反應時間序列的主要形態特征,為之后的數據挖掘打下基礎。圖1為原始時間序列及壓縮后的對比。
數據挖掘技術為實現數據信息的分類聚類、決策分析提供了依據,數據挖掘方法如下。
3.1 Decision tree
Decision tree(決策樹)是數據挖掘技術的典型方法之一,其目的是對數據信息進行分類處理,其基于信息論原理。首先,創建一個決策樹,依據是已經確定的數據集。其次,預測分析,根據創建好的決策樹展開工作。創建決策樹是為了形成數據規則。在這個過程中,實現數據規則可視化,由其得出的結果也更容易理解。決策樹的優點較多,如較易理解、處理效率高、較高精確度。目前,決策樹是一種較為常用的數據挖掘方法。
3.2 Neural network
Neural network(神經網絡)由若干個單元構成,這些單元類似于人腦中的神經元。我們將這些單元稱為節點,神經網絡由這些節點在網絡中彼此連接構成。一旦有數據輸入,節點彼此協同工作,以確定數據模式。輸入層、中間層、輸出層是組成神經網絡的三個層次。
3.3 Genetic algorithm
Genetic algorithm 遺傳算法包含染色體的概念,這里的染色體不同于人體的染色體,其由問題可能的解按照一定的方式進行編碼產生。創建初始種群,根據選取的若干染色體計算適應值,根據預定的評價函數計算初始種群中染色體的適應值。具有高適應值的染色體代表其性能較好。對性能較好的染色體進行 copy,利用遺傳算子,生成性能更好的染色體,進而形成新的種群,直到最后形成一個性能最優、最能適應環境的個體,即可形成最優解。
3.4數據可視化
大體量的數據有時不能直觀反應其規律,很難直接觀察其規律,用于工作和科研。數據挖掘技術提供了可視化系統。利用多維數據中的關鍵點,可視化呈現數據的發展趨勢和形態特征。可視化工具具有增強原有圖形工具的效果,對于多維數據可進行可視化操作。
3.5粗糙集法
針對不完善、不精確、模糊的處理問題,我們可以使用粗糙集理論的方法。粗糙集理論的優缺點如下:優點—無須一些擴充的數據信息以及預備信息,算法十分簡單;缺點—需要先分類屬性,對于連續屬性處理效果不好。在粗糙集理論應用中,如何離散化連續的屬性是難點。粗糙集理論可以處理數據約簡、相關性挖掘、評估數據等問題,主要應用于預測模型創建、數字邏輯分析以及近似推理等方面。
4大數據背景下的數據挖掘技術
大數據挖掘技術的數據種類繁多、數據量大,因此不同于以往的數據挖掘方法。大數據挖掘技術不再過多依賴傳統數據挖掘技術的算法和模型。針對海量數據,大數據挖掘技術的應用可以發揮較好的功效,幫助研究者提取出有用的數據信息,為研究提供有價值的參考。其挖掘方法如下:社會計算、數據演變分析、知識計算、深度學習等。并且,大數據挖掘技術針對不同領域的數據種類,可以利用不同的數據挖掘方法。流數據挖掘、Web 數據挖掘以及空間數據挖掘是大數據挖掘技術的三個分支。與傳統數據挖掘方法相比,大數據挖掘技術在數據處理流程上是有區別的。同時,大數據挖掘技術可以更加科學有效地處理數據挖掘問題。
4.1相關技術
針對流數據、空間數據以及互聯網數據,大數據挖掘技術被分成流數據挖掘技術、空間數據挖掘技術以及 Web 數據挖掘技術。這三種數據挖掘技術應用在不同的場景。例如,零售數據、股票數據、車輛監控數據等屬于流數據挖掘技術;互聯網領域的傳統數據挖掘屬于 Web 數據挖掘技術領域;空間數據挖掘技術不同于流數據挖掘技術以及 Web 數據挖掘技術,其具有明顯的空間性,基于空間分析法,使用綜合屬性數據分析方法處理空間數據挖掘的問題。
大數據挖掘技術同傳統數據挖掘技術一樣被應用于各行各業,如金融行業的數據處理問題、教育行業的數據處理問題、道路交通領域的數據處理問題、電子商務領域的數據處理問題、醫療行業的數據處理問題、生物醫學領域的數據處理問題、郵政行業的數據處理問題等,應用十分廣泛。
4.2發展趨勢
如今,越來越多的研究者參與數據挖掘研究,數據挖掘技術也逐漸走向成熟。統一化、標準化數據挖掘語言、可視化方法開發、數據存儲類型匹配問題、應用研究、整合數據挖掘、數據庫以及 Web 數據庫系統,是數據挖掘的主要研究方向。標準化是目前各個領域開發的基礎,數據挖掘技術也不例外。數據挖掘所使用語言的標準化,將有利于數據挖掘系統的開發和應用;可視化操作能夠使用戶更加直觀地了解數據變化的規律,更加容易理解。因此,可視化技術是數據挖掘技術的未來發展趨勢,能夠更友好的支持人機交互操作;數據類型多種多樣,其存儲類型也呈現出多樣化特征。研究與各種數據存儲類型匹配的問題,將成為研究的熱點之一;數據挖掘方法對于各領域的支持效果不盡相同。而目前,各行業對數據挖掘技術的依賴度逐年上升,都希望通過數據挖掘技術有效提取信息。所以,針對于某一領域的數據挖掘系統開發尤為重要。數據庫系統以及 Web 數據庫系統是數據挖掘領域不能忽視的兩個系統,如何整合相關系統,實現緊耦合[7],是數據挖掘技術需要解決的問題。
5總結
數據的來源渠道越來越多,其結構越來越復雜,數據量越來越大、種類越來越豐富,并且其隱含的經濟及科研價值也越來越大,這對數據挖掘技術提出了更高的要求。從各行業產生的海量數據中挖掘出有用的數據信息,可以指導行業發展以及為科研提供數據支撐。這需要越來越多的研究者投身其中,真正開發出一些實用、有效的軟件平臺來支撐數據分析、可視化、提取等。大數據挖掘技術是未來各領域必不可少的技術支撐,將吸引更多的研究者投身其中。
參考文獻:
[1]趙剛,蔣文麗.數據庫技術發展綜述[ J].黑龍江科學,2021,12(16):48?49.
[2]黃心依.機器學習在數據挖掘中的應用研究[J].信息記錄材料,2021,22(8):121?123.
[3]韓明.數據挖掘及其對統計學的挑戰[ J].統計研究,2001(8):55?57.
[4]呂鳴劍.數據挖掘在知識工程中的應用研究[J].電腦知識與技術,2011,7(23):5550?5551.
[5]王元卓,賈巖濤,劉大偉,等.基于開放網絡知識的信息檢索與數據挖掘[J].計算機研究與發展,2015,52(2):456?474.
[6]吳昉,宋培義.數據挖掘的應用[ J].貴州科學,2012,30(3):54?56.
[7]陶翠霞.淺談數據挖掘及其發展狀況[ J].科技信息(科學教研),2008(4):72+98.
作者簡介:
王赫楠(1986—),碩士,講師,研究方向:數據挖掘,計算機應用。
岳慧平(1980—),碩士,副教授,研究方向:計算機應用。夏書劍(1984—),碩士,講師,研究方向:計算機應用。