摘 要:隨著改革開放的進一步深化,以及經濟全球化的快速發展,我國各行各業都有了質的飛躍,發展方向更加全面。特別是近年來科學技術的發展和普及,更是促進了各領域的不斷發展,各學科均出現了科技交融。在這種社會背景下,數據形式和規模不斷向著更加快速、精準的方向發展,促使經濟社會發生了翻天覆地的變化,同時也意味著大數據時代即將來臨。就目前而言,數據已經改變傳統的結構模式,在時代的發展推動下積極向著結構化、半結構化,以及非結構化的數據模式方向轉換,改變了以往的只是單一地作為簡單的工具的現象,逐漸發展成為具有基礎性質的資源。文章主要針對大數據時代下的數據分析與挖掘進行了分析和討論,并論述了建設數據分析與挖掘體系的原則,希望可以為從事數據挖掘技術的分析人員提供一定的幫助和理論啟示,僅供參考。
關鍵詞:大數據;數據分析;數據挖掘;體系建設
引言
進入21世紀以來,隨著高新科技的迅猛發展和經濟全球化發展的趨勢,我國國民經濟迅速增長,各行業、領域的發展也頗為迅猛,人們生活水平與日俱增,在物質生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數據信息方面的內容。在經濟全球化、科技一體化、文化多元化的時代,數據信息的作用和地位是不可小覷的,處理和歸類數據信息是達到信息傳遞的基礎條件,是發展各學科科技交融的前提。
然而,世界上的一切事物都包含著兩個方面,這兩個方面既相互對立,又相互統一。矛盾即對立統一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點、全面的觀點看問題。同時要積極創造條件,促進矛盾雙方的相互轉變。數據信息在帶給人們生產生活極大便利的同時,還會被諸多社會數據信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數據信息,完善和健全數據分析技術和數據挖掘手段,通過各種切實可行的數據分析方法科學合理地分析大數據時代下的數據,做好數據挖掘技術工作。
1 實施數據分析的方法
在經濟社會快速發展的背景下,我國在科學信息技術領域取得長足進步。科技信息的發展在極大程度上促進了各行各業的繁榮發展和長久進步,使其發展更加全面化、科學化、專業化,切實提升了我國經濟的迅猛發展,從而形成了一個最佳的良性循環,我國也由此進入了大數據時代。對于大數據時代而言,數據分析環節是必不可少的組成部分,只有科學準確地對信息量極大的數據進行處理、篩選,才能使其更好地服務于社會,服務于廣大人民群眾。正確處理數據進行分析過程是大數據時代下數據分析的至關重要的環節。眾所周知,大數據具有明顯的優勢,在信息處理的過程中,需要對大容量數據、分析速率,以及多格式的數據三大問題進行詳細的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系統,主要由客戶端模塊、元數據管理模塊、數據存儲服務模塊等模塊組成,其優勢是儲存容量較大的文件,通常情況下被用于商業化硬件的群體中。相比于低端的硬件群體,商業化的硬件群體發生問題的幾率較低,在儲存大容量數據方面備受歡迎和推崇。Hadoop,即是分布式計算,是一個用于運行應用程序在大型集群的廉價硬件設備上的框架,為應用程序的透明化的提供了一組具有穩定性以及可靠性的接口和數據運動,可以不用在價格較高、可信度較高的硬件上應用。一般情況下,面對出現問題概率較高的群體,分布式文件系統是處理問題的首選,它采用繼續運用的手法進行處理,而且還不會使用戶產生明顯的運用間斷問題,這是分布式計算的優勢所在,而且還在一定程度上減少了機器設備的維修和維護費用,特別是針對于機器設備量龐大的用戶來說,不僅降低了運行成本,而且還有效提高了經濟效益。
1.2 Hadoop的優點與不足
隨著移動通信系統發展速度的不斷加快,信息安全是人們關注的重點問題。因此,為了切實有效地解決信息數據安全問題,就需要對大量的數據進行數據分析,不斷優化數據信息,使數據信息更加準確,安全。在進行數據信息的過程中,Hadoop是最常用的解決問題的軟件構架之一,它可以對眾多數據實行分布型模式解決,在處理的過程中,主要依據一條具有可信性、有效性、可伸縮性的途徑進行數據信息處理,這是Hadoop特有的優勢。但是世界上一切事物都處在永不停息地變化發展之中,都有其產生、發展和滅亡的歷史,發展的實質是事物的前進和上升,是新事物的產生和舊事物的滅亡,因此,要用科學發展的眼光看待問題。Hadoop同其他數據信息處理軟件一樣,也具有一定的缺點和不足。主要表現在以下幾個方面。
首先,就現階段而言,在企業內部和外部的信息維護以及保護效用方面還存在一定的不足和匱乏,在處理這種數據信息的過程中,需要相關工作人員以手動的方式設置數據,這是Hadoop所具有的明顯缺陷。因為在數據設置的過程中,相關數據信息的準確性完全是依靠工作人員而實現的,而這種方式的在無形中會浪費大量的時間,并且在設置的過程中出現失誤的幾率也會大大增加。一旦在數據信息處理過程中的某一環節出現失誤,就會導致整個數據信息處理過程失效,浪費了大量的人力、物力,以及財力。
其次,Hadoop需求社會具備投資構建的且專用的計算集群,在構建的過程中,會出現很多難題,比如形成單個儲存、計算數據信息和儲存,或者中央處理器應用的難題。不僅如此,即使將這種儲存形式應用于其他項目的上,也會出現兼容性難的問題。
2 實施數據挖掘的方法
隨著科學技術的不斷發展以及我國社會經濟體系的不斷完善,數據信息處理逐漸成為相關部門和人們重視的內容,并且越來越受到社會各界的廣泛關注和重視,并使數據信息分析和挖掘成為熱點話題。在現階段的大數據時代下,實施數據挖掘項目的方法有很多,且不同的方法適用的挖掘方向不同。基于此,在實際進行數據挖掘的過程中,需要根據數據挖掘項目的具體情況選擇相應的數據挖掘方法。數據挖掘方法有分類法、回歸分析法、Web數據挖掘法,以及關系規則法等等。文章主要介紹了分類法、回歸分析法、Web數據挖掘法對數據挖掘過程進行分析。
2.1 分類法
隨著通信行業快速發展,基站建設加快,網絡覆蓋多元化,數據信息對人們的生產生活影響越來越顯著。計算機技術等應用與發展在很大程度上促進了經濟的進步,提高了人們的生活水平,推動了人類文明的歷史進程。在此背景下,數據分析與挖掘成為保障信息安全的基礎和前提。為了使得數據挖掘過程更好地進行,需要不斷探索科學合理的方法進行分析,以此確保大數據時代的數據挖掘進程更具準確性和可靠性。分類法是數據挖掘中常使用的方法之一,主要用于在數據規模較大的數據庫中尋找特質相同的數據,并將大量的數據依照不同的劃分形式區分種類。對數據庫中的數據進行分類的主要目的是將數據項目放置在特定的、規定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內容更加清晰,便于后續時間的內容查找。另外,數據挖掘的分類還可以為用戶提高經濟效益。
2.2 回歸分析法
除了分類法之外,回顧分析法也是數據挖掘經常采用的方法。不同于分類法中對相同特質的數據進行分類,回歸分析法主要是對數據庫中具有獨特性質的數據進行展現,并通過利用函數關系來展現數據之間的聯系和區別,進而分析相關數據信息特質的依賴程度。就目前而言,回歸分析法通常被用于數據序列的預計和測量,以及探索數據之間存在的聯系。特別是在市場營銷方面,實施回歸分析法可以在營銷的每一個環節中都有所體現,能夠很好地進行數據信息的挖掘,進而為市場營銷的可行性奠定數據基礎。
2.3 Web數據挖掘法
通訊網絡極度發達的現今時代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規模的數據信息傳輸和處理而實現的。為了將龐大的數據信息有目的性地進行分析和挖掘,就需要通過合適的數據挖掘方法進行處理。Web數據挖掘法主要是針對網絡式數據的綜合性科技,到目前為止,在全球范圍內較為常用的Web數據挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統,并沒有明顯的界限可以對用戶進行明確、嚴謹的劃分。隨著高新科技的迅猛發展,也給Web數據挖掘法帶來了一定的挑戰和困難,尤其是在用戶分類層面、網站公布內容的有效層面,以及用戶停留頁面時間長短的層面。因此,在大力推廣和宣傳Web技術的大數據時代,數據分析技術人員要不斷完善Web數據挖掘法的內容,不斷創新數據挖掘方法,以期更好地利用Web數據挖掘法服務于社會,服務于人們。
3 大數據分析挖掘體系建設的原則
隨著改革開放進程的加快,我國社會經濟得到明顯提升,人們物質生活和精神文化生活大大滿足,特別是二十一世紀以來,科學信息技術的發展,更是提升了人們的生活水平,改善了生活質量,計算機、手機等先進的通訊設備比比皆是,傳統的生產關系式和生活方式已經落伍,并逐漸被淘汰,新的產業生態和生產方式噴薄而出,人們開始進入了大數據時代。因此,為了更好地收集、分析、利用數據信息,并從龐大的數據信息中精準、合理地選擇正確的數據信息,進而更加迅速地為有需要的人們傳遞信息,就需要建設大數據分析與挖掘體系,并在建設過程中始終遵循以下幾個原則。
3.1 平臺建設與探索實踐相互促進
經濟全球化在對全球經濟發展產生巨大推力的同時,還使得全球技術競爭更加激烈。為了實現大數據分析挖掘體系良好建設的目的,需要滿足平臺建設與探索實踐相互促進,根據體系建設實際逐漸摸索分析數據挖掘的完整流程,不斷積累經驗,積極引進人才,打造一支具有專業數據分析與挖掘水準的隊伍,在實際的體系建設過程中吸取失敗經驗,并適當借鑒發達國家的先進數據平臺建設經驗,取其精華,促進平臺建設,以此構建并不斷完善數據分析挖掘體系。
3.2 技術創新與價值創造深度結合
從宏觀意義上講,創新是民族進步的靈魂,是國家興旺發達的不竭動力。而對于數據分析挖掘體系建設而言,創新同樣具有重要意義和作用。創新是大數據的靈魂,在建設大數據分析挖掘體系過程中,要將技術創新與價值創造深度結合,并將價值創造作為目標,輔以技術創新手段,只有這樣,才能達到大數據分析挖掘體系建設社會效益與經濟效益的雙重目的。
3.3 人才培養與能力提升良性循環
意識對物質具有反作用,正確反映客觀事物及其發展規律的意識,能夠指導人們有效地開展實踐活動,促進客觀事物的發展。歪曲反映客觀事物及其發展規律的意識,則會把人的活動引向歧途,阻礙客觀事物的發展。由此可以看出意識正確與否對于大數據分析挖掘體系平臺建設的重要意義。基于此,要培養具有大數據技術能力和創新能力的數據分析人才,并定期組織教育學習培訓,不斷提高他們的數據分析能力,不斷進行交流和溝通,培養數據分析意識,提高數據挖掘能力,實現科學的數據挖掘流程與高效的數據挖掘執行,從而提升數據分析挖掘體系平臺建設的良性循環。
4 結束語
通過文章的綜合論述可知,在經濟全球化趨勢迅速普及的同時,科學技術不斷創新與完善,人們的生活水平和品質都有了質的提升,先進的計算機軟件等設備迅速得到應用和推廣。人們實現信息傳遞的過程是通過對大規模的數據信息進行處理和計算形成的,而信息傳輸和處理等過程均離不開數據信息的分析與挖掘。可以說,我國由此進入了大數據時代。然而,就我國目前數據信息處理技術來看,相關數據技術還處于發展階段,與發達國家的先進數據分析技術還存在一定的差距和不足。所以,相關數據分析人員要根據我國的基本國情和標準需求對數據分析技術進行完善,提高思想意識,不斷提出切實可行的方案進行數據分析技術的創新,加大建設大數據分析挖掘體系的建設,搭建可供進行數據信息處理、劃分的平臺,為大數據時代的數據分析和挖掘提供更加科學、專業的技術,從而為提高我國的科技信息能力提供基本的保障和前提。
參考文獻
[1]唐東波.基于神經網絡集成的電信客戶流失預測建模及應用[J].大眾商務,2010(06).
[2]劉蓉,陳曉紅.基于數據挖掘的移動通信客戶消費行為分析[J].計算機應用與軟件,2006(02).
[3]魏娟,梁靜國.基于數據挖掘技術的企業客戶關系管理(CRM)[J].商業研究,2005(07).
[4]田苗苗.數據挖掘之決策樹方法概述[J].長春大學學報,2004(06).
[5]王曉佳,楊善林,陳志強.大數據時代下的情報分析與挖掘技術研究——電信客戶流失情況分析[J].情報學報,2013.
[6]劉京臣.大數據時代的古典文學研究——以數據分析、數據挖掘與圖像檢索為中心[J].文學遺產,2015.
[7]李浩博,陳睿.大數據時代火力發電廠數據價值深度挖掘應用探析[J].中國電機工程學會電力行業信息化年會,2012.
[8]劉曉亮.大數據時代的圖書館數據挖掘技術探討[J].無線互聯科技,2015.