中國人民解放軍77169部隊 熊伯安
基于大數據時代的數據挖掘及分析
中國人民解放軍77169部隊 熊伯安
隨著信息技術的不斷發展,人類進入智能社會的進程不斷加快。智能社會的發展帶動了互聯網、物聯網、電子商務、現代物流和網絡金融等現代服務業的發展。網絡信息的廣泛應用,造成各種業務數據幾何級數形式的巨大增長,這就給數據的收集、儲存、分析和應用等帶來極大的困難。2011年5月,麥肯錫全球研究院正式提出“大數據”的概念,在大數據時代的大環境下,大數據挖掘的核心框架、本質、應用、算法、數據和平臺等如何有機結合,這是這個時代高科技工作者共同面臨的重要課題。
大數據;數據挖掘;數據應用
隨著人類進入信息化時代,越來越多的數據需要處理,人類進入“大數據時代”,人類對信息的掌握達到前所未有的速度、厚度、細度和準確度。面對大量的數據,對這些數據進行挖掘和分析,并將這些運用到各行各業的發展中,推動社會的不斷發展,成為當今大數據時代的必行之路。
2011年5月,在EMC舉辦了主題為“云計算相遇大數據” ,“大數據”概念被首次提出。掀起了學術界對于“大數據”的研究和討論。大數據具有規模大、類型多、價值高、處理速度快等特點,數據增長速度日漸增快,以至于傳統的主流數據庫管理工具根本無法滿足數據增長的需求,日益增長的數據的存取、分析、收索、共享和可視化需要大數據技術的支持。
由于大數據的迅速發展,不斷有專業信息技術研究機構對“大數據”進行了解釋和分析。信息技術的不斷發展帶來了科學技術的變革,大數據環境下人民的生活、工作和思維正在隨著信息技術的更新悄無聲息的改變著,大數據成為時代變革的先行者。據權威機構的不完全統計,超過百分之九十的數據是近兩年來才創造出來的。數據的巨大增長速度代表的不僅僅是發展速度,還代表著巨大的數據信息量。
數據挖掘是大數據時代的一項重要技術。數據挖掘可以從大量的數據中搜索出隱藏在大量數據中具有特殊關系型的信息過程。它是數據庫知識發現KDD中的重要步驟。知識發現KDD過程包括數據準備、數據挖掘、結果表示和解釋三個階段。數據挖掘需要數據庫技術、統計學、人工智能、云計算和可視化等學科的積極配合。
數據挖掘的實際應用功能大致分為分類去隔法、推算預測法、序列規則法等三類。具體又分為分類、聚類、回歸、時間、關聯、序列六個分項。數據挖掘利用這些分項功能對大量數據進行挖掘,發現那些被隱藏的信息對于社會的發展有巨大潛在價值。
數據挖掘過程是一個復雜的建模過程。大量的復雜數據為建模提供依據,各種數理模型能夠對大量數據進行有效的分析和整理,從而獲取有用的信息數據幫助用戶了解情況,為客戶劃分市場尋找對策提供最基礎最有效的數據支持。在數據挖掘過程中經常需要統計分析的一些知識和方法的支持。數據挖掘過程是一個復雜而細致的過程,數據挖掘過程還需要聯機分析與處理系統、專家系統及模式識別系統等科學方法的支持。數據挖掘是一種運用數據搜素技術分析整理企業所需技術的方法。規律性的聯系被隱藏在大量的數據中,數據挖掘就是把這種隱藏關系進行搜索和分析,在數據挖掘過程中,通過數據建模對大量數據進行分析,利用數據模型把隱藏在大量數據之中的關聯性、規律性從數據中提取出來。
當今社會已經進入大數據時代,從數據的快速發展來看,工業、農業、教育和軍事等多個信息化的發展過程中肯定會產生龐大的信息數據需要處理,這就對數據挖掘和數據分析提出更高的要求。隨著社會的發展,數據在不斷的增加和更新,數據挖掘和分析的技術也在不斷的進步?,F行條件下數據分析方法大致分為描述性分析、推斷性分析、差異性分析、相關性分析、預測分析五大類。這幾種數據分析方法相互配合,為企業或機構的發展和需求提供必要的數據分析結構和信息資源,促進企業或機構的高效管理和競爭力。
由于企業對大數據資源有開發方面的需求,于是便有了數據的深度挖掘。企業擁有大量寶貴的數據資源,它們都希望從中提煉出最有用的信息與線索。深度數據挖掘包括了準備階段、挖掘階段以及結果的表達和解釋工作。數據挖掘的手段也有很多,諸如關聯分析、分類分析、聚類分析、特異群組分析以及演變態勢分析等。根據數據中的差異性,可以很好地建立分類模型,這樣做有十分明顯的作用,它能夠把狀態細分化,實施更具有針對性的營銷,找到更有價值的客戶群體??梢栽谶M行正式分類前先進行一次估計,然后根據估計結果對數據進行預分類,再進行修正直到達到更好。
對數據進行預測有著十分重要的意義,這是對數據進行深度挖掘的一個不能缺少的過程,也是對于數據挖掘更為高級的應用。預測不僅是估計大數據,更要求根據這些大數據進行準確的預判。預測要對以前做好的大數據集進行分析整理,對它所代表的現實世界進行抽象,初步得到最基本的模型,然后從信度及效度兩個方面對模型進行檢驗,確保建立的模型的準確性。建立模型只是一個對數據進行模擬的過程,其目的是通過這一過程對未來趨勢進行預測,盡量達到準確。數據本身是過去的,從這一方面來說它們只能代表過去,但是我們可以通過模型找到其產生的基本機制,使預測成為可能并有準確性。過去的數據并不只是能夠表示過去,它們是十分珍貴的財富,因為從這些數據之中我們能夠預測未來。預測是一個復雜的過程,據統計,目前有關預測已經存在的模型已經有了幾百種,就算是最常用模型的也有好幾十種,因此這個過程有待于進一步提高和改進?,F實世界是復雜的,雖然說預測技術到目前有了突飛猛進的發展,但是預測只是預測,永遠都替代不了現實,而且任何已經存在的模型都不一定比量身定做出來的更符合當前的業務。目前,可以運用于大部分企業應用的模型有很多種,包括多元回歸、非線性回歸、AR模型、MA模型等各種各樣的預測模型。還有一些是專業級統計應用軟件,比如矩陣實驗室、SAS、SPSS、MATLAB等,這些也為深度數據挖掘提供了便利條件。
如果說數據挖掘提高了企業的洞察力,那么大數據管理的精細程度則為企業提供了數據管理方面的保障。目前,大數據的精細管理僅限于大型企業,尤其是互聯網或其他高科技企業,因為龐大的數據量在目前并不會出現于普通百姓之家,即使一些企業有數十年的數據量,也都沒有達到大數據的水平。不管是以利潤為中心,還是以客戶為中心,大數據的精細管理都是一種推動力量,有利于推動企業的發展。大數據的精細管理為其提供了管理方面的基礎,同時為差異化競爭提供了原始理論方面的強有力支撐。目前大型企業在精細管理方面存在著不少問題,正是由于這些問題的存在才導致企業主營業務缺乏方向性、針對性、導向性以及向心性等諸多問題。
“大數據”這個概念雖然在近幾年內才出現,但是這個概念卻迅速的被世界各地人民所接受和應用。大數據挖掘和分析技術需要各地人民進行努力。我國在大數據挖掘和分析的道路上需要加強對大數據的獲取與掌握的重視加快對大數據挖掘和分析。
[1]維克托·邁爾-舍恩伯格著,周濤譯.大數據時代[M].杭州:浙江人民出版社,2012.
[2]魏娟,梁靜國.基于數據挖掘技術的企業客戶關系管理(CRM)[J].商業研究,2009(05).
[3]田苗苗.數據挖掘之決策樹方法概述[J].長春大學學報,2008(07).