大數據分析技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據采集、存儲、處理和呈現的有力武器。大數據分析的關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用。
數據是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。大數據采集一般分為大數據智能感知層和基礎支撐層,其中智能感知層主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等,涉及到大數據源的智能識別、感知、適配、傳輸和接入等技術。基礎支撐層提供大數據服務平臺所需的虛擬服務器,結構化、半結構化及非結構化數據的數據庫及物聯網資源等基礎支撐環境,涉及的技術包括分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與壓縮技術,大數據隱私保護技術等。
主要完成對已接收數據的辨析、抽取、清洗等操作。其中數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的結構,以達到快速分析處理的目的。數據清洗則是將沒有價值的數據進行過濾“去噪”,提取出有效的數據,提高大數據分析的準確性。
使用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用,主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。涉及到的技術包括異構數據的數據融合技術,大數據組織技術,大數據建模技術、大數據索引技術、大數據移動、備份、復制等技術、大數據可視化技術等。
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘涉及的技術方法很多,可以從不同的角度進行分類。根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;根據挖掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;根據挖掘方法可分為:機器學習方法、統計方法、神經網絡方法和數據庫方法。綜合起來,涉及到的技術包括可視化分析、數據挖掘算法、預測性分析、語義引擎、數據質量和數據管理。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理,將海量的信息數據在經過分布式數據挖掘處理后將結果可視化,需要使用生動的圖表來呈現數據,讓用戶能夠方便、快捷地看懂數據,做出正確的決策。為了達到這一目標,對于數據可視化應用軟件的開發就迫在眉睫,數據可視化軟件的開發既要保證實現其功能用途,同時又要兼顧美學形式,這樣就對數據可視化軟件提出了更高的要求,企業需要將積累的各類數據整合起來實時分析,推動自身實現數據智能化管理,增強核心競爭力,將數據價值轉化為商業價值,獲取最大化利益。