基于大數據的數據處理與分析應用研究

2019-09-10 14:31:15魏云

現代營銷·理論 2019年6期

魏云

摘要：現階段，隨著互聯網的普及和信息技術的快速發展，數據的種類和數量以前所未有的速度快速增長著，我們所處的時代已是數據日益滲透的時代，“大數據”已經來臨。現如今，各行各業都在使用大數據，人們的生產生活已無法離開大數據，無論是從事大數據的專業者還是普通用戶都有著一個共同的感觸：大數據很有用！但是，大數據的價值并在數據本身，而是數據處理和分析，因為沒有經過處理和分析的數據，其價值是難以體現的。伴隨互聯網消費的蓬勃發展，我們每一位網絡消費者都曾有過被精準推送廣告信息的經歷，眾多的互聯網平臺如阿里、京東、亞馬遜等也因接觸規模巨大的網絡消費群體而獲得大量數據，但是若不對這些數據進行處理、分析和挖掘就很難從大數據中辨別隱藏在其中的能對決策提供支撐的信息，當然也就沒法產生價值。對數據進行有效處理和分析就是廣告被精準推送的原因之一，那么如何處理、分析、挖掘出有用的大數據？如何更好地管理和利用大數據已是人們普遍關注的話題。

關鍵詞：大數據數據處理分析應用研究

引言

在云計算、物聯網技術不斷發展下，逐漸形成了大數據，作為一項革命性技術，大數據當中蘊含大量不同的信息。在21世紀以來，大數據時代顛覆了傳統信息數據的應用方式，當今社會數據挖掘無時無刻不在改變著人們的生活，結合信息整合額技術，更能夠實現多元化、豐富化信息內容，這也成為了當今人們重點研究的課題。其不僅可以出了龐大的信息群體，還可以呈現出多個種類信息邏輯功能，消除信息源之間的相互影響、空間局限。由此可見，加強數據挖掘的信息整合技術研究有著重要意義。

一、大數據分析的前期準備

數據變得越來越常見，數據分析的價值也越來越凸顯。但是，大數據分析前是需要做好一定準備工作的，這個工作其實就是在預處理階段要做的工作，即數據清理、數據集成、數據歸約和數據轉換。因為初始獲得的數據多含噪聲數據、錯誤數據、缺失數據或冗余數據，通過數據清理對數據進行噪聲識別，對錯誤、缺失或冗余數據進行過濾與修正，進而提高數據的一致性、準確性與可用性;通過數據集成將多個數據源中的數據結合起來存放到一個一致的數據存儲中，進而提高數據的完整性域安全性;通過數據歸約將去噪后的數據根據相關要求對數據屬性進行處理，在保證數據完整性的基礎上，獲得比原始數據小且合乎要求的數據;最后再用線性或非線性的數學變換方法將多維數據壓縮成較少維數的數據，即通過數據轉換實現數據統一。

二、應用措施分析

2.1數據存儲技術

數據的存儲就是指將網上新增的數據通過技術手段儲存起來，當用戶需要時再將數據調取出來使用。如今網上每天就會新增上萬億GB的數據，數據存儲的工作量也大大增加，現在云存儲，云盤技術的發展有效解決了這一問題，每個用戶都可以將自己有用但占內存的數據存到云盤上，對于整個網絡來說，云存儲技術和云計算技術的出現及時解決了日益激增的網絡數據。

2.2數據挖掘與數據倉庫

信息整合技術作為數據挖掘技術的衍生品，是基于數據挖掘的基礎上，實現信息整合。在信息挖掘或整合過程中，必須要從信息整合的數據倉庫中獲取數據挖掘庫或數據集市。從數據倉庫當中直接獲取挖掘信息有諸多助益。數據倉庫下的數據清理和數據挖掘數據清理差不多，如果數據導入到數據倉庫中已經清理完畢，則在數據挖掘、整合時就沒有必要再清理一次，并且可以解決數據不一致等問題。信息整合的數據倉庫中，數據挖掘庫只是一個子集，并非是物理層面上的單獨數據庫。如果數據倉庫數據信息非常緊張你，則可以再建立一個數據挖掘庫。當然，數據挖掘并非要構建一個數據倉庫，并非是必須環節。信息整合技術可以構建一個巨大的數據倉庫，可以將那不同資源整合到一起，解決數據間的沖突問題，將那所有數據導入到數據倉庫內是一項非常大工程。所以，只是為了挖掘數據，可以將幾個事務數據庫導入只讀數據庫當中，將其作為一個數據集市，并在此基礎上進行數據挖掘。

2.3分布集群數據庫在大數據中的應用

目前，許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動，如通信、社交網絡、交易、銀行等，分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問，分布集群數據庫的問題不僅在于如何管理大量的數據，而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一。基于規則的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一，基于規則的集群通過分析屬性和記錄上的數據庫結構，將數據模式表示為規則。使用不同規則池分區的每個集群，每個規則與內部集群中的規則相似，與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術，用于數據分類，在緊湊的程序中具有顯著的表示能力，這源于節點的可重用性，而節點本身就是圖形結構的功能。為了實現基于規則的集群，分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成：起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段：節點定義和節點排列。節點定義的目的是準備創建規則，節點排列是選擇重要的節點，以便高效地提取大量規則。節點排列由以下兩個順序過程執行，第一個過程是查找模板規則，第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中，分布集群數據庫規則提取中只使用了少數幾個屬性，它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比，該節點排列方法具有更好的聚類結果，這兩個過程中的規則生成都是通過圖結構的演化來實現。

2.4大規模并行處理技術的應用

大規模并行處理技術主要用于編寫和調試現代處理器的程序，而不是本地匯編程序，所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數據應用中，會產生很多數據，在數據的分析和計算中，應該結合編程技術，標準語言是面向傳統體系結構的，這就是為什么編譯器不能使用所有可能的DSP體系結構以最佳效率生成代碼的原因。為了獲得一個良好的優化代碼，有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務，可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器，使用并行結構化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼，生成高效的匯編代碼，該代碼積極利用DSP內核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的，但是它們與傳統的基于文本的語言（如C/C++）一起工作。大數據應用環節，在數據分類和計算中，當兩個計算操作在不同的操作單元上執行時，才能在一個dsp核心的vliw命令中并行執行兩個計算操作。根據運算執行單元的不同，計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執行兩個操作成為可能。第一種類型包括由算術和邏輯單元執行的操作，第二種類型包括由乘法器、移位器ms執行的操作。在模板中，標記“1”表示第一種類型的標識，標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數據依賴關系，則可以進行并行化，DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數據計算和分析中，如果有足夠多的通用寄存器來執行這兩個操作，并且它們可以并行執行，代碼就會并行化，提升數據計算的效率。

結語

為了更好地服務于社會、服務于人民，我們有許多的思維需要轉變，有許多的知識需要學習，有許多的技術需要研究。要不斷變革和創新數據處理技術，不斷完善數據的分析方法等。

參考文獻

[1] 王春駒.“大數據”時代的計算機信息處理技術研究[J].通訊世界，2016（6）：92-94.