大數據數據庫的特點及處理技術分析

2021-05-23 12:04:06陳書光

電腦知識與技術 2021年11期

陳書光

摘要：在大數據時代到來的今天，對數據庫處理技術進行研究顯得尤為必要?；诖它c，該文從結構化、高度共享、獨立性和統一管理四個方面，對大數據數據庫的特點進行分析，在此基礎上，論述了大數據數據庫的處理技術，期望通過該文的研究能夠對促進大數據處理水平的提升有所幫助。

關鍵詞：大數據;數據庫;特點;處理技術

中圖分類號：TP393? ? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）11-0024-02

現如今，幾乎每一天都會有EB級，甚至ZB級的數據生成，由此標志著大數據時代正式開啟。隨著數據的不斷增多，對數據庫處理提出更高的要求，為進一步提升大數據的處理效果，有必要加大相關處理技術的研究力度，以此來滿足數據存儲與管理需要。借此，下面就大數據數據庫的特點及處理技術展開分析探討。

1 大數據數據庫的特點分析

隨著大數據時代的開啟，使得數據庫的應用變得越來越廣泛，其在提升數據資源的價值方面具有不可替代的作用。大體上可將數據庫的特點歸納為以下幾個方面。

1.1 數據結構化

數據庫通常都是以系統的形式存在，存儲在數據庫中的數據面向的對象不再是某個具體的應用程序，而是全組織，由此使得數據庫具有了整體結構化的特點。在這一前提下，從數據庫中對相關數據進行存取變得更加靈活，不但可以存取數據庫中單個的數據項和整組數據項，也可以存取某一個記錄或是整組記錄。

1.2 數據高度共享

數據庫是各種類型數據的承載體，其能夠對數據進行存儲和管理。從數據庫的角度上講，它將數據視作為一個整體，存儲在數據庫中的數據面向的是整個系統，正因如此，使得數據庫中的數據能夠被多個用戶及不同的應用程序共享使用。在大數據的背景下，數據量不斷激增，這樣不可避免地會出現一些相同的數據，數據庫只會對相同的數據存儲一次，減少了數據冗余。

1.3 數據獨立

存儲在數據庫中的數據，完全獨立于應用程序，這種獨立性的特征，使得數據結構及存取方式的改變，不會對應用程序造成影響。通常情況下，可將數據的獨立性細分為邏輯和物理兩個方面，無論是邏輯結構發生變化，還是物理結構發生變化，應用程序在不進行任何修改的情況下，都能夠保持正常運行，由此充分體現出數據庫的獨立性特點。

2 大數據數據庫的處理技術

大數據數據庫的處理技術主要包括采集、預處理、存儲與管理、分析與挖掘等，下面分別對這些處理技術進行分析。

2.1 大數據采集技術

根據相關調查統計結果顯示，得到有效利用的信息比例約為0.6%，而其余99.4%均未獲得利用，導致這一問題的主要原因是高價值的信息獲取采集的難度較大。

2.1.1 采集對象

從海量的大數據當中，采集到有利用價值的信息是推動大數據發展的關鍵之所在，正因如此，使得數據采集成為大數據數據庫處理技術中不可或缺的一項技術。數據采集簡稱DAQ，從本質的角度上講，DAQ是一個自動完成信息采集的過程，采集對象包括傳感器裝置、各種被測設備等。

2.1.2 數據分類及來源

（1）在大數據的背景下，新一代的數據結構體系被提出，該體系對新數據源進行重新歸納和分類，具體分為兩大類，一類是線上行為數據，另一類是內容數據，前者包括頁面數據、會話數據、交互數據以及表單數據等;后者包括日志、電子文檔、語音以媒體數據等。

（2）大體上可以將大數據的來源歸納為以下幾個方面：互聯網數據、傳感器數據、商業數據等，在這些數據來源的支撐下，使得大數據采集技術具備了數據量大、數據類型豐富、分布式數據庫等特點，并且還開發出一些全新的采集方法，如系統日志采集方法、網絡數據采集方法等。

2.2 大數據預處理技術

來源于現實世界中的數據具有不完整的特征，并且數據格式也不一致，所以很難對這些數據進行直接挖掘，即便能夠進行挖掘，最終的效果也并不理想。為給數據挖掘提供有利條件，便需要對數據進行預處理，數據預處理技術隨之產生。

2.2.1 預處理的目的

可用于數據預處理的方法相對較多，如數據清理、數據變換、數據集成等。通過這些方法對數據進行處理后，不但能夠減少數據挖掘所需的時間，而且還能提高數據挖掘質量。

2.2.2 處理過程

對于數據庫而言，其需要對高質量的數據進行集成，如果數據質量不高，將會影響到集成效果，同時，原始數據當中都或多或少地存在一些問題，所以需要對數據進行預處理。通常情況下，數據預處理在數據挖掘過程中的時間占比約為60%左右。通過數據清洗能夠有效去除掉數據中所含的噪聲及無關信息;數據變換可以將原始數據轉換為適宜數據挖掘的形式;數據集成能夠將數據源中數據整合到一起后存儲于數據庫中。經上述流程處理后的數據，可供數據挖掘使用。

2.3 大數據存儲與管理技術

隨著大數據時代的正式開始，各類數據呈現出激增的態勢，在對海量數據進行整理的過程中，需要使用到大數據存儲與管理技術。

2.3.1 數據存儲規模

數據量大是大數據最為突出的一個特點，起始計算量一般為PB級，有的甚至達到EB級，或是更高的ZB級，由此使得數據存儲規模呈現出大型化的趨勢。不僅如此，大數據的種類和來源具有多樣化的特點，這在一定程度上增大了數據存儲與管理的復雜程度。從目前的情況來看，大數據主要來自各種搜索引擎、電子商務、社交網絡、音視頻以及在線服務等領域，不同的領域數據形式有所差別，所以，在大數據時代，必須找到一種行之有效的方法，對海量數據的存儲問題進行解決。

2.3.2 存儲與管理方法

與國外的發達國家相比，我國在數據庫、云計算等技術方面明顯落后，傳統的數據庫很難滿足海量數據存儲的需要，提升數據存儲能力成為當務之急。大數據存儲與管理技術的提出，給這一問題的解決提供了途徑，大數據存儲與管理的有效形式包括數據加密、數據倉庫、云端存儲。

（1）私有數據在特定范圍的安全性非常高，但隨著網絡的普及，使得經由網絡發起的攻擊越來越多，私有數據的安全性受到威脅。通過數據加密技術的合理運用，能夠對來自網絡的惡意攻擊起到有效的防范，由此使得加密技術成為數據庫安全的重要保障。經過加密之后的數據，無論傳輸還是存儲都要比未經加密的數據更為安全。

（2）大數據由于數據量過大，從而增大了管理難度，對數據進行精簡，則可降低管理難度，精簡的過程可以借助數據倉庫來實現。

2.4 大數據分析與挖掘技術

2.4.1 挖掘對象

數據挖掘簡稱DM，它既是一項技術，也是一個處理過程，是從原始數據中對隱含的、不為人知的、具有利用價值的信息進行提取的過程。可用于數據挖掘的對象相對較多，如數據倉庫、關系數據庫、多媒體數據庫、時態數據庫、異質數據庫以及互聯網等等。

2.4.2 挖掘流程

數據挖掘是一個較為復雜的過程，具體的挖掘流程如下：對當前的業務問題進行清晰定義，據此對挖掘目的進行確定;對數據進行準備，包括數據選取、提取目標數據集、數據預處理;按照數據的特點，對相應的算法進行選擇，并利用該算法，對處理好的數據集進行挖掘;評價挖掘結果，并將之轉換為可被用戶理解的內容。

2.4.3 挖掘方法

數據挖掘技術可以分為兩大類，一類是直接挖掘，另一類是間接挖掘，前者是以可用的數據為依托構建模型，通過該模型對剩余的數據進行描述;后者是用模型描述變量，并在變量中建立某種特定的關系。可用于數據挖掘的方法較多，其中較具代表性的有神經網絡、遺傳算法、決策樹、統計分析、模糊集等。

2.4.4 發展方向

數據挖掘作為大數據數據庫處理技術的核心，應當不斷進行技術突破，只有這樣，才能滿足大數據持續發展的需要。具體的突破方向如下：

（1）數據挖掘算法。這是大數據分析的基礎，不同的算法可用于不同的數據類型，進而深入到數據內部，挖掘出有利用價值的數據。因此，為某項特定的任務選取最為適宜的算法非常重要;

（2）預測性分析。這是大數據最為重要的一個應用領域，需要結合多種高級分析功能來完成，如預測建模、文本分析、實體分析、機器學習、優化等。通過對數據的特點進行預測分析，能夠進一步了解當前的狀態，為下一步行動方案的確定提供依據。

2.5 大數據檢索技術

2.5.1 主要模塊

1）集群主服務器（HMaster）。該服務器能夠對HBase（開源數據庫）中所有的元數據接口進行管理，并對集群中負責響應用戶請求的實例進行監控。由于HBase架構當中能夠同時存在若干個的集群主服務器，依托相關機制，可以使集群主服務器中有一個處于平穩的運行狀態。集群主服務器可以管理不同的負載，通過這種方法能夠對Region分區進行調整，從而使分區的負載始終保持均衡。

2）協同服務組件（ZooKeeper）。在HBase架構中，協同服務組件ZooKeeper的主要作用是對數據調度進行協調，由此能夠使集群中數據并發訪問的問題得到有效解決。ZooKeeper在對區域服務器進行注冊的過程中，可以采用Ephedral方法，這樣便于對區域服務器的運行進行實時監測，從而及時發現區域服務器中出現的問題，并對問題進行快速反饋，防止單點問題的發生。

2.5.2 檢索方法

在將相關的數據寫入到HBase架構當中時，客戶端需要先訪問協同服務組件，并從其中對元數據表的位置信息進行獲取，隨后客戶端對元數據分區所在的區域服務器發起訪問，對表中的數據進行讀取，依托這部分數據，客戶端能夠找到要寫入表的對應分區，及其所在的區域服務器位置，進而發出寫入請求。當區域服務器接到客戶端發出寫入請求后，會對該請求做出快速響應，先將數據寫入到HLog中，再寫入緩存區，當數據成功寫入后，操作完成。用戶提出數據檢索請求后，客戶端會訪問協同服務組件，找到需要檢索的信息后，會進行讀取，未找到會繼續進行掃描，直至找到為止，由區域服務器將檢索到的數據返回客戶端，完成數據檢索。

3 結論

綜上所述，在大數據時代到來的今天，各類數據呈現出大幅度激增的態勢，這對數據存儲與管理提出全新的挑戰。數據庫在數據管理和存儲中具有不可替代的作用，為使數據庫的作用得到最大限度的發揮，除要了解數據庫的特點之外，還要對相關的處理技術進行研究，以此來滿足不斷增長的數據處理需要，這對于促進大數據的持續發展具有重要的現實意義。

參考文獻：

[1] 蘇華友，梅松竹，李榮春，等.數據流技術在GPU和大數據處理中的應用[J].大數據，2020，6（3）：117-128.

[2] 熊志強，張嫻靜.基于大數據背景下的計算機信息處理技術研究[J].北京印刷學院學報，2020，28（1）：142-144.

[3] 王現君.計算機數據處理中云計算技術的應用及發展方案研究[J].通信電源技術，2020，37（1）：205-206.

[4] 段玉風.大數據環境下分布式數據抓取策略的研究與應用[J].網絡安全技術與應用，2019（12）：75-76.

[5] 余利峰.面向分布式空間數據庫的矢量數據存儲與查詢處理關鍵技術研究[D].杭州：浙江大學，2018.

【通聯編輯：代影】