陳書光
摘要:在大數據時代到來的今天,對數據庫處理技術進行研究顯得尤為必要?;诖它c,該文從結構化、高度共享、獨立性和統一管理四個方面,對大數據數據庫的特點進行分析,在此基礎上,論述了大數據數據庫的處理技術,期望通過該文的研究能夠對促進大數據處理水平的提升有所幫助。
關鍵詞:大數據;數據庫;特點;處理技術
中圖分類號:TP393? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)11-0024-02
現如今,幾乎每一天都會有EB級,甚至ZB級的數據生成,由此標志著大數據時代正式開啟。隨著數據的不斷增多,對數據庫處理提出更高的要求,為進一步提升大數據的處理效果,有必要加大相關處理技術的研究力度,以此來滿足數據存儲與管理需要。借此,下面就大數據數據庫的特點及處理技術展開分析探討。
1 大數據數據庫的特點分析
隨著大數據時代的開啟,使得數據庫的應用變得越來越廣泛,其在提升數據資源的價值方面具有不可替代的作用。大體上可將數據庫的特點歸納為以下幾個方面。
1.1 數據結構化
數據庫通常都是以系統的形式存在,存儲在數據庫中的數據面向的對象不再是某個具體的應用程序,而是全組織,由此使得數據庫具有了整體結構化的特點。在這一前提下,從數據庫中對相關數據進行存取變得更加靈活,不但可以存取數據庫中單個的數據項和整組數據項,也可以存取某一個記錄或是整組記錄。
1.2 數據高度共享
數據庫是各種類型數據的承載體,其能夠對數據進行存儲和管理。從數據庫的角度上講,它將數據視作為一個整體,存儲在數據庫中的數據面向的是整個系統,正因如此,使得數據庫中的數據能夠被多個用戶及不同的應用程序共享使用。在大數據的背景下,數據量不斷激增,這樣不可避免地會出現一些相同的數據,數據庫只會對相同的數據存儲一次,減少了數據冗余。
1.3 數據獨立
存儲在數據庫中的數據,完全獨立于應用程序,這種獨立性的特征,使得數據結構及存取方式的改變,不會對應用程序造成影響。通常情況下,可將數據的獨立性細分為邏輯和物理兩個方面,無論是邏輯結構發生變化,還是物理結構發生變化,應用程序在不進行任何修改的情況下,都能夠保持正常運行,由此充分體現出數據庫的獨立性特點。
2 大數據數據庫的處理技術
大數據數據庫的處理技術主要包括采集、預處理、存儲與管理、分析與挖掘等,下面分別對這些處理技術進行分析。
2.1 大數據采集技術
根據相關調查統計結果顯示,得到有效利用的信息比例約為0.6%,而其余99.4%均未獲得利用,導致這一問題的主要原因是高價值的信息獲取采集的難度較大。
2.1.1 采集對象
從海量的大數據當中,采集到有利用價值的信息是推動大數據發展的關鍵之所在,正因如此,使得數據采集成為大數據數據庫處理技術中不可或缺的一項技術。數據采集簡稱DAQ,從本質的角度上講,DAQ是一個自動完成信息采集的過程,采集對象包括傳感器裝置、各種被測設備等。
2.1.2 數據分類及來源
(1)在大數據的背景下,新一代的數據結構體系被提出,該體系對新數據源進行重新歸納和分類,具體分為兩大類,一類是線上行為數據,另一類是內容數據,前者包括頁面數據、會話數據、交互數據以及表單數據等;后者包括日志、電子文檔、語音以媒體數據等。
(2)大體上可以將大數據的來源歸納為以下幾個方面:互聯網數據、傳感器數據、商業數據等,在這些數據來源的支撐下,使得大數據采集技術具備了數據量大、數據類型豐富、分布式數據庫等特點,并且還開發出一些全新的采集方法,如系統日志采集方法、網絡數據采集方法等。
2.2 大數據預處理技術
來源于現實世界中的數據具有不完整的特征,并且數據格式也不一致,所以很難對這些數據進行直接挖掘,即便能夠進行挖掘,最終的效果也并不理想。為給數據挖掘提供有利條件,便需要對數據進行預處理,數據預處理技術隨之產生。
2.2.1 預處理的目的
可用于數據預處理的方法相對較多,如數據清理、數據變換、數據集成等。通過這些方法對數據進行處理后,不但能夠減少數據挖掘所需的時間,而且還能提高數據挖掘質量。
2.2.2 處理過程
對于數據庫而言,其需要對高質量的數據進行集成,如果數據質量不高,將會影響到集成效果,同時,原始數據當中都或多或少地存在一些問題,所以需要對數據進行預處理。通常情況下,數據預處理在數據挖掘過程中的時間占比約為60%左右。通過數據清洗能夠有效去除掉數據中所含的噪聲及無關信息;數據變換可以將原始數據轉換為適宜數據挖掘的形式;數據集成能夠將數據源中數據整合到一起后存儲于數據庫中。經上述流程處理后的數據,可供數據挖掘使用。
2.3 大數據存儲與管理技術
隨著大數據時代的正式開始,各類數據呈現出激增的態勢,在對海量數據進行整理的過程中,需要使用到大數據存儲與管理技術。
2.3.1 數據存儲規模
數據量大是大數據最為突出的一個特點,起始計算量一般為PB級,有的甚至達到EB級,或是更高的ZB級,由此使得數據存儲規模呈現出大型化的趨勢。不僅如此,大數據的種類和來源具有多樣化的特點,這在一定程度上增大了數據存儲與管理的復雜程度。從目前的情況來看,大數據主要來自各種搜索引擎、電子商務、社交網絡、音視頻以及在線服務等領域,不同的領域數據形式有所差別,所以,在大數據時代,必須找到一種行之有效的方法,對海量數據的存儲問題進行解決。
2.3.2 存儲與管理方法
與國外的發達國家相比,我國在數據庫、云計算等技術方面明顯落后,傳統的數據庫很難滿足海量數據存儲的需要,提升數據存儲能力成為當務之急。大數據存儲與管理技術的提出,給這一問題的解決提供了途徑,大數據存儲與管理的有效形式包括數據加密、數據倉庫、云端存儲。
(1)私有數據在特定范圍的安全性非常高,但隨著網絡的普及,使得經由網絡發起的攻擊越來越多,私有數據的安全性受到威脅。通過數據加密技術的合理運用,能夠對來自網絡的惡意攻擊起到有效的防范,由此使得加密技術成為數據庫安全的重要保障。經過加密之后的數據,無論傳輸還是存儲都要比未經加密的數據更為安全。
(2)大數據由于數據量過大,從而增大了管理難度,對數據進行精簡,則可降低管理難度,精簡的過程可以借助數據倉庫來實現。
2.4 大數據分析與挖掘技術
2.4.1 挖掘對象
數據挖掘簡稱DM,它既是一項技術,也是一個處理過程,是從原始數據中對隱含的、不為人知的、具有利用價值的信息進行提取的過程。可用于數據挖掘的對象相對較多,如數據倉庫、關系數據庫、多媒體數據庫、時態數據庫、異質數據庫以及互聯網等等。
2.4.2 挖掘流程
數據挖掘是一個較為復雜的過程,具體的挖掘流程如下:對當前的業務問題進行清晰定義,據此對挖掘目的進行確定;對數據進行準備,包括數據選取、提取目標數據集、數據預處理;按照數據的特點,對相應的算法進行選擇,并利用該算法,對處理好的數據集進行挖掘;評價挖掘結果,并將之轉換為可被用戶理解的內容。
2.4.3 挖掘方法
數據挖掘技術可以分為兩大類,一類是直接挖掘,另一類是間接挖掘,前者是以可用的數據為依托構建模型,通過該模型對剩余的數據進行描述;后者是用模型描述變量,并在變量中建立某種特定的關系。可用于數據挖掘的方法較多,其中較具代表性的有神經網絡、遺傳算法、決策樹、統計分析、模糊集等。
2.4.4 發展方向
數據挖掘作為大數據數據庫處理技術的核心,應當不斷進行技術突破,只有這樣,才能滿足大數據持續發展的需要。具體的突破方向如下:
(1)數據挖掘算法。這是大數據分析的基礎,不同的算法可用于不同的數據類型,進而深入到數據內部,挖掘出有利用價值的數據。因此,為某項特定的任務選取最為適宜的算法非常重要;
(2)預測性分析。這是大數據最為重要的一個應用領域,需要結合多種高級分析功能來完成,如預測建模、文本分析、實體分析、機器學習、優化等。通過對數據的特點進行預測分析,能夠進一步了解當前的狀態,為下一步行動方案的確定提供依據。
2.5 大數據檢索技術
2.5.1 主要模塊
1)集群主服務器(HMaster)。該服務器能夠對HBase(開源數據庫)中所有的元數據接口進行管理,并對集群中負責響應用戶請求的實例進行監控。由于HBase架構當中能夠同時存在若干個的集群主服務器,依托相關機制,可以使集群主服務器中有一個處于平穩的運行狀態。集群主服務器可以管理不同的負載,通過這種方法能夠對Region分區進行調整,從而使分區的負載始終保持均衡。
2)協同服務組件(ZooKeeper)。在HBase架構中,協同服務組件ZooKeeper的主要作用是對數據調度進行協調,由此能夠使集群中數據并發訪問的問題得到有效解決。ZooKeeper在對區域服務器進行注冊的過程中,可以采用Ephedral方法,這樣便于對區域服務器的運行進行實時監測,從而及時發現區域服務器中出現的問題,并對問題進行快速反饋,防止單點問題的發生。
2.5.2 檢索方法
在將相關的數據寫入到HBase架構當中時,客戶端需要先訪問協同服務組件,并從其中對元數據表的位置信息進行獲取,隨后客戶端對元數據分區所在的區域服務器發起訪問,對表中的數據進行讀取,依托這部分數據,客戶端能夠找到要寫入表的對應分區,及其所在的區域服務器位置,進而發出寫入請求。當區域服務器接到客戶端發出寫入請求后,會對該請求做出快速響應,先將數據寫入到HLog中,再寫入緩存區,當數據成功寫入后,操作完成。用戶提出數據檢索請求后,客戶端會訪問協同服務組件,找到需要檢索的信息后,會進行讀取,未找到會繼續進行掃描,直至找到為止,由區域服務器將檢索到的數據返回客戶端,完成數據檢索。
3 結論
綜上所述,在大數據時代到來的今天,各類數據呈現出大幅度激增的態勢,這對數據存儲與管理提出全新的挑戰。數據庫在數據管理和存儲中具有不可替代的作用,為使數據庫的作用得到最大限度的發揮,除要了解數據庫的特點之外,還要對相關的處理技術進行研究,以此來滿足不斷增長的數據處理需要,這對于促進大數據的持續發展具有重要的現實意義。
參考文獻:
[1] 蘇華友,梅松竹,李榮春,等.數據流技術在GPU和大數據處理中的應用[J].大數據,2020,6(3):117-128.
[2] 熊志強,張嫻靜.基于大數據背景下的計算機信息處理技術研究[J].北京印刷學院學報,2020,28(1):142-144.
[3] 王現君.計算機數據處理中云計算技術的應用及發展方案研究[J].通信電源技術,2020,37(1):205-206.
[4] 段玉風.大數據環境下分布式數據抓取策略的研究與應用[J].網絡安全技術與應用,2019(12):75-76.
[5] 余利峰.面向分布式空間數據庫的矢量數據存儲與查詢處理關鍵技術研究[D].杭州:浙江大學,2018.
【通聯編輯:代影】