文/胡世昆
隨著互聯(lián)網技術的不斷發(fā)展,網絡數據的種類和數量增長迅速,對數據存儲、分析和管理的需求也越來越高,然而傳統(tǒng)的由運營商小型機建立的數據庫系統(tǒng)已經不能適應大數據發(fā)展的要求,不管是在架構,還是在成本和分析能力等都出現(xiàn)瓶頸或者困難,而分布式數據庫技術可以有效解決這個問題,實現(xiàn)大數據的整合、分析和處理。
在大數據時代,傳統(tǒng)的集中式數據庫已經不能滿足人們的要求,亟需更新處理方式,而分布式數據庫就在這種形勢下應運而生。與傳統(tǒng)集中式數據庫相比,分布式數據庫主要有以下幾個優(yōu)勢:首先,分布式數據庫的擴展能力強大,數據存儲方面有優(yōu)勢。其次,能夠有效節(jié)省成本。在大數據背景下 ,采用原有的集中式數據庫,對其進行擴容時會花費大量的資金,不僅成本巨大 ,而且效果有限,而分布式數據庫用較少資金就能進行擴容處理。再者,分布式數據庫對大數據的存儲、分析和處理更加容易和快捷,讓它的用戶在數據處理上有著很大的優(yōu)勢。
分布式數據庫應用大規(guī)模并行處理(MPP)技術,由多個處理單元構成,每個單元有自己的資源,用來計算和存儲,以及運行軟件。分布式數據庫能夠提供動態(tài)擴展的方式,由多個處理單元通過節(jié)點互聯(lián)網,協(xié)同完成相同的任務,進行信息交互。因為每個節(jié)點只能訪問本地資源,沒有異地訪問的問題,所以是一種完全無共享(Shared Nothing)的結構。數據分布到系統(tǒng)的節(jié)點上,進行存儲、加載和查詢,在服務器上自動并列運行。
分布式數據庫的數據可以支持混合方式組織和存儲,混合存儲對數據的查詢、統(tǒng)計和分析有很大的優(yōu)勢,在大數據場景中應用廣泛。混合存儲主要有以下幾個優(yōu)點。
2.2.1 靈活性高
混合存儲數據,可以根據應用需求或格式的不同,采用不同的存儲和壓縮方式,很大程度上提高了配置的靈活性,如圖1所示。
2.2.2 響應速度快
在進行查詢語句時,傳統(tǒng)數據庫技術需整行取出數據,而混合存儲只需讀取所需列,不需讀取其他列,大大提高查詢的性能和響應速度。
2.2.3 擴展性高
分布式數據庫的存儲格式可進行細分,性能也不會下降數據的可擴展性較高。
高效透明壓縮技術能按照數據類型和分布規(guī)律,選擇最優(yōu)壓縮法,并設置多種壓縮選項,對性能與壓縮比進行靈活平衡,且過程對用戶透明。分布式數據庫的列數據包內是內容相關較高的同構數據,容易壓縮,數據占用空間小。壓縮后數據加載和查詢性能也加快很多倍。
分布式數據庫的智能索引是建立在數據包的粗粒度索引。在下載數據時,每個數據包可自動建立,進行過濾和統(tǒng)計信息。粗粒度的智能索引包含描述數據依賴關系的高級信息,能準確識別數據包,可解決復雜的數據連接和查詢。可自動建立數據表,不需手工建立和維護。而且智能索引占空間少,擴展性強,后續(xù)的數據包建立索引速度也不會受到影響,速度快。查詢數據時也不需要解包,對復雜信息查詢的優(yōu)化效果好。
分布式數據庫支持各種類型的應用,如數據裝載和加工、數據計算和更新等操作。大數據下分布式數據庫的使用,不再局限于單一數據庫,能夠對數據進行很好地篩選、加工和處理,并通過索引技術以及并發(fā)機制能支持數據的混合負載場景,滿足業(yè)務上的需要。
分布式數據庫的技術可以實現(xiàn)對大規(guī)模的數據及大批量業(yè)務的承載,因此可以同時承載大量的業(yè)務用戶。通過高效的負載管理,使系統(tǒng)中各類作業(yè)都有條不紊地運行,從而提高整體運轉量。而且分布式數據庫技術的負載管理可以為用戶提供數據優(yōu)先級管理、作業(yè)并發(fā)度控制等功能。

圖1:混合存儲圖
在大數據下的自助服務查詢的業(yè)務中,往往要面向數量龐大的客戶提供查詢服務,在高峰期的訪問量大,因此要求自助服務查詢數據庫具有支持高訪問量的功能。而分布式數據庫在實際應用中支持數百個并發(fā)查詢任務,且在1億條記錄規(guī)模以內的數據查詢,可以在2小時以內處理完成。
分布式數據技術可以實現(xiàn)日匯總數據30億條,加載效率高,最快可達2萬條/秒,能夠滿足大數據下對于高訪問量的加載量,而且速度快,不用擔心數據量大而造成的查詢時間緩慢。
大數據環(huán)境下,分布式數據庫對于提高數據的查詢和處理功能有著重要的作用。加強對分布式數據庫技術的研究與應用,對運營商系統(tǒng)的靈活性與擴展性,提升對用戶的服務質量有很大的幫助,也是適應新時代網絡數據大爆炸,解決數據問題的重要途徑。