賈書偉,鎖配春
(云南經濟管理學院,云南 昆明 650106)
在當今大數據時代,企業管理數據、電子產品社會化數據、互聯網信息數據等極大地豐富了人們的生活,為人們提供多樣化的信息。并且,大數據不僅數據量較大,而且數據類型復雜多樣,影像、報表、文檔、賬單等已經在商業企業中普遍運用。網絡游戲、網絡視頻等數量越來越多。同時,大數據具有多樣性、規模性、高速性的特點,對未來發展有著重要作用。大數據關鍵技術主要包括系統架構、文件系統、數據處理系統、數據庫系統等技術,只有具備這些關鍵技術才能夠解決大數據發展過程中的數據管理問題。研究大數據關鍵技術不僅能夠促進大數據的發展,而且對社會生活及智能化發展意義深刻。
大數據系統架構主要包括大數據存儲和大數據處理方面,其中,大數據存儲主要采用分布式存儲結構,大數據處理主要采購分布式軟件架構計算結構。大數據處理主要包括數據分享、數據檢索、數據分析和數據展現。大數據關鍵技術主要針對數據存儲和數據運算,大數據關鍵技術的研究主要依靠憑借大數據活力的大企業。面對大數據的發展,大數據企業依靠提升服務器的性能已經無法滿足企業的業務需求,需要企業加快大數據存儲技術及大數據處理技術研發,提高大數據技術水平。Google公司是全球最大的信息檢索公司,一直走在大數據技術研究的前言,在2006年提出了云計算的概念,并研發除了分布式文件系統、數據處理技術、數據庫系統等關鍵技術。
文件系統是大數據的基礎,在Google公司發展過程中,現有的發展方案已經無法滿足大數據存儲,因此,Google公司提出了分布式文件管理系統——GFS。GFS與傳統文件系統在可用性、可靠性、伸縮性等方面的目標相同。然而,GFS認為系統組件失敗屬于常態,采用主從結構構件能夠用于廉價服務器的文件系統,并通過追加更新、數據分塊等方式實現數據存儲。但是,隨著數據業務的發展,GFS系統已經難以適應大數據的需求。因此,Google公司對GFS進行了改進,研發了Colosuss系統,Colosuss系統能夠解決海量文件存儲問題和GFS單點故障問題。并且,其他企業也加強了對文件系統的研發,理論如,微軟開發出了Cosmos系統,用于支撐廣告業務和搜索業務。
大數據背景下的數據處理模式主要包括批處理和流處理,流處理直接對數據信息進行處理,而批處理則需要先存儲信息,然后再對信息進行處理。流處理將源源不斷的數據視為數據流,及時處理新數據,并反饋數據結果。而大數據的規模較大,要實現實時處理必須采用分布式處理方式?,F階段,比較典型的開源流處理系統主要包括Storm、Kafka、S4等。而批處理最典型的模型是Google公司所研發的MapReduce編程模型。這一模型能夠實現大量普通配置和并行化信息處理,能夠通過簡單結構實現大規模的分布式計算,提高計算機的計算性能。并且,Google公司在后續研究中對模型的調節技術、連接技術、索引技術等進行了優化。另外,Yunhong Gu等人研發出了sector and Sphere云計算平臺,促進了分布式數據處理系統技術的推廣。
傳統的分布式數據庫難以適應大數據的要求,這是因為,大數據的規模效應壓力較大,數據處理要求遠遠超出了傳統計算機的數據處理能力,采用分布式技術是計算機數據處理的必然選擇。而傳統的數據庫系統采用縱向拓展的方式,數據庫系統性能低于數據增加速度。因此,大數據庫系統應采取橫向發展的方式,提高數據庫系統的擴展性。并且,傳統數據庫系統的數據類型較多,價值較低,而大數據形式多種多樣,數據庫系統需要解決多樣化數據處理的問題。另外,大數據的數據處理方式、數據理性、數據處理時間與傳統的數據處理存在著較大的差異,在大數據時代并不存在一種適用于所有場景的數據存儲方式,需要數據企業建立分布式數據庫,滿足不同場景的數據存儲和數據處理要求。為此,Google公司研發出了Bigtable。Bigtable的擴展性和可靠性較高,適用范圍廣泛,能夠應用在Google企業所生產的60多個項目和產品上。另外,其他企業也提出了大數據系統,Amazon提出了Dynamo,Yahoo提出了PNUTS,促進了人們對關系數據庫的反思與研究。
Google公司除了對大數據處理進行研究之外,還對開源項目進行了深入研究,并研發出了Hadoop,Hadoop屬于開源分布計算平臺,是MapReduce編程模型的載體。軟件開發者可以借助Hadoop對分布式并行程序進行編制,進而使計算機完成海量的數據計算工作。