楊磊
摘要:進入信息化時代后,大數據技術及應用都得到了長遠的發展。本文首先對大數據的發展歷程進行簡單介紹,揭示了數據如何完成的指數級的增長。之后,介紹了數據倉庫的發展趨勢,以及在當前技術環境下,數據倉庫技術如何融合其他技術來為大數據應用提供解決方案,以適應不同企業的實際需求。
關鍵詞:大數據;數據倉庫;架構
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2019)06-0062-01
0 引言
自2008年被《Nature》雜志專刊提出了大數據(BigData)概念,大數據立即成為政府、學術界、實務界共同關注的焦點。大數據,用于描述信息爆炸時代下的海量信息。大數據研究主要是著眼于,分析信息內容及信息之間的聯系,從而利用海量數據來完成為各種應用服務、提供更加精準的數據服務。
1 大數據發展歷程
因為大數據的發展過程,最重要的著眼點是數據量的指數級的增長,以及對數據處理能力的提升,所以本文大致上將大數據的發展歷程分為以下幾個階段。
(1)Megabyte到Gigabyte:20世紀70年代到80年代,數據首次達到了Gigabyte的量級,從而導致“大數據”的引入。為了良好的存儲、處理數據,集成軟硬件于一身的數據庫專用計算機隨之而生。但其專用硬件難以跟上通用計算機的發展節奏,受到的發展的限制。之后,數據庫主要作為軟件系統進行發展,對硬件不再有各種限制,能夠很好的運行在通用的計算機上。
(2)Gigabyte到Terabyte:20世紀80年代末期,數字技術的迅猛發展直接導致數據容量越入Terabyte級別,這一數據量直接超出了單一計算機系統可處理的能力。此時,提升數據存儲能力、處理能力的需求日益迫切,進而提出了數據并行化的理論,其核心思想是將數據和相關的運算分配到獨立的硬件進行處理。在此理論的基礎上,并行數據庫得到了發展,比如磁盤共享數據庫、內存共享數據庫、無共享數據庫。其中,無共享數據庫設計在互連集群的基礎上,取得了很大的成功,較為流行的產品有Teradata、Greenplum、Vertica、Netazza、AsterData。
(3)Terabyte到Petabyte:20世紀90年代末期,全球進入了互聯網時代,網頁數據直接達到了Petabyte級別。網頁數據基本數據半結構化和無結構化的數據,這對數據庫技術是個極大的挑戰。對于結構化的數據并行數據庫能很好的處理,但是對于無結構的數據卻不能很好的支持,并且其數據處理能力處于Teragbytes級別。為了應對此問題,Google提出了GFS文件系統[1]和MapReduce編程模型,能夠自動完成數據的并行化操作,進而將應用分布到服務器集群中。
(4)Petabyte到Exabyte:根據現在大數據的發展態勢,不就之后將進入Exabyte級別。但是,現有的不能滿足這一需求。在2011年7月,EMC發布了名為“Extracting Value From Chaos”的研究報告[2],進一步討論的大數據的思想及價值。之后諸多科技巨頭,如Oracle、Microsoft、Google、Amazon、Alibaba等都開始了大數據項目,同時,眾多政府機構及學術界研究機構都進一步開始了大數據的研究工作,大數據的研究工作仍在進一步的發展。
2 數據倉庫發展趨勢及與大數據技術的融合
數據倉庫經過多年的發展,理論技術、架構體系、解決方案、商業化的產品甚至人才儲備都已很完善。所以,在大數據蓬勃發展還未形成完善的理論和技術體系時,數據庫廠商在其傳統數據倉庫產品的基礎之上,融合Hadoop技術,進一步加強數據庫技術的研發,針對數據分析、數據壓縮、列式數據庫等技術的進行研究。Forrester提出了下一代企業級數據倉庫的平臺架構[3],在傳統的數據源基礎上,引入了來自于傳感器、地理信息、社交網絡等多方面的非關系型數據,通過Hadoop進行數據處理,運用數據虛擬化技術可以將不同的數據源進行整合,再利用壓縮技術來管理更大規模的數據,從而進一步提供數據分析。并可以利用類似于in-memory的數據庫內分析技術來處理更加復雜的應用,能夠同時完成事務的分析和處理操作。而下一代的數據倉庫架構的發展方向就應該是大數據和數據倉庫相融合的角度。
大數據和數據倉庫的產生和發展的背景及其相似,都是想利用最先進的技術來處理更多的數據、最大程度上利用數據的價值。數據庫、數據倉庫以及大數據根本上都是用于處理數據、挖掘數據,彼此之間是需求互補、技術互補、相互協作的關系。
目前對于大部分的企業來講,要新開展一個大數據項目,可以從現有的數據倉庫的經驗入手,可以引入大部分的數據庫技術。尤其是對于實現非結構化數據的處理,是非常有效的。比如,將Hadoop技術應用于對數據采集、ETL、存儲、處理,開發提供給傳統的數據倉庫應用工具。充分利用Hadoop的數據處理優勢,改變傳統數據倉庫單節點存儲、處理的模式,將各類數據處理成結構化數據,向上提供給應用工具。
此外,傳統數據倉庫還可以結合Hadoop在數據管理層協作,使用傳統的數據倉庫工具對結構化的數據進行處理,Hadoop對非結構化數據進行處理,然后將兩者處理后的數據存儲至結構化數據庫中,用于之后的進一步處理。數據倉庫與大數據在技術層面的融合之外,數據倉庫的成熟經驗也應充分利用,比如數據建模、ETL、元數據管理等很多成熟的數據庫經驗可以利用。
雖然數據倉庫技術并不是目前大數據技術的領域的引領者,但是對于大多數的中小企業,無法實現對大數據進行獨立的開發與管理,從而將其融合數據倉庫技術,與傳統廠商合作,是比較理想的解決方案。
3 結語
近年來由于數據量的劇增,大數據領域得到了迅猛的發展。傳統數據庫技術廠商通過進一步完善數據倉庫技術,通過技術的融合,提供出數據倉庫、大數據一體化的解決方案,以適應中小企業的實際需求,從而推動大數據應用的落地。
參考文獻
[1] Ghemawat S,Gobioff H,Leung S T.The Google file system[M].In: Proceedings of the nineteenth ACM symposium on Operating systems principles,New York,NY,USA,2003:29-43.
[2] Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J]. Commun ACM,2008,51:107-113.
[3] Gantz J,Reinsel D.Extracting value from chaos[J].IDC iView,2011:1-12.
The Development of Big Data and the Fusion Application of Data Warehouse
YANG Lei
(Xingye Co., Ltd. Qingdao Branch, Qingdao Shandong? 266000)
Abstract:After entering the information age, big data technology and applications have been developed in the long run. This article begins with a brief introduction to the development of big data and reveals how exponential growth in how data is done. After that, it introduces the development trend of data warehouse, and how the data warehouse technology integrates other technologies to provide solutions for big data applications in the current technology environment to meet the actual needs of different enterprises.
Key words:big data; data warehouse; architecture