999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據倉庫與大數據融合的探討

2015-12-31 12:51:20
電信科學 2015年3期
關鍵詞:數據庫融合分析

于 鵑

(中國水利水電第三工程局有限公司 西安 710016)

1 引言

數據庫技術從誕生到現在,已形成了成熟的理論基礎、實踐方法以及技術產品,并已在此基礎上建立了覆蓋各個行業、各個領域的各類業務系統,數據庫技術是信息技術的重要組成部分,它讓人們可以將紛繁復雜的信息按規律進行保存、使用和管理。而隨著數據庫系統的應用,如何使用和分析已有的數據庫又成為一個新問題,在這種背景下,數據倉庫應運而生[1]。

很多人以為數據倉庫就是“數據庫的集合”或者是更大規模的數據庫,其實數據倉庫是利用已有數據庫,對其中的數據進行再一次抽取、加工和使用,并最終用于管理決策,并不是簡單的數據復制或數據累加。另一方面,在數據倉庫中會使用數據庫技術對其中的數據進行管理,因此也有一種看法認為數據倉庫是數據庫技術的升級。數據倉庫與數據庫技術息息相關,但又不僅是數據庫技術,它是以數據庫技術為核心,涉及元數據、數據挖掘、BI等多技術領域的綜合應用。

在國內大多數企業還在集中精力進行系統整合、數據倉庫建設的時候,“大數據”這個名詞似乎一夜之間名傳天下,其受追捧程度比前幾年的云計算有過之而無不及,按照Gartner公布的新興技術炒作周期分析報告顯示,大數據在2013年已經處于期望膨脹期的頂端[2],但在2014年8月公布的報告中,大數據就已進入了幻覺破滅期[3],Gartner預計大數據要在5~10年才能到達穩定期。大數據雖然在降溫,但一個與大數據密切相關的“數據科學”又出現在今年的技術成熟度曲線中,這說明大數據的出現不但加速了信息技術的發展與融合,同時對自然科學與社會科學領域產生了正面的影響。

對大數據的需求主要集中在分析上,即對規模巨大、結構復雜的數據進行管理與處理,以達到預測和決策的目的。從背景和目的來說,大數據和數據倉庫很相似,但其處理的數據量、數據類型、處理速度、結果的準確性等都不是現在的數據倉庫技術所能比擬的,所以有人預測大數據時代的到來以及相關技術的發展會導致數據倉庫的消亡。

2 大數據技術架構及應用困局

大數據為什么會這樣火爆,其根本原因在于近幾年包括移動應用在內的互聯網的快速發展,這些應用產生了比任何時候都多的數據,這些海量的數據包括社交網絡、移動設備和傳感器等新渠道以及新技術使用所帶來的半結構化或非結構化的數據,而想要挖掘利用這些數據并通過預測分析產生價值,傳統的數據庫運算和處理能力無法實現,在這種情況下大數據技術產生了。以Hadoop為代表的大數據技術在互聯網企業的成功使用,極大地刺激了業界對大數據的熱情,似乎只要是有關大量數據的分析預測都是大數據,在這種情緒下唱衰數據倉庫也就可以理解了。

按照科爾尼咨詢公司的預測,全球用于大數據的軟件、硬件以及服務費用將以近30%的復合年增長率增長,到2018年將達到1 140億美元[4],而數據指數級的增長也必將改變傳統數據存儲與分析方法。關于大數據的架構,科爾尼也做了總結,如圖1所示。

大數據技術架構可分為存儲、處理、應用、展示以及整合5個部分,并可根據數據的結構化程度對相關技術進行選擇和組合。每個部分包含一些技術要素,而某些要素又可根據結構化程度共同作用形成特定的功能,如圖1中的行業應用、決策支持、并行和分布式處理與存儲、報告及可視化以及分析服務。另外,考慮到安全問題,還應加入一個專門的數據安全與隱私部分。

圖1 大數據架構

大數據的架構反映出它的復雜性,大數據不是一個單獨的產品或技術,而是傳統DBMS(database management system,數據庫管理系統)數據庫技術與非結構化數據庫、BI和數據科學等新技術的集合,這些新技術必將給數據的存儲、處理和分析帶來根本性的改變,傳統企業幾乎不可能獨立進行大數據項目的建設,這不僅僅是資金投入的問題。在技術領域持續發燒的背景下,對企業來說大數據應用面臨的困難如下。

首先,目前關于大數據的話題還主要集中在技術層面,而工程和方法問題并沒有解決。也就是說,雖然和大數據有關的技術問題已經基本解決,但如何將技術具體應用到實際企業或組織以及相應的工程學并未解決。特別在國內,雖然個別大型互聯網企業有大數據成功的案例,但這些案例和經驗無法或者很難復制到傳統行業。而且目前為止沒有體系化的應用模型,雖然開源的Hadoop是免費的,且對硬件要求也并不高,但想要使用這些技術以及維護這類項目,開發和維護成本并不見得更便宜,甚至可能更高,所以大數據目前還只是一個看起來很美的“水中之月”。

其次,大數據技術的優點可能會成為缺點。目前Hadoop框架幾乎統一了大數據技術的天下,雖然Hadoop非常優秀,具有創造性,但同樣也具有缺點。例如,它天生就是為了處理海量數據的,對一些相對“少”的結構化數據,反倒不如關系型數據庫靈活、性能高,因此不適合處理需要及時響應的任務,且不便于設計,對于一些基礎數據相對并不算“大”的企業和組織,如果需要對數據進行分析,目前大數據的解決方案可能就顯得大材小用了。

第三,目前大數據技術的安全性缺乏有效的保證。與任何新技術一樣,大數據相關的新技術及其伴隨而來的安全問題并沒有得到有效的重視與解決,人們的關注點主要集中在大數據解決方案,而Hadoop、MPP數據庫、NoSQL、流處理以及相應基礎設施等方面的安全性目前都還沒有得以印證,NoSQL沒有經過長期的完善,Hadoop這種開源框架安全性更是難以保證。除技術安全問題之外,大數據對于個人隱私保護問題也沒有明確的監管[5]。大數據技術的安全會逐漸得到完善,但這個過程不會很短。

第四,市場對大數據的應用態度不明朗。與前兩年對“云”概念的追捧一樣,IT業界因為通過“云”解決了企業IT基礎建設難、維護難、浪費大、能耗高等幾乎所有難題,一廂情愿地認為云計算的優勢必定會馬上被企業接受,并很快得以產業化、利潤化。但市場反應并非如業界猜測,絕大多數企業出于安全和穩定性等顧慮,根本不接受將業務放到商業性的云服務器上去,雖然后來針對企業應用,也出現了一些諸如企業云的建設方案,但出于成本和技術的原因,并沒有呈現爆炸式的發展。

最后,大數據對決策的影響是否能有想象的那么大。大數據產生的一個基礎是挖掘海量數據所包含的信息價值,在這個理論基礎上數據都有其隱含的價值,所以每一個數據都需要被“加工處理及分析”,因而才有了怎么樣處理這些海量數據的技術問題。但這樣就產生了一系列疑問:是否真的有必要對每一個數據都進行加工和分析、其準確性怎么驗證、領導者是否愿意采信其預測結果、大數據又是否可以解決業務問題。分析及預測是一種技術手段,但未必會影響決策。另外,大數據的目的本是對各類源數據進行統計及分析,但在這個過程中本身就已經又產生了一系列數據,而結果也是一系列數據,這些數據的存儲和處理又將產生不菲的成本,因此基于投入和產出的考慮,目前大數據技術的應用環境并不樂觀,當然這些懷疑本身并非技術層面的。

3 數據倉庫發展趨勢及與大數據技術的融合

數據倉庫經過多年的發展,已經具備了完整的架構理論、方法及商業化產品,有了諸如Ralph Kimball所提倡的項目全生命周期的方法論,技術基礎和人才儲備也相對完善,并有著大量的行業和企業成功案例。

因此,在大數據還未形成完整應用理論和體系時,DBMS廠商在傳統數據倉庫產品功能上,針對大數據分析需求和Hadoop進一步融合,加強對列式數據庫、數據庫內分析、in-memory、數據壓縮等技術的研究,以應對更大規模數據的實時分析和處理。根據這種趨勢,Forrester提出了下一代企業級數據倉庫的平臺架構[6],如圖2所示。

在下一代架構中,除了傳統的業務數據源之外,加入了來自社交網絡、傳感器、地理信息等方面的非關系型數據,利用Hadoop進行處理。通過可提供云服務的企業級數據倉庫平臺,結合數據虛擬化整合不同數據源,使用數據壓縮技術更有效地管理更大的數據集,以便提供實時或近實時的分析預測。并可利用in-memory數據庫內分析技術處理更復雜的應用,包括同時進行分析和事務處理。而其中的DWaaS代表可以提供多個廠商的數據倉庫產品,根據用戶需要自動配置,從而提供給企業更經濟的部署方式。

在Forrester的報告中,特別強調該架構并非單純的軟件架構,而未來的企業級數據倉庫供應商應具有更強大的軟硬件集成能力,可提供基于硬件的企業級數據倉庫的解決方案。從Forrester提出的下一代數據倉庫平臺架構也可看出數據倉庫與大數據理念及技術深度融合的發展方向,結合圖1的大數據架構來看,這個下一代數據倉庫幾乎可以說已經是一個大數據方案了。

圖2 下一代企業級數據倉庫平臺架構

大數據需求的產生背景與數據倉庫類似,人們希望利用新技術處理越來越多的數據、挖掘更大的數據價值。因此,從需求角度來說,無論是數據庫、數據倉庫還是大數據都是解決不同需求、處理不同級別數據量的技術,它們之間并無沖突,所以短期內并不會出現由誰取代誰的結果,而應該是針對不同需求和現狀進行技術選擇,各種技術相互補充、相互協作。

目前階段對于大部分企業來說,想要開展一個全新的大數據項目似乎無從下手。從現有數據倉庫建設理論和經驗入手,引入部分大數據技術,特別是實現非結構化數據的收集、存儲和處理是一種比較可行的方法。例如,將Hadoop技術應用于對數據的采集、ETL、存儲、處理,開發提供給傳統的數據倉庫BI工具,其架構如圖3所示。

圖3 數據倉庫與Hadoop技術融合的平臺架構

在這個架構中,主要改變了傳統數據倉庫單節點數據處理和存儲的方式,利用了Hadoop強大的數據處理能力,將各類數據處理成結構化數據,向上提供給傳統BI工具,對數據進行分析和結果展示。在這個基礎架構之上,可以根據數據處理速度及分析響應能力,逐層進行細化及分解,優化組合MPP數據庫、內存數據庫等各類技術,從而滿足BI層分析展示的需要[7]。

另外,還可以在數據管理層利用傳統數據倉庫和Hadoop共同合作[8],由傳統數據倉庫工具對結構化數據進行處理,由Hadoop對更大規模的非結構化數據進行預處理,并將兩者處理后的數據存儲至結構化數據庫中,以便于BI層進行分析和展示。

除了技術層面上數據倉庫與大數據的融合之外,非常重要的一點是傳統數據倉庫在具體應用理論、方法和實施上的成功經驗,如基于數據驅動的螺旋式開發方法、調研及需求設計、ETL、數據建模、元數據管理[9]等各個方面同樣具有很多的可借鑒性與融合性。

有人可能對利用傳統數據倉庫技術實現企業大數據愿景表示不屑,雖然傳統數據倉庫廠商并不是當前大數據技術的引領者,但對于大多數企業來說,把有關大數據的賭注放在自行開發和管理上是不可能的,與數據倉庫技術融合、與傳統廠商進行合作,是目前較為可行的選擇。

4 結束語

人們對大數據的追捧反映了市場的需要,除大數據技術的主要領導者谷歌公司之外,傳統技術廠商也紛紛通過收購或者技術融合,推出一些技術方案或數據倉庫一體機,以解決企業面臨的數據分析問題,但沒有哪家能夠獨立解決大數據問題。本文首先介紹了大數據的技術架構,分析了其應用的困境,然后結合數據倉庫和大數據技術的優點,探討了數據倉庫與大數據技術融合的方案,介紹了數據倉庫與Hadoop技術融合的平臺架構,解決企業大數據應用困難的問題,從而推動大數據項目的快速實施。

1 陳繼東.數據庫發展史.程序員,2004(6):46~50

Chen J D.History of the development of database.Programmer,2004(6):46~50

2 Gartner.Hypecycle foremerging technologies.http://www.gartner.com/newsroom/id/2575515,2013

3 Gartner.Hypecycle foremerging technologies.http://www.gartner.com/newsroom/id/2819918,2014

4 Kearney A T.Beyond big:the analytically powered organization.http://www.atkearney.com/analytics/featured-article/-/asset_publisher/FNSUwH9BGQyt/content/beyond-big-the-analytically-poweredorganization/10192,2014

5 王倩,朱宏峰,劉天華.大數據安全的現狀與發展.計算機與網絡,2013(16):66~69

Wang Q,Zhu H F,Liu T H.Current status and development of big data security.Comput&Network,2013(16):66~69

6 Yuhanna N,Gualtieri M.The forrester wave:enterprise data warehouse.http://www.forrester.com/pimages/rws/reprints/document/86621/oid/1-M6RP7C,2013

7 辛晃,易興輝,陳震宇.基于Hadoop+MPP架構的電信運營商網絡數據共享平臺研究.電信科學,2014,30(4):135~145

Xin H,Yi X H,Chen Z Y.Design of telecom operators’network data sharing platform Based on Hadoop+MPP architecture.Telecommunications Science,2014(4):135~145

8 John Kreisa.Hadoop and the Data Warehouse:When to Use Which.http://hortonworks.com/blog/hadoop-and-the-data-warehousewhen-to-use-which/,2013

9 沈雷明,別志銘.基于電信大數據的數據建模平臺研究.電信科學,2014,30(6):138~141

Shen L M,Bie Z M.Research on data modeling platform based on big data of telecom.Telecommunications Science,2014,30(6):138~141

猜你喜歡
數據庫融合分析
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
隱蔽失效適航要求符合性驗證分析
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數據庫
財經(2017年2期)2017-03-10 14:35:35
電力系統及其自動化發展趨勢分析
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
主站蜘蛛池模板: 韩国福利一区| 亚洲开心婷婷中文字幕| 呦视频在线一区二区三区| 亚洲天堂视频在线免费观看| 欧美国产综合色视频| 视频在线观看一区二区| 亚洲欧美日韩天堂| 人妻21p大胆| 国产成人久视频免费| 中字无码精油按摩中出视频| 熟妇丰满人妻| 国产免费自拍视频| 日韩人妻精品一区| 国产91透明丝袜美腿在线| 40岁成熟女人牲交片免费| 日本中文字幕久久网站| 亚洲无码视频一区二区三区| 91午夜福利在线观看| 国产伦片中文免费观看| 97se亚洲综合在线| 国产精品专区第1页| av午夜福利一片免费看| 欧美综合成人| 国产真实乱了在线播放| 日韩黄色大片免费看| 国产欧美综合在线观看第七页| 亚洲国产精品无码AV| 国产美女丝袜高潮| 国产精品太粉嫩高中在线观看 | 国产在线观看一区二区三区| 亚洲午夜综合网| 理论片一区| 一本大道香蕉久中文在线播放| 亚洲精品大秀视频| 亚洲日韩欧美在线观看| 高h视频在线| 亚洲女同一区二区| 欧美在线三级| 欧美人与动牲交a欧美精品| 欧美天堂在线| 久久精品国产国语对白| 9久久伊人精品综合| 欧美亚洲欧美| 国产日本视频91| 91麻豆国产视频| 精品久久国产综合精麻豆| 美女被操91视频| 亚洲日韩国产精品综合在线观看 | 亚洲AⅤ永久无码精品毛片| 亚洲第一综合天堂另类专| 日韩精品无码免费一区二区三区| 亚洲狼网站狼狼鲁亚洲下载| 一本一本大道香蕉久在线播放| 国产美女一级毛片| 成年人视频一区二区| 亚洲无限乱码| 无码乱人伦一区二区亚洲一| 强奷白丝美女在线观看| 亚洲精品动漫在线观看| 欧美午夜在线播放| 九色综合视频网| 91po国产在线精品免费观看| 亚洲精品成人福利在线电影| 国产成人欧美| 色播五月婷婷| 日本欧美中文字幕精品亚洲| 成人国产精品一级毛片天堂| 九色在线观看视频| 亚洲国产精品不卡在线| 精品一区国产精品| 国产成人精品一区二区| 亚洲码一区二区三区| 中文字幕伦视频| 国产高清在线精品一区二区三区| 日韩免费毛片| 真实国产乱子伦高清| 一本色道久久88综合日韩精品| 好紧好深好大乳无码中文字幕| 久久国产精品电影| 欧美日韩国产系列在线观看| 亚洲欧美一级一级a| 日本草草视频在线观看|