999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Hadoop:打開大數據之門的金鑰匙

2012-04-29 00:00:00樂天編譯
計算機世界 2012年7期

大數據是眼下很多企業面臨的一個挑戰,由于數據量非常巨大,而且數據類型異常復雜,傳統的基于關系型數據庫的存儲和分析辦法顯露出不足。Hadoop的出現給人們帶來解決大數據問題的希望,特別是一批著名的大企業,如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop開發出了開源的大數據管理系統,讓人們看到了Hadoop在解決大數據難題時的巨大潛力,很多企業紛紛決定引入Hadoop,來解決自己的大數據難題。

不過,專家提醒,在決定利用Hadoop構建自己的大數據管理系統之前,一定要確保自己充分了解Hadoop。采用Hadoop之前最好先對技術人員進行必要的培訓,以確保技術人員具備必要的數據分析專業知識。顯然,并不是所有的企業都能成功地開發和部署Hadoop應用的。目前,Hadoop還是一個剛剛起步的市場,有很多廠商提供與Hadoop有關的產品和服務,其中有些是基于云的SaaS服務。

最重要的是,一定不要盲目跟風,每個企業都有自己的特殊需求,都有自己的技術條件。根據Forrester的市場調查,目前,在美國只有1%的Hadoop項目是真正應用于生產環境中的?!斑@個數據肯定將在未來一年翻一番或兩番?!?Forrester分析師吉姆·庫貝勒斯(James Kobielus)表示。他呼吁企業要保持謹慎,因為相關的技術還在演進之中,技術更新非??臁?/p>

可以肯定的是,與傳統的數據庫管理系統相比,Hadoop有自己的優勢,尤其是它既能處理關系數據庫中的結構化數據,同時也能處理諸如音視頻等非結構化數據,而后者在現實世界中普遍存在,要遠遠比結構化數據更為常見。Hadoop系統還可以根據數據的規模和問題的復雜程度輕松地擴展。

“Hadoop的應用真正改變了我們對數據的理解和使用方式?!?eBay用戶體驗、搜索和平臺副總裁休·威廉姆斯(Hugh Williams)表示。eBay如今擁有的數據量高達9個PB,這些數據既有Terabyte系統所產生的結構化數據,同時也有Hadoop系統產生的非結構化數據。

“你可以在同樣的硬件資源上運行各種不同類型的工作負載。相比而言,在Hadoop之前我們使用硬件資源的方式太呆板、太不靈活了?!蓖匪拐f,“如今,你能以一種與過去完全不同的方式來充分發揮集群的計算能力。這將大大降低公司創新的門檻,從而有助于組織的創新。Hadoop功能太強了。”

隨需求增長自由擴展

位于美國佐治亞州德盧斯市的Concurrent公司是較早采用Hadoop的公司之一。這個公司對外銷售流媒體系統。同時,它還替客戶保存和分析大量的視頻數據。為了更好地應對待處理數據量的不斷增長,兩年前Concurrent采用了Cloudera公司的Hadoop CDH系統。

“Hadoop是我們解決大數據難題必不可少的工具,借助它我們在很短的時間內就能完成海量數據的處理。”Concurrent公司工程總監威廉·拉扎羅(William Lazzaro)說。

拉扎羅介紹,Concurrent有一個部門專門收集和保存客戶的視頻點播統計數據,Hadoop的部署給這個部門解決了一個很大的難題。“我們有一個客戶,現在一個月就可以新生成30億條記錄,我們預計,在未來3個月,它每月的數據量將會達到10億條?!?/p>

很長時間以來,Concurrent公司有兩個大的難題:一個是傳統的關系型數據庫無法處理諸如視頻這類非結構化數據,另一個是需要進行處理和存儲的數據量成倍增長。“我們的客戶希望要保留4#12316;5年的數據?!崩_解釋說,“如果它們每天的數據量達到PB級,對我們而言,將是一個非常的挑戰。”

他說,幸運的是,Concurrent的工程師發現,采用Hadoop他們可以應對其客戶不斷增加的數據量帶來的巨大處理和存儲壓力?!皽y試過程中,工程師們曾經完成過每天為客戶處理20億條數據記錄。如果數據量再增加,我們只要往節點中加入服務器,就可以馬上獲得所需要的處理能力。整個系統的可擴展性非常好。”拉扎羅說。

他說,作為比較,該公司采用傳統的數據庫來完成同樣的工作。他們發現Hadoop的主要好處之一是,在數據量增加時可以很容易和迅速地增加硬件,同時,還不需額外的授權費用,因為它是開源軟件?!斑@是Hadoop與傳統的關系數據庫系統相比 一個非常大的不同?!崩_說。

位于美國加利福尼亞州圣克拉拉市從事生命科學和基因組研究的NextBio公司也是Hadoop的用戶,它們所從事的人類基因測序和相關科研工作涉及的數據量也非常龐大。

“我們有非常多的各種基因組數據,需要與其他數據進行關聯和比較,我們采用Hadoop來幫助完成這些工作。”NextBio工程副總裁薩特南·阿拉克(Satnam Alag)說,“我們通過Hadoop來對大量的公共數據進行各種分析,很多組織需要這些研究結果,如制藥公司、學術研究等?!盢extBio使用的是MapR公司的一個Hadoop分發版本。

他說,一個典型的完整的基因組序列可以包含120GB#12316;150GB的壓縮數據,要對這些數據處理需要500GB的存儲空間。過去,要分析一個基因組序列就要3天,今天,用30#12316;40臺服務器運行Hadoop,NextBio的工作人員在3#12316;4個小時內就可以完成?!皩τ谀切┍仨氁獙@些數據進行全面分析的應用程序,這種效率的提升是非常有用的?!?/p>

Hadoop另一大優勢是,只要簡單地增加更多的節點就可以保證系統的處理能力得到增加?!叭绻挥肏adoop,系統的擴展將是一件具有挑戰性的工作,成本高昂。”他說這種所謂的橫向擴展—— 給由普通服務器組成的Hadoop集群中增加節點——是一種性價比非常高的擴展系統方式,“Hadoop框架能自動地管理群集中失效的節點?!?/p>

他說,這極大地改變了公司增加計算能力來滿足其需求的方式?!拔覀儾幌M谟布Y源上就花上數百萬美元,我們沒有這么多的錢?!?/p>

支持新的應用類型

拉扎羅說,Hadoop另一個用處是能夠對龐大的數據集進行分析并迅速發現趨勢。對一家大型零售商而言,這可能意味著它能對Facebook或Twitter的用戶數據進行分析,來了解去年圍巾流行什么顏色,并與今天的流行色進行比較,以幫助決定今年如何采購商品。

“它能讓你及時地對過去的數據進行分析和整理,從而發現和尋找到新的銷售機會?!崩_說。過去Concurrent公司要為汽車經銷商進行的商業活動或廣告進行分析,這是一件非常折磨人的事情,會涉及非常多的數據?!拔覀円獙祿M行分析,看看誰在觀看廣告,借此發現你的銷售目標人群,據此引導你進行有針對性的銷售。你并不是總是知道你要找什么。”

傳統的數據庫可以滿足很多分類整理和分析的需要,但對于超大規模的數據集,Hadoop在完成這些工作時效率更高。拉扎羅說:“Hadoop就是專門為大數據分析設計的。”

對此eBay的工程師深有體會?!癏adoop能很快對非結構化數據進行分析,迅速幫助eBay開發出新的應用?!眅Bay威廉姆斯說。由于eBay的工程師可以對公司現有的3億多條商品報價、歷史銷售記錄以及大量的相關信息進行分析,這就使eBay能夠很好地了解客戶,并為客戶提供他們想要的用戶體驗。“這不是簡單的關于結構化與非結構化的問題,而是它讓我們的工程師能夠卷起衣袖,以一種前所未有的方式對現有的數據進行分析和處理,從而改進我們的服務水平和提升銷售業績?!彼f。

去年,eBay已經用Hadoop完成了一些非常了不起的事情,包括提高商品廣告效果、改善購買者的體驗以及讓客戶更方便地訪問網站。

例如,eBay的員工可以看到客戶在萬圣節和圣誕節提交的每一項查詢,從他開始輸入時就可以看到。“通過這項功能,我們的員工就知道人們都在尋找什么東西。放到5年前這種使用數據的方式,我們想都不敢想?!?/p>

技術貯備必不可少

正如Hadoop有非常突出的優點一樣,利用它也有一些特別的注意事項。業內人士提醒,首先不要盲目跟從一個供應商,謹防廠商鎖定。因為目前Hadoop市場還剛剛起步。

Forrester的庫貝勒斯說,“廠商的技術還在持續快速發展之中,同時,生態系統也有待完善?!?/p>

Gartner的分析師馬庫斯·柯林斯(Marcus Collins)提醒說,要充分發揮Hadoop的價值,企業必須找到擁有Hadoop相關專業知識的人才?!笆褂肏adoop需要具有一定水平的數據分析能力,而許多企業現在并沒有這樣的專業人才?!彼f, “企業需要對員工進行培養,在數據分析能力方面進行投資,這樣才能確保你能用好Hadoop這項技術?!?

另一個重要的考慮因素是:多數情況下Hadoop項目需要外聘專家,目前他們供不應求,如果找不到就只能培養內部員工。

“Hadoop對數據的使用方式與以前有很大相同。”eBay的威廉姆斯說,“因此,我們必須先把培訓做好,使我們的工程師知道如何使用Hadoop,知道如何編寫代碼,這就意味著你將不得不投資在您的開發人員和項目經理上,以使他們成長為熟練的使用者。不要低估這一點。”

對于那些關鍵的應用還要考慮企業學習和適應開源系統的過程。謹記在一些小項目中進行試驗是一回事,而在大規模復雜系統中應用則是另外一回事。因此,最好提前讓企業的管理團隊在開源軟件的使用方面進行學習。

柯林斯的另一個建議是,密切關注和參與項目,以確保它按計劃進行?!安灰涯愕乃袉栴}都交給你的Hadoop供應商,畢竟最終使用這個系統的是你?!?/p>

此外,庫貝勒斯解釋說,Hadoop的最佳實踐仍在不斷完善,所以最好從一些能立竿見影的項目著手,避免要長時間才能看到效益的項目。隨著組織建立起自己的專業團隊以及經驗的不斷豐富,組織將能利用Hadoop做更多更有價值的事情,在此期間,項目的規模和應用的范圍也將不斷擴展。

不能代替傳統數據庫

值得一提的是,大多數客戶使用Hadoop是作為輔助,而不是取代其他類型的軟件,比如傳統數據庫。例如,在eBay,該公司仍然在使用關系數據庫完成一些基于這些數據庫的分析和處理工作。用戶有必要保持靈活性,某項技術一統天下的局面現在還不會出現。

威廉姆斯解釋說:“在eBay,我們看到了綜合使用多種技術處理數據給我們帶來的價值。在某些方面,Hadoop是一個非常好的選擇,而在另外一些方面,需要與其他技術一起工作,才能更好地發揮作用?!?/p>

Concurrent的情況也是如此。Hadoop并沒有取代傳統的關系型數據庫,包括MySQL、PostgreSQL和Oracle?!斑@是一個綜合的解決方案?!崩_說,“我們用Hadoop來完成繁重的工作,如海量數據的處理,我們還使用Map/Reduce在Hadoop中創建匯總數據,這些數據可以很容易通過傳統的關系數據庫系統訪問。”

對關系型數據庫而言,如果系統過于龐大,比如,每天2.5億條記錄,數據庫的響應就會變得很慢。“不過,”他說,“這種數據規模對Hadoop不成問題。因此,可以用Hadoop來存儲,比如,每天50億條記錄,然后用Map / Reduce來對數據匯總,最后把結果保存到傳統數據庫中,以支持傳統系統的快速訪問。

威廉姆斯說,在一般情況下Hadoop的使用沒有太多限制?!拔艺J為Hadoop給我們帶來的是機會,幾乎關于Hadoop的任何技術問題都可以通過開源社區找到答案。有些人對Hadoop的確有抱怨,這是正常的,畢竟它是新的東西。這就像1993年或1994年的Linux一樣。”

威廉姆斯進一步解釋說,“我們也的確看到,Hadoop在應對海量數據時所面臨的獨特技術挑戰,如架構數據中心、重新設計網絡、選擇合適的硬件來支持Hadoop。但總體而言,Hadoop給eBay帶來很多幫助?!?/p>

“對于我們來說,Hadoop絕對是一個能改變游戲規則的技術,這也是為什么我們的工程師要使用它的原因,它確實幫助我們成為一個真正的數據驅動型的公司?!彼f。

主站蜘蛛池模板: AV老司机AV天堂| 欧美三级视频网站| 久久精品中文字幕少妇| 国产国模一区二区三区四区| 波多野结衣第一页| 亚洲日本中文字幕天堂网| 欧美午夜网站| 欧美综合成人| 日韩欧美中文字幕在线精品| 2021国产精品自拍| 亚洲无码高清一区| 一本色道久久88| 亚洲一级毛片在线播放| 日本久久网站| 久久亚洲美女精品国产精品| 欧美日本二区| 午夜福利在线观看入口| 美女毛片在线| 亚洲精品无码不卡在线播放| 色婷婷丁香| 亚洲爱婷婷色69堂| 亚洲 成人国产| 九九精品在线观看| 999国内精品久久免费视频| 国产aⅴ无码专区亚洲av综合网| 国产网站免费看| 极品国产一区二区三区| 亚洲一区二区无码视频| 中国特黄美女一级视频| 欧美区国产区| 国产一区二区免费播放| 欧美日韩中文字幕在线| 九九视频在线免费观看| 中国丰满人妻无码束缚啪啪| 在线网站18禁| 日韩成人午夜| 中文字幕在线播放不卡| 欧美亚洲国产精品第一页| 性网站在线观看| 欧美乱妇高清无乱码免费| 国产日本视频91| 毛片免费高清免费| 日韩少妇激情一区二区| 精品国产免费人成在线观看| 亚洲中文字幕久久精品无码一区| 青青久久91| 久久久久久久久18禁秘| 国产综合欧美| 日本福利视频网站| 国产成人亚洲欧美激情| 精品无码国产自产野外拍在线| www精品久久| 91精品综合| 欧美性久久久久| 欧美高清国产| 欧美一级视频免费| 亚洲欧美在线综合图区| 97在线视频免费观看| 亚洲国产成人超福利久久精品| 国产高清在线观看| 中文国产成人精品久久| 天天综合天天综合| 麻豆精品久久久久久久99蜜桃| 国产精品一区在线麻豆| 亚洲无码在线午夜电影| 成人午夜亚洲影视在线观看| 国产综合无码一区二区色蜜蜜| 精品国产乱码久久久久久一区二区| 欧美一区二区啪啪| 成人在线亚洲| 67194亚洲无码| 欧美日韩精品一区二区视频| 中文字幕在线看| 国产不卡网| 999福利激情视频 | 久久精品人人做人人爽| www.亚洲一区二区三区| 欧美日韩国产在线观看一区二区三区 | 午夜欧美在线| 国产精品妖精视频| 99久久国产综合精品2020| 国产精品浪潮Av|