999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

贏在大數據

2012-04-29 00:00:00鄒大斌
計算機世界 2012年35期

成立于2008年的Vpon威朋是一家移動廣告公司,其主營業務之一是接受廣告主委托在其合作方推出的移動App上發布廣告。上個月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統廣告分析系統,這是一套建立在Hadoop平臺上的大數據挖掘、分析及處理系統。這套系統的最大作用是能精確地統計和分析用戶點擊移動應用的時間、地點和各種偏好,從而幫助廣告主做出最有效的廣告投放決策。成立于2009年的北京百分點信息科技有限公司(以下稱百分點)也在做與Vpon威朋類似的事情。百分點推出了一種名為個性化搜索引擎的工具,電子商務網站可以利用它來分析訪客的點擊行為,找出訪客的偏好,進行產品推薦。同樣,這個搜索引擎也是基于Hadoop開發。

近幾年來,在互聯網領域像Vpon威朋、百分點這樣利用Hadoop等大數據相關技術進行訪客點擊行為分析,來開展業務的公司越來越多,其中有一大批是對新興技術敏感的初創公司,同時也不乏像Google、Facebook這樣著名的互聯網公司。

事實上,“大數據”這股發端于互聯網企業的數據分析熱潮如今已經超出了互聯網領域,部分敢于“嘗鮮”的傳統企業已經開始部署大數據相關技術,市場增長非常迅猛。根據IDC最新發布的全球大數據市場預測,大數據市場將從2010年的32億美元增長至2015年的169億美元,年復合增長率將達到40%。對市場前景的良好預期吸引投資者們紛紛投身其中,目前對于大數據的風投資金已超過5億美元:去年年底Hadoop版本的主要發布者Cloudera獲得4000萬美元投資;Cloudera的競爭對手,另一個Hadoop版本發布者——MapR獲得了2500萬美元的投資;NoSQL數據庫廠商10Gen(MongoDB的供應商)和DataStax(Cassandra的供應商)分別獲得了3200萬美元和1100萬美元的融資;今年4月剛剛在納斯達克進行IPO,融資2.3億美元??這個名單可以列得很長。

很顯然,在市場研究機構和投資者看來,大數據市場現在是如日中天,其熱度甚至大有蓋過云計算之勢。與此同時,“大數據是大忽悠、大謊言”的說法也不絕于耳。紛紛擾擾的市場宣傳中,我們究竟該如何認識大數據,大數據到底是大機遇還是大騙局?

迎來大數據時代

大數據與數據的爆炸性增長有著密切關系。根據IDC的研究,2010年底全球新生成的數據量已經達到120萬PB(或1.2 ZB),這些數據如果使用光盤存儲,摞起來可以從地球到月球一個來回(從地球到月球大約24萬英里)。IDC預計,到2020年需要存儲的數據量將達到35萬億GB,是2010年數據存儲量的42倍。

今天的中國是數據生產的大國。還是IDC提供的數據,截止到2012年6月,中國有近3.9億的移動客戶、5.3億的互聯網客戶。在一個比較典型的二級城市中,每個季度就可能產生出200PB的視頻數據。

應該說,我們面對的挑戰不只是海量數據,還包括越來越繁多的數據格式,特別是非結構化和半結構數據量遠遠超過傳統的結構化數據。研究表明,如今新增數據中80%以上是諸如日志、圖片、視頻、電子郵件等非結構化或半結構化的數據。這些數據都不能(或者不適合)用傳統方法處理,需要有新的思考、新的作為,而這種技術就是大數據。

不過,對于什么是大數據至今并沒有明確而且一致的定義。目前關于大數據有兩個不同的理解,一個是認為它是一系列的技術,通過這些技術對大量的結構化和非結構化數據進行處理,從而獲得各種分析和預測結果;另一個,也是更多的人理解是,簡單地稱海量的數據集為大數據,本文采用后一種認識。

雖然缺乏對大數據明確的定義,但對大數據三個“V”基本特征各方卻是頗有共識,即海量的數據規模(volume)、快速的數據流轉(velocity)、多樣的數據類型(variety)。這其中,“海量”是大數據引發人們廣泛關注的前提,而快速和復雜的數據類型則是引發人們廣泛關注的關鍵。

大數據從何而來

談到大數據,不得不談到移動設備。因為我們面對的大數據除了來自企業應用、運營的數據以及供應鏈、供應商產生的各種各樣的數據,還有很大一部分來自社交媒體以及移動應用,而移動智能設備就是背后最大的推手之一。

眾所周知,智能移動設備的普及給社會帶來諸多變化。其中之一就是人們可以在任何時間、任何地點獲取信息,能夠實時通信、實時協作、發布社交內容。這就使得數據的生產方式發生了變化:過去,我們只是在工作時產生數據,而今我們幾乎是每時每刻都在生產數據;過去,數據都是交易型,典型的表現形式為一條條交易記錄,這是傳統數據庫所擅長的,而如今,數據以非結構化為主,而且數據源眾多,很多數據不再是由人而是由機器產生的,各種各樣的RFID、傳感器幾乎時時都在生成數據。另外,即使是人為產生的,如社交網絡、微博,數據的形式和過去的形式也不一樣,主要表現為非結構化。

“數據量的增加已經遠遠超出預期,而且企業目前面臨的還是一個更加復雜的數據環境。在這樣一個環境中,企業要獲得傳統財務或者財務以外的信息分析能力,需要新的方法。這就是大數據熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數據論壇演講時表示。

面對如此海量、復雜的數據,需要存儲、需要管理,更需要分析,這就引發了人們對大數據的極大關注,而在VMware全球高級副總裁范承工看來,事情變復雜的還有另外兩個因素,“之所以有今天的大數據話題,除了數據產生,更還包括云應用的普及,以及數據的使用者發生了變化。”

范承工在VMware內部領導一個數據部門從事相關產品的開發,包括支持Hadoop在虛擬化環境中的快速部署插件等。范承工解釋說,云應用的普及改變了過去單一的數據位于數據中心的形式,越來越多的數據被保存在企業防火墻外的公有云中,使得數據整合成為難題;同時,數據使用者也從最初主要面向管理者、高級經理到逐漸普及到一般業務人員,這就要求獲得分析結果的方式更簡單、更靈活,支持的用戶更多了。

數據庫不能承受之重

應該說,數據分析或者商業智能我們并不陌生。先建立數據倉庫,然后通過數據建模來完成數據分析和挖掘,這個套路已經存在了20多年來。為什么現在不靈了?為什么要用Hadoop?

中科院計算所副研究員、Hadoopin China開源社區發起人查禮博士認為, Hadoop等新大數據技術流行最重要的原因在于,多年來建立在數據倉庫之上的商業智能是面向以結構化數據為主的場景,它采用的是一種集中式、縱向擴展(Scale-up)架構,主要面對的是少量用戶的非實時性查詢需求和報表需求,一旦將其應用于處理海量、非結構化數據時,不管是性能還是可擴展性都面臨瓶頸。比如,對于傳統數據庫和數據倉庫而言,PB級數據尚能應對,面對更大數據量的處理時就面臨性能瓶頸。另外,傳統的數據倉庫系統建設周期短則幾個月,長則一年,用戶得到回報的周期太長。

“與之相反,后期之秀的Hadoop和以MongoDB為代表的NoSQL數據庫天生就是為應對海量數據而設計的,它們采用的是分布式架構,對數據的處理是以一種可靠、高效、可伸縮的方式進行處理的,可以很容易地根據數據量和用戶需求按需動態地擴展,而且是以一種橫向擴展(Scale-out)方式進行,這種特殊的軟件架構設計使其可以輕松應對TB級的數據存儲和分析需求。”查禮表示。

以中國聯通推出的基于Hadoop的移動用戶上網記錄查閱系統為例,這是一個為滿足3G客戶數據流量查詢需求、解決計費爭議而推出的系統,架構在英特爾Hadoop發行版之上,用戶可自助快速查詢自己的上網記錄。據中國聯通研究院副院長黃文良介紹,用戶上網行為記錄是一個海量的數據集,比如用戶每登錄一個網頁(如訪問新浪首頁)就會產生20多條記錄,隨著用戶的增加而產生的海量數據增長很快,如果采用傳統數據庫就會遇到問題。

“在采用Hadoop之前,我們曾試過采用數據庫,但后來發現關系型數據庫存儲數據量到百億條時就有些困難,一次查詢可能幾個小時都出不來結果。”黃文良說。

用戶偏向Hadoop的另一個重要原因在于這一數據處理平臺的高性價比,這一點對于草根出生的互聯網企業尤為重要。事實上,從理論上而言,如果不考慮成本,采用傳統方式也能處理大數據。

“傳統數據庫方式也是能解決大數據問題的。只是實踐中,我們必須要考慮成本的問題,包括投入多少資金、解決多大容量的數據。即便是開源平臺,投入的人員、后期的運維費用這都是要考慮的成本。”招商銀行總行信息技術管理辦公室總經理周天虹說。

而在專門從事數據集成相關業務的Informatica公司核心技術部資深產品管理總監鄭瑋看來,Hadoop天生具有價格優勢。其一Hadoop是開源軟件,盡管開源并不意味著免費,但和商業軟件相比,其采購成本要低得多;其二Hadoop是為普通的硬件設備設計的,本身已經充分考慮這些硬件的不可靠性,而不是專用硬件,這就大幅降低了硬件投入成本。

“Hadoop的成本優勢,使得其可以大幅降低數據分析和處理的門檻,提高數據的回報率。”鄭瑋告訴本報記者。

Hadoop取代傳統數據倉庫?

如今,Hadoop的風頭如此之勁,對于一些傳統數據庫和數據倉庫用戶而言,似乎有“既生瑜,何生亮”之感。那么,未來Hadoop是否會取代傳統數據庫?傳統數據庫會面臨多大的挑戰?

“對傳統數據庫廠商而言,大數據絕對是機會多過挑戰。因為大數據的應用場景雖然與傳統數據庫有一定程度的重合,但更大多數情況是各有各的適用領域。這兩者應該相互補充,來共同滿足用戶對數據的管理需求。”甲骨文公司副總裁兼大中華區CTO喻思成在接受記者采訪時表示。

來自Sybase中國公司的技術總監盧東明也認為,大數據實際上將為數據倉庫帶來更多的商業機會。 “人們可以使用類似MapReduce的技術,來獲得一些有價值的信息,這些都是此前絕對不可能分析出來的。同時,也可以利用Hadoop來預處理數據,然后將把它用于數據倉庫,這實際上會擴大數據倉庫的使用。”他說。

當然,不會被取代并不意味著數據庫廠商可以對大數據市場無動于衷,畢竟大數據市場與數據庫市場關系如今密切,如果廠商應對不當也會波及其傳統市場。正因為如此,我們看到傳統數據庫廠商紛紛向Hadoop示好,推出各種插件來打通傳統數據庫(或數據倉庫)與Hadoop之間的聯系,或者更進一步直接進入大數據市場。

甲骨文就是積極躋身大數據市場的廠商之一,它推出了軟硬一體的大數據庫機,其中內置了Cloudera版的Hadoop、Oracle NoSQL,還內置了與Oracle數據庫的連接器來與Hadoop進行數據通信;在Sybase最新一代數據倉庫Sybase IQ 15.4中也同樣配備了很多接口。通過這些接口可以同時訪問Sybase IQ和Hadoop;與甲骨文類似,IBM也推出了自己的一體化的大數據機,同時還有專門為Hadoop平臺推出了分析軟件InfoSphere BigInsights;微軟除了最新的SQL Server 2012中提供了類似插件來支持與Hadoop的互操作外,也推出了自己的Hadoop版本。

頗值得玩味的是,作為傳統數據庫廠商,甲骨文和Sybase等推崇的典型使用Hadoop的方式是先通過Hadoop對大數據進行預處理,然后把這些預處理后的數據導入到數據倉庫中,再利用傳統數據倉庫中的數據分析和挖掘引擎來對數據進行分析。而一些專門的Hadoop技術供應商更愿意用戶直接通過Hadoop來進行數據的分析,就像大多數互聯網用戶所做的那樣。比如,前面提到的Vpon威朋、百分點以及聯通都是這樣來使用Hadoop的。

當然,也有人認為Hadoop未來會對傳統數據庫市場帶來相當大的沖擊。Informatica鄭瑋就表示,雖然目前大多數人不認為Hadoop會取代傳統數據庫(或數據倉庫),但Hadoop的應用場景肯定還會進一步拓展,從這個角度而言,對傳統數據庫(或數據倉庫)是有沖擊的。響應市場的變化,Informatica圍繞Hadoop推出了眾多用于數據集成的產品。

值得一提的是,對大數據市場感興趣的遠不只是數據庫廠商和從事數據集成服務的廠商,存儲廠商甚至芯片廠商都紛紛躋身其中。比如,EMC先是推出了自己Hadoop平臺Greenplum HD,隨后又推出了基于協作分析大數據社交平臺Greenplum Chorus;英特爾不僅推出了自己的Hadoop版本,還在Hadoop之上開發了管理工具和監控工具,來簡化Hadoop集群的部署與管理。富士通也宣布開發出一項為大數據自動提供分析方案的技術。可喜的是,大數據市場也有中國公司的身影,華為在9月5日剛剛宣布推出X位一體的大數據存儲一體機,致力于將海量結構化、非結構化數據統一存儲、分析、備份和歸檔。

大數據落地人才最緊缺

目前,雖然大數據很熱,但是從技術發展階段而言,它還是處于市場培育期。用到大數據的用戶也是邊摸索邊實施。因此,用戶如何用好這項技術可能還是會面臨一些挑戰和困難。這其中最為突出的困難之一就是人才的缺乏,包括懂得Hadoop相關技術的人才和數據分析人才,尤其是后者,這一點在記者采訪用戶和廠商時也都被多次提及。

“在數據的分析和處理上,我們銀行最需要的是那些有統計學背景的人才,他們同時還應是了解銀行業務的專業人才,尤其需要懂得將統計學的知識應用到業務上并與之相結合。至于使用具體的工具,是可以后來學會的。”招行周天虹說。

這一觀點也得到了Informatica鄭瑋和SAS公司大中國區咨詢服務和技術總監姚遠的認同,兩人都不約而同地提出企業需要設立一個“數據科學家”的新職位。

“企業需要數據科學家的幫助,來了解數據在哪里、如何拿到它們,以及什么數據是關鍵、它們如何生成,并懂得構建相應的業務流程。”姚遠表示。

據記者了解,在國外已經有公司開始嘗試設立類似“數據科學家”的職位(有的稱其為“數據分析師”或者“數據工程師”),其理想的候選人是對復雜的算法、分析和市場營銷都非常熟悉,此外,最好還能懂超高速計算、數據挖掘、統計甚至人工智能。與一般商業智能分析師不同,這些專家不僅能找到和提供數據,他們還要使用它進行大量預測。

用戶可能面臨的另一個挑戰來自于Hadoop是開源軟件,Hadoop本身還處于不斷完善之中。同時,雖然現在有很多廠商圍繞Hadoop提供了一些服務和技術支持,而真正能提供全面技術支持的廠商卻很少。現實的情況是,用戶所需要的技術支持大部分還來自于社區。而技術支持和服務對于像金融、銀行這樣的客戶是非常重要的。

“大型的互聯網企業有足夠的資源去研究開源平臺,在其之上進行開發甚至軟件封裝的工作。而對于招商銀行這樣的企業而言這樣做就不現實,我們需要更成熟的產品和更多的技術支持。”招行周天虹說。

值得慶幸的是,這一點隨著Hadoop的普及正在慢慢改觀,目前,已經有不少廠商能提供自己的Hadoop版本和相關技術支持及服務,比如英特爾、EMC、微軟等,另外還有像Cloudera、MapR等開源軟件服務商可以像紅帽支持自己的Linux版本那樣來為自己推出的Hadoop版本提供支持和服務。而未來,相信隨著Hadoop生態系統進一步完善和成熟,市場上必定會涌現更多專業的工具和專業的服務,Hadoop也必將為我們了解我們的業務乃至認識我們所在的這個世界提供更多的幫助。

鏈接一

IDC對中國大數據市場的預測

1. Hadoop走向商業化;

2. 部分早期的Hadoop項目面臨挑戰;

3. 開源軟件為大數據市場帶來更多機會;

4. 大數據推動軟件公司間的并購;

5. 針對大數據的一體化設備市場迅速增長;

6. 大數據由網絡數據處理走向企業級應用;

7. 大數據市場開始細分;

8. 出現打包的大數據行業分析應用;

9. 大數據推動基礎架構橫向拓展;

10. 中國成為全球最重要的大數據市場之一。

鏈接二

關于Hadoop

Hadoop是一個Apache項目,也是一組軟件的總稱,起源于作者Doug Cutting兒子的一只玩具大象的名字Hadoop 。Hadoop由 Apache于 2005 年秋天作為 Lucene的子項目 Nutch的一部分正式引入。

簡而言之,Hadoop提供了一個分布式系統基礎架構,讓用戶可以在不了解分布式底層細節的情況下,開發分布式程序,以充分利用集群的威力高速運算和存儲。Hadoop主要包括HDFS、MapReduce和HBase等組成部分。HDFS是一個分布式文件系統,具有高容錯性的特點,設計用來部署在通用硬件上,同時,它還能提供高傳輸率來訪問數據,因此非常適合那些有著超大數據集的應用程序;HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase可在通用硬件上搭建起大規模結構化存儲集群;MapReduce是一個編程規范,分別由Map和Reduce組成。

在Hadoop的構成中,Hadoop HDFS為HBase提供了高可靠性的底層存儲支持,Hadoop MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩定服務和故障恢復機制。此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數據統計處理變得非常簡單。

主站蜘蛛池模板: av天堂最新版在线| 99在线视频免费| 国产男女免费视频| 亚洲欧美日韩久久精品| 精品久久人人爽人人玩人人妻| 青青国产视频| 亚洲精品国产首次亮相| 国产欧美视频在线观看| 成AV人片一区二区三区久久| 亚洲国产一区在线观看| 久久久亚洲色| lhav亚洲精品| 精品国产网| 久久天天躁狠狠躁夜夜2020一| 国产精品一老牛影视频| 55夜色66夜色国产精品视频| 国产AV毛片| 天天色综网| 8090午夜无码专区| 天天色天天操综合网| 色婷婷色丁香| 91青青草视频| 亚洲色图综合在线| 亚洲伊人天堂| 午夜视频在线观看区二区| 亚洲区一区| 无码AV日韩一二三区| 美美女高清毛片视频免费观看| 国产精品第一区在线观看| 亚洲无码免费黄色网址| 国产日本欧美在线观看| 一级毛片在线播放| 久久毛片免费基地| 色综合狠狠操| 在线亚洲精品福利网址导航| 最新国产在线| 男人的天堂久久精品激情| 亚洲天堂免费观看| 久久99热66这里只有精品一| 99热这里只有免费国产精品| jijzzizz老师出水喷水喷出| 亚洲日韩第九十九页| 国产黄在线免费观看| 欧美精品成人一区二区视频一| 在线国产资源| 欧美亚洲第一页| 国产三级韩国三级理| 19国产精品麻豆免费观看| 在线看片中文字幕| 日韩精品欧美国产在线| 青青草国产在线视频| 午夜影院a级片| 日韩在线视频网| 国产一级二级三级毛片| 女同国产精品一区二区| 国产自在线播放| 54pao国产成人免费视频| 国产精品.com| 国产女人18毛片水真多1| 一区二区自拍| 欧美亚洲欧美| 国产导航在线| 亚洲AⅤ永久无码精品毛片| 日本午夜视频在线观看| 国产一级毛片网站| 免费又黄又爽又猛大片午夜| 国产欧美日韩另类精彩视频| 免费看av在线网站网址| 国产一区二区三区在线无码| 久久99热这里只有精品免费看| 美女一级免费毛片| 少妇被粗大的猛烈进出免费视频| 亚洲av成人无码网站在线观看| 3D动漫精品啪啪一区二区下载| 欧美色视频日本| 91精品网站| 国产最爽的乱婬视频国语对白| 毛片视频网| 91免费国产在线观看尤物| 尤物国产在线| 国产精品主播| 成人小视频在线观看免费|