999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據,大沖擊

2014-10-24 09:54:46趙燕楓
決策與信息 2014年10期

趙燕楓

大數據,大科學

LSST(大型綜合巡天望遠鏡),是一臺還在研制中的巨型望遠鏡。無論是直徑8.36米(將近3層樓高)的巨大主鏡,還是囊括近紫外、可見光、紅外線(320~1060納米)的廣譜感光元件,還是9.6平方度的超寬廣視場(滿月的49倍大),以及歷史上最大的數碼相機(小汽車般大小、重2.8噸),都令人嘆為觀止。最后,這些零件還要被拖到南半球,在智利北部海拔2663米的山頂上重新組裝起來,以獲得最佳的觀測條件。

在工程師們看來,這些都是小意思。那么,什么才是他們最發愁的呢?

你大概想不到,竟然是數據。

LSST的那臺超級相機,核心感光元件直徑為64厘米(快趕上直徑77厘米的標準井蓋了),上面分布著1600萬個像素,每個像素的動態范圍是4字節(byte,1字節等于8比特,本文以下的數據單位均為字節)。在觀測時,每秒最多可以產生3吉以上的數據。而相機內的計算機平均每秒要完成2萬億次運算,才能將這些在15秒曝光時間內獲取的數據整合為一張32億像素的照片。每個夜晚,它可以拍下數百張這樣的照片,全年則可以拍攝大約20萬張。

至此,細節中的魔鬼終于出現了。每個夜晚,LSST能夠生成約20~30太的原始數據,每年則能生成1.28拍或者說1280萬億字節數據。項目方估計,為了儲存這些數據,初期需要15拍的空間。這相當于15000塊常見的1太硬盤的總容量,這些硬盤的總體積大約為50立方米,足夠塞滿一個小房間。

問題是,如何從這一房間的硬盤中快速查找到所需的某項數據呢?比如,這個天區的某個天體與那個天區的某個天體是不是同類?這類天體還有多少,都在哪里?

對于這樣的問題,常規服務器的硬件和軟件就只能望洋興嘆了。

在大西洋彼岸歐洲核子中心(CERN)的LHC(大型強子對撞機)內,分布著約1.5億個傳感器,它們每秒能夠傳送4000萬次數據。當LHC工作時,每秒約產生6億次粒子碰撞,其中99.999%都會被濾除,只留下約100次碰撞事件供進一步分析。就是這不起眼的0.001%的數據,每年仍可以匯成25拍的數據海洋。為此,人們不得不構建了一個復雜得令人咋舌的LHC計算網格(LHC ComputingGrid),它由170個計算設施組成,分布在36個國家。

而LSST和LHC,其實只不過是類似問題的一個縮影。

大數據,大爆炸

說到能夠感受到的數據量暴增,可能莫過于我們每天都接觸的互聯網了。十幾年前,網站還以靜態頁面的展示為主。如今,各種社交網站、電商網站等大量興起后,情況已經不一樣了。

根據中國互聯網中心(CNNIC)披露的數據,截止到2013年12月,我國微博用戶規模達到了2.81億。而據新浪官方2012年5月發布的數據,新浪微博用戶每天平均發布超過1億條微博內容。在晚上高峰期,服務器集群每秒要接受100萬次以上的響應請求。據中科院院士李國杰在《大數據的研究現狀與科學思考》一文中披露,谷歌通過大規模集群和MaPReduce軟件,每月處理的數據量超過400拍;百度每天大約要處理幾十拍數據;淘寶網會員超過3.7億,在線商品超過8.8億,每天交易數千萬筆,產生約20太數據。

而這,只是全球“數據爆炸”的一個縮影而已。人類記錄和儲存下的數據,可以分為模擬數據(使用模擬方式記錄的數據,包括書刊報紙、信札、錄像帶、錄音帶等)和數字數據(使用數字方式記錄的數據,包括磁盤、光盤等)兩大類。兩大數據之和,就是最近20多年來全球信息儲存容量的爆炸式發展情況。

1986年,人類的模擬數據(綠色部分)約有2.6艾,新生事物的數字數據(棕色部分)只有0.02艾(20拍),二者比例為130:1。到2002年,二者已經等量,比例變為l:1,被稱為“數字時代元年”。到 2007年,二者比例己經倒置為1:15。較之1986年,模擬數據增長了6.3倍,達到了19艾;但數字數據更是增長了約14000倍,達到了280艾。事實上,相比于數字數據,模擬數據在全部數據中所占的比重已經越來越低(從1986年的99%一路降到2007年的6%),按照這個趨勢,它很快就會變得可以忽略不計。

這個令人目眩的大逆轉,僅僅發生在21年間。數據越來越“大”、數字數據越來越膨脹,已經是一個不爭的事實。

根據IDC(國際數據公司)在2012年3月發布的《世界大數據技術和服務2012~2015預測》,這個高速擴張的趨勢仍在持續。2012年人類的數字數據約有2.5澤,到2015年時將暴增到8澤。這意味著,在這3年中,平均每年都將新生一份總量相當于2012年人類已有全部數據規模的新數據,而要生成一份總量相當于1986年時全部數據規模的新數據的話,算下來只要不到8個半小時。

在飛速發展的物聯網的助力下,各種傳感器(包括監視攝像頭、RFID讀取器、遙感設備、無線傳感器等)也在不停頓地生成著新的數據。

按照中國人民大學信息學院孟小峰和慈祥的觀點,這些數據可以分為三類,即被動產生的運營系統數據(如銷售記錄)、主動產生的用戶原創數據(如微博內容)和自動產生的感知系統數據(如監控錄像)等。從被動、主動到自動,數據量的增幅快速擴大,其中自動產生的數據正是大數據產生的最根本原因。

大數據,新定義

量變會帶來質變,暴增的數據終究會引發一系列變革。相應地,它也需要一個不同的名字和清晰的定義,來跟傳統意義上的“海量數據”(massive data)或“超大規模數據”(very lafge data)做個切割。

2001年,美國分析師道格·萊尼(Doug Laney)試圖用3個以V開頭的單詞來概括這類數據的特征,那就是數量(Volume,指數據的量)、速度(Velocity,指數據的吞吐速度)和多樣性(Variety,指數據類型的多樣性),合稱3V。后來又加了一個V,對這第4個V的意義,IDC認為是價值(Value),而國際商業機器公司(IBM)則認為是真實性(Veracity)。這個3V或4V的概括,由于界定清晰、明白好記,很快就在業內流傳開來。

2011年,美國咨詢業巨頭麥肯錫公司(McKinsey)發布了《大數據:競爭、創新和生產力的下一個前沿》的報告,其中提出,所謂“大數據”(big data),就是那些“規模已經超出典型數據庫軟件所能獲取、存儲、管理和分析能力之外的數據集”,它將推動5個領域的全面轉型,并提出了若干建議。報告里說,不打算為大數據設定具體的數值標準,而更希望將它設定為一個動態的、能夠隨著數據規模和處理能力增長而不斷變化的概念。按當時的情況,這個“門檻”大約在幾十太字節到幾十拍字節之間。

可以說,這份長達146頁的報告,就是現今我們所說的“大數據”這個概念的出生證明。人們早就認識到,數據量的暴增會讓情況發生重大變化,但一直沒有清晰有力的表述,也沒有明確的研究討論和針對性的建議。因此,報告發布以后,“大數據”概念迅速風靡全球,得到了學術界和產業界的一致公認。

按照維基百科的介紹,大數據就是“指利用常用軟件工具捕獲、管理和處理數據所耗時間超過可容忍時間的數據集”。不難看出,這與前述的定義非常類似,采用的也是相對的標準。

那么,與傳統上意味著海量數據的“數據庫”概念相比,大數據有什么根本性的不同呢?孟小峰等人用池塘和大海打比方來說明它們之間的5個不同,即數據規模不同(“池塘”和“大?!保祿愋筒煌ā俺佤~種類單一”和“海魚種類繁多”)、模式和數據關系不同(“先挖池塘后投放魚”和“海魚的繁衍改變大海的構成”)、處理對象不同(“池塘里只能捕魚”和“海魚還可以作為其他生物存在的判斷根據”)、處理工具不同(“一種或少數幾種漁網足夠應付池塘捕魚”和“沒有一種漁網能夠捕獲全部海魚”)。

這5個比方,其實已經足夠說明量變帶來的質變了。

大數據,大挑戰

對于這些“超出典型數據庫軟件所能獲取、存儲、管理和分析能力之外的數據集”,現成方案早已捉襟見肘。下面,我們就來看看大數據的“處理框架”和“關鍵技術問題”這兩個方面吧。

第一個方面是處理框架,它又可以細分為處理模式和處理流程兩部分。

處理模式,主要分為流處理(直接處理)和批處理(先存儲再處理)兩大類。流處理將數據看成流,主要在內存中完成,適合對付那些持續到達、急需處理的即時數據,如推特的storm和雅虎的S4等,使用的都是流處理模式。與之相對,谷歌提出的MapReduce則屬于最有代表性的批處理模式。它將原始數據集分塊后,分別交給不同的MaP任務區處理,并通過Map函數計算出中間結果,再寫入本地硬盤。這個“將計算推到數據”的思路非常新穎,模型簡單、操作性強,因而很受歡迎。流處理和批處理各有優缺點,拿手的數據對象也不同,因此Linkedln(一家社交網站)使用的就是二者混合的模式。

處理流程,主要包括數據抽取與集成、數據分析和數據解釋。在數據抽取和集成時,需要對種類繁雜的數據進行預先清洗,保證數據質量和可信性。數據分析則是大數據處理流程的核心。至于數據解釋,則是用戶最關心的事情,文本之外,可視化處理也不失為一個好的選擇。

第二個方面是關鍵技術問題。數據處理存在著4個層次,即文件系統、數據庫系統、索引與查詢技術、數據分析技術,我們不妨逐個來看它們面對的挑戰和對策。

首先是文件系統。由于數據量太大、來源太多,要想及時響應,必須存放在成千上萬甚至幾十萬、上百萬臺服務器上??稍谶@樣參差不齊的超大服務器陣列中,傳統的文件系統根本無法保證可靠工作,更談不上擴展了。此外,社交網站的海量小文件(圖片、文檔等),門戶網站的海量內容搜索等,也都需要新型文件系統的鼎力支撐。

對策:針對需求,開發不同的全新文件系統。如構建在大量廉價服務器上,可擴展、分布式的谷歌文件系統GFS;針對海量小文件的臉書文件系統Haystack;支持搜索和廣告業務的微軟文件系統Cosmos等。

其次是數據庫系統。傳統的數據庫一般都是關系數據庫,具有4個特點,即數據量小、數據類型少、適應性強(以統一的數據存儲方式應對各種用途)、事務特性強調“數據一致性”(關系數據庫的ACID特性,即原子性、一致性、隔離性和持久性,對應CAP理論”中的“C”,即一致性)。而在數量大、類型多、無法以統一方式應對各種用途、追求可用性(特性變為BASE,即基本可用、柔性狀態、最終一致,對應CAP理論中的“A”,即可用性)的大數據面前,也就力不從心了。

對策:不再拘泥于關系數據庫,轉而研發不基于關系模型的數據庫(統稱為NOSQL數據庫),共同特點是模式自由、支持簡易備份、最終一致性(支持BASE而不支持ACID)、支持海量數據。谷歌最新的Spanner數據庫系統,其目標是控制100萬~1000萬臺服務器,最多包含約10萬億個目錄和1000萬億字節的容量。

第三是索引與查詢技術。為庫中的數據建立索引(index)是需要時間的,而數據更新后,索引更新也是需要時間的。當數據規模暴增后,通過既有技術生成索引的耗時已經無法接受(有人估算,采用傳統的GADDI算法為臉書生成索引,時間將長于40萬年)。

對策:利用MapReduce并行技術優化多值查詢,開發索引技術優化多值查詢技術(例如ITHbase、IHbase、CCindex等實現方案)。

第四是數據分析技術。傳統的數據分析技術著眼于小規模數據,比如數據挖掘(data mining)、機器學習和統計分析等,在用來分析大數據時,必須因應大數據的特點進行調整,在算法的實時性和準確率之間進行平衡,設法適應云計算的框架并淘汰不適用的算法等。

對策:開發新的分析技術,如谷歌的Pregel圖計算模型和Dremel數據分析系統等。

大數據,新未來

正如我們親身所感的那樣,大數據早已不是什么理論概念,而是每天都在影響著我們的現實了。

目前,最引人注意的大數據應用往往分布在IT行業或與IT行業“沾親帶故”的產業界,畢竟這里是大數據概念的發源地,也是相關技術發展最快、人才最集中的行業,轉化起來更得心應手。但是,大千世界中,諸如交通、能源、商業、醫療、教育、金融、環境、農業……哪個不能產生大數據?而這些行業現在剛開始試水,深思之下,其中的發展前景簡直不可限量。而從行業的“條”轉到地區的“塊”來看,每個省(市、區)、縣(市)、鄉(鎮),都可以產生近乎無窮的數據。可以想象,有朝一日各行各業、各個地區都“張開”大數據的“翅膀”后,社會的運轉一定會變得更加靈巧而高效。

數據不是可有可無的數字和符號,而是寶貴的財富,更多的數據意味著更大的價值。這一觀念已被越來越多的人所接受和認同。因此我們相信,在解決了大數據的安全隱憂的前提下,我們所有人都將從中受益。

主站蜘蛛池模板: 亚洲网综合| 综合天天色| 欧美色视频日本| 国产福利大秀91| 亚洲视屏在线观看| 久热re国产手机在线观看| 亚洲人成网站色7777| 666精品国产精品亚洲| 香蕉视频在线观看www| 999精品免费视频| 中文字幕欧美日韩| 亚洲欧美日本国产综合在线 | 亚洲乱码精品久久久久..| 国产精品一区二区不卡的视频| 婷婷色狠狠干| 欧美第二区| 国产91丝袜| 国产97色在线| 好吊色国产欧美日韩免费观看| 国产不卡网| 国产成人精彩在线视频50| 国产激爽爽爽大片在线观看| 伊人五月丁香综合AⅤ| 日本免费a视频| 精品国产美女福到在线不卡f| 91久久精品日日躁夜夜躁欧美| 亚洲视频黄| 国产欧美视频在线| 欧美黑人欧美精品刺激| 黄色网在线| 欧美一级黄片一区2区| 亚洲日韩高清在线亚洲专区| 不卡无码网| 波多野结衣爽到高潮漏水大喷| 黄色网址手机国内免费在线观看 | 亚洲开心婷婷中文字幕| 国产福利微拍精品一区二区| 国产第二十一页| 女人18毛片一级毛片在线| 真实国产精品vr专区| 欧美中文字幕无线码视频| 丝袜美女被出水视频一区| 一级毛片网| 高清色本在线www| 亚洲欧美在线综合一区二区三区| 亚洲成人黄色在线观看| 人人艹人人爽| 亚洲品质国产精品无码| 欧美在线天堂| 欧美日韩成人在线观看| 日韩精品无码免费专网站| 爱色欧美亚洲综合图区| 国产成人久久综合一区| 亚洲 欧美 偷自乱 图片 | 99在线国产| 午夜精品福利影院| 成人一级黄色毛片| 色综合天天操| 色综合久久88色综合天天提莫| 国产午夜人做人免费视频中文| 黄色网址手机国内免费在线观看| 成人韩免费网站| 制服丝袜无码每日更新| 日本一区二区不卡视频| 无码av免费不卡在线观看| 国产成人在线无码免费视频| 中文字幕永久在线看| 99热免费在线| 国产凹凸视频在线观看| 欧美日本视频在线观看| 日韩欧美视频第一区在线观看| 国产精品99r8在线观看| 国产尤物jk自慰制服喷水| 国内精品免费| 五月婷婷精品| 国产午夜精品一区二区三| 久久中文无码精品| 国产精品第三页在线看| 亚洲天堂福利视频| 亚洲人成人伊人成综合网无码| 国产91精品调教在线播放| 99久久婷婷国产综合精|