■本刊記者 趙志遠(yuǎn)
隨著大數(shù)據(jù)時代的到來,越來越多的人意識到,世界上最有價值的資產(chǎn)就是數(shù)據(jù),企業(yè)也紛紛踏入數(shù)字化轉(zhuǎn)型的浪潮中。
但眾所周知,大數(shù)據(jù)具有數(shù)據(jù)類型繁多、數(shù)據(jù)價值密度相對較低、處理速度快、時效性要求高等特點,想要吃到這一美味的“蛋糕”可不是那么容易的事,充分利用好數(shù)據(jù)的價值才是關(guān)鍵所在。
AWS 首席云計算企業(yè)戰(zhàn)略顧問張俠認(rèn)為,數(shù)字化轉(zhuǎn)型包含很多方面的內(nèi)容,其中很重要的一個內(nèi)容就是把企業(yè)的數(shù)據(jù)化資產(chǎn)使用好。
IDC 統(tǒng)計顯示,全球近90%的數(shù)據(jù)將在這幾年內(nèi)產(chǎn)生,預(yù)計到2025 年,全球數(shù)據(jù)量將比2016 年的16.1ZB 增加10 倍,達(dá)到163ZB。數(shù)據(jù)的海量與多元化決定了從數(shù)據(jù)中獲取有用的價值變得越來越困難,如果無法從數(shù)據(jù)中獲得益處,那么數(shù)據(jù)價值就無從談起。
傳統(tǒng)方法上,數(shù)據(jù)從產(chǎn)生到分析處理及使用總要經(jīng)歷這樣的過程:數(shù)據(jù)通過一些底層交易型的數(shù)據(jù)庫,經(jīng)過整理后形成中間層的數(shù)據(jù)倉庫,再到上層的商務(wù)智能BI。如果這些多元的數(shù)據(jù)無法被其它應(yīng)用所使用,那么將不可避免地會形成數(shù)據(jù)孤島。
張俠表示:“用戶期盼從數(shù)據(jù)中獲取價值。”而傳統(tǒng)數(shù)據(jù)分析方式無法快速地將這些多元數(shù)據(jù)展示出來,從中獲取價值也就難以實現(xiàn)了。
雖然說數(shù)據(jù)湖的概念出現(xiàn)已有將近10 年了,近年來又不斷被提起,足見其價值所在。數(shù)據(jù)湖可以看作是一個中心數(shù)據(jù)存儲的容器,將各類設(shè)備及應(yīng)用所產(chǎn)生的原始數(shù)據(jù)進(jìn)行存儲,成為數(shù)據(jù)“倉庫”,進(jìn)而可以進(jìn)行查詢或分析等操作。與傳統(tǒng)所稱的數(shù)據(jù)倉庫不同,數(shù)據(jù)湖中存儲的是原始的數(shù)據(jù),可以是結(jié)構(gòu)化的或是非結(jié)構(gòu)化的,借助云計算可以快速的縮放存儲海量數(shù)據(jù),還可以實現(xiàn)進(jìn)一步的查詢、分析及處理能力,通過應(yīng)用機(jī)器學(xué)習(xí)與人工智能技術(shù)實現(xiàn)商業(yè)智能,預(yù)測分析等。張俠表示,數(shù)據(jù)湖在實現(xiàn)高可用、高持久、EB 級數(shù)據(jù)的同時,還可滿足安全、合規(guī)、審計等要求。
當(dāng)然,不同的服務(wù)商對數(shù)據(jù)湖有不同的理解,AWS 對數(shù)據(jù)湖也有著自己的理解和應(yīng)用。2006 年發(fā)布的Amazon S3是全球第一款公有云服務(wù),在Amazon S3 中可以存儲包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以及進(jìn)一步的各種預(yù)測分析等。
數(shù)據(jù)湖平臺在實現(xiàn)數(shù)據(jù)倉庫、大數(shù)據(jù)處理、交互查詢、實時分析、預(yù)測分析等能力時,需要有不同的產(chǎn)品服務(wù)用以支撐。例如,Amazon RDS服務(wù)是一個云托管的關(guān)系型數(shù)據(jù)庫,支持6 種常用數(shù)據(jù)庫引擎的關(guān)系型數(shù)據(jù)庫服務(wù);Amazon Aurora 云原生的關(guān)系型數(shù)據(jù)庫可自動執(zhí)行各種耗時的管理任務(wù)等。
近期,AWS 宣布AWS Glue與Amazon Athena 在由西云數(shù)據(jù)運營的AWS 中國(寧夏)區(qū)域正式上線。其中,Amazon Athena 是一種交互式查詢服務(wù),它讓客戶可以使用標(biāo)準(zhǔn)SQL 語言、輕松分析Amazon S3 中的數(shù)據(jù)。AWS Glue 是一種全托管的數(shù)據(jù)提取、轉(zhuǎn)換和加載 (ETL) 服務(wù)及元數(shù)據(jù)目錄,讓客戶更容易準(zhǔn)備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,用于數(shù)據(jù)分析。
這兩個服務(wù)都是AWS 數(shù)據(jù)湖平臺非常重要的組成部分。Amazon Athena 可 以 讓用戶方便地對Amazon S3 數(shù)據(jù)湖中的數(shù)據(jù)執(zhí)行查詢,由于Athena 是一種無服務(wù)器服務(wù),用戶不用關(guān)心配置和管理服務(wù)器、集群等情況。
茄子快傳是一家全球化的互聯(lián)網(wǎng)科技公司,通過搭建一個數(shù)字內(nèi)容連接入口,幫助全球200 多個國家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。茄子快傳此前面臨數(shù)據(jù)量大、分析維度多、業(yè)務(wù)復(fù)雜等挑戰(zhàn),所以經(jīng)常需要多維度多顆粒度的高并發(fā)分析。茄子快傳數(shù)據(jù)運營負(fù)責(zé)人何誠表示:“茄子快傳通過使用Amazon Athena,使其運行新數(shù)據(jù)分析所需的時間縮短了30%,大幅減少了成本與運維方面的風(fēng)險。”
AWS Glue 讓Amazon S3數(shù)據(jù)湖中的數(shù)據(jù)集可以被發(fā)現(xiàn),可用于查詢和分析。一般來說,客戶在使用數(shù)據(jù)湖架構(gòu)實現(xiàn)數(shù)據(jù)分析解決方案時,通常有75%的時間花在數(shù)據(jù)集成任務(wù)上,而AWS Glue 消除了ETL 作業(yè)基礎(chǔ)設(shè)施方面的重復(fù)勞動,極大地縮短分析項目中做ETL 和數(shù)據(jù)編目階段的時間,讓ETL 變得很容易。
雖說數(shù)據(jù)湖對于實現(xiàn)數(shù)據(jù)價值是個行之有效的方法,但要構(gòu)建真正安全高效的數(shù)據(jù)湖并非易事。傳統(tǒng)構(gòu)建數(shù)據(jù)湖首先需要設(shè)置存儲,然后將數(shù)據(jù)移動及加載到不同位置,清理、準(zhǔn)備數(shù)據(jù)及編寫數(shù)據(jù)目錄,配置并實施安全性與合規(guī)策略,最后使用相關(guān)工具提取數(shù)據(jù)并用于分析。
如今新技術(shù)的發(fā)展也使數(shù)據(jù)湖迸發(fā)出新的活力。張俠表示,AWS 已有多種新服務(wù)幫助用戶更快、更好地完成數(shù)據(jù)湖的構(gòu)建。一類是無服務(wù)器分析,無需用戶手動管理即可實現(xiàn)數(shù)據(jù)湖的分析,以上提到的AWS Glue 就是典型的無服務(wù)器托管及分析服務(wù),為用戶提供按需數(shù)據(jù)湖分析。
另一類是借助機(jī)器學(xué)習(xí)和人工智能服務(wù)實現(xiàn)對數(shù)據(jù)的預(yù)測性洞察,尤其是與Amazon SageMaker 服務(wù)相結(jié)合,可實現(xiàn)更多自動化的預(yù)測性分析。
值得指出的是,AWS 有著多種服務(wù)確保數(shù)據(jù)湖安全,以滿足對安全、合規(guī)、審計等的要求。張俠表示,Amazon S3 可 以 達(dá) 到“11 個9”的數(shù)據(jù)持久性,采取三個可用區(qū),來保障用戶的數(shù)據(jù)安全,AWS Identity and Access Management(IAM) 可實現(xiàn)用戶身份和接入管理等,以滿足對用戶以及當(dāng)?shù)叵嚓P(guān)法律法規(guī)的要求。
張俠表示,數(shù)據(jù)湖是數(shù)據(jù)分析智能商務(wù)的新趨勢,AWS提供的數(shù)據(jù)湖與分析服務(wù)可幫助企業(yè)用戶企業(yè)從數(shù)據(jù)中獲得洞察力。