趙艷秋
云和人工智能等新技術為大數據應用帶來變革。
“大數據不是一個新話題, 一些概念20多年前就有,比如數據挖掘、BI(商業智能)、BA(商業分析)等。之所以最近更火了,是因為云。”現任AWS首席云計算企業顧問張俠博士說,他十幾年前就撰寫過大數據的文章。“云既幫助產生、收集、存儲更多數據,又幫助提供多樣的數據分析處理方法手段。如今人工智能的興起,能把數據分析做得更好。”
云確實為大數據應用帶來變革。
一家在亞馬遜AWS上提供大數據分析服務的企業,此前去投標一個客戶的大數據分析項目,同時參與的有傳統大數據分析公司。招標方在傳統模式和云服務中各選了一家供應商,并行開展,來對比一下效果。一個半月后,這家云服務企業已經按照客戶要求,把建模、分析和交付全部做完了。而那家非云廠商,為之購買的服務器還沒有到貨。
“這就是云服務帶來的變革。”張俠借此來解釋。
不僅如此,云服務還在產品和服務選型中帶來另一個差異——讓企業選型過程變得簡單便捷。
“很多廠商都會對你說,我有這個功能,我有那個功能。我建議你招呼一聲,你想做什么事情,會有很多供應商來給你提供方案。使用云上的工具和服務,你馬上就能開始實驗,也能很快了解這些工具的真實深度和廣度。”雖然用戶也要在學習和了解上花費一定時間,但相對傳統模式要簡化透明得多。
頻譜的一端
“企業應用大數據云服務的狀況就像一個‘頻譜。”張俠說。從頻譜的這一端,是完全沒有使用、將數據資源白白浪費的企業;而頻譜的另一端,是對大數據利用得非常好,甚至商業模式就建立在大數據基礎之上的企業。
而一些比較極致的客戶,甚至自己在云計算平臺上創新大數據的工具和服務。Netflix是在亞馬遜云上提供互聯網視頻流的服務商。“很多亞馬遜云上的大數據工具最初是Netflix發展提供的,現在被大家廣泛采用”。
Netflix很樂于分享。在國際大數據會議上,人們甚至會經常見到Netflix工程師的身影。“他們非常自信,為什么呢?因為當你學會這些時,他們已經開始做更先進更高級的事情了。”
先進客戶在云上的大數據創新腳步很快。
全新的大數據架構
亞馬遜云為大數據提供全套產品和服務,覆蓋從數據收集、存儲、處理到使用/可視化的全流程。
去年,在其“Re:Invent”年度大會上,亞馬遜闡述了基于云全新的大數據架構,分為十大步驟,推出相關的部分服務。“我們正在研究怎樣提供更全面的工具。對于大數據,我們正在持續努力。”張俠說。
張俠特別強調,大數據整體有兩個新特點:一是對實時數據的分析,一是利用現在和歷史數據進行未來的預測,這都是更高的要求。
針對這樣的新趨勢,亞馬遜也正在提供一些創新服務。其一是Athena,它可以直接在S3上做SQL查詢。“S3本身不是一個結構化數據庫,它存儲的可能是視頻、mp3、 Word文檔和Excel表格。現在,有了Athena,可以馬上使用SQL進行查詢,在以前沒想過的維度上實時查詢”。
另一個是數據湖(Data Lake)服務。在傳統模式下,數據收集上來要逐漸放到一個企業級數據倉庫里,這要對數據的結構、特征和顆粒度都很清楚。但現在很多實時數據不斷涌來,存儲在S3上,通過Athena直接查詢,再放到Redshift數據倉庫中。“這個整體就是數據湖概念。它的目的是對實時數據能先進行一個快速分析,幫助快速做出一些決策”。
上個月在舊金山AWS宣布推出Redshift Spectrum,這是AWS的Redshift托管數據倉庫服務的延伸版,能夠直接查詢駐留AWS S3存儲服務里面的數據。亞馬遜首席技術官沃納·沃格爾斯(Werner Vogels)在發布時舉了一個例子:使用Apache Hive開源數據查詢軟件對艾字節(EB)數據執行查詢。這項任務需要五年的時間和1000個節點――也就是說,成本相當高昂。沃格爾斯表示,但是借助Redshift Spectrum,只要花155秒和區區幾百美元。
還有兩個創新服務,一個是Batch,是對數據進行批處理ETL的服務。另一個是Glue,這個詞是英文“膠水”,意思是把數據流程、數據轉化更好地串在一起。與此同時,亞馬遜云也針對人工智能(AI)推出一些工具和服務。
AWS提供的AI服務
在亞馬遜,目前有上千員工致力于人工智能,涉及發現與搜索、物流配送、發現現有產品、定義新產品類型以及將機器學習引入更多領域。
MXNet是亞馬遜選擇的深度學習框架,已納入Apache孵化項目,也與AWS集成整合,進行了優化。
亞馬遜云推出了3種人工智能服務——Polly、Rekognition和Lex。Polly做文本語音轉換——看見一段文字就能念出來。Rekognition做圖像識別和分析。Lex做自然語言理解和自動語音識別。“我們把這3種服務軟件開發包,任何人都能直接調用,目前很火。”張俠說。
CNBC財經新聞臺應用了Lex,如果用戶現在說“請告訴我今天的market update”,CNBC馬上會告訴你今天道瓊斯、納斯達克的表現。福特汽車集成了Lex,甚至高通芯片也集成了Lex,可以想象,未來各種設備應用語音服務的多樣化場景。
利用亞馬遜云上的AI技術,Howard Hughes公司預測高檔房地產交易,Fraud.net檢測在線付款欺詐,Pinterest開展圖像識別搜索,FINRA進行異常檢測、序列匹配、回歸分析和網絡分析,輝瑞制藥開展藥物發現。
張俠認為要用好大數據和人工智能,業界需要更多的數據科學家——“數據科學家要數理方法、計算編程和行業知識三者兼而有之”。
他強調了行業和社會知識。“大數據真正的意義,是從數據中挖掘出價值,進而提供洞察力,為企業創造財富”。為此,當人們使用大數據來時,“他不僅要懂得數理和編程,還要了解其他相關的知識。行業和社會知識讓你知道該從什么角度去看數據,進而把數據價值體現出來。如果想成為一個好的數據科學家,應該在這三個維度上去琢磨,這會讓你更能成功”。