王眾
“星環號”能帶著人類逃離太陽系,因為它實現了超光速飛行;星環科技希望建立數據時代的里程碑,則要突破性能極限。
《三體》中,由于太陽系受到未知文明的打擊而降維消失,地球人類僅剩的最后兩人乘 “星環號” 曲率引擎驅動飛船離開太陽系,從而保存了地球文明。在2013年的上海,一幫研究大數據的專家攜手創辦了一家叫“星環”的公司,致力于在大數據時代打造一艘高速的航空母艦。這不是巧合,創始人兼CTO孫元浩正是因為讀了《三體》,才定下了這個名字。
星環科技的核心團隊來自于英特爾的研發團隊,是國內最早的大數據Apache Hadoop發行版團隊,從2009年起即開始致力于大數據平臺軟件的自主創新和開發;彼時,基于Apache Hadoop開源技術的數據管理及分析平臺提供商Cloudera剛成立一年,如今,Cloudera在“福布斯2016全球最佳云計算公司100強”中排名第五。
國際舞臺新玩家
在“Gartner 2016年數據倉庫及數據管理解決方案魔力象限”中,星環科技登上最具遠見象限,且是唯一上榜的中國廠商。讓星環科技與與老大哥Cloudera并肩而立的功臣產品Transwarp Data Hub (TDH)是基于Apache Hadoop和Apache Spark的分布式內存分析引擎和實時在線大規模計算分析平臺。目前星環TDH已經在恒豐銀行等多個領域有替代傳統技術數據倉庫的落地案例。
2015年,星環科技的TDH4.0版本全面通過了TPC-DS 100T的99項測試。TPC-DS是TPC(事務處理性能委員會)評測決策支持系統的測試基準。這個測試集包含了對大數據集的統計、報表生成、聯機查詢、數據挖掘等復雜應用,與真實場景非常接近,是難度較大的一個測試集,也是目前業界公認的數據倉庫測試準則。到目前為止,能夠通過100T測試的廠商寥寥無幾。孫元浩介紹,TDH相比開源Hadoop版本有10~1000倍的性能提升,可以處理GB到PB級別的數據。
“星環號”之所以能帶著人類逃離太陽系,是因為其實現了超光速飛行;星環科技希望建立數據時代的里程碑,則要努力突破大數據存儲、計算和管理的性能極限。事實上,較早啟用大數據技術的金融業,其數據量在100TB至1PB級別;數據量級龐大的電信業,其數據量已經達到了PB級。比起數據爆炸的速度,目前的大數據處理技術還在追趕中,即便是百倍的提升,也只是一個開端。
開辟無人區
如今舉國都在數據化,基于業務差異,不同行業對大數據分析的需求各有側重,孫元浩分析,后Hadoop時代又回到了解決大數據的4個V上,即數據量(Volume)、數據類型(Variety)、速度(Velocity)和價值(Value)。
目前,金融業重視海量數據處理效率,以及利用機器學習和深度學習為營銷和風控等業務提供幫助;政府具有PB級數據,更看重如何用最低成本建設搜索引擎;相形之下,電力行業的要求更多樣。電力行業的數據源來源于電力生產和電能使用的各個環節,其產業鏈前端的要求尤為復雜,華風數據和星環科技聯手為國電電力寧波風電開發有限公司建立的風電場大數據分析平臺就是一例典型應用,也造就了第一家成功將大數據應用于生產的風電場。
首先,風電場通常具有地理環境惡劣、場站分散的特點,很難留住人才,因此對自動化、遠程集控要求較高。其次,目前發電機組的數據采集和監控系統都是由風電機組制造商配套提供的,但是各廠家的系統互不兼容,因此數據類型復雜。
另外,風能具有高度的隨機波動性與間歇性,對電力供需平衡、電力系統安全以及電能質量帶來了嚴峻挑戰。智能風機上配備有大量的傳感器。以每臺風機每秒反饋1200個傳感器數據為例,一個設有100臺風機的風電場向數據中心回傳的數據率相當于12萬點/秒。傳統的做法是先存儲再處理;當發現問題時,為時已晚。這就要求風電企業及時掌握所有風機的實時數據和狀況,以便及時調整檢修。
所以,寧波風電需要在寧波市區建立生產集控中心,能夠遠程監視、控制、調度所有的風電場,實現實時報警、在線診斷故障、及時處理故障,降低損失發電量;以及海量數據存儲, 為風機運行優化、性能提升提供精準的數據支撐;最終實現無人值班、少人值守。這幾乎涵蓋了4個V的挑戰。
針對這些需求,華風數據基于星環科技的TDH設計了集數據整合、系統整合、應用整合的統一平臺,采用了多通道數據傳輸技術,支持多種通訊協議;星環的實時流處理技術融合了事件驅動和低延時處理,能夠對每秒12萬點數據進行實時的處理與分析,當傳感器數據值超過閾值時實時報警;數據存儲分析集群能存儲海量歷史數據,并基于風機歷史數據做查詢與統計分析。
同時TDH支持R語言無縫對接并提供圖形化界面,使得寧波風電能通過R語言進行數據挖掘,并能直接調用星環科技TranswarpR的機器學習算法庫,降低了業務人員學習時間成本。孫元浩表示,幾年前大家開始關注機器學習領域,相比傳統利用人工經驗去設定并驗證模型和規則,利用機器學習的方法分析大數據更準確。
隨著大數據應用的發展,最終各行業都會將重心放在挖掘數據背后的價值上。目前走在前列的,當屬2016年的當紅炸子雞金融業。孫元浩介紹,星環科技提供的深度學習已經在金融領域中幫助客戶利用大數據做營銷、風險分析、預測壞帳,等等。
對于大數據的未來,孫元浩認為有四個發展方向:第一,替代數據庫方面,主要是用新的引擎來處理大規模數據,大量的用戶數據仍然是結構化數據;第二,處理非結構化數據,這塊主要用到深度學習來處理圖像、語音、人機交互等;第三,實時計算,主要是流計算——如何將批處理和事件處理兩個模型融合起來,在非常短的延時內完成復雜事務處理;第四,數據挖掘和數據分析的工具,目的是將機器學習和深度學習變得普及化。這也是星環科技深挖的領域。
孫元浩介紹,大數據應用產業鏈大致可分為四層:大數據平臺基礎軟件層、工具層、應用層和專業服務層;星環科技將專注于前兩層。后兩層的行業屬性較強,他表示,目前大數據的行業應用解決方案稀缺,很適合新玩家們作為入口一展身手。