夏添

作為數據洞察產生過程中最重要的一環,數據分析的速度、精準度、可擴展度,以及數據分析應用的普適度都是企業衡量數據分析平臺的重要標準。而英特爾與Cloudera則計劃在這一領域攜手并進,從硬件和軟件全面加速數據分析應用。
“目前90%的數據量,都是過去兩三年時間產生的,尤其是到2020年的時候會有500億互聯設備,他們會產生10000ZB的數據量。” 英特爾公司軟件與服務事業部副總裁、系統技術和優化部門大數據技術總監馬子雅女士表示,“大數據的價值就是通過對大量數據進行分析,可以給我們帶來更好的商業洞察力。英特爾在這方面已經做了很多年,我們最終目標是希望任何大數據用戶能夠在英特爾的平臺上,他們的數據洞察力最好,數據分析速度最快捷也最方便。”
為了實現大數據目的,英特爾在硬件層面—無論從網絡、存儲還是運算—做了大量的創新,英特爾對很多大數據項目進行了優化,保證他們能夠在英特爾的平臺上實現性能的大幅度提升。此外,英特爾也持續和Hadoop和Spark等大數據開源項目開展合作,希望推動開源未來的技術進一步提升和英特爾的黏和度。
“英特爾也推出了一些開源項目,比如TAP,Trusted Analytics Platform等用來加速基于云的分析應用程序開發的項目。英特爾和很多業界同行、客戶有很多的合作關系,來幫助他們加速大數據和數據分析以及機器學習在英特爾平臺上的部署,實現商業價值。”馬子雅表示。
由于硬件性能和軟件優化對大數據應用生態的發展有重要作用,在數字服務經濟時代,要借助數據分析技術更快地完成大規模機器學習與深度學習,從而更好、更精準地指導商業決策,仍需進一步的軟、硬件創新與優化。為此,作為全球計算力創新的引領者,英特爾在加強至強處理器、至強融核處理器以及固態盤、FPGA等技術和產品創新的同時,也一直支持開源社區的創新和發展、并與Cloudera這樣業界領先的Hadoop數據管理軟件與服務提供商進行深入合作,在英特爾開放架構硬件產品技術上進行不斷優化,使系統平臺運算、分析能力實現不斷提升。
而英特爾面向實時數據分析最快的處理器至強E7 v4、面向大數據應用橫向擴展的最新處理器至強E5 v4,以及最新的非易失性存儲技術3D XPoint等工作,都為大數據應用帶來新的價值。有的客戶通過遷移到新一代的英特爾的硬件技術,大數據的機組性能提高7倍。
英特爾在未來希望把物聯網和終端的數據分析進行更多的結合,尤其是物聯網越來越發展的情況下,英特爾將關注如何把數據收集和商業決定實時結合在一起,以及如何提升機器學習模塊的可擴展性,如何縮短機器學習的周期等領域。
在深度學習方面,英特爾也做了大量的努力—包括至強處理器的優化、機遇至強融核(Xeon Phi)的計算密集型的工作及FPGA等其他的硬件創新,有些工作目前已經有了非常好的進展。目前,英特爾深度學習解決方案在系統的擴展性方面相較競爭對手有較大的領先性,在京東、奇虎等互聯網用戶中已經有豐富的案例。馬子雅介紹,在未來的18個月中,英特爾會推出至強融核(Xeon Phi)和FPGA的最新版解決方案,為機器學習用戶提供更好的體驗。
英特爾對于當下數據分析技術發展與應用現狀的洞察,以及對自身大數據創新策略的解析,與Hadoop之父、Cloudera公司首席架構師Doug Cutting的想法不謀而合。“當越來越多的大數據應用在數據中心部署的今天,英特爾和Cloudera雙方的合作非常成功,在許多的領域,我們的工程師共同合作,保證Hadoop能夠非常好地在英特爾的硬件上運行。”他介紹。
目前Cloudera的業務主要涵蓋在電信、金融、制造、基礎設施、零售等行業。在主要的免費發行版本中,基于Apache Hadoop的Cloudera商業發行版已經占據70%以上的市場占有率。而在商業版本方面,在過去的18個月中,Cloudera在大型企業、電信、金融、制造以及零售等方面也有非常好的進展。
在Doug Cutting看來,Hadoop技術誕生、發展至今已有十年之久。而在這個不斷發展、快速發展的生態系統中,每一年開源社區中都會出現Spark、Impala那樣能夠提供更好功能的項目以替代原有的技術模塊。
“我們仍要堅持技術創新與開源分享,攜手英特爾這樣的合作伙伴一同推動、支持整個生態系統的發展,為機器學習、深度學習等數據分析應提供性能最好、最穩定安全的大數據應用環境,以滿足金融、電信、制造、零售等不同行業用戶的特定應用需求。”他表示。