

在大數據方面,英特爾一直以一個積極參與和推動的角色出現。在日前舉辦的“2014中國大數據技術大會”上,英特爾大數據首席架構師戴金權介紹了基于Spark軟件棧的下一代大數據分析,再一次凸顯英特爾在大數據技術研發中的領先性。對此,記者采訪了戴金權和英特爾云創新中心解決方案架構師程從超。
“作為在處理器芯片方面的領先者,英特爾在大數據方面所做的工作遠遠不止提供一個硬件平臺。”程從超說。2014年4月,英特爾投資大數據軟件提供商Cloudera,曾引起業界廣泛關注,之后,英特爾還與業界許多廠商在大數據方面成為合作伙伴。程從超表示,英特爾大數據戰略采取完全開放的架構,不論從硬件還是對開源社區的貢獻,以及對一些特定產品的開發和提供行業解決方案,英特爾都是開放的態度。
程從超介紹說,英特爾在大數據方面所做的工作和開放性主要表現在三方面。第一,從最底層的硬件層面,英特爾提供一個平臺,處理器方面就有很多型號是針對不同大數據應用的,同時,英特爾與傳統的硬件廠商和數據庫廠商都有很好的合作,并支持現在很火的Hadoop NoSQL技術,以及在網絡、存儲等方面提供支持。第二,英特爾對大數據開源社區和開源軟件的貢獻在全球排在前三名。第三,在行業解決方案方面,英特爾在中國建立了云創新中心,針對特定的垂直行業提供集成了軟件、硬件、行業應用的端到端的大數據解決方案。
戴金權表示,Hadoop將MapReduce分布式計算和大數據技術帶入主流應用,但是,隨著大數據需求和使用模式的擴大,Hadoop已暴露出諸多局限性,特別是越來越多的數據應用需要使用超越MapReduce的全新大數據分析模式,對數據進行準實時的深度挖掘和分析。“這些下一代的大數據分析場景和平臺有幾個顯著的特性”,戴金權說,比如對來自不同來源、不間斷的輸入數據進行準實時的流式處理;對海量數據使用大規模復雜的機器學習和圖計算,進行深度挖掘和分析;使用分布式高速內存數據緩存,以支持交互式、迭代計算和數據分析。
英特爾正是看到這些日益明顯的大數據發展趨勢,因此在開源社區與合作伙伴一起,為了達成下一代大數據的愿景,做了大量的工作。戴金權說,Spark目前在業內是比較領先的技術,圍繞著Apache Spark,英特爾從兩三年前就開始與UC Berkeley進行了很緊密的合作,在軟件上尤其是一些開源開發方面做了大量貢獻。在Spark技術方面,2015年在美國和中國都會有相應的會議,目前來自不同行業的用戶和廠商也都在關注Spark,并在研究如何在具體的應用中利用Spark。
盡管Spark技術剛出現不久,并不完善,但戴金權認為,這其實與Hadoop剛出現時的情況類似,對大多數企業來說,它可能還是一個高精尖的技術,如何能得到更廣泛的應用,可能還需要做大量的商業化的工作,“我們看到,在開源社區和業界的一些公司中,目前已經開始在做這方面的工作,期待未來會有很好的應用。”戴金權說。