眾所周知,數據只有流動起來才能產生價值……企業的數據可以總結為兩個方面,第一個方面被稱之為“企業內循環”,主要涉及到所從事的工作有助于加速企業提高經營效率,完成開源節流;另一方面叫做“企業外循環”,可以理解為通過企業產品讓用戶形成互動,進而產生海量數據。“如果將整個企業的外循環與內循環有機結合起來,就形成了企業的數據循環的一個體系。”紅象云騰創始人童小軍對《中國信息化周報》記者表示。
循環、優化、流轉一氣呵成
具體來說,對于數據分析的基本理念可以理解為“循環、優化、流轉”,這是來自對于數據統計分析的一個理解。童小軍說:“我覺得一個企業可以被看作一個生命體,具有自調整能力,將下層的產品統計、運維測試等統籌起來實現了一個在測的內循環,這是來自互聯網公司的內循環。在外部,我們的產品與用戶形成了企業的外循環。例如如果要優化產品,我們會記錄用戶數、活躍度等,這些數據會源源不斷地更新到我們的產品中,或者我們的系統如果給一個用戶發出一個搜索引擎或者一個需求,這時候企業給他們一個適時推薦,這個也可以稱之為外循環。”
同樣類似的案例在企業的質量管理中也存在,例如我們經常提到的戴明環等,其中也提到了循環質量優化的觀點;還有一個自動控制領域也涉及到閉環控制理論。
在我們的理解中,其實大數據所起到的作用在反饋這個層面,只有整個的大數據體系形成閉環的模式才能更好地服務企業。
“我們所理解的智能應該是一種結構,很簡單地被認為是一種閉環的反饋結構,而這種結構本身具備了一系列的制度。我們企業數據循環系統可以釋放整個數據的想象力,關鍵大數據系統要打開關于數據的釋放響應空間。其中數據循環、持續優化,高速流轉,系統穩定、開源開放等都是客戶所提出的需求。”童小軍補充道。
如今大家經常提起大數據Hadoop,分別涉及到化整為零、分片存儲、移動計算、分片處理。因為分片存儲以及化整為零的技術,每臺機器都可以用,這樣就形成了移動計算分塊處理。因為數據分散的動能,就可以將其移動到機器的本地化處理,所以整個系統會表現得非常高效。
另外本地化處理與并行可以極大地解決IO問題,帶寬問題以及計算問題,在集中式機構時就會面臨這樣的問題。因為作為集中式架構根本性的一個性能缺陷在于無法移動計算,就需要把數據從集中式的存儲拖拽到擁有計算的資源中進行再次計算,從而產生了一個IO瓶頸、帶寬瓶頸以及磁盤瓶頸等。
童小軍在分析大數據Hadoop時說:“通過對分布式計算的移動計算、化整為零等體系的全面了解,逐漸形成了一整套基于開源的系統,這是我們以前基于gedis架構的系統。我們可以看到Hadoop生態圈就像原始森林一樣,從底層的Hadoop等出發,我們可以把它總結成幾個層面。
首先是平臺層,其次是結構層、計算層、展現層以及管理層。其實開源大數據到底是大數據推動了Hadoop發展,還是Hadoop推動了大數據發展并沒有一致的絕對性,其中都是互相推動的過程。我們可以看到整個Hadoop生態圈已經龐大,其實開源本身也產生了標準的力量,對大數據標準產生帶來了助力。”
極致性能 生態化才是王牌
商務方面,紅象云騰提出了生態化的戰略,其中+Hadoop是公司提出的觀點,目標是服務更多的集成商,成為生態一部分。以“+Hadoop”為核心形成整個生態圈,進而達到服務器、各種中間鍵以及相應的多角度、全方位服務。
在大數據領域,通過軟硬件一體化,企業更需要打造極致的性能,紅象云騰在這方面有很多合作伙伴,第一個是紅旗,另一個是中太服務器,組成了紅色數據高鐵的紅象。“這個項目我們完成了將近幾萬億數據的快速檢索,當然這里還有其他的核心作用,我們叫做china Redoop,紅象的超級數據,形成了整個優化的產品站、128線程,紅象云騰今后的目標是對更多的CPU進行更進一步的加速,進而形成打造極致的性能。”童小軍展望生態化戰略時表示。
企業通過與硬件廠商的合作,可以提煉成一個庫,叫做Hadoop處理加速庫,同時加速庫也可以提煉為一個觀點,叫做HPU。
其關鍵的作用主要是實現在Hadoop框架下多種項目的加速,例如EC、SORT等都可以通過這個方式來完成加速。其中涉及幾個性能指標,通過與Java、X86、IBM相比,提速將近有30倍以上。
童小軍認為在加速庫的角度,紅象云騰早已進行了極致的分析,目前通過全面合作的策略,已與兩款國內的大數據軟件,分別是YDB和kylin完成合作,哪怕是在kylin檢索上千億數據也是可以完成的。這個打破了Hadoop在高速檢索速度慢的怪圈,原因在于這其中所有的數據庫并不是直接拷貝到硬盤上。
應用案例 不勝枚舉
說到數據循環的成功案例,也是不勝枚舉。例如,聯想電商,這套系統其實非常符合數據循環系統的理念。在聯想主要包含兩套循環,一個是內循環,一個是外循環。特別的是,內循環已經優化到分鐘級,在進行關鍵業務的廣告投放時,或者進行關鍵活動的決策時,都依賴這個系統,另外在穩定性,系統穩定性檢測也依賴這個系統。
另外,中國航天如今已經有5個PB的上線,這也是紅象云騰提供的機房整套建設,一百多個節點的部署情況的展現。整個平臺性能指標主要在IO密度上需要衛星的數據傳輸過來,通過Hadoop可以做什么呢?對于簡單的做圖,以前第一期投入就需要八千多萬,這套系統投入才兩千多萬,而且數據提速到十幾分鐘就可以得到,效率大大提升。
另外,目前紅象云騰正在跟蹤包含交通部門、公安部門等在內的相關數據,其中涉及大量數據分析場景。例如公安部門有一整套關于快速結合算法,快速計算同行和同住人員以及大情報的數據分析架構收效顯著。
對于“大數據+交通”的理解,核心的需求是這樣的。審計交通部門需要路面的數據,以及GPS信息數據甚至包括橋梁數據。
在這個過程中需要檢測某些大型車輛是否進入安全區,對于橋梁的承載載重問題,是否需要設置車輛靠近時進行報警,提示是否需要進入該區,或者已經進入危險區域等。
另外基于橋梁的數據,橋梁的各種各樣傳感器,包括溫度傳感器、壓力傳感器來識別這個橋梁是不是正常等情況,這其實是一種創新。
面對未來的大數據發展以及企業數據循環,童小軍說:“我們在設想將虛擬世界中的某些嘗試拉入現實世界,在大數據平臺上是不是可以增加虛擬因素?將以前用的三維、多維引擎植入數據中,形成對大數據系統的三維后臺式模擬。這也是我們提出來的一套關于大數據的基礎架構,更是基于內循環、外循環、高速數據交換的理念。”
在人才的戰略部署方面,紅象云騰有一個極致人才戰略,叫做“百校千企”。具體內容是面向一百所高校提供大數據的課程以及平臺,同時面向Hadoop,面向有關企業提供大數據人才,并做到運營開放實驗室。借此希望把開源技術、開放技術推向更多的大數據系統,進而完成各種方面的加速工作。