關于大數據的“驚天謊言”一直傳聞不休。來自全球第一大應用軟件商SAP公司的CTO提出觀點。文中從專業的角度分析了大數據的處理方式,并通過comScore 和Airtel Vodafone公司為例說明了大數據的使用方法和方案。在我看來這更像是在推銷他們SAP的大數據解決方案。
拋出觀點,大數據的“驚天謊言”
關于“大數據”的討論,無論你走到哪里,都無處不在。在Google搜索這個詞組,搜索結果超過13億條。它甚至在維基百科擁有專門的條目。
“大數據危機”是虛構的,是一個“大謊言”的觀點,讓IT部門如臨大敵。數據泛濫導致很多人得出結論:企業將不堪重負。這并不是說企業內部的信息量不會增長。相反地,企業內部信息量也難逃增長的命運。因為,大數據一直是個難題。
盡管不斷有人聲稱,數據洪流將導致厄運來臨,但IT行業卻始終能夠通過改進計算基礎架構,使它們速度更快、容量更大、價格更便宜、體積更小巧,從而讓揮之不去的信息“大決戰”預言不攻自破。
獲得數據質量的重要性
今天,通過使用列式數據庫分析架構(columnar-based analytics infrastructure),組織機構可以不必過度對“大數據”帶來的焦慮,相反,還能夠讓“大數據”更好為企業運營服務。在列式數據庫中, 用戶可以隨時調用和分析大數據集,即使對諸如非結構化數據等各種數據類型的大數據集亦是如此。它們不僅隨時可用,而且執行速度更快,還能根據工作要求,更方便地擴展,從而為盡可能多的用戶服務,涵蓋盡可能多的數據。
這種做法其實就是挖掘組織機構內外部的“大數據”,并提取有價值的部分供企業使用。它的目的是讓組織機構更靈活、更具競爭力,提高組織機構的盈利能力。
對于部署一個分析數據倉庫而言,最重要的步驟之一就是找到質量合格的數據。從數據凈化到采用數據管理總策略,用于確保數據質量的技術已經成熟,獲取最優質數據時還要對其進行內部審核。
數據延遲:需考慮組織內部數據延遲的三個方面:數據發生時機、事件延續時間、決策所需時間。
數據關聯:與商業用戶合作確定數據的前后關系,并就使用中的多個數據集建立相互聯系,同時還需要考慮數據增長率以及重復的來源。
自服務:確定高級用戶如何在不影響IT或其他資源的情況下,對用于查詢的數據實施控制。
首席數據官(Chief Data Officer):指定一名高級職員擔任首席數據官的職務,使其能夠在維持組織治理的同時保證數據的可操作性。
數據質量的重要性再怎么強調也不為過。