大數據呼喚數據集成新思維

2013-12-31 00:00:00韓蕊

互聯網周刊 2013年22期

人類已經進入以數據為中心的時代，也即：“大數據”時代。在這個時代里，數以億計的計算機和移動設備正在持續地創造著越來越多的數據。爆炸式增長的、結構化、非結構化數據創造著巨大的機遇，如何從如此龐大而復雜的數據中挖掘出企業需要的商業價值成為所有企業面臨的挑戰。

大數據意味著包括交易和交互數據集在內的所有數據集，其規模或復雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些數據集的能力。不管是大交互數據，還是大交易數據，處理分析非結構化數據一直以來都是數據處理的難點。數據集成作為挖掘數據價值的重要一步在整個數據分析中具有重要的作用。

對于絕大多數企業而言，信息系統建設通常具有階段性和分布性的特點，該特點不可避免的導致了“信息孤島”現象的存在。“信息孤島”就是指不同軟件間，尤其是不同部門間的數據信息不能共享，造成系統中存在大量冗余數據、垃圾數據，無法保證數據的一致性，嚴重地阻礙了企業信息化建設的整體進程。為解決這一問題，人們開始關注數據集成研究。

數據集成就是將若干個分散數據源中的數據，邏輯地或者物理地集成到一個統一的數據集合中。其核心任務是將相互關聯的分布式異構數據源集成到一起，讓用戶以透明的方式訪問這些數據源，以便消除信息孤島現象。

數據集成市場正處于黃金時代

著名信息技術研究咨詢公司Gartner在其發布的“2013年數據集成工具魔力象限報告”中表示，對集成選項功能完整性的需求在快速上漲。隨著數據碎片化程度的不斷加劇，企業希望能夠有一款靈活的產品，能夠快速融入到現有的數據管理投資中，并提供更多的功能。

數據集成可以滿足人們不斷增長的信息需求，使更多的人更充分地使用已有數據資源，減少資料收集、數據采集等重復勞動和相應費用，實現數據源的凝聚放大效應，形成以業務為驅動的動態數據價值鏈。

大數據技術的發展為數據管理開辟了一條新的道路，這也為數據集成創造了新的機會。在這種情況下，數據集成就從傳統的數據提取、轉換和加載過程（ETL）變成了更加靈活的數據提取、加載和轉換的方法（ELT）。在過去，ETL形式中的數據集成通常是“一個自包含過程”，它只是簡單的專注于將干凈、合并的數據從源系統遷移至目標數據倉庫。但是，現在情況變得不同了，現在數據可以存在于任何地方，如果用戶需要在另一個系統上使用，只要在需要的時候調用就可以了。

Gartner認為，市場上對集數據集成、數據質量以及主數據管理于一體的工具需求在不斷的增長。高質量的數據對于數據集成項目的成功具有關鍵的作用，而不關心數據質量的數據集成注定將會失敗。除了與數據質量和主數據管理更好的集成以外，用戶還希望工具能夠支持更加廣泛的數據集成風格與功能。

包括Hadoop等大數據技術，以及NoSQL數據庫技術在內的技術對數據集成工具的開發都產生了重大影響。未來數據集成工具發展的重要方向就是支持分布式架構的集成。包括低成本，基于訂閱模式的收費方法以及基于云在內的交付模式，也是未來數據集成市場的一個發展方向。

多方挑戰考驗數據集成

單純地看，數據集成在現實應用中是一個非常簡單的問題，也就是對多源數據進行清理和轉換，然后將數據加載到適當的數據存儲區中以便進行下一步的分析和處理。但是，事實卻不是這么簡單。數據集成面臨著多方挑戰。

首先是技術方面的挑戰。最具針對性的挑戰包括：多種源和多種不同的格式；結構化、半結構化和非結構化數據；在不同時間從源系統獲得的數據信息；龐大的數據量。即使在理想的情況下，也必須以某種方式在一個位置獲得所需的所有數據。同時，對實時性的要求增加了數據集成的困難。

其次來自組織的挑戰。在大型組織中進行數據集成還會存在來自權力的壓力。數據是信息，代表著一種權力，但是讓人們相信數據是企業有價值的資產是一件頗具挑戰的事情。要實現企業數據集成的成功，就需要所有數據源的使用者能夠了解項目的用途和方向。這需要所有的組織成員能夠通力合作。

最后就是經濟壓力。數據集成成本的增加主要是因為數據集成的過程可能會因為權力而變得緩慢而曲折，清理數據以及從多種源數據映射也會變得更加困難。當需要解決這些問題的時候，數據集成引起的額外費用都將會被記入整個數據集成體系結構。另外，隨著組織發展過程中對數據入庫和商業智能需求的增加，有缺陷的數據集成體系結構將變得越來越難以維護，這樣總體擁有成本會增加。

虛擬化提高數據集成效率

虛擬化意味著可以不受物理條件的限制，能夠迅速構建物理環境，以便支持用戶在特定時刻對特定業務的需求。現在已經可以實現對服務器、存儲以及網絡實現虛擬化。

面對海量數據的處理需求，我們需要擺脫結構化的數據倉庫。低成本的存儲在業務數據存儲方面可以節省成本。高昂的存儲成本限制了系統處理數據的質量。對于海量數據的處理需要做到彈性存儲，彈性存儲意味著企業不會在期望操作的數據規模或類型上受到限制，從而可以降低使用數據倉庫無法獲得最佳結果的風險。

數據虛擬化可以將不同的數據連接起來，讓業務運營與數據集成流程變得更加靈敏。大多數情況下，企業主要運用傳統數據集成技術，從交易系統中獲取數據，將其移植到數據倉庫中以作商務智能和數據分析等用途。然后，對于需要實時決策的應用程序，這種方式就會面臨挑戰。

數據虛擬化擁有一個可置于企業應用程序、數據倉庫、交易數據庫、門戶網站及其他數據源之上的提取層，能使企業在無需創建存儲信息備份的環境下，對來自不同系統中的數據進行整合。這樣一來就省去了從源系統中復制數據或移除數據的麻煩，減少了IT人員的工作量，也降低了數據出錯的幾率。

數據虛擬化還支持在源系統中交易數據更新的寫入，這也是擁護者們看中這項技術的優勢之一。正因為如此，數據虛擬化才會從數據聯合與企業信息集成（EII）技術中脫穎而出。后兩項為更早推出的類似技術，同樣為了簡化不同源陣列的數據分析流程。盡管三種技術在性能方面都有相似之處，甚至有“換湯不換藥”之嫌，但是EII技術提供的是一種數據陣列與報表的只讀處理方法。

其實，早在十年前就有數據聯合了，其產生的用意本在于取代ETL工具和數據暫存區，不用再建立新的數據市場。可惜評論家認為數據聯合從一開始就帶有重大缺陷，它只能與巨型數據套件匹配，且其運行環境需要極為復雜的數據轉換。更有甚者，很多人都認為數據聯合與面向服務架構（SOA）的粘附性很強。

但是隨著企業不再將大數據分析作為一項孤立的應用來看待，并注意使用分析結果來驅動他們的主流業務流程，數據質量和無縫上游整合就變得更為重要。并且大數據架構靈活性的提升也帶來了更高級別的發展和管理復雜性，這可能需要新的流程和技巧，甚至是在IT部門中的一場文化變革。

互聯網周刊2013年22期

互聯網周刊的其它文章: 行業動態; 熱點聚焦; 海爾經驗與豐田經驗的區別; 映盛中國譚運猛：社會化媒體營銷策略; 太平洋網絡張海方：百度是遷徙到移動互聯網的引路人; 挖掘美食深層需求讓吃更美好