解林超 石佳 王仲鋒 紀德良
數據中心作為數據的集散中心和商務智能分析展現平臺,在大數據時代面臨著新的機遇和挑戰。目前,多數企業已建成一體化企業級數據中心平臺,能夠滿足日常業務的需求,但大數據時代對傳統數據中心的數據存儲、處理、交換、展現以及挖掘能力都提出了更高要求。
大數據
對傳統數據中心的影響
如今,非結構化數據的重要性越來越大。傳統數據中心的數據一般來源于用戶通過個人電腦、移動終端、POS 機等常規渠道生成的結構化數據。而大數據時代數據類型多樣化,半結構化數據和非結構化數據呈現爆發式增長,且增長速度遠遠超過結構化數據。這些通過傳感器、監測儀、機讀儀器等機器設備產生的天氣、位置、音頻、文本等海量復雜數據越來越多,企業開始使用這些數據來改進產品、提高效率、尋找缺陷,其數據的重要性將會越來越大。
同時對數據的時效性要求也越來越高。傳統數據中心的數據更新周期基本為日、周、月,輔以少量的實時數據更新,商務智能也基本以日、周、月、季度和年為時間維度的靜態數據分析。大數據時代,對數據的處理速度和數據的時效性提出了更高要求,而當今社會日益加劇的商業競爭讓每個企業都希望能通過實時分析報表和結果數據來隨時掌握企業運營狀況,并迅速作出決策和判斷。
以電力電量平衡測算為例,需要實時采集電網數據、實時分析、實時計算、快速測算結果,并反饋至電力調度部門進行有序用電執行預案的實時決策,如果相關數據獲取不及時則會大大影響調度部門對有序用電的分析和決策。
大數據逐漸改變了數據分析模式。傳統數據分析以結構化數據分析為主,業務分析更是以被動式信息接受為主。大數據時代下,隨著數據的累積和增加,可做的分析和對比也越來越多。通過對大量的數據進行分析,從而揭示數據之間隱藏的關系、模式和趨勢;通過結構化數據、半結構化數據、非結構化數據的融合關聯分析,實現文本分析、數據挖掘、圖形分析、空間分析等數據分析模式,為決策者提供不同角度不同形式的分析判斷依據。
大數據影響了信息基礎架構。目前電力企業數據中心主要以Unix為代表的操作系統服務器硬件平臺、以Oracle關系型數據庫為代表的企業級數據存儲平臺和以BW(數據倉庫Business Ware-house)、BO(業務對象,Business Object)為代表的企業級商務智能分析平臺組成。
隨著智能電網的發展,半結構化和非結構化數據呈現出快速增長的勢頭,大量部署的傳感器、監視器、智能交互終端等設備都可以成為數據來源,并且其數據量大大超過了結構化數據。大數據時代下,分布式處理的軟件框架使得 x86服務器開始大行其道,列存儲、內存數據庫、NOSQL 存儲、流計算等技術將成為數據存儲和處理的主流技術。
傳統數據中心商務智能專注單一數據集的分析處理,這造成了不同類型數據之間的割裂。而大數據分析聚合多個數據集,注重不同類型數據的融合集成與關聯分析,是一種綜合關聯性分析。因此,傳統數據中心分析處理架構已無法適應大數據時代的分析要求。
大數據時代
傳統數據中心發展的思考
大數據的核心價值在于從海量的復雜數據中挖掘出有價值的信息,通過大數據技術進行更快地分析、更準確地預測,發掘出新的業務模式,創造新的商業發展機會。因此,大數據時代下,企業迫切需要思考如何應用大數據技術改造完善已有數據中心平臺,提升企業的數據處理能力,提高數據分析水平,將大數據融入企業的整體數據方案。
分布式處理框架是大數據時代下數據中心架構的基本特征,包括分布式存儲和分布式計算。分布式存儲采用了可擴展的系統架構,利用多臺存儲服務器分擔存儲負荷,它不但提高系統的可靠性、可用性和存取效率,還易于擴展。分布式計算將大量的分析計算任務分解為若干小任務,然后將分解后的任務分配到不同的處理節點,最后將計算結果綜合起來得到最終的結果。分布式計算具有更強的并行計算能力和擴展性,且適合多類型數據的混合處理,因此,電網企業需要在原有數據中心架構基礎上,構建分布式處理框架,提升數據存儲和處理能力。
研究構建大數據分析處理架構。梳理電網企業數據中心現有的技術架構,研究大數據關鍵技術,結合目前行業主流的大數據處理架構,重點研究基于大數據平臺的數據中心信息基礎架構,在保護企業現有信息化投資的基礎上,探索適合自身的大數據解決方案,將大數據融入企業整體數據方案。
利用大數據技術改造完善數據中心分析處理架構,研究融合結構化數據、實時數據、位置數據和非結構化數據的大數據信息基礎架構,構建企業級大數據分析與挖掘平臺,實現不同類型數據的融合集成與關聯分析,支撐大數據分析應用,提升數據分析和挖掘能力。
數據的核心是發現價值,駕馭數據的核心是分析。如何駕馭大數據,如何在海量數據中挖掘有價值的信息是重中之重,因此企業更應專注于數據中隱藏的價值,通過應用大數據技術分析,充分挖掘數據的核心價值,不斷優化業務流程,降低管理成本,輔助企業做出科學的決策,為企業的持續創新與發展積蓄力量。
信息的影響力取決于數據關聯的能力,聚合多個大數據集所獲得的新的洞察力要遠遠超出單一大數據集所獲得的洞察力。例如種子公司與農作物保護提供商和氣象部門合作就綜合利用了多個大數據集,包括天氣數據、土壤濕度數據、土壤類型數據、種子數據和其他數據,對這些數據進行交叉關聯分析,可以幫助種植戶收獲更高的產量。而在電力企業,將來自配電、用電、客戶、天氣等不同數據源的數據經過轉換、整合,將會產生新的業務價值。
對電力交易數據、氣候數據與客戶家庭年齡結構、生活習慣等因素融合分析,了解客戶用電行為,滿足客戶的差異化需求,并通過探尋深層需求開辟新的增值業務空間。
如何讓數據驅動業務,這是大數據時代下數據中心必須思考的關鍵問題。傳統數據中心疲于應付業務部門的需求,而大數據時代下,數據的復雜性決定了數據中心需要更加快速地應對業務需求的變化和不確定性,因此數據中心必須由數據的保管者和服務者轉變為數據的管理者和決策者,從被動的響應業務部門的要求轉變為主動向業務部門提供數據服務。
數據驅動業務是指數據作為一種生產力將數據分析挖掘的信息實時、主動地反饋給業務決策者并影響、反哺企業業務的過程。大數據時代下,可以對企業業務進行全過程分析、全方位監控、模擬預測,實時進行反饋,并及時調整決策改善業務發展方向,使得業務可以從數據上立即得以感知,業務可以用數據評價并由數據決策。
大數據技術是當前較新的技術發展方向,國內外已開展相關技術的研究與應用,電力企業對電力大數據的技術研究也處于初級階段。大數據在業務領域中的應用是一個循序漸進的過程,對相關技術的應用需要進行客觀評估和充分論證,更要科學研判有關技術的發展前景,做出階段性發展規劃,構筑符合企業實際的技術應用主線。