999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代下提升數據分析系統數據處理能力的變革

2016-05-14 01:19:44
信息通信技術 2016年4期
關鍵詞:數據處理能力

中國聯通上海分公司 上海 200050

引言

伴隨著運營商企業分析粒度和維度的不斷擴大,對企業經營的分析已轉換到數據價值的提升,隨著數據信息采集范圍的擴大、時效性要求的提升、數據量級從MB上升到TB、PB的范圍,諸多方面的變化使得傳統IT技術架構支撐有些力不從心。

云計算技術的興起,給傳統企業數據中心一個突破的契機,時下有關數據的海量處理和存儲的研究正處于熱潮,分布式并行處理技術日益成熟,使得Hadoop平臺脫穎而出,成為分布式處理的寵兒 。

運營商的IT系統確定未來的發展方向,是以“集中大數據為核心,頂層設計引領IT建設,服務下沉,助力客戶感知”為總體戰略。改變原來每個系統從應用到數據,全部是煙囪式的建設模式。未來要全部轉變為“平臺+應用”的模式,構建唯一、集中、開放的大數據平臺,并在這個平臺上構建各種各樣的應用。上海聯通數據中心也意識到這個生態環境的變化,并在逐步推進改革。

1 傳統經分架構的解析

1.1 上海聯通傳統經分業務架構

上海聯通傳統經營分析數據倉庫建設項目從2009年開始建設,采用傳統IOE技術架構,整合BSS移動業務計費系統、CRM客戶關系管理系統、客戶服務系統等省份生產系統數據,同時補充了集團統一下發的移動用戶互聯網標簽數據、集團數據挖掘模型標簽數據、電子渠道受理數據。按照三個統一(統一指標名稱、統一指標口徑、統一指標加工)的要求,將各種數據做標準抽取、轉換、加工,搭建企業級數據倉庫。通過數據倉庫的建立打破信息孤島,對數據進行集中管理,使各個業務系統的數據相互共享。上海聯通數據倉庫目前主要支撐企業報表、專題分析、營銷維系活動等應用,基于準確的歷史數據提供專題分析報告為企業營銷活動的開展提供決策支持[1]。

1.2 上海聯通傳統數據倉庫的技術結構

上海聯通傳統數據倉庫以關系型數據庫Oracle為基礎,以ETL為樞紐連接ODS接口層、DWA/DWD數據匯總層、DM數據集市層,經由聯機分析處理工具、數據挖掘工具以及決策人員的專業知識,運用OLAP和數據挖掘技術對數據倉庫加工好的單用戶進行多維分析和挖掘。其技術結構體系如圖1所示。

圖1 技術結構體系

2 傳統數據倉庫的數據存儲加工瓶頸及云化探索

2.1 傳統數據倉庫加工瓶頸

隨著3G、4G業務的快速發展,數據量不斷增大,導致數據中心數據分析的處理量劇增,傳統數據倉庫加工出現瓶頸,IOE環境的負載隨業務規模及建設內容增長會逐步達到極限,基于IOE環境可擴展性差,從歷史經驗看可以通過對現有IOE環境進行擴容或對現有加工內容進行遷移重構的方式來降低IOE環境負載。同時由于數據采集內容的擴展,例如互聯網內容數據,信令數據已經打破原有數據格式內容,IOE架構已經達到極限[2]。

2.2 運營商對云化的探索

隨著移動互聯網時代到來及云計算的興起,傳統的IOE技術架構正在逐漸演化成為新一代的X86,閃存、開源應用平臺、數據平臺等技術為基礎的新一代技術架構[3]。

所謂的“IOE”是指,IBM是服務器提供商,Oracle是數據庫軟件提供商,EMC則是存儲設備提供商,三者構成了一個從軟件到硬件的企業數據庫系統,IOE架構的特點:基于向上擴展(Scale-up)技術的高端設備以及圍繞著它們開發的專有硬件、大型數據庫和商業中間件(IOE的框架如圖2所示)。而對于運營商而言,因為其業務的爆炸式增長,原有的擴展方式從技術及投入上均已不能滿足業務發展趨勢。

圖2 IOE的框架圖

去IOE的難點核心是去Oracle數據庫,由于其與運營商業務密切關聯,去IOE的本質是“分布式+開源”架構替代“集中式+封閉”架構,變成徹底的云計算服務模式。IOE環境與Hadoop環境架構擴容特點比較見圖3。

圖3 擴展性比較

2.3 大數據的特點

大數據是一個比較寬泛的概念,它包含大數據存儲和大數據計算,其中大數據計算可大致分為計算邏輯相對簡單的大數據統計、以及計算邏輯相對復雜的大數據預測。大數據存儲解決了大數據技術中的首要問題,即海量數據首先要能保存下來,才能有后續的處理。因此毫無疑問大數據存儲是非常重要的[4]。

關系型數據庫擅長處理結構化數據,且成本比較昂貴。非結構化數據由Hadoop加工處理解決成本問題。同時為了應對數據量大、實時性要求高的數據處理需求,引入流處理機制,常見的流數據如信令數據和微博信息。流數據強調的是實時處理與分析而非數據存儲,所以一般只在內存中處理,不落地存儲在磁盤上,但必要時也可以持久化。

業內對大數據技術架構進行了詳細對比,包括Hadoop大數據處理平臺與傳統MPP數據庫架構及技術的優劣比較,在業內的經驗基礎上對于此應用的技術實現方式最終決定采用“數據庫混搭架構”來支撐公司的大數據處理分析(表1為大數據平臺架構對比)。

表1 大數據平臺架構對比

2.4 云化的意義

針對上海聯通結構化數據量大、數據模型復雜的特點,采取異構混搭的技術架構,可以縮短統一數據加工時間、同時升級現有系統數據處理能力,使得信息及時傳遞,同時進行全量數據管理,實現高可擴展性[5]。采用分布式集群技術,適合數據快速地寫入和快速檢索,可滿足海量數據的加工需求。云化之后利用分布式并行處理技術減小數據倉庫的擴容壓力;提升數據作業的處理速度及系統的響應速度。

3 基于混搭架構支撐能力解決方案

3.1 大數據平臺技術架構

采用混搭結構的大數據分析平臺,對不同的數據采用不同的數據處理技術,應用不同的場景。分布式處理平臺來處理大量低價值、低密度的數據,經過處理、加工后,得出高價值、高聚合數據,通過Oracle或者MY SQL、MPP數據庫提供業務進行使用[6]。這樣既能滿足數據的處理性能,又能滿足業務使用的響應。如圖4所示。

大數據平臺可以加強數據與系統管理的功能,如元數據管理、數據質量管理、系統管理。1)數據質量管理建立數據質量變更協同管理,補充數據質量稽核規則,優化質量監控和評估功能,逐步實現企業全程數據的監管,以輔助數據質量提升。2)元數據管理提升元數據的獲取、存儲、分析和維護。3)利用系統管理在數據分析系統中扮演著面向全局總體控制、總體協調及總體管理的核心管理角色,保證數據分析系統能夠安全和穩定地運行。

應用層在系統功能架構上進行了適度的解耦,提升了基礎功能復用能力,并要求提供系統應用的角色適配能力。應用層在技術上要求逐步以組件化方式實現KPI、多維分析、即席查詢、報表分析等基礎功能,并通過調用和編排基礎功能組件集中解決各類業務問題[7]。

圖4 大數據分析平臺技術架構

3.2 大數據平臺數據架構

數據層架構涵蓋上海聯通數據分析系統從各業務源系統中將相關業務數據(省分B域數據、集團橫向系統數據、O域互聯網詳單數據)進行抽取、清洗、加工、整理并加載到數據倉庫的全過程;數據層通過文件處理或流處理,提高集中數據分析系統獲取數據的及時性,為企業應用提供技術支撐[7]。

數據層實現對企業數據倉庫和元數據的集中存儲與管理,并根據需求建立面向業務應用的數據集市。數據層既是數據和信息集中管理的存儲中心,也是數據分析系統的數據加工中心,經過數據匯總、數據統計和數據挖掘等技術手段對企業數據進行提煉和精加工,形成指標、多維數據、報表數據、挖掘結果和知識數據等各類信息。大數據分析平臺引入Hadoop、HBase等分布式處理技術,并結合原有的事務性數據庫Oracle,組合成為分布式混搭結構,將不同的技術運用到其適合的應用場景和業務場景,讓各類技術在其優勢能力方面充分發揮,以整體上提升企業數據中心、業務分析等平臺應用的服務能力[8]。混搭架構的大數據平臺中,Hadoop負責海量數據的長久存儲、清洗、邏輯處理、海量數據挖掘等工作;Hbase承擔海量數據快速查詢的任務;Oracle則肩負事物數據處理、應用高并發、高效事物訪問等使命。

綜合考慮上海聯通的業務數據特點,采用Hadoop+Oracle的混搭架構,構建分布式云化大數據平臺,可以解決目前企業數據中心迫切需要解決的諸多問題。

3.3 平臺混搭架構的優勢

為適應不同的場景、不同的應用需要,深度定制的混搭結構,

3.4 上海聯通大數據分析平臺實施方案

1)總體架構。經過對上海聯通的業務特點以及數據處理的要求,采用Oracle、Hadoop結合在一起的混搭架構,Hadoop負責基礎數據加工,主要針對處理邏輯復雜但不需深度關聯數據處理工作;Oracle負責深度關聯數據處理,并統一對外提供數據服務[9]。

2)技術架構。上海聯通大數據平臺根據不同技術的優越特性,以不同的技術相結合方式,應用在平臺的不同層次中,解決不同數據以及應用場景不同的數據分層分級服務的能力,通過各層的數據能力的劃分、合理使用,提升系統的服務能力,如表2所示。大數據平臺技術架構如圖5所示。

3)應用架構。通過對混搭平臺優勢的研究以及云化大數據平臺的經典架構理論探討,結合中國聯通大數據平臺建設總體指導建議,上海聯通基于X86 PC Server、DCN網絡等硬件環境,構建了基礎省分二級大數據平臺IaaS基礎環境。部署搭建基于Hadoop分布式運算環境的大數據平臺,實現企業數據中心的云化,以提升企業數據中心的數據存儲能力、邏輯運算能力、數據挖掘能力、快速響應能力、業務支撐能力、平臺管理能力[10]。

依托大數據平臺的優越性,豐富經營分析、企業管理、業務分析挖掘等方面的優質應用,使得多維度、多系統的數據通過大數據分析平臺進行整合,形成數據合力,提升數據的應用價值,如圖6所示。

表2 大數據平臺能力表

圖5 大數據平臺技術架構圖

圖6 大數據平臺業務架構圖

3.5 大數據處理平臺模型

1)基本原則。上海聯通大數據平臺數據模型設計采用自頂向下與自底向上相結合的方法進行設計。以企業級數據模型為指導,結合生產系統相關規范,參考業界標桿SID、行業成熟模型,先建立概念模型,再在概念模型的基礎上進行細化設計邏輯模型。

2)平臺分層架構。大數據分析平臺實施參照數據倉庫技術,通過建立企業級數據中心,通過分層分域的管理,一方面實現KPI、報表、主題分析、專題分析、數據挖掘等分析功能,滿足總部、省分、地市、區縣、一線營銷人員的數據分析需求;另一方面與生產系統進行信息互動,可以為生產系統提供各類信息的反饋和互動。大數據平臺數據分層架構如圖7所示。

圖7 大數據平臺數據分層架構圖

4 平臺能力在生產應用效果提升

經過半年的實施周期,上海聯通從控制成本、保證業務需求的支撐、能夠適應新形勢的要求下,搭建了混搭結構的大數據分析平臺。支撐海量數據的處理、提升數據能力,使數據中心由原來提供單一的企業經分分析決策的架構能力轉變到適應大數據的處理的能力,從數據價值出發,為大數據變現提供豐富的能力支撐。

4.1 數據源拓展

大數據分析平臺的建設完成,全面進行了數據的整合能力的提升,將B域、M域、O域、其他外部數據統一進行數據的管理,在規劃數據的采集能力、數據的生產加工能力、數據架構的治理方面提供了有力抓手。從原來的單一B域的數據來源,逐步豐富到了16個數據采集源的擴充;數據采集方案由原來的DBLINK方式調整為文件級的入庫方式,減輕了多點訪問生產庫的壓力,提升了數據的入庫和處理效率[11]。

4.2 數據存儲能力提升

大數據平臺采用3 1臺P C Server構建HDFS分布式文件系統,借助于HDFS分布式文件系統的數據文件自動備份策略,在低廉的硬件投資下有效提升了數據存儲周期,為長周期數據分析和挖掘提供可靠的數據保證,投資成本得到控制,數據存儲能力得到提升。

HDFS分布式文件系統具備良好擴展能力,企業數據中心中數據存儲量達到預設警戒值后,可以通過添加PC Server進行快速水平擴展,以提升大數據平臺的數據存儲能力和邏輯運算能力。

4.3 邏輯運算能力提升

采用業內的Hadoop分布式計算框架MapReduce為大數據平臺,確保了平臺的高效運算能力,基于MapReduce運算能力的類SQL數據倉庫Hive,提升了SQL的高效處理能力,其海量數據處理卓越的性能讓大數據平臺增色不少。較原有小機+Oracle架構的數據中心,Hive數據處理能力上有了質的提升,數據處理速度普遍提升3到6倍[11]。如表4所示。

4.4 數據導出效率提升

大數據分析平臺對外數據的輸出和服務是最常用的手段之一,為實現快速的數據文件共享,則需要要求平臺中數據能夠快速導出成指定格式的文本文件。

表5實例驗證了Hive數據文件導出和Oracle數據文件導出的效率比較。

依托于大數據平臺快速的數據導出能力,可以有效提升總部縱向明細數據生成和上傳的工作效率以及上海聯通內各系統間數據文件共享和傳遞,極大地縮短外圍系統等待企業數據中心數據生成的時間,加速各系統間的數據共享。

4.5 平臺管理能力提升

大數據平臺端到端的數據管控體系,管理數據采集、加工、存儲、應用、歸檔、刪除等一系列環節,完成端到端的數據管控。光有平臺能力,沒有相應的監控工具,就不能同步發揮平臺的能力,因此相應匹配了平臺的管理功能[11]。可視化的平臺管理工具,極大地提升了大數據平臺的管理能力,為日常生產、維護、數據質量提供了保障。

端到端的數據管控體系采用體系化的、標準的、可重復的監管機制和執行流程,保證數據加工的統一及數據流程的透明性,保障數據質量及數據可用性,促進企業數據共享、業務支撐和數據價值提升。利用業務流程驅動機制,使各個節點的控制要素有機地實現鏈式觸發,提升企業數據管控的運營能力和效率。打破信息孤島,提升數據質量,讓數據發揮出公司核心資源的效用,實現數據的增值。

表4 抽樣部分核心業務數據處理邏輯在兩個架構上的效率對比

表5 導出效率比較

4.5.1 生產流程可視化

大數據平臺生產流程的可視化,使平臺運維人員清晰明了的觀察到平臺數據處理的各個環節,及時發現生產流程中的異常信息并進行干預,以減輕運維人員處理后臺代碼問題的繁雜工作。通過靈活的、跨平臺、可配置的流程定義、流程調度、流程管理實現基于異構數據庫的混搭架構平臺全流程的可視化ETL調度。

4.5.2 日常運維可視化

大數據平臺運維可視化,可提升平臺運維人員的工作效率和監控環境,使運維人員簡單、清楚地了解到大數據平臺各節點軟、硬件的運行情況,掌握大數據平臺的健康運行狀況,快速鎖定平臺問題點和問題原因,為平臺修復提供依據。

通過運維監控頁面,時刻了解大數據平臺資源使用情況,設置資源利用峰值預警、智能監控報警等措施,提升大數據平臺運維管理能力。

4.5.3 元數據管理可視化

通過元數據資源管理、數據掃描、數據語義定義等功能,實現基于元數據的海量異構數據管理。

通過統一元數據管理,實現應用與數據之間的解耦,即應用不需要關心數據存儲在什么地方,只需要通過統一的元數據開放接口就能獲取數據,為應用的百花齊放提供數據支撐基礎。

4.5.4 數據質量管理可視化

通過基于元數據,實現對數據源、系統內以及對外服務的數據進行規則配置,并產生稽核結果,進而生成處理工單并觸發工單處理流程,以此形成問題預防—發現—處理—總結—反饋的模式,推進數據質量的提升,稽核規則的完善。

4.6 用戶查詢的快速響應能力提升

采用分布式列存數據庫Hbase,實現上海聯通用戶的全生命周期軌跡快速查詢,為客服等業務部門提供快速查詢服務。以Hive為生產系統的用戶生命軌跡數據進行歸集和預處理,Hbase列式存儲提供快速點查詢支撐,達到10億記錄的生命周期軌跡倉庫中,單一用戶查詢響應速度不超過3秒。

5 總結

通過對傳統數據倉庫的技術變革,實現了數據中心由傳統的IOE技術支撐架構向大數據分析平臺的混搭式分布式計算架構的轉變,在技術支撐能力方面邁進了一步[12]。

在數據倉庫的技術變革過程中依據運營商的數據特點,采用分布式數據庫與oracle數據庫混搭架構模式來支撐帶來如下好處。1)突破了傳統商業智能分析系統側重結構化數據的局限,實現數據源的拓展,不同的數據源采集方式為后續的數據源的擴充提供了基礎。2)利用Hadoop+Hbase+MapReduce的數據處理能力,極大的提升了數據生產加工的效率,為數據中心生產加工能力的提升奠定了基礎。3)采用混搭架構的衍進策略使得傳統數據中心的各種應用能平滑的過度,避免數據應用模式較大的改變。4)很好利用了混搭架構中,Hadoop的快速處理能力以及oracle的數據多維度聯機分析的處理能力,使得應用的支撐更為豐富和多樣。5)大數據分析處理平臺的可擴展能力強,給數據的存儲提供了新的方向,讓歷史數據的信息可以有效保存,形成不同的生命周期的數據,進一步提升數據的價值。

6 展望

新型大數據分析處理平臺的搭建,為后續大數據應用支撐以及數據價值的變現方面,提供了強有力的支撐。對于大數據處理來說,數據是素材,平臺是工具。工欲善其事,必先利其器。大數據各個層次的平臺已經日臻成熟,我們對其原理與架構也清晰明了。而海量數據中蘊含的巨大價值能否被有效挖掘,在我們提供很好的平臺架構的同時,還需要共同著力大數據應用的開發。

[1]王連月.BI平臺下的運營分析系統研究[EB/OL].[2016-1-22].http://articles.e-works.net.cn/BI/Article116402.htm,2014/5/23

[2]張曉萌.分布式不可行?去IOE的道路到底能走多遠![EB/OL].[2015-12-20].http://servers.pconline.com.cn/503/5033277.html

[3]老魚.大尺度剖析電信運營商"去I O E"之“去O”[EB/OL].[2015-12-20].http://tech.it168.com/a2015/0417/1720/000001720950.shtml

[4] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013

[5] 姚宏宇,田溯寧.云計算:大數據時代的系統工程[M].北京:電子工業出版社,2013

[6]祁偉.云計算:從基礎架構到最佳實踐[M].北京:清華大學出版社,2013

[7]部署大數據?請參考大數據分析平臺架構(Big Data Analytics)[EB/OL].[2016-01-22].http://www.36dsj.com/archives/27047

[8]康楠.數據中心系統工程及應用[M].北京:人民郵電出版社,2013

[9]Alex Holmes.Hadoop硬實戰[M].北京:電子工業出版社,2015

[10]阿爾杰.大數據云計算時代數據中心經典案例賞析[M].曾少寧,于佳,譯. 北京:人民郵電出版社,2014

[11]鄭葉來,陳世峻.分布式云數據中心的建設與管理[M].北京:清華大學出版社,2013

[12]涂子沛.大數據:正在到來的數據革命[M].南寧:廣西師范大學出版社,2015

猜你喜歡
數據處理能力
消防安全四個能力
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
幽默是一種能力
大興學習之風 提升履職能力
人大建設(2018年6期)2018-08-16 07:23:10
你的換位思考能力如何
努力拓展無人機飛行能力
無人機(2017年10期)2017-07-06 03:04:36
MATLAB在化學工程與工藝實驗數據處理中的應用
抄能力
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: 久久一级电影| 国产爽妇精品| 黄色污网站在线观看| 国产精品夜夜嗨视频免费视频| 国产美女丝袜高潮| 欧美精品xx| 国产成人综合网| 无码免费视频| 国产91高清视频| 99尹人香蕉国产免费天天拍| 国产91成人| 精品三级在线| 在线免费a视频| 熟妇丰满人妻| 女高中生自慰污污网站| 国产第三区| 国产精品欧美激情| 无码专区在线观看| 国产一在线观看| 国产女人18毛片水真多1| 久青草免费在线视频| aaa国产一级毛片| 精品伊人久久久久7777人| 国产精品手机视频一区二区| 国产在线八区| 亚洲精品日产AⅤ| 香蕉视频国产精品人| 国产在线观看91精品| 成人国产免费| 国产91色在线| 九九这里只有精品视频| 免费看一级毛片波多结衣| 一区二区在线视频免费观看| 婷婷色在线视频| 香蕉视频在线观看www| 国产一级小视频| 日韩欧美综合在线制服| 免费在线成人网| av天堂最新版在线| 国产精品第一区在线观看| 伊人色婷婷| 92午夜福利影院一区二区三区| 亚洲综合在线网| 国产青榴视频在线观看网站| 亚洲最猛黑人xxxx黑人猛交| 99视频精品在线观看| 精品久久香蕉国产线看观看gif| 九色免费视频| 亚洲精品天堂在线观看| 自慰网址在线观看| 福利视频99| 国产精品久久精品| 欧美黑人欧美精品刺激| 成人免费午夜视频| 国产理论最新国产精品视频| 色综合手机在线| 麻豆精品在线| 天堂中文在线资源| 18禁黄无遮挡免费动漫网站| 无遮挡一级毛片呦女视频| 日韩精品视频久久| 青青网在线国产| 欧美性久久久久| 久久国产拍爱| 制服丝袜在线视频香蕉| 91久久青青草原精品国产| 无码区日韩专区免费系列| 国产玖玖视频| 亚洲精品无码专区在线观看| 久久久成年黄色视频| 中文字幕波多野不卡一区| 91在线无码精品秘九色APP| 国产欧美日韩综合在线第一| 伊伊人成亚洲综合人网7777| 亚洲一区免费看| 成人综合在线观看| 亚洲91精品视频| 在线精品亚洲国产| 欧美一级高清片欧美国产欧美| 国产极品美女在线观看| 不卡视频国产| 熟女视频91|