任海鵬
(1.長春理工大學 計算機研究生學院,吉林 長春 130022,2.;安徽機電職業技術學院,安徽 蕪湖 241000)
數據管理技術歷經人工管理、文件管理、數據庫管理等時代,大數據[1]技術的出現使該領域進入了一個新的發展階段對國家、企業的治理模式、智能決策、系統組織和綜合業務處理等領域都將產生變革性的影響.本文結合移動互聯網下的大數據應用,介紹大數據的技術難點與解決之法,并結合實際中進行實際對比展望.
數據管理經歷了飛速的發展,從原始手工記賬到大數據技術出現.如其中1946-1960年數據與應用進行捆綁,彼此不分;1960-2000年數據與應用分離,數據庫技術開始蓬勃發展;2001年以后互聯網迅速發展,數據管理技術日益提升.
(1)150億個設備連接到互聯網
(2)全球每秒鐘發送290萬封電子郵件
(3)每天有2.88萬小時視頻上傳到Youtube
(4)Facebook每日評論達32億條,每天上傳照片近3億張,每月處理數據總量約130萬TB
(5)2011年全球產生數據量1.8ZB,預計2020年將增長到35ZB
(2)2011年 6月,IBM、McKinsey發布“BigData”相關研究報告;
(3)2011年 10月,Gartner進一步提出“BigData”;
大數據數據概念
大數據(bigdata),是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合.
大數據數據解釋
業務目標:在1E(成本可接受-economically)的條件下從大數據中提取數據的價值(Value)
ETCR由于手術創傷小,門診很容易向CTS患者介紹微創及早期手術的優點,導致很多患者很容易就接受了早期治療。這不但避免了嚴重的神經損傷和肌肉萎縮,也減輕了患者的痛苦,降低了經濟負擔,有很大的社會效益。
技術要求:滿足3V(快速-Velocity、大體量-Volumes、多類別-Variety)的特征
技術方案:未提及,可能是新興技術與傳統技術的混搭
大數據關鍵技術有以下幾個方面去探討研究:
數據結構:結構化數據與非結構化數據
數據庫數據模型:關系型數據庫與非關系型數據庫
數據處理特性:OLTP[2]與OLAP
數據一致性:強一致性與最終一致性
數據存儲方式:行式存儲與列式存儲
數據庫存儲與處理架構:SMP與MPP
數據存儲架構:傳統分布式文件與新型分布式文件
數據處理架構:基于并行計算的分布式數據處理技術[3](MapReduce)
傳統關系型數據庫主要采用行存儲模式,海量數據的高效存儲和訪問要求引發了從行存儲模式向列存儲模式的轉變.

圖1 行式存儲與列式存儲算法圖
在數據量急劇膨脹的背景下,數據庫請求與處理的指令遠高于PC、SMP架構配置,S-PC也無法滿足,所以在大數據技術中,MPP[4]架構(計算分布+存儲分布)架構成為主流.
SMP:對稱多處理;兩臺以上的服務器,各主機之間共享總線結構,共享數據存儲磁盤,節點數有限制,主要通過提高節點配置來提高整體處理能力,擴展能力有限,對共享磁盤的訪問成為瓶頸;

表1 算法對比
MPP:大規模并行處理;多個松耦合處理單元組成,數據存儲在本機磁盤上,通過增加服務器數量提高系統處理能力,理論上可以無限擴展,技術可實現上千個節點互聯.對軟件體系要求較高,需要通過軟件層來調度和平衡各個節點的負載和并行處理過程.
MapReduce是解決海量數據處理的并行編程環境,編程流程如下:

算法優點:
(1)自動并行化:系統自動執行并行命令處理
(2)自動可靠化:系統自動處理數據節點與數據任務結果的故障檢測和恢復
(3)靈活拓展化:信息節點自由進入和退出,感知節點、并進行并行處理過程
(4)性能概化:計算機信息計算任務調度至數據節點,網絡開銷-COST降低,性能率升高
以互聯網下Hadoop[5]項目為例

Hadoop核心算子:設HDFS:是一個分布式文件系統;HBase:是一個基于HDFS、列存儲數據庫,提供海量數據存儲能力;MapReduce:是一個編程環境,提供并行處理框架,用于對HBase和HDFS的訪問;Hive:提供類似SQL的查詢語言,通過MapReduce完成計算,實現對HBase的訪問.
結果分析:數據入庫:每天800G日志,45億條記錄,并行入庫時間1小時(處理能力200-300MB/s)URL解析:4-6小時(20萬條/s)網頁抓取(后期穩定運行階段):時間待定(100Mb獨占帶寬,400個網頁/s)網頁分類:4-6小時(5萬條/s)URL標簽匹配:12-15小時(8萬條/s)匯總:6臺PC Server,輸入27億G,輸出8億G,用時20分鐘.
大數據領域去小型機化趨勢已十分明顯,“X86+本地硬盤”方案替代“小型機+盤陣”已經相對成熟,在可靠性上毫不遜色,在可擴展性、性能和價格上有絕對優勢,網管系統也要積極跟進“去小型機化”趨勢.從數據量大小、是否結構化數據、事務性強弱、實時性高低、數據關系是否復雜等因素考慮,確定網管各類數據的存儲與處理遷移方案傳統數據庫與MPPRDB數據提供的SQL非常強大,不僅實現數據的增刪改查,還能夠對數據進行各種關聯和統計,而目前大量非傳統數據庫沒有統一標準的訪問接口,對數據的關聯和統計功能需要應用程序自己實現.大數據技術是業界大勢所趨,其在網管領域的應用,將對合作伙伴的技術要求提到一個前所未有的新高度,網管廠商不僅要深入鉆研和不斷滿足移動網絡管理的業務需求,也要跟蹤并熟練應用大數據最新技術,并確保系統的長期穩定發展.
〔1〕Nathalie Weiler.HoneypotsforDistributed Denialof ServiceAttacks.EleventhIEEE InternationalWorkshops onEnablingTechn0109ies:Infrastructure forCollaborativeEnterprises.Jun 10 一 12,2002.PP.109—114.
〔2〕Brian Scottberg,WiIIiam Yurcik,David Doss.“Internet Honeypots:ProtectionOrEntrapment.InternationalSymposiom onTechnologyandSociety.Jun6-82002,PP.387—391.
〔3〕Theuns Verwoerd,RayHunt.Intrusion detection techniques andapproaches.Computer Communications,Vol 25,2002,PP1356—1365.
〔4〕FactSheet:BigDataAcrosstheFederalGovernment[R].USA:ExecutiveOfficeofthePresident,2012.
〔5〕ObamaAdministrationUnveils “BigData” Initiative:An-nounces$200MillioninNewR&DInvestments[R.]USA:ExecutiveOfficeofthePresident,2012.