劉林林
(山東質量認證中心 山東 250014)
“大數據”在物理學、生物學等自然科學領域以及軍事、金融、通訊等行業存在多年,卻因為近年來互聯網與信息行業的發展而引起人們關注。大數據在以Google、IBM、Amazon等為代表的互聯網與信息公司快速應用發展,逐步蔓延到越來越多的金融、電力、通訊等傳統行業,這些公司和行業從不同的維度進行數據挖掘和分析,創造出更多的商業模式和經濟增長點。
大數據的價值不僅僅局限于它的初始收集目的,而在于收集后可以用于其他用途并可重復使用。目前,包括美國在內的許多國家,都將大數據分析管理上升到國家戰略層面,從國家層面通盤考慮其發展戰略。
目前,可以依據不同的需求,從以下三個角度將大數據分析進行分類。
以數據分析的實時性分類,可分為實時數據分析和離線數據分析。
“即時處理”是實時數據分析的主要特點。實時數據分析一般用于金融、移動和互聯網B2C等產品,往往要求在數秒內返回上億行數據的分析,從而達到不影響用戶體驗的目的。要滿足這樣的需求,可以采用精心設計的傳統關系型數據庫組成并行處理集群,或者采用一些內存計算平臺,或者采用 HDD的架構,這些無疑都需要比較高的軟硬件成本。目前比較新的海量數據實時分析工具有EMC的Greenplum、SAP的HANA等。
“先收集,后分析”是離線數據分析的主要特點。對于大多數反饋時間要求不是那么苛刻的應用,比如離線統計分析、搜索引擎的反向索引計算、推薦引擎的計算等,應采用離線分析的方式,通過數據采集工具將日志數據導入專用的分析平臺。但面對海量數據,傳統的ETL工具往往徹底失效,主要原因是數據格式轉換的開銷太大,在性能上無法滿足海量數據的采集需求。互聯網企業的海量數據采集工具,有 Facebook開源的Scribe、LinkedIn開源的Kafka、Hadoop的Chukwa等,均可以滿足每秒數百MB的日志數據采集和傳輸需求,并將這些數據上載到Hadoop中央系統上。
在實際應用中由于業務需求的不同,數據分析的算法也差異巨大,而數據分析的算法復雜度和架構是緊密關聯的。舉個例子,Redis是一個性能非常高的內存Key-Value NoSQL,它支持List和Set、SortedSet等簡單集合,如果你的數據分析需求簡單地通過排序,鏈表就可以解決,同時總的數據量不大于內存(準確地說是內存加上虛擬內存再除以 2),那么無疑使用Redis會達到非常驚人的分析性能。
對于大多數統計分析,機器學習問題可以用 MapReduce算法改寫。MapReduce目前最擅長的計算領域有流量統計、推薦引擎、趨勢分析、用戶行為分析、數據挖掘分類器、分布式索引等。
以數據量大小分類,分為內存級別、BI級別、海量級別三種。這里的內存級別指的是數據量不超過集群的內存最大值。目前內存的容量,如Facebook緩存在內存的Memcached中的數據高達320TB,即使PC服務器,內存也可以超過百GB。因此可以采用一些內存數據庫,將熱點數據常駐內存之中,從而取得非常快速的分析能力,非常適合實時分析業務。
BI級別指的是那些對于內存來說太大的數據量,但一般可以將其放入傳統的BI產品和專門設計的BI數據庫之中進行分析。目前主流的BI產品都有支持TB級以上的數據分析方案。海量級別指的是對于數據庫和BI產品已經完全失效或者成本過高的數據量。海量數據級別的優秀企業級產品也有很多,但基于軟硬件的成本原因,目前大多數互聯網企業采用Hadoop的HDFS分布式文件系統來存儲數據,并使用MapReduce進行分析。
今年年初,在美國召開的RSA2013大會結束以來,大數據安全已經成了今年業界關注的熱點。眾多安全廠商都發布了大數據安全戰略,將大數據安全作為未來研發的重點。目前,從信息安全的角度看,大數據安全主要體現在以下五個方面:
大量的數據產生、存儲和分析,數據保密問題將在未來幾年內成為一個更大的問題。對一個企業在數據存儲和部署的時候,有些時候容易交叉存儲,把敏感信息一不小心部署到公開的或者不應該部署到服務器上,更容易加大隱私的泄漏。企業必須盡快開始規劃新的數據保護,同時監測進一步的立法和監管的發展。
隨著越來越多的交易、對話、互動和數據在網上進行,這種刺激使得網絡犯罪分子比以往任何時候都要猖獗。今天的網絡犯罪分子都組織得更好、更專業,并具備有力的工具和能力,以針對確定的目標進行攻擊。這種攻擊產生的后果,對企業可能意味著聲譽受損,法律責任,甚至財政破產。從近兩年所發生的一些互聯網公司的用戶帳號的信息失竊情況來看,大家可以發現,一般失竊的量都是非常龐大的。大數據當中數據量比較大,它的信息量也比較大,攻擊成本低,所以黑客更加樂意去攻擊。
攜手大數據的增長的是新的移動設備使用范圍的擴大,用于收集、存儲、訪問和數據傳輸。企業現在面臨的企業員工在工作場所使用個人設備的安全管理挑戰,必須平衡安全與生產力的需要。對員工習慣、使用痕跡的收集是企業信息安全重大威脅,尤其是當這些混合了家庭和工作數據。企業應當確保其雇員接受相關的個人設備使用政策,并繼續在符合其既定的安全政策下管理移動設備。
企業必須迅速采用和實施新技術的壓力,比如云服務。經常面臨大數據的具有挑戰性的存儲和處理的需求。而這其中包含了不可預見的風險和意想不到的后果。在云中的大數據對于網絡犯罪分子來說,是一個極具吸引力的攻擊目標。這對企業來說提出了更多的需求,他們必須采購戰略正確的安全的云。
隨著安全風險的越來越復雜,企業在應對這些安全風險時越發感到吃力。大數據安全既包括對大數據本身的安全保護,也包括通過對大數據的搜集、整合和分析,提供更多更好的安全情報。用戶將數據上傳到云,或從云中下載數據時,都需要掃描和屏蔽惡意數據;在云中,也需要通過定時掃描,檢查和屏蔽惡意數據。企業或個人應樹立良好的大數據信息安全觀念,降低風險,減少損失。
[1]覃雄派;王會舉;杜小勇;王珊.大數據分析——RDBMS與MapReduce的競爭與共生. 軟件學報.2012年01期.