朱華巍 徐嵐 中國電子科技集團公司第二十八研究所
大數據分析是目前十分熱門的技術,為了保證大數據分析平臺的性能,就需要選擇合適的架構。因此,需要對大數據分析平臺架構的特點進行了解,研究不同方面的需要。
大數據的數據機構復雜,并且數據量很大、數據價值密度很低,同時大數據的產生速度很快,這些特點導致大數據分析存在一定的難度。
大數據分析是對數據進行分析的科學和技術,大數據分析的中心思想在于通過有效的措施來對大量數據的信息和價值進行挖掘。因此,大數據的核心在于能夠對快速增長、類型眾多、內容真實度很高的數據進行分析,并且從其中挖掘信息。目前大數據的分析有兩個方面的內容,包括機器學習和文本分析,在大數據分析的過程中,會對數據進行采集和儲存工作,同時也會刪除沒有價值的信息。根據大數據的分析模型,可以建立專門的大數據分析平臺,滿足人們對數據的分析需求。
人類進入信息化社會以后,數據密集型科學開始快速的發展,所以大數據分析已經和很多與數據相關的技術有著緊密的聯系,必須云計算技術和情報分析。
云計算技術是一種計算機的共享模式,基于互聯網,讓用戶能夠使用云端計算機,享受云端計算機的優越性能。具有快捷方便、隨時隨地的特點。很多大數據計算都會借助云端計算機來完成,作為大數據分析的載體,可以對數據進行分析、篩選和儲存。
情報分析也可以成為情報研究,根據用戶的需求來對大量的信息進行縫隙,從而形成更高級的信息。目前情報分析以軟件技術和信息技術作為支撐,對社會信息進行選擇和評價,然后根據特定的模型進行加工,最后形成有價值的產品。這些數據產品能夠給企業的決策者提供一定的支持,幫助企業提升他們的競爭力。
隨著數據科學的快速發展,大數據分析成為了一項關鍵的技術,由于社會對于大數據分析的需求,大數據分析服務業行業也有了很多商機。通過分析服務能夠滿足商業領域中的需要,很多企業也通過大數據分析服務來提升他們的商業水平,所以目前信息分析或者大數據分析服務已經有了完整的服務內容。
大數據分析當中最關鍵的就是進行大數據分析方法的研究,使用合理的分析方法才能夠保證分析結果的有效,并且保證分析結果的精度。大數據對不同類型數據處理方法也有很大不同,所以也需要針對數據的類型尋找針對性的算法。目前很多大數據的關注重點在于社會媒體的大數據,以及針對大數據的分析結果進行可視化,或者對數據進行自動化集成。對社會媒體的分析有一些專門的挖掘方法,有些專家也研究了全新的社會媒體分析方法,從而深入到媒體網站上進行細節的數據討論,提升網站的決策水平。根據大數據的分析構成,大數據也和傳感技術、復雜結構處理技術、大數據平臺規范、虛擬化接入當不同的技術有著非常重要的聯系。但是目前,大數據分析依然不能完全滿足人們的要求,還需要繼續加強投入和研究。
隨著信息化社會的發展,大數據分析已經成為驅動社會發展的重要動力,讓很多學者和專家提高了對大數據研究的重視程度。學者為此對大數據的處理和進行了總結,研制了大數據的工具,一些專家也專門提出了能夠對數據模型進行修正和擴展的工具。目前,大數據驅動已經在很多的領域得到了應用,比如生物領域和醫藥學領域,依靠大數據驅動,可以讓藥物的定制性提升,使藥物的開發更加合理。
Spark是Apache 的開源項目,該平臺由加州大學伯克利分校開發,是一個分布式的計算機系統。Spark 在Hadoop 的基礎上進行了架構上的改良,尤其是儲存方式上有很大的不同。Spark 使用內存來進行數據的儲存,而Hadoop 用硬盤來進行數據儲存。這就讓Spark 的運算速度比Hadoop 快很多,達到了Hadoop 的一百倍左右,但是內存長期儲存數據可能會出現數據丟失的問題,這也導致Spark 缺少長期保存數據的能力。
Hadoop 是一種分布式系統,由雅虎工程師在2005 年合作開發,之后Hadoop 被貢獻給Apache 基金會,作為Apache 基金會的開源項目。Hadoop 中使用了MapReduce 分布式框架,在GFS 協議的基礎上開發了HDFS 分布式文件系統。谷歌目前在內部使用的分布式計算機和Hadoop 原理相同,但是Hadoop 并沒有達到谷歌內部計算機的速度。目前,由于Hadoop 的開源特性,使得它成為了一種通用的分布式計算機標準,包括雅虎、亞馬遜、百度、阿里的平臺都是用的Hadoop 搭建。
Storm 是推特推行的一種計算機系統,也是Apache 基金會孵化的項目。在Hadoop 的基礎上,Storm 有更強的實時運算特性,讓Storm 能夠對大數據流進行實時處理。Storm 并不進行數據收集和儲存工作,只是通過網絡來接收數據,并且進行實時計算,將計算結果反饋。
Samza 是LinkedIn 的開源技術,目前也成為了Apache 的頂級項目。Samza 也是一個分布式的框架,能夠進行數據的實施實時處理,并不進行數據的收集和儲存工作。和Storm 不同,Samza 所使用的分布式消息系統是LinkedIn 的Kafka。Samza 十分適合用于進行數據流的處理,在數據跟蹤、日志服務上有極好的表現,可以進行信息的快速處理,并且容錯性很強。
通過大數據分析,電腦能夠對機器設備進更加智能的控制。比如自動駕駛的轎車,通過對大數據分析可以對車輛的控制做好優化工作。結合GPS 系統、傳感器、相機,車輛將會更好地進行數據的處理工作,并且不需要人來干預。在電網中的智能電網技術,也依賴于大數據分析,能夠對電網進行優化,保證電網能夠穩定的運行。
社會計算包括生產、社交、娛樂當方面的應用,也包括社會科學、社會網絡分析、計算機社會科學等等,利用這些科學理論進行分析,能夠了解社會信息。利用大數據平臺,進行分布式計算、應用數據庫等等,通過對移動端產生的數據進行分析,來了解社會信息。
通過大數據平臺,可以構建系統化、綜合化的信息資源保障系統和管理體系,比如根據某一個主題或者某一個產業來建設信息資源保障。目前,醫學的信息資源保障系統就已經建立,幫助醫生、醫學研究人員進行信息分析。針對情報機構而言,信息資源難保障體系能夠讓信息得到充分的集成,推動不同種類的信息得到整合。
由于數據是廣泛存在的,如果數據散布在不同的數據管理系統中,就很難進行數據的集成。通過大數據分析平臺,能夠將信息進行集中化,并且將信息作為一個完整的事件看待,從而進行是事前、事中、事后的分析。
大數據分析技術對于很多方面都有應用,通過對數據的分析,能夠提升行業的水平和提升企業的競爭力。為此,在大數據分析平臺的建設上需要從實際需求出發,加強大數據平臺集成度和通用性,選擇合適的架構,保證平臺的性能。