國 志,劉 暢,曾昱祺
(國家無線電監測中心,北京 100037)
主流大數據技術淺談
國 志,劉 暢,曾昱祺
(國家無線電監測中心,北京 100037)
在全球化、信息化和市場化的今天,數據可以帶給我們的價值不言而喻。隨著智能社會的到來,大數據的沖擊,我們這代人正迎接著嶄新的機遇。本文在總結大數據時代新變革的基礎上,對當今主流大數據技術進行了列舉和介紹。在這樣一個需要高瞻遠矚的大變革時代,只有掌握最新的技術,才能在這輪技術浪潮中站穩腳跟,脫穎而出。
大數據;Hadoop;Storm;Apache Drill
Keyords:Big Data; Hadoop; Storm; Apache Drill
大數據是現代信息技術的重要發展方向之一,實現大數據的共享和分析將帶來不可估量的經濟價值,同時也對社會產生巨大的推動作用。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番。IBM的研究稱,整個人類文明所獲得的全部數據中,有90%是過去兩年內產生的。而到了2020年,全世界所產生的數據規模將達到今天的44倍。大數據在現代社會和經濟活動中發揮著極其重要的作用,有效利用大數據會產生不可估量的價值。
(1)全體數據替代隨機樣本。在過去很長的時間之內,由于數據儲存和分析能力的缺陷,人們無法準確地對大量數據進行處理,只能通過采樣的手段用最少的數據得到最多的信息,但這只是在不能收集和分析全部數據時的折中做法,本身存在很多缺陷。近些年,隨著云計算的產生和興起,大數據的處理迎來了一次巨大的飛躍。通過云計算可以處理的數據大大增加,用全體數據替代隨機樣本逐漸成為可能。
(2)混雜性替代精確性。過去,由于被采樣的數據樣本偏小,則對數據分析就要求精準,盡可能地減少錯誤,因為收集的有限性意味著微小的錯誤會被放大,甚至影響整個結果的準確性。而對于“大數據”,單個結果的精確就顯得不那么重要了。與其浪費計算在提高數據的精度上,不如用來處理更大量的數據。這樣,我們就不需要過于擔心某個數據對整套分析產生的不利影響,而是從這些紛繁復雜的數據中收益。相比小數據時代的精確,大數據更強調數據的完整性和混雜性。
(3)“是什么”代替“為什么”。我們網購時,每當買到一件心儀的物品以后,系統會向你推薦一些其他商品。事實證明,這個推薦比較準確。而為什么兩樣不相關的東西會產生關聯?誰也不知道,但事實就是這樣。對商家來說,是什么比為什么更實惠。當然,其中有些很可能只是巧合,但基于大量數據時就能篩選掉大多數巧合。而隨著計算能力和可用數據的增加,簡單的線性關系向著更復雜的非線性關系轉變,給人們帶來更加豐富的結論和新的認識。
在大數據時代,對大數據進行統一表示,實現大數據處理、查詢、分析和可視化是亟需解決的關鍵問題?;ヂ摼W點擊數據、傳感數據、日志文件、具有豐富地理空間信息的移動數據和涉及網絡的各類評論,成為了海量信息的多種形式。海量的電子政務數據、移動終端數據、網站日志、社交媒體數據、來自物聯網傳感器的流式數據、企業長期積累的業務數據等也都是大數據的主要來源?,F有面向大數據的研究主要針對存儲、處理、分析、可視化等某一方面的關鍵技術。本文搜羅了如下當今主流大的數據技術。
3.1 Hadoop
Hadoop是目前大數據平臺中應用率最高的技術,特別是針對諸如文本、社交媒體以及視頻等非結構化數據。Hadoop可以部署在價格低廉的服務器上,形成分布式系統,它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。
Hadoop的核心是HDFS和MapReduce。HDFS具有高容錯性和高擴展性等優點。MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。因此,通過Hadoop可以輕松地組織計算機資源,搭建自己的分布式計算平臺,完成海量數據的處理。相對當前應用較多的SQL關系型數據庫,HDFS提供了一種通用的數據處理技術,它用大量低端服務器代替大型單機服務器,用鍵值對代替關系表,用函數式編程代替聲明式查詢,用離線批量處理代替在線處理,以高容錯的方式并行處理大量的數據集。
Hadoop目前已廣泛應用于Web搜索、廣告系統、數據分析和機器學習等領域。Hadoop作為網絡公司的重要工具,包括Yahoo,Facebook都利用它處理不斷增長的非結構化數據。
3.2 Storm
隨著大數據業務的快速增長,針對大規模數據處理的實時計算變成了一種業務上的需求,缺少“實時的Hadoop系統”已經成為整個大數據生態系統中的一個巨大缺失。Storm正是在這樣的需求背景下出現的,并很好地滿足了這一需求。
Storm是一個自由的開源、分布式的實時計算系統,它可以快速可靠地處理龐大的數據流。Storm很簡單,支持許多種編程語言,使用靈活,它為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據庫。Storm也可被用于“連續計算”,對數據流做連續查詢,在計算時就將結果以流的形式輸出給用戶,它可以方便地在一個計算機集群中編寫與擴展復雜的實時計算。Storm處理速度很快,在一個小集群中,每秒可以處理數以百萬計的消息。
許多知名的企業諸如淘寶、支付寶、阿里巴巴、Groupon、樂元素、Admaster等都基于它做開發。
3.3 Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟件基金會發起了一項名為“Drill”的開源項目。Drill已經作為Apache孵化器項目來運作,將面向全球軟件工程師持續推廣。該項目將會創建出開源版本的谷歌Dremel Hadoop工具(谷歌使用該工具來為Hadoop數據分析工具的互聯網應用提速),而Drill將有助于Hadoop用戶實現更快查詢海量數據集的目的。
Drill項目其實也是從谷歌的Dremel項目中獲得靈感,該項目幫助谷歌實現海量數據集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應用程序數據、分析垃圾郵件、分析谷歌分布式構建系統上的測試結果等。通過開發DrillApache開源項目,組織機構將有望建立Drill所屬的API接口和靈活強大的體系架構,從而幫助支持廣泛的數據源、數據格式和查詢語言。
3.4 IBM PureData System
IBM PureData System是PureSystems系列的成員,它將系統的靈活性、云的彈性和針對工作負載進行調優的設備的簡易性進行結合,從根本上改變了IT的體驗和經濟效益。IBM PureData System主要面向大數據應用,幫助企業更加高效地管理、分析海量數據,并從中獲取業務洞察。它以保證簡單性、速度和低成本為前提,向當今高要求的應用程序交付數據服務而進行了優化。
據IBM公布的數據顯示,目前已有60多家獨立軟件供應商表示將全力支持PureData。包括DynaFront系統和PCCW電訊盈科在內的多個合作伙伴,已經在其數據中心內部安裝了PureSystems。中國市場的合作伙伴方面,文思海輝技術有限公司已經推出了基于PureData System的金融行業解決方案。
3.5 GFS MapReduceBigTable
谷歌的GFS MapReduceBigTable平臺是以云服務為主打的新一代搜索引擎,專為BigTable設計的分布式存儲Colossus,也被稱為二代Google文件系統,它專為建立Caffeine搜索索引系統而用?;贑olossus,谷歌為用戶提供了可以計算、存儲以及應用的云服務。為了更好地支持大數據集的互動分析,Google推出了Dremel和PowerDrill。Dremel被設計用來管理海量的大數據集(指數據集的數量和每數據集的規模都大),而PowerDrill則設計用來分析少量的大數據集(指數據集的規模大,但數據集的數量不多)時提供更強大的分析性能。在谷歌新一代搜索引擎平臺上,每月40億小時的視頻,4.25億Gmail用戶,150,000,000GB Web索引,卻能實現0.25秒搜索出結果。
隨著移動互聯網、物聯網、社交網絡等技術和應用的興起,全球范圍內數據量迅猛增長,大數據時代已經來臨。如今,越來越多的應用涉及到大數據,于是不斷涌現的大數據新技術就顯得尤為重要。大數據正在影響著人們的生活方式、生產方式、國際競爭乃至整個時代。如能敏銳的發掘并利用好大數據新技術,搶占現機,必將從大數據時代的發展中獲益匪淺。人類正在從工業文明邁入信息文明,隨著大數據的沖擊,智能社會的到來,我們這代人迎接著嶄新的機遇。在大數據技術已經逐漸發展并趨于成熟的今天,如何整合資源,掌握先進技術,在全球競爭中發揮后發優勢,在這輪技術浪潮中站穩腳跟,脫穎而出,我們期待著中國的騰飛。
Brief Introduction ofModernBig Data Technology of Radio Monitoring Data
Guo Zhi, Liu Chang, Zeng Yuqi
(State Radio Monitoring Center, Beijing, 100037, China)
Today, the world is being globalization, informatization and marketization. Data can bring us great value.With the arrival of the intelligent society and the impact of the large data, our generation is to meet the new opportunities. This paper summarizes the new changes of the Big Data era and introduced some of the modern Big Data technology. In such an era of the great change, only grasp the latest technology can help us gain a foothold in this technology wave and stand out.
10.3969/J.ISSN.1672-7274.2015.07.017
TN919文獻標示碼:B
1672-7274(2015)07-0066-03
國 志,男,1987年生,碩士,國家無線電監測中心助理工程師,主要從事專利申請、科技獎申報、招投標等方面的工作。
劉 暢,女,1987年生,碩士,國家無線電監測中心助理工程師,主要研究方向為衛星頻率和軌道資源情況、衛星網絡間的國際協調。
曾昱祺,男,1987年生,碩士,國家無線電監測中心助理工程師,主要研究方向為衛星產業情況。