大數據應用的技術體系及潛在問題

2013-04-29 00:00:00竇萬春江澄

中興通訊技術 2013年4期

摘要：大數據處理流程包括：數據獲取、數據集成、數據分析和解釋3個階段。大數據應用的技術和系統包括：云計算及其編程模型MapReduce、大數據獲取技術、面向大數據處理的文件系統、數據庫系統、大數據分析技術。大數據應用所面臨的問題包括：人力和財力問題、安全和隱私問題、生態環境和產業鏈的變革問題。

關鍵詞：大數據；云計算；MapReduce技術

Abstract： There are three steps in processing big data： data acquisition， data integration， data analysis and interpretation. In these steps， cloud computing， MapReduce， data acquisition techniques， data processing systems， database systems， and data analysis techniques may be used. In big-data applications， there are human and financial issues， security and privacy issues， environment and industrial chain issues， and transformation issues.

Key words： big data； cloud computing； MapReduce

中圖分類號：TN915.03； TP393.03 文獻標志碼：A 文章編號：1009-6868 （2013） 04-0008-009

隨著智能手機等移動設備的普及以及無線網與Web2.0接口技術等方面的發展，網絡用戶的數量正迅猛增長，隨之而來的是社交網絡活動的日益頻繁和數據服務需求的逐漸增多。據統計，2010年的手機用戶已達40億，占全球人口的60%，其中智能手機占了12%，用戶年增長率達到了20%[1]。

眾所周知，物聯網近年來已成為普遍關注話題，實現物聯網的宗旨就是讓所有能被獨立尋址的普通物理對象實現互聯互通的網絡，由此傳感器與射頻識別（RFID）等相關無線技術得到了迅速發展，調查顯示，2011年已經有3 000多萬的傳感器節點遍布在交通運輸業、工業以及零售業等場所，并且這個數值以每年30%的增長率提升中。而RFID由于其強大的無線傳輸和處理能力，也使得其遍布在各領域，用來實現清單管理的自動化[2]。這些傳感器和RFID無時無刻不產生著大量的數據。具體地，谷歌在2008年的日均處理數據量已達20 PB；亞馬遜在2010年11月29日這天的峰值交易數是158筆每秒；一架波音737飛機飛行6小時所產生的傳感器數據達到240 TB[3]。IBM估計，每天由人類和機器產生的初始數據竟然達到了2.5×1 019字節[4]。這一切都為大數據時代的到來醞釀了潛在的應用需求。

面對大數據時代的到來，各國各組織都在積極著手準備應對策略。繼Nature在2008年推出大數據專刊后[5]，2011年瑞士達沃斯世界經濟論壇上，大數據成為重要主題，論壇中的一份“大數據，大影響”的報告指出了大數據如今已成為了像黃金和外匯一樣的一種新型的經濟資產。在美國，奧巴馬政府于2012年3月公布了“大數據研究和發展的倡議”[6]，投資2億多美元開啟大數據研發計劃；緊接著，中國在2012年5月召開的第424次香山科學會議，是中國第一個以大數據為主題的重大科學工作會議，隨后中國計算機學會、通信學會也隨即分別成立了大數據專家委員會；2013初，澳大利亞政府也在堪培拉的信息行業協會峰會上表示，將于5月出臺大數據戰略草案。上述學術與社會活動表明，大數據已然成為了學術界和工業界等各界關注的重要課題，并且已經悄然影響到當今人們的日常生活。

大數據時代的到來，挑戰與機遇并存。當傳統關系數據庫管理技術由于自身的擴展性限制，已無法繼續很好地適用于大數據處理的時候，云計算應運而生，并迅速成為熱門話題，2004年谷歌提出的MapReduce作為面向大數據處理的計算模型[7]，更是倍受學術界和工業界的青睞。為此，本文首先對大數據的基本概念進行了闡述，討論了大數據處理的流程、云計算和MapReduce等相關技術，然后分析了大數據帶來的問題，最后總結全文并對大數據處理進行了展望。

1 大數據概述

1.1 大數據的定義

維基百科對大數據的定義是，所涉及的資料量的規模巨大到無法透過目前主流軟件工具，在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的各種資訊。

大數據目前主流的對大數據的定義為3V，即規模性（Volume），多樣性（Variety）和高速性（Velocity）。所謂規模性，就是數據的量達到了一定的高度，無法通過當前主流工具來及時處理；多樣性指的是對于即將要處理的數據類型，除了有結構化的以外，還有半結構化和非結構化的，增加了操作的復雜性；高速性是指數據的到達與處理必須及時高效，不允許較長的延遲[8]。除此之外，一般也認為，隱私性與有價值型同樣是大數據的主要特征[9]。

1.2 大數據的帶來的機遇與挑戰

隨著大數據時代的到來，其中隱藏的商機也被各路商家發現和利用。美國Target百貨公司通過一套客戶分析工具，可以對顧客的購買記錄進行分析，并隨后通過購物手冊的形式向顧客推薦一系列可能需要的商品；“阿里云”通過對其云平臺上海量的交易和數據進行分析，從而知道哪些商戶可能存在資金問題，隨后“阿里云”貸款平臺便出馬同潛在的貸款對象進行溝通；“京東”、“天貓”和“易購”等購物網站將其海量商品按照各種方式進行分類和推薦，大大增強了網站的可用性。

國際著名的市場調研公司“高德納”公司的一份分析報告指出，到2015年，使用先進數據管理系統的企業將比未使用的企業盈利能力高出20%。咨詢公司“益百利”集團的研究也表明，2012年全球對大數據項目的投資總額大約達45億歐元，預計后兩個年度均將保持大約40%的增長速度。

不單是商家，大數據處理技術也給普通用戶的日常生活帶來了方便性和可靠性。購物網站可以使用戶足不出戶便可購買到廉價優質的商品，地圖軟件讓人們出門再也不用擔心迷路的問題，“微信”、“微博”使得人們隨時隨地能夠跟親人、朋友聯絡交流，各種互動娛樂軟件幫助人們打發無聊地時光等等。

1.3 大數據處理流程

大數據帶來的利益不可小覷，由于大數據的規模性、高速性、多樣性等本質決定了其處理過程的復雜性，而如何處理大數據卻成為一道難題擺在了人們面前。圖1所示為大數據處理的一般流程。

大數據處理流程一般可分為數據獲取階段、數據集成階段以及數據分析解釋階段。

1.3.1 數據獲取階段

數據獲取階段主要是完成對外界數據源的接收和記錄操作。其中對大數據的接收方式主要有傳感器獲取、網頁點擊獲取、移動設備上應用服務的獲取以及RFID獲取等；對大數據的記錄主要完成對元數據的選擇，以便構建所需要的數據結構。

1.3.2 數據集成階段

大數據的集成階段主要完成對已接收數據的抽取、清洗和貯存等操作。

（1）抽取

由大數據的定義可知，獲取的數據可能具有多種結構和類型，數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型，以達到快速分析處理的目的。例如，對于一起交通事故的發生，目擊者的口述表達與監控攝像頭的拍攝顯示雖然都是在一定程度上反映了事故的經過，但由于數據格式的不同，不方便對此類問題做大規模的統計分析，將這些數據統一轉化為標準的表示格式將會大大地方便后期的分析工作。

（2）清洗

對于大數據，并不全是有價值的，有些數據并不是我們所關心的內容，而另一些數據則是完全錯誤的干擾項，如何“去噪”從而提取出有效數據對我們來說是個巨大挑戰。其中一種做法是設計一些過濾器，通過某些規則將那些無用錯誤的數據過濾出去，防止對最后的分析工作產生影響。例如，對于交通事故的描述，有些目擊者或者當事人出于某些主觀或者客觀原因，提供了一些模糊或者虛假的信息，對這些信息的過濾操作非常重要。

（3）貯存

將初步處理過得數據進行有效的存儲至關重要，若是僅僅將這些記錄隨便地放入一個數據倉庫中，將會造成其訪問性受到障礙，從而可能導致了數據的難以復用。設計一個合適的數據庫，可以有效地解決難以復用問題。

數據庫的選擇可以多種多樣，針對特定數據設計的特定數據庫將會更加高效、適用。

1.3.3 數據分析和解釋階段

當用戶提出查詢請求時，我們需要做的就是進行及時地分析與建模，并將結果以用戶可接受的方式返回給用戶。這一階段的用戶查詢可以是多種多樣的，不同的查詢輸入應該得到對應的結果，即使面對用戶的錯誤查詢也應該給出相應的錯誤友好處理。

分析、建模的過程多種多樣，統計學、數據挖掘、機器學習等各類方法相互結合可以產生各種智能推薦系統以滿足用戶的查詢請求。龐大的數據量雖然處理起來比較麻煩，但往往能讓我們從中發現更有價值的信息。

當然，用戶并不是專業的技術人員，如何將查詢結果解釋給用戶至關重要。一個良好的系統，應該不僅僅告訴用戶不同輸入對應的不同結果，更要以通俗易懂的方式告知用戶相應地結果是如何產生的，從而讓用戶有更可信的感覺。對于那些模糊甚至錯誤的查詢請求，應該能夠通過大數據的海量聯系發掘并糾正這類請求，從而更加人性化。當然，大數據處理的及時性要求我們應當更快更及時的處理用戶查詢，決不允許較大的處理延遲。

總之，大數據的本質決定了大數據的分析處理具有復雜性與獨特性，同時也帶來了相對于普通數據處理所沒有的可靠性與可用性。

2 大數據應用的技術體系

2.1 云計算及其編程模型MapReduce

2.1.1 云計算簡述

大約從2007年下半年開始，云計算由于其能提供靈活動態的IT平臺，服務質量保證的計算環境以及可配置的軟件服務而成為熱門話題[10]。文獻[11]中給出了云計算的比較完整的定義：云計算一個大規模的由規模經濟驅動的分布式模型，位于其中的抽象的、虛擬的、動態可擴展的、可管理的計算能源、存儲、平臺、服務等通過因特網交付給外圍客戶。

由上述云計算的定義我們知道，云計算首先得是大規模的、分布式的，少量的計算處理用不著云計算；其次，它是跟規模經濟相關聯的，比較形象的說法是，云計算資源跟“電”和“水”一樣，是按需收費的，并且是大規模式銷售的，通常在建立數據中心時會考慮成本因素；最后，它從廣義上說是給客戶的一種服務，可以包括提供存儲、計算等資源。云計算可以按服務的內容和交付形式分為基礎設施即服務（IaaS）、平臺即服務（PaaS）、軟件即服務（SaaS）等。

在單機芯片集成度已進入極小尺度級別，指令級并行度提升也已接近極限的今天，縱向擴展似乎已經不夠現實，這也遠遠不能滿足大數據處理的要求，而云計算的要求比較寬松的允許異構網絡的橫向擴展，無疑給大數據處理帶來了方便。云計算能為大數據提供強大的存儲和計算能力，可以迅速、方便地為大數據提供服務，另一方面，大數據的處理需求也為云計算提供了更多更好地應用場景。由此，云計算作為大數據的支撐技術而倍受業界關注。

2.1.2 MapReduce簡述

關系數據庫作為一門發展了近40年的主流數據管理技術，主要用于聯機事務處理（OLTP）應用、聯機分析處理（OLAP）應用和數據倉庫等，然而擴展性方面的局限使得其在大數據時代遇到了極大障礙。2004年，谷歌公司提出的MapReduce技術，以其利用大規模廉價服務器以達到并行處理大數據的目的而倍受學術界和工業界的關注，廣泛應用于機器學習、數據挖掘等諸多領域。基于MapReduce的大數據分析處理研究也在不斷深入，MapReduce作為一種非關系數據庫的數據管理工具代表，克服了關系數據庫擴展性方面的不足，將計算推向數據也迎合了大數據時代的內在需要，成為大數據處理的基本工具。

Hadoop作為模仿谷歌公司提出的MapReduce而實現的一個云計算開源平臺，目前已成為最為流行的大數據處理平臺。

MapReduce對于大數據處理的基本構思是分而治之，將大數據任務分解為多個子任務，將得到的各個子結果組合并成為最終結果。

MapReduce對大數據的處理可抽象為兩個主要階段，Map階段先對初始的鍵-值（Key/Value）對進行處理，產生一系列的中間結果Key/Value對，然后再通過Reduce階段合并所有具有相同Key值的Key/Value對，得到最終結果。

MapReduce對數據進行處理的應用思路如圖2所示。

MapReduce并行處理流程（待處理的大數據被分為大小相同的塊）主要步驟為：

·用戶作業程序提交給主節點

·主節點為作業程序尋找和配備可用的Map節點和Reduce節點

·主節點啟動Map節點執行程序，讀取本地數據

·每個Map節點處理讀取的數據塊，將中間結果放在本地并通知主節點計算完成及結果數據存儲位置

·主節點啟動Reduce節點運行，遠程讀取中間結果并處理

2.2 大數據獲取技術

每天都有大量數據產生，并且這些數據通過不同的途徑，以不同的形式被接收和記錄。本節將簡單介紹幾種常見的大數據獲取途徑。

（1）傳感器技術

近年來，傳感器技術蓬勃發展，無論是道路交通方面，還是醫療機構方面甚至是個人工作和生活場所，傳感器無處不在，大量的數據源源不斷地被傳感器所接收。可以說，傳感器的迅速普及，為大數據的獲取提供了有力地保障。

傳感器技術的快速發展，也促進了傳感器網絡的逐步完善。由于構建傳感器網絡的設備、數據收集、數據存儲等方面的差異性，網絡孤島普遍存在，如何解決異構網絡所帶來的數據共享問題一度成為研究者們面臨的極大挑戰。不過隨后美國國家技術標準局（NIST）和IEEE共同組織了關于制訂智能傳感器接口和連接網絡通用標準的研討會，產生了IEEE1451傳感器/執行器、智能變送器接口標準協議族，試圖解決傳感器市場上總線不兼容的問題。2005年，開放地理空間聯盟（OGC）提出了一種新型的傳感器Web整合框架標準，讓用戶能透過Web的界面來進行節點搜尋、數據獲取及節點控制功能。

文獻[12]對無線傳感器網路的路由協議進行了研究，指出多路徑路由發展的趨勢和挑戰，而文獻[13]則從生物學、商業、環境、醫療、工業以及軍事等領域探討無線傳感器的重要用途。

（2）Web2.0技術

“Web 2.0”的概念2004年始于出版社經營者O'Reilly和MediaLive International之間的一場頭腦風暴論壇，所謂的Web2.0是指互聯網上的每一個用戶的身份由單純的“讀者”進化為了“作者”以及“共同建設人員”，由被動地接收互聯網信息向主動創造互聯網信息發展。Web2.0伴隨著博客、百科全書以及社交網絡等多種應用技術的發展，大量的網頁點擊與交流促使了大數據的形成，給人類日常生活方式帶來了極大的變革。

（3）條形碼技術

條形碼的使用給零售業帶來了革命性的改變，通過內嵌ID等信息，條形碼在被掃描之后，快速在數據庫中進行ID匹配，便很快就獲知該產品的價格、性能、產商等具體信息，條形碼被廣泛應用于零售商店的收銀以及車站售票等業務中，每天大量的商品銷售記錄通過掃描條形碼而產生。近年來的智能手機的盛行，手機應用如微信中的二維條形碼也隨處可見，文獻[14]中設計了一種應用于手機應用的彩色二維條形碼，改善了用戶對應用程序的感受。

（4）RFID技術

RFID與條形碼相比，擴展了操作距離，且標簽的使用比條形碼容易，攜帶一個可移動的閱讀器便可收集到標簽的信息，被廣泛應用于倉庫管理和清單控制方面。RFID標簽可以分為兩類，一類是被動的，如今被廣泛使用，其造價便宜，但是沒有內部電源，依靠閱讀器的射頻波產生能量，操作距離也很近，因而其適用性也受到了制約；另一類是主動的，其擁有內部電源，因此造價較貴，但是操作距離遠，存儲能力強，因而適用范圍廣，在未來這種標簽會受到普遍歡迎的。

學術界在RFID技術的研究上已經取得巨大的進步。較早的工作重心大多集中在對標簽進行搜集的問題上，即盡可能快地在大量標簽中搜集他們的ID，而這方面最大的挑戰是解決多標簽同時競爭較窄的信道引起沖突的問題。研究者們提出了兩類解決思路，即基于ALOHA的協議[15-17]和基于樹的協議[18-20]。而其他的工作專注于標簽評估問題，即使用統計學的方法來評估一個龐大系統中的標簽數目[21-23]。總之，RFID由于具有操作范圍廣泛、性能穩定以及高存儲能力等特性，在工業界中將具有巨大的潛力。

（5）移動終端技術

隨著科學技術的發展，移動終端諸如手機、筆記本、平板電腦等隨處可見，加上網絡的寬帶化發展以及集成電路的升級，人類已經步入了真正的移動信息時代。

如今的移動終端已經擁有極強的處理能力，通信、定位以及掃描功能應有盡有，大量的移動軟件程序被開發并應用，人們無時無刻不在接收和發送信息。

目前，智能手機等移動設備的數量仍然在迅猛增長中，移動社交網絡也會日益龐大和復雜，海量的數據穿梭其中，針對移動數據的處理也將越來越復雜。

2.3 文件系統

文件系統是支撐上層應用的基礎，本小節將簡要介紹面向大數據處理的文件系統如谷歌分布式文件系統（GFS），以及一些其他的分布式文件系統。

2.3.1 分布式文件系統GFS

谷歌開發的文件系統GFS[24]，是一個基于分布式集群的大型的分布式文件系統，它為MapReduce計算框架提供底層數據存儲和數據可靠性。GFS采用廉價普通磁盤，并把磁盤數據出錯視為常態，其自動多數據備份存儲也增加了可靠性。

GFS基本構架中，GFS Master保存了GFS文件系統的3種元數據：命名空間、Chunk與文件名的映射表、Chunk副本的位置信息，前兩個數據通過操作日志提供容錯處理能力，第3個數據存儲在Chunk Server上，可在Master失效時快速恢復Master上的元數據；GFS ChunkServer是用來保存大量實際數據的數據服務器。

GFS基本工作過程如下：

（1）在程序運行前，數據已經存儲在GFS文件系統中，程序執行時應用程序會告訴GFS Server所要訪問的文件名或者數據塊索引是什么。

（2）GFS Server根據文件名和數據塊索引在其文件目錄空間中查找和定位該文件或數據塊，并將這些位置信息回送給應用程序。

（3）應用程序根據GFSServer返回的具體Chunk數據塊位置信息，直接訪問相應的Chunk Server。

（4）應用程序直接讀取指定位置的數據進行計算處理。

后來谷歌對GFS進行了改進，并對新版本命名為Colosuss，主要對原有的單點故障、海量小文件存儲等諸多問題進行了修正和改進，使得系統更加安全和健壯。

2.3.2 其他文件系統

除了谷歌的GFS，業界其他針對大數據存儲需求的文件系統也層出不窮。

Hadoop的文件系統HDFS[25]作為模仿GFS的開源實現，同樣也為Hadoop的底層數據存儲支撐，提供數據的高可靠性和容錯能力，擁有良好的擴展性和高速數據訪問性。

SUN公司開發的Lustre[26]是一個大規模的、安全可靠的、具備高可用性的開源集群文件系統，美國能源部在此基礎上實現了新一代的集群系統，顯著提高了輸入輸出速度，已在高校、國家實驗室和超級計算研究中心產生了深遠影響。

Facebook推出的針對海量小文件的文件系統Haystack[27]有效地解決了海量圖片存儲問題，它實現多個邏輯文件共享一個物理文件功能，并且增加緩存層，部分元數據直接被加載到了內存。

2.4 數據庫系統

2.4.1 并行數據庫

并行數據庫起源于20世紀80年代，并且在不斷發展和創新，高性能和高可用性是其最終的目標和優勢。

并行數據庫通過簡單易用的結構化查詢語言（SQL）向外提供數據訪問服務，加上在索引、數據壓縮、可視化等技術方面的不斷擴展，使其具有了高性能的優勢。但是諸多因素導致了其擴展性面臨嚴峻的挑戰，主要體現在：

（1）單機方面，并行數據庫基于高端硬件設計，認為查詢失敗是特例且糾錯復雜，不符合大規模集群失效常態的特性。

（2）集群方面，并行數據庫對異構網絡支持有限，各節點性能不均，容易引起“木桶效應”。

總之，并行數據庫的擴展性方面的缺陷使其面臨大數據的處理往往力不從心。

2.4.2 MapReduce分布式數據庫

BigTable

由前述知，并行數據庫由于擴展性方面的缺陷無法勝任大數據的處理工作，以谷歌公司推出的BigTable為代表的未采用關系模型的NoSQL（Not only SQL）數據庫由此誕生，NoSQL數據庫具有模式自由、備份簡易、接口簡單和支持海量數據等特性，對于實現大數據的存儲和處理十分有效。

谷歌在其文件系統之上又設計了MapReduce的分布式數據庫BigTable[28]，為應用程序提供了比單純地文件系統更方便、更高層的數據操作能力，BigTable提供了一定粒度的結構化數據操作能力，主要解決一些大型媒體數據（Web文檔、圖片等）的結構化存儲問題。

BigTable主要是一個分布式多維表，表中數據通過行關鍵字、列關鍵字和時間戳來進行索引和查詢定位，并且BigTable對存儲在表中的數據不做任何解釋，一律視為字串，具體數據結構的實現由用戶自行定義。

BigTable的基本構架如圖3所示，BigTable中的數據均以子表形式保存在子表服務器上，最終以GFS文件形式存儲在文件系統中。客戶端程序直接和子表服務器通信，Chubby服務器完成對子表服務器的狀態監控，主服務器通過查看Chubby服務器目錄來終止出現故障的子服務器并將其數據轉移至其他子服務器。另外，主服務器還完成子表的創建和負載均衡等操作。

當然，由于MapReduce將本來應由數據庫管理系統完成的諸如文件存儲格式的設計、模式信息的記錄、數據處理算法的實現等工作轉移給了程序員，從而導致程序員負擔過重。另外，MapReduce是面向非結構化的大規模數據處理的，往往是一次處理，因而同等硬件條件下的性能也比并行數據庫低[29]。

2.4.3 數據庫的深層探討

并行數據庫具有高性能的優勢，但擴展性問題阻礙了其在大數據處理上的進一步發展，而MapReduce性能和易用性上提升空間較大，因此目前兩種方案均不理想。業界經過長時間的探討，基本一致認為并行數據庫和MapReduce各取其長，相互融合，也許是一種不錯的道路[30]。由此誕生了并行數據庫主導型、MapReduce主導型以及并行數據庫與MapReduce集成型3類大數據處理數據庫。

（1）并行數據庫主導型

這類數據庫的基本思路是在并行數據庫上增加MapReduce的大數據處理能力，將數據分析過程轉移到數據庫內進行，使得原系統同時獲得SQL的易用性與MapReduce的開放性。但是，并行數據庫的擴展能力與容錯能力并未得到改善，典型的系統如Greenplum[31]、Asterdata[32]等。

（2）MapReduce主導型

這類數據庫的基本思路是利用關系數據庫的SQL接口和模式支持技術改善MapReduce的易用性。通過SQL接口，可以很簡便的完成查詢分析等操作，大大減輕了程序員的負擔，但MapReduce的性能方面仍有待提升，比較典型的系統如Facebook的Hive[33]和Yahoo！的Pig Latin[34]等。

（3）并行數據庫與MapReduce集成型

這類數據庫兼顧并行數據庫與MapReduce的長處，主要分兩種思路：按功能將并行數據庫與MapReduce分別設計到相應的部位以形成一個完整系統，以及整合并行數據庫和MapReduce這兩套完整的系統以構成一個混合系統。

第一種思路典型代表是耶魯大學提出的HadoopDB[35]，它將Hadoop作為調度層和網絡溝通層，關系數據庫作為執行引擎，盡可能地將查詢壓入數據庫層處理，Hadoop框架的應用可以獲得較好的容錯性和對異構環境的支持，庫內數據查詢的使用則可獲得關系數據庫的高性能優勢。

第二種思路的代表是Vertica數據庫[36]，它擁有兩套獨立完整的系統，Hadoop負責非結構化數據和耗時的批量復雜數據的處理，Vertica負責結構化數據的處理以及高性能的交互式查詢。

當然，這些思路仍非理想的方案，例如，HadoopDB喪失了MapReduce較低的預處理和維護代價等，Vertica則依舊存在Vertica擴展性問題和Hadoop的性能問題。因此，在大數據面前，數據庫系統的研究還有很長的路要走，我們在總結傳統的數據庫經驗的同時，還要積極了解新興的數據庫系統，才能更好地促進適應現今大數據發展的性能優良數據庫的面世。

2.5 大數據分析技術

用于大數據集的分析方法很多，包括統計學、計算機科學等各個領域的技術。本小節將簡要介紹其中幾種典型的大數據分析技術，當然，這些技術同樣適用于少量數據集的分析，但大數據集環境下的應用無疑會發揮更加明顯的作用。

（1）A/B測試

傳統的A/B測試，是一種把各組變量隨機分配到特定的單變量處理水平，把一個或多個測試組的表現與控制組相比較，進行測試的方式。現在的A/B測試主要用于在Web分析方面，例如通過對比統計新舊網頁的用戶轉化率，來掌握兩種設計的優劣等。大數據時代的到來為大規模的測試提供了便利，提高了A/B測試的準確性。由于移動設備及技術的迅猛發展，移動分析也逐漸成為A/B測試增長最快的一個領域。

（2）聚類分析

聚類分析指將物理或抽象的集合分組成為由類似的對象組成的多個類的分析過程。聚類分析是一種探索性的數據挖掘分析方法，不需事先給出劃分的類的具體情況，主要用在商業、生物學、因特網等多個領域中。對于大數據的分析處理，通過聚類可以簡化后續處理過程，并且可以發現其中隱藏的某些規則，充分發揮了大數據的作用。

（3）集成學習

集成學習指的是使用一系列“學習器”進行學習，并使用某種規則把各學習結果進行整合從而獲得比單個“學習器”更好的學習效果的一種機器學習方法。對于大數據的集成學習，可以更好地提煉和把握其中的本質屬性。

（4）神經網絡

神經網絡是一種模仿動物神經網絡行為特征，進行分布式并行信息處理的算法數學模型，它依靠系統的復雜程度，通過調整內部大量節點之間相互連接的關系，來達到處理信息的目的。

神經網絡作為一門新興的交叉學科，是人類智能研究的重要組成部分，已成為腦科學、神經科學、認知科學、心理學等共同關注的焦點。神經網絡對于大數據的并行處理，無疑也是一種比較可行的方式。

（5）自然語言處理

自然語言處理是計算機科學領域與人工智能領域中的一個重要方向，它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。

人與計算機的通信交流往往存在很多歧義，如何消除這些歧義，將帶有潛在歧義的自然語言輸入轉換成某種無歧義的計算機內部表示，是自然語言處理的主要問題。大數據時代意味著有大量的知識和推理來完成消除歧義現象的可能，這也給自然語言處理帶來了一些新的挑戰和機遇。

大數據分析技術還有很多，例如模式識別、空間分析、遺傳算法等等，并且研究者們還在不斷地尋找新的更有效地分析方法，另外通過結合多個方法來實現數據分析往往也能達到非常明顯的效果。

2.6 大數據的可視化

面對海量的數據，如何將其清晰明朗地展現給用戶是大數據處理所面臨的巨大挑戰。無論是學術界還是工業界，對大數據進行可視化的研究從未停止。通過將大數據圖形化、圖像化以及動畫化等展示出來的技術和方法不斷出現，本節將介紹幾種典型的案例。

（1）宇宙星球圖

俄羅斯工程師Ruslan Enikeev根據2011年底的互聯網數據，將196個國家的35萬個網站數據整合起來，并根據200多萬個網站鏈接將這些“星球”通過“關系鏈”聯系起來組成了因特網的“宇宙星球圖”[37]。不同顏色代表不同的國家，每個“星球”的大小根據其網站流量來決定，而“星球”距離遠近根據鏈接出現的頻率、強度等決定。類似地，對于具有復雜結構的社交網絡，“宇宙星球圖”同樣也十分適用，可以根據個人的知名度、人與人之間的聯系等進行繪畫星球圖。

（2）標簽云

“標簽云”的設計思路主要是，對于不同的對象用標簽來表示，標簽的排列順序一般依照字典排序，按照熱門程度確定字體的大小和顏色。例如對于某個文檔，出現頻度越高的單詞將會越大，反之越小。這樣，便可以根據字母表順序和字體的大小來對各單詞的具體情況一目了然。文獻[38]通過將地圖上的各個物理位置根據描述的具體程度用“標簽云”表示，使得用戶對各個場所的知名程度有個清晰的認識。

（3）歷史流圖

文獻[39]提出了一種用于可視化文檔編輯歷史的“歷史流圖”，對于一個面向大眾的開放文檔，編輯和查閱都是自由的，用戶可以隨時自由的對文檔進行增加或刪除操作。“歷史流圖”中，橫坐標軸表示時間，縱坐標軸表示作者，不同作者的不同內容對應中間部分不同顏色和長度，隨著時間的推移，文檔的內容不斷變化，作者也在不斷增加中。通過對“歷史流圖”的觀察，很容易看出各人對該文檔的貢獻，當然，除了發現有人對文檔給出有益的編輯外，也存在著一些破壞文檔、刪除內容的人，但總有逐漸被修復回去的規律。像維基百科等的詞條注釋文檔，“歷史流圖”的可視化效果十分明顯。

關于大數據可視化的方面努力還有很多，不同的“源數據”有不同的可視化策略，大數據可視化的研究工作仍有待進行下去。

3 大數據應用所面臨的問題

大數據時代面臨的首要問題是人力和財力問題，IDC分析稱，大數據相關人才的欠缺將會成為影響大數據市場發展的一個重要因素。據調查，僅美國就缺少大約14萬到19萬的具有深層次數據分析技巧的專業技術人員以及150萬針對大數據的經理人。據阿里巴巴稱，雖然其各類業務產生的數據為數據分析創造了非常好的基礎條件，然而卻招聘不到合適的數據科學家而影響了研發進展。

高德納公司預測，到2015年，全球將新增440萬個與大數據相關的工作崗位，且會有25%的組織設立首席數據官職位。其中有190萬個工作崗位將在美國，每一個與大數據有關的IT工作，都將在技術行業外部再建3個工作崗位，這將在美國再創建將近600萬個工作崗位。數據科學家是復合型人才，是對數學、統計學、機器學習等多方面知識的綜合掌控，能對數據做出預測性的、有價值的分析。因此，各國對大數據人才的培養工作應當快速有效地著手執行。大數據的接收和管理也需要大量的基礎設施和能源，無論是傳感器還是數據中心的服務器，都需要大量的硬件投入和能源消耗，這也就意味著大數據處理的財力需求極為可觀。如何處理好大數據產生的資金投入比例，也成為了各國和各企業決策者面臨的難題。

另外，大數據還將面臨嚴重的安全和隱私問題。首先，隨處可見的傳感器和攝像頭等設備，會監視并記錄人們位置等信息，通過海量數據的分析，便可輕易了解人們的行蹤規律，從而可能給人們帶來生命和財產安全；其次，“云設施”的經濟劃算，推動了僵尸網絡的發展及海量并行處理破解密碼系統的可能性；最后，由于云計算要求我們放棄自主計算能力，當整個社會的信息，包括個人信息、商業信息都存儲在巨頭們提供的“云”上時，我們只能寄希望于這些巨頭們都是道德高尚的圣人，否則我們將面臨災難性損失。面對這些安全威脅，學術界和工業界也都紛紛提出自己策略。

針對基于位置服務的安全性問題，文獻[40]提出了一種k -匿名方法，即將自己與周圍k -1個用戶組成一個范圍集合性對象來請求位置服務，從而模糊了自己的準確位置。文獻[41]提出的策略是，搜集周圍的k -1個用戶的位置信息，并以其中的某一個的名義發送位置服務請求，從而也達到隱藏準確坐標的目的。Roy等人將集中信息流控制和差分隱私保護等技術融入云中的數據生成與計算階段，提出了一種隱私保護系統Airavat[42]，防止MapReduce 計算過程中將非授權的隱私數據泄露出去，并且支持對計算結果的自動除密。Mowbray等人在數據存儲和使用階段使用一種基于客戶端的隱私管理工具[43]，提供以用戶為中心的信任模型，幫助用戶控制自己的敏感信息在云端的存儲和使用。

蘋果最近申請了一項專利，叫做電子分析污染技術，能夠將用戶在蘋果產品上產生的行為數據進行污染和混淆，讓其他廠商獲取不到真正的用戶數據。這類信息安全保護的思路是：當各種加密措施無法徹底保護個人信息時，不如將大量的垃圾信息、錯誤信息充斥在真實有效的信息之中，讓竊取者不得不耗費巨大的成本從中分析。高德納公司分析指出，大數據安全是一場必要的斗爭，并且大數據本身更可用來提高企業安全。因為解決安全問題的前提是，企業必須先確定正常、非惡意活動是啥樣子的，然后查找與之不同的活動；從而，發現惡意活動，基于大數據來建立一個基線標準就很好地達到了這個目的。

最后，大數據的出現會促使IT相關行業的生態環境和產業鏈的變革。傳統的網絡公司運營模式是在自己的服務器上來管理若干產品和服務，并通過網絡連線提供給用戶終端，產生的數據歸公司獨有。然而，在大數據時代，這種模式已經難以勝任，服務公司往往會選擇租賃第三方的開放平臺來運營自己的業務。這樣，用戶提供數據，服務方處理數據，但數據的實際存儲地卻在第三方。大數據影響的IT產業鏈大致包括數據資源、應用軟件、基礎設施三大部分。數據資源方面，各大信息中心、通信運營商等積極研制和引用大數據技術，挖掘大量數據分析相關人才，數據資源的收集和開發產業逐步完善；應用軟件方面，隨著高性能云平臺的出現，云應用軟件也不斷被開發出來，用戶再也不必煩惱復雜的軟件安裝和配置過程，便可以輕松享受各種網絡應用服務；基礎設施方面，大數據對硬件的依賴，迫使高性能硬盤、低能耗服務器、小巧化個人終端等行業的快速發展。另外，大數據技術的日益成熟也會促使跨行業經營模式的發展。第三方可以將用戶的各種服務請求進行打包，然后利用大數據分析來尋求最好的服務商的組合以反饋給用戶。對服務提供方來說，借助第三方可以更好地推銷自己的服務。而對第三方而言，可以獲得大量的分析數據，其中的利益也是可觀的，真正的實現了“雙贏”，同時也使得用戶獲得更好的服務體驗。

4 結束語

大數據時代挑戰與機遇并存，正確處理好大數據，不僅符合企業的利益，也給人們日常生活帶來極大的便利。本文對大數據的基本概念、處理流程以及相關技術進行了簡要的探討，并分析了大數據可能帶來的一些問題及應對策略。云計算目前是處理大數據的基礎技術，但其在安全和隱私方面的保障工作仍讓不少人感到懷疑，根本原因還是個人和商業的信息都存放在遠端的巨頭們提供的看不見的“云”上。大數據時代已經到來，但是，相應的技術體系和社會保障仍是亟需研究的應用課題。

參考文獻

[1] MANYIKA J. Big data： The next frontier for innovation， competition， and productivity [R]. Executive Summary， McKinsey Global Institute， 2011.

[2] LI T， CHEN S， LING Y. Identifying the missing tags in a large RFID system [C]//Proceedings of the 11th ACM International Symposium on Mobile Ad Hoc Networking and Computing （MobiHoc’10），Sept 20-24， 2010， Chicago， IL，USA. New York， NY， USA： ACM， 2010：10p.

[3] BOHLOULI M， SCHULZ F， ANGELIS L， et al. Towards an integrated platform for big data analysis [C]//Proceedings of the International Conference of Integrated Systems Design and Technology （ISDT’12）， May 16-18，2012， Mallorca， Spain. Berlin， Germany： Springer-Verlag， 2013：47-56.

[4] IBM. bringing big data to the enterprise [EB/OL]. [2013-02-05]. http：//www-01.ibm.com/software/data/bigdata/.

[5] Nature. BigData [EB/OL]. [2012-10-02]. http：//www.nature.com/news/specials/bigdata/index.html.

[6] Big Data Across the Federal Government [EB/OL]. [2012-10-02]， http：//www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

[7] DEAN J， GHEMAWAT S. MapReduce： Simplified data processing on large clusters [C]//Proceedings of the 6th USENIX Symposium on Operating System Design and Implementation （OSDI’04）， Dec 6-8，2004，San Francisco， CA，USA. Berkeley， CA， USA： USENIX Association， 2004：137-150.

[8] GENOVESE Y， PRENTICE S. Pattern-based strategy： Getting value from big data [R]. Gartner Inc， 2011.

[9] LABRINIDIS A， JAGADISH H V. Challenges and opportunities with big data [J]. Proceedings of the VLDB Endowment（PVLDB）， 2012，5（12）：2032-2033.

[10] WANG L， TAO J， KUNZE M. Scientific cloud computing： early definition and experience [C]//Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications（HPCC’08）， Sept 25-27， 2008， Dalian， China. Piscataway， NJ，USA： IEEE， 2008：825-830.

[11] FOSTER I， ZHAO Y， RAICU I， et al. Cloud computing and grid computing 360-degree compared [C]//Proceedings of the Grid Computing Environments Workshop（GCE’08）， Nov 12-16，2008， Austin， TX，USA. Piscataway， NJ，USA： IEEE， 2008：10p.

[12] RADI M， DEZFOULI B， BAKAR K A. Multipath routing in wireless sensor networks： Survey and research challenges [J]. Sensors， 2012， 12（1）：650-685.

[13] GILBERT E P K， KALIAPERUMA B L. Research issues in wireless sensor network applications： A survey [J]. International Journal of Information and Electronics Engineering， 2012，2（5）：702-706.

[14] ZHAI J， WANG G N. An anti-collision algorithm using two-functioned estimation for RFID tags [C]//Proceedings of the International Conference on Computational Science and Its Applications （ICCSA’05）：Vol 4， May 9-12，2005， Singapore. LNCS 3480. Berlin， Germany： Springer-Verlag， 2005：702-711.

[15] CHA J， KIM J. Novel anti-collision algorithms for fast object identification in RFID system [C]//Proceedings of the 11th International Conference on Parallel and Distributed Systems （ICPADS’05）：Vol 2，Jul 20-22，2005， Fuduoka， Japan . Los Alamitos， CA，USA： IEEE Computer Society， 2005：63-67.

[16] VOGT H. Efficient object identification with passive RFID tags [C]//Proceedings of the 1st International Conference on Pervasive Computing（Pervasive’02）， Aug 26-28， 2002，Zurich， Switzerland. Berlin， Germany： Springer-Verlag， 2002：98-113.

[17] HUSH D， WOOD C. Analysis of tree algorithm for RFID arbitration [C]//Proceedings of the 1998 IEEE International Symposium on Information Theory（ISIT’98），Aug 16-21，1998， Cambridge， MA， USA .Piscataway， NJ，USA： IEEE， 1998.

[18] MYUNG J， LEE W. An adaptive memoryless tag anti-collision protocol for RFID networks [C]//Proceedings of the 24th Annual Joint Conference of the IEEE Computer and Communications Societies （INFOCOM’05）：Vol 3， Mar 13-17， 2005， Miami， FL， USA. Piscataway， NJ，USA： IEEE， 2005.

[19] CHOI H， CHA J， KIM J. Fast wireless anti-collision algorithm in ubiquitous ID system [C]//Proceedings of the 60th Vehicular Technology Conference （VTC-Fall’04）： Vol 6， Sep 26-29，2004， Los Angeles， CA，USA. Piscataway， NJ， USA： IEEE， 2004：4589-4592 .

[20] KODIALAM M， NANDAGOPAL T. Fast and reliable estimation schemes in RFID systems [C]//Proceedings of the 12th Annual International Conference on Mobile Computing and Networking （MOBICOM'06）， Sept 24-29，2006， Los Alamitos， CA，USA. New York， NY，USA： ACM， 2006：322-333.

[21] KODIALAM M， NANDAGOPAL T， LAU W. Anonymous tracking using RFID tags [C]//Proceedings of the 26th Annual Joint Conference of the IEEE Computer and Communications （INFOCOM’07）， May 6-12，2007， Anchorage， AK，USA. Piscataway， NJ，USA： IEEE， 2007：1217-1225.

[22] QIAN C， NGAN H， LIU Y. Cardinality estimation for large-scale RFID systems [C]//Proceedings of the 6th Annual IEEE International Conference on Pervasive Computing and Communications （PerCom’08）， Mar17-21， 2008， Hong Kong， China. Piscataway， NJ，USA： IEEE， 2008：30-39.

[23] GHEMAWAT S， GOBIOFF H， LEUNG S T. The Google file system [C]//Proceedings of the 19th ACM SIGOPS Symposium on Operating Systems Principles （SOSP’03）， Oct 19-22， 2003， Bolton Landing， NY， USA. New York， NY， USA： ACM， 2003：29-43.

[24] HDFS Architecture Guide [EB/OL]. [2013-01-08]. http：//archive.cloudera.com/cdh4/cdh/4/mr1/hdfs_design.pdf.

[25] Lustre [EB/OL]. [2013-02-12]. http：//www.lustre.org.

[26] BEAVER D， KUMAR S， LI H C， et al. Finding a needle in haystack： Facebook’s photo storage [C]//Proceedings of the 9th USENIX Symposium on Operating System Design and Implementation （OSDI’10），Oct 4-6， 2010， Vancouver， Canada. Berkeley， CA， USA： USENIX Association，2010：47-60.

[27] CHANG F， DEAN J， GHEMAWAT S， et al. Bigtable： A distributed storage system for structured data. [C]//Proceedings of the 7th USENIX Symposium on Operation Systems Design and Implementation （OSDI’06）， Nov 6-8，2006， Seattle， WA， USA. Berkeley， CA， USA： USENIX Association， 2006：205-218.

[28] PAVLO A， RASIN A， MADDEN S， et al. A comparison of Approaches to large scale data analysis [C]//Proceedings of the 35th ACM SIGMOD International Conference on Management of Data（SIGMOD’09）， Jun 29-Jul 2， 2009，Providence， Rhode Island.New York， NY， USA：ACM， 2009：165-178.

[29] STONEBRAKER M， ABADI D ， DEWITT D J， et al. MapReduce and parallel DBMSs： Friends or foes？ [J]. Communications of the ACM， 2010，53（1）：64-71.

[30] Greenplum MapReduce [EB/OL]. [2012-12-21]. http：//www.greenplum.com/technology/MapReduce.

[31] Asterdata MapReduce [EB/OL]. [2012-12-21]. http：//www.asterdata.com/resources/MapReduce.php.

[32] Hive[EB/OL]. [2012-12-21]. http：//hive.apache.org/.

[33] OLSTON C， REED B， SRIVASTAVA U， et al. Pig Latin： A not-so-foreign language for data processing [C]//Proceedings of the 34th ACM SIGMOD International Conference on Management of Data（SIGMOD’08）， Jun 9-12， 2008， Vancouver， Canada. New York， NY， USA：ACM， 2008： 1099-1110.

[34] ABOUZEID A， BAJDA-PAWLIKOWSKI K， ABADI D J， et al. HadoopDB： An architectural hybrid of MapReduce and DBMS technologies for analytical workloads [C]//Proceedings of the 35th International Conference on Very Large Data Bases （VLDB’09）， Aug 24-28， 2009， Lyon， France. New York， NY，USA：ACM， 2009： 922-933.

[35] Vertica [EB/OL]. [2012-11-03]. http：//www.vertica.com/the-analytics-platform/native-bi-etl-and-hadoop-MapReduce-

integration/.

[36] The Internet Map [EB/OL]. [2012-12-18]. http：//internet-Map.net/.

[37] PAELKE V， DAHINDEN T， EGGERT D， et al. Location based context awareness through tag-cloud visualizations [C]//Proceedings of the Joint International Conference on Theory， Data Handling and Modelling in GeoSpatial Information Science（ISGIS’10）， May 26-28，2010， Hong Kong， China. New York， NY， USA：ACM， 2010 290-295.

[38] VIéGAS F B， WATTENBERG M， DAVE K. Studying cooperation and conflict between authors with history flowvisualizations [C]//Proceedings of the ACM Conference on Human Factors in Computing Systems（CHI’04）， Apr 24-29， 2004， Vienna， Austria. New York， NY， USA：ACM， 2004：575-582.

[39] SWEENEY L. k-anonimity： A model for protecting privacy [J]. International Journal of Uncertainty， Fuzziness and Knowledge- based Systems， 2002， 10（5）： 557-570.

[40] DOMINGO-FERRER J. Micro aggregation for database and location privacy [C]//Next Generation Information Technologies and Systems： Proceedings of the 6th International Workshop on Next Generation Information Technologies and Systems（NGITS’06）， Jul 4-6，2006，Kibbutz Shefayim， Israel. LNCS 4032. Berlin， Germany： Springer-Verlag， 2006：106-116.

[41] ROY I， RAMADAN H E， SETTY S T V， et al. Airavat： Security and privacy for MapReduce [C]//Proceedings of the 9th USENIX Symposium on Operation Systems Design and Implementation （OSDI’10）， Oct 4-6， 2010， Vancouver， Canada. Berkeley， CA， USA： USENIX Association， 2010.297-312.

[42] BOWERS K D， JUELS A， OPREA A. Proofs of retrievability： Theory and implementation [C]//Proceedings of the 1st ACM Workshop on Cloud Computing Security Workshop（CCSW’09）， Nov 13，2009， Chicago， IL，USA. New York， NY，USA： ACM， 2009：43-54.

[43] CHEN Z J， ZHAO Y， LIN C， et al. Accelerating large-scale data distribution in booming Internet： Effectiveness， bottlenecks and practices [J]. IEEE Transactions on Consumer Electronics， 2009，55（2）：518-526.

作者簡介

竇萬春，南京大學計算機科學與技術系、南京大學軟件新技術國家重點實驗室教授、博士生導師；主要從事云計算、服務計算等方面的研究工作；已主持或參與完成基金項目8項已發表學術論文60余篇。

江澄，南京大學計算機科學與技術系在讀碩士研究生；研究方向為服務計算、云計算等。

中興通訊技術2013年4期

中興通訊技術的其它文章: 大數據關鍵技術; 綜合信息; 面向城市信息感知的社交網絡大數據分析; 對協作系統自適應角色選擇策略的思考; 電信大數據解決方案及實踐; 超低功耗云存儲系統——cStor