摘 要:隨著物聯網、云計算、移動互聯網的迅猛發展,大數據(Big Data)吸引了越來越多的關注,正成為信息社會的重要財富,同時也給數據的處理與管理帶來了巨大挑戰。本文首先從大數據概念入手,闡述了大數據的來源、處理技術、大數據獲取、大數據安全與隱私等,預測大數據應用發展趨勢。旨在為了解大數據當前發展狀況,關鍵技術以及科學地進行大數據分析與處理提供參考。
關鍵詞:大數據 云計算 大數據技術 大數據處理
最早提出“大數據”時代到來的是全球知名咨詢公司麥肯錫,該公司稱:數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。定義是:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。
一、大數據定義
一般而言,大家比較認可關于大數據從早期的4V說法到現在的5V說法。大數據的5個V,業界將其歸納為Volume,Velocity,Variety,Veracity,Value.實際上也就是大數據包含的5個特征,包含5個層面意義:第一,數據體量(Volume)巨大。指收集和分析的數據量非常大,從TB級別,躍升到PB級別,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量。第二,處理速度(Velocity)快,需要對數據進行近實時的分析。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。這一點和傳統的數據挖掘技術有著本質的不同。第三,數據類別(Variety)大,大數據來自多種數據源,數據種類和格式日漸豐富,包含結構化、半結構化和非結構化等多種數據形式,如網絡日志、視頻、圖片、地理位置信息等。第四,數據真實性(Veracity)大數據中的內容是與真實世界中的發生息息相關的,研究大數據就是從龐大的網絡數據中提取出能夠解釋和預測現實事件的過程。第五,價值密度低,商業價值(Value)高。通過分析數據可以得出如何抓住機遇及收獲價值。
二、大數據的來源
1.來自人類活動:人們通過社會網絡、互聯網、健康、金融、經濟、交通等活動過程所產生的各類數據,包括微博、病人醫療記錄、文字、圖形、視頻等信息。
2.來自計算機:各類計算機信息系統產生的數據,以文件、數據庫、多媒體等形式存在,也包括審計、日志等自動生成的信息。
3.來自物理世界:各類數字設備、科學實驗與觀察所采集的數據(如攝像頭所不斷產生的數字信號,醫療物聯網不斷產生的人的各項特征值,氣象業務系統采集設備所收集的海量數據等。
三、大數據的處理技術
1.大數據的采集:來自于不同領域的大數據,其特點、數據量以及用戶數目不同,按照結構特點,可劃分為3種類型:結構化數據、半結構化數據以及非結構化數據。大數據采集的挑戰是并發數高、流式數據速度快。
2.大數據的存儲:改進的輕型數據庫可用于完成大數據的存儲并響應用戶的簡單查詢與處理請求;而當數據量超過輕型數據庫的存儲能力時,則需要借助于大型分布式數據庫或存儲集群平臺,且隨著互聯網技術和云計算技術的發展,建立在分布式存儲基礎上的云存儲已經成為大數據存儲的主要趨勢。大數據存儲的主要挑戰是數據異構、結構多樣、規模大。
3.大數據的分析及挖掘:大數據的分析涉及簡單的統計分析以及分類匯總,其挑戰在于導入數據量大,查詢請求多;而大數據挖掘涉及數據的分類、聚類、頻繁項挖掘等,其算法復雜,計算量大。
4.大數據可視化:大數據的挖掘及分析結果將在顯示終端以友好、形象、易于理解的形式呈現以供專業人士分析結果的準確性或為用戶提供決策信息支持。大數據呈現的挑戰在于數據維度高、呈現需求多樣化。
四、大數據獲取
不同領域對應的數據采集方法以及工具也不同,如互聯網領域中,用于日志采集的大數據獲取工具Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe、LinkedIn的Kafka等,用于網絡數據采集的網絡爬蟲或網站公開API等方式;物聯網領域中,用于數據感知的MEMS傳感器、光纖傳感器、無線傳感器等。數據產生以及采集方式的發展為大數據的獲得提供了重要基礎。
獲取的大數據按照結構的不同,可分為結構化數據、非結構化數據以及半結構化數據。
五、數據的安全與隱私保護
隱私問題由來已久。互聯網技術的發展使數據的傳輸,共享更加便利,而數據隱私問題則越來越嚴重。人們在互聯網上的一言一行都掌握在互聯網商家手中,例如淘寶知道用戶的購物習慣、騰訊知道用戶的好友聯絡情況、百度知道用戶的檢索習慣等。大數據的隱私保護與安全是大數據分析和處理的一個重要方面。大數據的隱私保護既是技術問題也是社會學問題,需要學術界、商業界和政府法律部門共同參與。
大數據時代的安全與傳統安全相比,變得更加復雜,面臨更多挑戰。如何在大數據環境下確保信息共享的安全性和如何為用戶提供更為精細的數據共享安全控制策略等問題值得深入研究。
六、大數據的應用
大數據在醫療、能源、通信、模式和關鍵字搜索、電子商務,人工智能等領域具有重要的應用。比如大數據在體育行業預測。世界杯期間,谷歌、百度、微軟和高盛等公司都推出了比賽結果預測平臺。其中,百度在小組賽階段的表現最為亮眼,而進入淘汰賽階段,百度與微軟則以16場比賽15場準確預測的成績讓人們見識到大數據在預測領域的魅力。從互聯網公司的經驗來看,只要有體育賽事相關的歷史數據,并且與指數公司進行多方合作,就可以在賽事預測領域取得不錯的成績。又如經濟、金融行業預測,2013年,英國華威商學院和美國波士頓大學物理系的研究發現,用戶通過谷歌搜索的金融關鍵詞或許可以把脈金融市場的走向,相應的投資戰略收益高達326%。而此前,也有專家嘗試通過Twitter博文情緒來預測股市波動。從預測的原理上來看,穩定發展的美國股市是比較適合大數據預測發揮其作用的。
在國內而言,百度推出的中小企業景氣指數預測,應用百度海量的搜索數據來刻畫我國中小企業運行發展的景氣狀態,以期能夠及時、有效地反映中小企業運行狀況,提高經濟監測的全面性和及時性。目前該功能已經上線投入應用。
可以預見,大數據正在以一種前所未有的方式改變著各行各業,如金融證券、醫療衛生、稅務海關、交通運輸、社會保障、電子商務、地理信息、衛星遙感、移動互聯網、商業智能、數據倉庫、數據集市、元數據、可視化技術。對大數據的應用能夠更好地幫助人們獲取信息并對信息進行更高效地處理和應用。
大數據雖然表面上是個技術術語,但實際上涉及到社會生活、經濟運行、國防軍事、科學技術等方方面面。面對大數據的機遇與挑戰,盡管目前已經有一些探索性的研究工作,但是總體上來說,大數據的研究還很年輕,尚有諸多問題亟待解決。我國發展大數據產業要注意科學規劃,提出適合我國實際情況的大數據戰略和發展路徑,形成良好的大數據發展環境。
參考文獻
[1]Nature,BigData[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html.
[2]Dealing with data.Science,2011.331(6018);639-806.
[3]Arasu A,Chaudhuri S,Chen Z ,et al,Experiences with using data cleaning technology for bing services,IEEE Data Engineering Bulletin,2012,35(2):14-23.HDFS Architecture.
[4]Guide.http://hadoop.apache.org/docs/stable/hdfs_design.htm
l.2013-05-12.Science.Special online collection:Dealing with data[EB/OL].[2012-10-02].http://www.sciencemag.org/site/special/data/2011.
[5]孟小峰,慈祥,大數據管理:概念、技術與挑戰,計算機研究與發展,2013,50(1);146-169.
[6]李國杰,程學旗,大數據研究:未來科技及經濟社會發展的重大戰略領域。中國科學院院刊,2012,27(6):647-657.
作者簡介
趙興芝(1980.12-),女,山東青島平度,漢,研究生,齊魯理工學院,講師,研究方向:圖形圖像。