米林
什么是大數據
大數據(Big Data),也叫巨量資料。由于它所涉及的資料量規模巨大,因此無法通過目前的主流軟件工具,在合理時間內進行擷取、管理和處理,并整理成更加有助于企業經營決策的資訊。“大數據”是業內的熱門詞匯,描述了企業大量積累、存儲和挖掘大文件(400GB到TB級)的現象。隨著信息質量、種類和豐富性達到新的水平,“大數據”的發展日臻成熟。
大數據的特點
對于大數據,現在比較流行的是用4個“V”來總結其4個層面的含義:容量巨大(Volume),數據已從TB級別躍升至PB級別;數據類型多(Variety),從普通的文字、視頻、圖片到逐漸增多的地理位置信息等,類型紛繁,已無規律可循;價值密度低(Value),以視頻為例,在連續不間斷監控過程中,可能有用的數據也許只有一兩秒;處理速度快(Velocity),實時分析對某些應用才更有意義,而不是批量式分析,即時處理已經成為一種趨勢。
大數據管理技術
人們對大數據的關注度在不斷升溫,而大數據管理的技術也層出不窮。在眾多技術中,有6種數據管理技術普遍被關注,即分布式存儲與計算、內存數據庫技術、列式數據庫技術、云數據庫、NoSQL、移動數據庫技術。其中分布式存儲與計算受關注度最高。分布式存儲與計算架構可以讓大量數據以一種可靠、高效、可伸縮的方式進行處理。因為以并行的方式工作,所以數據處理速度相對較快且成本較低,Hadoop和NoSQL都屬于分布式存儲技術的范疇。
內存數據庫技術可以作為單獨的數據庫使用,還能為應用程序提供即時的響應和高吞吐量,SAP的HANA是該技術的典型代表。
列式數據庫的特點是可以更好地應對海量關系數據中列的查詢,占用更少的存儲空間,這也是構建數據倉庫的理想架構之一。
云數據庫可以不受任何部署環境的優勢,隨意進行拓展,進而為客戶提供適宜其需求的虛擬容量,并實現自助式資源調配和自助式使用計量。目前微軟的SQL Server可以提供類似的服務。
甲骨文在2011年推出了Oracle NoSQL數據庫。NoSQL數據庫適合于龐大的數據量、極端的查詢量和模式演化。企業可以通過NoSQL得到高可擴展性、高可用性、低成本、可預見的彈性和架構靈活性的優勢。
移動數據庫技術是移動計算的產物。隨著智能移動終端的普及,人們對移動數據實時處理和管理要求的不斷提高,移動數據庫具有平臺的移動性、頻繁斷接性、網絡條件的多樣性、網絡通訊的非對稱性、系統的高伸縮性和低可靠性以及電源能力的有限性等。
大數據的應用實例
實例1:《紙牌屋》
《紙牌屋》是全球最大的流媒體運營商Netflix首次自行制作,并且完全依靠網絡發行的電視劇,它的熱播使Netflix訂戶數超越了傳統的HBO電視網。
《紙牌屋》的走紅是必然的,它是大數據分析在具體行業成功應用的經典案例。美國新聞網站Salon.com曾這樣描述:用戶只要登錄Netflix,其每一次點擊、播放、暫停甚至看了幾分鐘就關閉視頻,都會被作為數據進入后臺分析。這樣一來,Netflix就能精確定位觀眾的偏好,比如“最愛Kevin Spacey”,或者“最愛政治劇”。Netflix在拍攝前事先分析了訂閱用戶們的觀影數據和操作習慣,保證其首部原創劇集可以精確命中最大量的潛在觀眾。Netflix在決定投資翻拍《紙牌屋》前做了兩件與大數據分析緊密相關的事:挑選演員、決定播放形式。
追蹤和分析訂閱用戶數據并不簡單,基于基礎數據派生的擴展數據量非常大。這一過程不僅僅要分析觀眾喜歡看哪些主題的電影和偏好,還要統計觀眾如何觀看電影和觀影過程、觀影過程中暫停的次數、會在看到幾分鐘的時候關閉視頻等等,這些操作都會被作為數據進入后臺分析。過去,Netflix只是用這些數據來做影片推薦。如今,Netflix會投其所好,根據這些內容拍攝用戶感興趣的電影。
通過數據分析,Netflix發現喜歡觀看1990版《紙牌屋》的影迷們同時喜歡看導演David Fincher的作品。另外,他們會經常觀看奧斯卡影帝Kevin Spacey的作品。因此,新版《紙牌屋》邀請了David Fincher(制作人)和Kevin Spacey(男主演)加盟,這完全是基于影迷數據分析得出的結論。
實例2:從4天到1個小時——大型在線撲克公司的反欺詐術
歐洲的一家大型在線撲克公司的員工在愛爾蘭,而機房卻建在加拿大。在這家公司的網站上有虛擬牌桌,6—10個人一桌在線玩德州撲克。該公司會從贏者那里提成0.5%,在線玩游戲的人越多、玩得次數越多,該公司的盈利就更有保障。
除了吸引更多人來玩在線撲克,公司更重要的是做好反欺詐工作。玩這種在線撲克時的欺詐行為一般有三種類型:第一,不同玩家線下串謀,線上打配合以增加玩家自己獲勝概率;第二,洗錢,通過信用卡故意將錢輸給下家;第三,外掛,研究算法比較好的人會自己寫程序然后掛到網站上,可以同時玩100桌獲得盈利。
該公司需要將這些欺詐行為全部找出來,識別不同模式。例如,他們通過分析玩家每一輪下了多少注、不同玩家之間下注的時間間隔以及非常規打法的記錄等大量數據,就可以判斷這些玩家背后是真人在玩還是機器外掛在玩、是否有線下串謀等欺詐行為。
為了識別欺詐,該公司請來了三位畢業于加拿大某學校的撲克牌專業的博士,通過算法識別欺詐行為,并開發反欺詐程序。過去,他們是將這些記錄的結構化數據壓縮成一個文檔放到數據庫里,需要分析時將文檔調出,用他們花費一年半時間開發的Java軟件運行分析,需要4天結果才能出來,也就是如果星期一有人做了欺詐行為,到星期五才能發現。而現在,該公司用兩天時間將算法移植到TeradataAster平臺之上,通過一個開源的解壓代碼把壓縮的資料在庫內做解壓,然后在數據庫系統內運行欺詐分析。這種做法的好處是大批量的數據不用傳來傳去,再加上算法優化之后,原本需要4天的欺詐行為分析只要60分鐘就可以完成了。
大數據的未來發展前景
一、推動信息產業創新
據國際數據公司的監測統計,2011年全球數據總量已經達到1.8ZB(1ZB等于1萬億GB,1.8ZB相當于18億個1TB移動硬盤的存儲量),而這個數值還在以每兩年翻一番的速度增長。預計到2020年,全球將擁有35ZB的數據量。
隨著面向大數據市場的新產品、新技術、新服務、新業態的不斷涌現,大數據將加速信息技術產品的創新融合發展。對數據快速處理和分析的需求,將推動商業智能、數據挖掘等軟件在企業級的信息系統中得到融合應用,成為業務創新的重要手段。同時,物聯網、移動互聯網的迅速發展,使數據產生速度加快、規模加大,迫切需要運用大數據手段進行分析處理,提取有效信息。大數據面臨的有效存儲、實時分析等挑戰,將對芯片、存儲產業產生重要影響,推動一體化數據存儲處理服務器、內存計算等產品的升級創新。大數據應用也使基于云計算的業務創新和服務創新成為現實。
二、推動社會發展
大數據作為一種重要的戰略資產,已經不同程度地滲透到每個行業領域和部門,其深度應用不僅有助于企業經營活動,還有利于推動國民經濟發展。麥肯錫研究表明,在醫療、零售和制造業中,大數據可以每年提高勞動生產率0.5-1個百分點。
宏觀層面,大數據使經濟決策部門可以更敏銳地把握經濟走向,制定并實施科學的經濟政策。微觀方面,大數據可以提高企業經營決策水平和效率,給企業、行業領域帶來價值。
大數據技術作為一種重要的信息技術,能夠提高安全保障能力、應急能力、優化公共事業服務,提高社會管理水平;能夠對多種渠道的信息快速進行自動分類、整理、分析和反饋,彌補情報、監視和偵察系統的不足,提高國家安全保障能力。