特約通訊員 周琪
近年來,互聯網、云計算、移動和物聯網的迅猛發展。無所不在的移動設備、RFID、無線傳感器每時每刻都在產生數據,數以億計用戶的互聯網服務每分每秒都在產生海量的交互。2011年5月,全球知名的麥肯錫全球研究院發布了一份題為《大數據:創新、競爭和生產力的下一個新領域》的報告。報告指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于大數據的運用預示著新一波生產率增長和消費者盈余浪潮的到來。2012年3月29日,美國政府在白宮網站上發布了《大數據研究和發展倡議》,表示將投資2億美元啟動“大數據研究和發展計劃”,增強從大數據中分析萃取信息的能力。
“大數據”是繼“物聯網”和“云計算”后IT業界最炙手可熱的新名詞。大家都在談論大數據,大家都想用好大數據。但你真的了解大數據嗎?當前的行業狀況又是怎樣?
當你開著車對著“語音助手”說:“我要在附近找一家最羅曼蒂克的餐廳。”之后,短短一兩秒就能得到您滿意的答案時。其背后向您提供服務所涉及到的定位、資料檢索、存取、數據交換等一系列動作是何等的復雜。而這一系列動作正是由“大數據”所支撐。
大數據目前仍未有統一的定義,通常被認為是一種數據量很大、數據形式多樣化的非結構化數據。
這里有幾個名詞需要解釋一下,結構化數據、半結構化數據和非結構化數據。結構化數據可以在關系數據庫中找到,多年來一直主導著IT應用;半結構化數據包括電子郵件、文字處理文件以及大量發布在網絡上的新聞等,以內容為基礎,這也是谷歌和百度存在的理由;而非結構化數據廣泛存在于社交網絡、物聯網、電子商務之中。伴隨著社交網絡、移動計算和傳感器等新技術不斷產生,有報告稱,超過85%的數據屬于非結構化數據。
大數據技術則可以理解為從各種各樣類型的海量數據中,快速獲得有價值信息的能力。掌握大數據技術,應用大數據技術會帶來巨大的商業成功。這也就是Facebook、谷歌、蘋果、亞馬遜等巨頭正在成為大數據的擁有者和使用者的原因。
大數據特點有四個層面:第一,數據容量大,現在數據單位已經躍升至ZB級別;第二,數據種類多,主要來自業務系統,例如社交網絡、電子商務和物聯網應用等;第三,價值密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅為一兩秒。第四,處理速度快,時效性要求高,從傳統的事務性數據到實時或準實時數據,這一點也是和傳統的數據挖掘技術有著本質的不同。

物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
從下面一組數據可以說明大數據到底有多大?
◆每1秒鐘,會有60張Instagram照片被上傳
◆每1分鐘,會有60小時視頻被上傳到Youtube
◆每1天里,搜索引擎產生的日志數量是35T
◆每1天里,在Twitter上會產生1.9億條微博
◆每1天里,在Twitter上會產生3.4億的消息
◆每1天里,在Facebook有40億的信息擴散
◆自人類有史以來我們所產生的信息量為5艾字節(50億GB)
◆過去3年產生的數據量比以往4萬年的數據還多
◆2010年,全球數據量已達1.2ZB,到 2020年將暴增 30倍達35ZB
◆2011年,中國互聯網行業持有數據總量達到1.9EB(1EB艾字節相當于10億GB)
◆2011年,全球被創建和復制數據總量為1.8ZB(1.8萬億GB)
◆2015年,全球被創建和復制數據總量增長到8.2EB以上;
◆2020年,全球電子設備存儲的數據將暴增30倍,達到35ZB或以上。
“數據海量、信息缺乏”是相當多企業在數據大集中之后面臨的尷尬問題。目前,大多數事物型數據庫僅實現了數據錄入、查詢和統計等較低層次的功能,無法發現數據中存在的有用信息,更無法進一步通過數據分析發現更高的價值。如果能夠對這些數據進行分析,探尋其數據模式及特征,進而發現某個客戶、群體或組織的興趣和行為規律,專業人員就可以預測到未來可能發生的變化趨勢。這樣的數據挖掘過程,將極大拓展企業核心競爭力。例如,在網上購物時遇到的提示“瀏覽了該商品的人還瀏覽了如下商品”,這就是在對大量的購買者“行為軌跡”數據進行記錄和挖掘分析的基礎上,捕捉總結購買者共性習慣行為,并針對性地利用每一次購買機會而推出的銷售策略。通過掌握大量企業本身和外部的數據,來揭示企業未來的發展方向,預測統計數據和采集其他具有可行性的信息,以便幫助企業做出下一步行動的決策。這就是大數據蘊含的商業價值。
大數據興起的原因有以下三點:一是計算能力可用更低的成本獲得,且各類系統如今已能夠執行多任務處理。二是內存的成本也在直線下降,企業可以在內存中處理比以往更多的數據。三是把計算機聚合成服務器集群越來越簡單。
也有人懷疑大數據存在炒作成份,但不能忽視越來越多的企業因為應用大數據技術而獲得收益。
當你仍然在把微博等社交平臺當作抒情或者發議論的工具時,華爾街的斂財高手們卻正在挖掘這些互聯網的“數據財富”,先人一步用其預判市場走勢,而且取得了不俗的收益。數據在他們手上變成一種全新的致富手段,它的價值堪比石油和黃金。
例如:
◆華爾街根據民眾情緒拋售股票;
◆對沖基金依據購物網站的顧客評論,分析企業產品銷售狀況;
◆銀行根據求職網站的崗位數量,推斷就業率;
◆投資機構搜集并分析上市企業聲明,從中尋找破產的蛛絲馬跡;
◆美國疾病控制和預防中心依據網民搜索,分析全球范圍內流感等病疫的傳播狀況;
◆美國總統奧巴馬的競選團隊依據選民的微博,實時分析選民對總統競選人的喜好。
2010年時,大數據技術的一些主要用戶是大型Web企業,例如Facebook和雅虎,它們需要分析點擊流數據。但是今天,大數據技術已經超出了Web,要是有大量數據需要處理的企業都有可能用到它。例如銀行、公用事業機構、情報部門等都在搭乘大數據這輛車。還有就是受社交媒體推動而需要創建相應Web服務的企業。它們對于大數據項目的貢獻非常重要。
而在其他垂直行業中,有些企業正在意識到,它們基于信息服務的價值定位要比它們先前想象的要大得多,所以大數據技術很快就吸引了這些企業的注意。再加上硬件和軟件成本的下降,這些企業發現它們已經處在了一場企業大轉型機遇的完美風暴中。
紐約的TRA公司是專門幫助電視廣告主們評測其所投放的電視廣告的效果的,它會把某個家庭通過電視與DVR(數字錄像機)所接收到的廣告與其在零售商店的賬單相比對。該公司從有線電視公司的DVR以及一些日用品商店的會員卡計劃中搜集數據,來進行這種比對。TRA的大數據系統所處理的數據量代表著170萬個家庭以秒計的觀看習慣,如此龐大的任務量如果沒有大數據技術幾乎無法完成。該公司部署了Kognitia的WX2數據庫,該數據庫允許它快速地裝載、描述和分析數據,從DVR上收集細粒度的廣告觀看信息,繼而與銷售點的詳細數據進行比對,再生成定制報告。Kognitia有一個內存運行的解決方案,TRA公司現有整個數據庫的一半都可以放在內存里。當需要運行一個查詢時,響應時間是秒級而非小時級或日級的。對TRA公司而言,大數據技術可能會給全美700億美元的電視廣告市場帶來革命性的變化。傳統的廣告評測方法頂多只能在全國2萬個樣本家庭中安裝特制的機頂盒來分析抽樣數據。而今天,大數據技術則可以分析來自250萬臺DVR和機頂盒的實際數據。
公用事業行業也在剛剛開始了解到大數據所帶來的應用及其價值。美國中西部的一家電力公司利用Hadoop分析來自智能電表的數據,這些智能電表可以自動完成計費功能,但是該公司還收集輸電線路上任意的電流波動信息。如果收集到這些信息并且能夠描繪出電流變化圖,那么電力公司就可以在某個地方的變壓器可能出現故障之前找到它,或者當發生停電事故時,會引起電流的波動,公司就可以探測到波動之處,在用戶打電話求助之前就采取行動。
新創于2009年的BloomReach公司,擁有世界上第一個網頁關聯引擎,此項技術可利用海量數據,機器學習,和大規模系統科學去匹配相關產品和服務給合適的消費者,為用戶獲得更大的訪問流量,帶來更多的盈利空間。
凡事有利必有弊,“大數據”本身也存在一些風險。統計學家和計算機科學家指出,大數據的集合和高密度的測量將令“錯誤發現”的風險增長。斯坦福大學的統計學教授特來沃爾-哈斯迪(Trevor Hastie)稱,如果想要在龐大的數據“干草垛”中找到一根有意義的“針”,那么所將面臨的問題就是“那么多的稻草看起來就像是針一樣”。
數據聚合和大數據分析,是保證企業的營銷情報的寶庫,潛在的商業活動和機會。但大數據的使用者應該更多地關注所涉及的國家和地區在這信息安全領域的法律規定。企業還應該實現數據隱私最佳實踐和設計分析程序,建立相關透明度和問責制,對數據的利用應該保持靈活和理想的預期變化的調節,而不是陷入困境時,才臨時尋求解決方案。
話雖這么說,在初期,我們還沒有看到大量的外部需求,強制要求企業確保信息的完整性。然而,隨著企業規模擴大,業務處理的信息仍然會增加,需要業務決策密切聯系原始數據的大數據分析,信息的質量變得越來越重要。如果同樣復雜的分析可以應用到相關的安全數據,大數據甚至可能被用于提高信息安全。
