
報告:《Big data: The next frontier for innovation, competition, and productivity》
發布:麥肯錫全球研究院(McKinsey Global Institute)
麥肯錫全球研究院(MGI)成立于1990年,是麥肯錫公司的業務和經濟研究部。該院的使命是幫助商界、公共部門以及社會各界的領導人更好地了解全球經濟發展趨勢,為在關鍵領域的管理和政策提供決策支持。在2011年,麥肯錫全球研究所發布了報告《大數據:下一個創新,競爭和生產力前沿》(簡稱《大數據》),討論了大數據給商業和經濟發展帶來的新的可能性,并預測到2018年,僅美國就存在14萬~19萬數據深入分析人才的缺口。
一個600美元的磁盤能存下全世界的音樂;2010年全球手機使用量達50億部;“臉譜”網上每個月發帖量300億;到2011年4月,美國國會圖書館已儲存了235TB的數據;全球消費者每年通過使用個人定位數據,節約6000億美元;零售商因利用大數據,經營利潤可能提高60%;到2018年,全球僅美國就需要創建14萬~19萬個數據深入分析崗位,以及150萬精通數據分析的管理人才;我們的世界正經歷一場前所未有的數據大爆炸。這對我們來說到底意味著什么?
何謂“大數據”?
“大數據”是當下炙手可熱的名詞,各行各業都在挖掘大數據的價值。很多公司在利用大數據方面都取得了成功。比如,樂購挖掘了消費者的大量數據,在此基礎上進行消費者市場劃分和針對性的促銷活動;亞馬遜利用消費者的購買信息,向消費者進行個性化商品推薦,每當消費者瀏覽某商品時,Amazon都會通過協同過濾(collaborative filtering)機制,顯示“您可能還會喜歡……”“購買此商品的顧客也同時購買……”之類的信息;菲律賓移動運營商Smart通過分析其滲透力、零售商覆蓋率,以及城鎮用戶的平均工資水平等數據,將公司的業務重點放在具有最大潛力的小眾市場……
那么,“大數據”到底是什么呢?“大數據”是指超過現有一般數據處理軟件抓取、儲存、處理和分析數據的能力的數據。可以看出,這是一個動態的定義,隨著科技的發展,能被稱為“大”的條件在不斷提升。此外,“大數據”的定義也因部門領域不同、使用的軟件工具不同而有所差異。對于一些部門而言,十幾TB的數據就有可能被稱為“大數據”;而對于另一些部門而言,用PB衡量的數據才能有此“殊榮”。(注:1TB=1024GB,1PB=1024TB)
大數據可視化
人類在理解和消化大數據上的能力有限。據說,人類的短時記憶只能處理大約7條信息。加州大學圣地亞哥分校的羅杰·博恩和詹姆斯·肖特發現,從1980年到2008年,消費者通過各種媒體每小時對數據的消化只增長了2.8%。經濟學家赫伯特·西蒙曾說,信息的富有造成了注意力的貧窮。如何比較容易地理解大數據所傳達的信息呢?這就得依賴數據可視化技術。目前,有很多大數據處理軟件已被開發,比如,Big Table、Business intelligence、Cassandra、Cloud computing、Data mart、Data warehouse。
標簽云(tag cloud)。標簽云是根據詞匯出現的頻度,將數據可視化的。出現頻度越高的詞匯,在標簽云中顯示得越大,相反,出現頻度越低的詞匯在標簽云中顯示得越小。這種方式的數據可視化,能幫助讀者在龐大的文本中迅速抓住核心概念。
空間信息流 (Spatial information flow)。空間信息流展示信息在空間的流動。比如,可視化的空間信息流名為“New York Talk Exchange”,顯示了紐約和世界其他城市之間的IP數據流。某個城市的光域越大,那么這個城市與紐約之間的信息交換量越大。從中,我們可以清楚地看到哪個城市和紐約的信息聯系最密切。
工作流歷史記錄 (History flow)。工作流歷史記錄,用圖表的形式將許多作者對同一個文檔的操作過程記錄下來。比如,維基百科“Islam”詞條的工作流歷史記錄,橫坐標表示時間,縱坐標表示作者對文本的貢獻。每個作者在圖表中都擁有一個色彩條,色彩條縱向的長度顯示了該作者的貢獻量。從“Islam”詞條工作流歷史記錄中,我們可以得出很多信息。比如,隨著參與編輯詞條的人越來越多,詞條文本越來越長;但在某些時候,可以看到文本被大量刪減,即縱向長度縮短;有時甚至可以看到對文本的肆意“破壞”,即詞條文本在某時被完全刪除,有趣的是,文本很快就被重寫或修復。
大數據的變革力
為了弄清楚大數據到底在多大程度上創造價值,報告《大數據》從5個方面進行了深度研究:醫療保健、公共部門、個人定位數據、零售和制造業。這5個領域差不多占到2010年全球GDP的40%。下面,從上述領域中選取2個方面做簡要介紹。
醫療保健(美國)。醫療保健業是美國最大的產業之一,占美國GDP的17%,在美國所有的工作崗位總數中占11%。在未來的10年,美國平均每年的醫保投入增長率將會超過DGP增長率的2個百分點。美國平均每人的醫保投入位居世界第一,效果卻不盡人意。美國如能在醫保方面充分利用大數據,將會在臨床手術、支付、定價、研發、公共衛生等方面創造更多的價值。
有效性對比研究(comparative effectiveness research),就是在醫保領域利用大數據的案例之一。醫保的過程、效果和費用會受到諸多因素的影響,比如,醫保提供者、地理位置或醫保人。大范圍地對病人特性、醫保費用、醫保效果等海量數據進行綜合分析,就能在比較中,找出對于某位患者來說最有效且最省錢的醫療方案。除美國之外,英國、德國、加拿大和澳大利亞等很多國家都已采用這種研究方式,避免醫保過程中的“過度治療”或“治療不足”。
除了有效性對比研究,大數據在醫保的臨床決策支持系統、病人遠程監控、改善公共衛生監測等方面都有發揮重要作用的潛力。據預測,美國如果在醫保方面繼續挖掘大數據的價值,每年將節省3000億美元的支出。
公共部門(歐盟)。很多國家和地區的政府行政效率都有待提高,尤其是在經濟危機的影響下,如何才能在預算壓縮的同時,保持高水平的公共服務?麥肯錫全球研究院通過對歐盟公共部門的研究發現,大數據在幫助公共部門提高信息透明度、提供決策支持上大有用武之地,并預計可為歐洲公共部門減少15%~20%的行政支出。德國聯邦勞工局對大數據價值的挖掘使用,就是很好的例子。該機構旨在為失業人員提供一系列的咨詢與支持服務,它利用大數據能更加準確地分析和評估失業和半失業人員的特征……近些年來,該機構節省了約100億歐元的支出。
責任編輯:尹穎堯