◆陽 超
21世紀信息技術日新月異,全球信息化已經成為不可阻擋的趨勢,大數據無疑成為了時下最炙手可熱的研究話題之一。隨著大數據時代的來臨,我們的生產、生活、工作和思維方式諸多方面都將進行大變革,我們將一改往日的小數據思維和眼光,以大數據思維和視角來看待和理解世界。
大數據(Big Data),又稱巨量數據、海量數據,其所涉及的數據規模巨大到無法在合理時間內,通過目前主流軟件工具,進行截取、管理和處理。麥肯錫(McKinsey Company)認為:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。我所理解的大數據具有以下特征。
第一,數據樣本的容量空前擴大。數據總量巨大,從TB級別,躍升到PB級別。數據類型繁多,除了標準的結構化編碼數據之外,還包括網絡日志、視頻、圖片、地理位置信息等非結構化或無結構數據。
第二,數據呈現的平臺愈發寬廣。伴隨著傳統媒體的改革和新媒體的興起,數據的動態變化快速復雜,數據的來源渠道五花八門,呈現的方式也多種多樣。可以說,有人類生活生產活動的地方就有數據,就能做數據分析。
第三,數據價值的體現日益突出。數據本身作為描述事物的特征和邏輯關系的指標,因信息技術發展而與商業金融、電子科技、醫療衛生、文化教育的生產生活實踐聯系在一起,產生了巨大的包括經濟增長在內的價值。盡管巨量數據中的有用消息比例有限,但總體來說,數據價值的挖掘成了大數據時代的重要特征之一。
所謂思維方式,就是我們大腦活動的內在程序,是一種習慣性的思考問題和處理問題的模式,它涉及我們看待事物的角度、方式和方法,并由此對我們的行為方式產生直接的影響。正如恩格斯所說:“每一個時代的理論思維,從而我們時代的理論思維,都是一種歷史的產物,它在不同時代具有完全不同的形式,同時具有完全不同的內容。”(《馬克思恩格斯選集第4卷,人民出版社1995年版,第284頁》)
人類的思維活動可以影響生產生活活動,思維自身的發展也必然受到自然界和整個社會環境的不斷影響。正所謂:窮則變,變則通,通則久。計算機技術的更迭創新,無聲宣告了小數據已走到窮途末路,大數據時代的大容量、廣平臺、高價值的特征給人類帶來了巨大的機遇和挑戰。要把握機遇、迎接挑戰、創新發展,我們就不可避免地要了解大數據思維,適應大數據思維方式。其主要有四大思維。
(一)系統性思維。所謂系統性思維方式,就是指人們在思考和處理問題時,著眼于系統整體,側重解決系統與子系統,系統與環境以及各子系統間的結構與層次等方面的線性和非線性關系,從而揭示出系統的運動變化規律,最終實現系統整體目標優化的一種現代思維方式。
系統性思維方式強調總體,而非局部。在大數據時代,隨著數據收集、存儲、分析技術的突破性發展,我們可以更加方便、快捷、動態地獲得與研究對象有關的所有數據,不再因技術的諸多限制而采用樣本研究方法。相應地,這也為思維方式從樣本思維轉向總體思維提供了技術保障。
系統性思維強調相互關聯,而非靜止孤立。在大數據時代,人們可以通過大數據技術挖掘出事物之間隱蔽的相關關系,獲得更多的認知與洞見。通過關注線性的相關關系,以及復雜的非線性相關關系,可以幫助人們看到很多以前不曾注意的內在聯系,還可以掌握以前無法理解的復雜技術和社會動態。這對于我們理解復雜事件的發展和復雜事物之間的關系裨益良多。
系統性思維強調動態發展,而非一層不變。在大數據時代,大量的傳感器將我們身邊的一切納入物聯網,使一切事物的動態、變化變成數據流,不斷進入負責監控的計算機。云計算技術的強大數據分析能力將幫助人們對這些數據進行分析和處理。這些隨時間流不斷更新的數據正好反映了數據隨時間的動態演化過程,構成了一幅動態演化的全景圖,而建立在數據的動態發展分析基礎上的對未來的預測正是大數據的核心議題。
(二)數據化思維。“數據”一詞來源已久,在拉丁文中它被賦予了“已知的事實”的意思。數據化是指一種把現象轉變為可制表分析的量化形式的過程。數字化是指為方便計算機的運算,把模擬數據轉換成用0和1表示的二進制碼。
數據化思維的核心就是量化一切。從世界古文明的結繩計數、甲骨圖文;到公元1世紀到12世紀阿拉伯數字,先在印度的緣起,隨后在歐洲的傳播和應用;再到14世紀意大利會計手稿和復式記賬法,推動了近代會計和金融行業的興起;新工具的產生和使用既促進了測量和記錄數據的繁榮,也孕育了大數據時代數據化思維。
互聯網技術和其他科學技術的成熟,使文字、方位、溝通這些非具象的概念實現了數據化。Google的數字圖書館是很好的例證。2004年,Google開始啟動數字圖書字符識別軟件來識別文本的字詞,完成了文字數字化到文字數據化的轉換。這不僅為全世界的讀者提供了免費閱讀的平臺,還可以供計算機進行二次分析,在一定程度上有效約束了學術作品的抄襲剽竊行為。
數據化思維使我們意識到世界的本質即是信息。我們所處的大數據時代,就是一個在急速信息技術革命中,關注“信息”多過關注“技術”的時代。這一點,不管是在商業金融、公共衛生、教育人文、天文科技還是政府工作上,都可以得到驗證。如通過GPS地理定位推薦最佳行程路徑和通過夜間腦電波分析失眠患者的睡眠模式,通過量化在鍛煉中身體各個部位失去的能量和進食不同的食物單位內所帶來的卡路里來制定健康計劃。
(三)容錯性思維。容錯性思維是大數據時代與小數據區分最大的思維方式。在小數據思維中,精確無疑是第一核心要義。當樣本數量有限時,我們只能通過關注最重要的內容,獲取最精確的結果,提高我們預測事物的能力。在大數據時代下,我們所觀察的是總體樣本,而非抽樣樣本。為適應大數據技術,思維方式要從精確思維轉向容錯思維,即當擁有海量即時數據時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,以一個比從前更大更全面的角度來理解事物的發展。
一方面,數據規模的指數爆炸式增長不可避免地造成數據的混亂。從數據結構上來說,5%的數字數據是結構化可適用于傳統數據庫的,我們只有通過接受混亂和不精確,才能利用剩下的95%的非結構化數據。面對參差不齊的海量數據,我們無法竭力避免混亂,而是試圖尋找標準途徑。以內容分類為例,小數據時代的圖書館或儲藏室用分類法和索引法存儲和檢索資源足以應付。當互聯網平臺幫助數據規模飛躍幾個數量級之后,仍沿用原來精確的分類法,反而會造成更大范圍的混亂。Facebook、新浪微博和其他圖像、視頻、音樂分享平臺鍵入多個搜索標簽體現的就是一種與傳統精確性分類不同的分類思維。
另一方面,大數據的信息紛繁復雜,魚龍混雜,為了把握和分析事物的本質,我們對精確度的沉迷程度不斷減弱。因為容錯思維認為,不精確的數值體現的大概輪廓和發展趨勢已足夠幫助我們認識問題。Facebook、新浪微博上分享的內容可以用“喜歡”和“贊”來描述受歡迎程度。數量不多時,精確的數字將會顯示其上,如137。數量很大時,則會顯示一個近似值,如4萬。Google的Gmail郵箱會標注如“7分鐘之前”,“3個小時之前”或者“兩個星期之前”。這時候精確的重要性變得不那么突出,大致的數值描述已足夠說明問題。
(四)開放性思維。大數據時代的開放性思維相對于傳統時代的封閉的思維,更具主動性、透明性、互動性的特征。該思維方式形成和表現于四個方面。
一是社會環境的開放性,即現代社會環境的多元化、個性化發展趨勢。全球化的發展孕育了開放與包容的時代特征。不同社會制度、不同經濟結構、不同意識形態和不同宗教信仰的國家、民族相互聯系,多元復雜的社會背景下,每個人的自我認識更多元更深刻,個人的主體意識不斷增加。
二是認識主體的開放性,即認識活動中的主觀能動性的極大提高。大數據發展的動力來源于人類測量、記錄和分析世界的渴望。正是源自人類認識世界和改造世界的原始本能,人們才通過語言、繪畫、文本、攝影、膠片、磁帶等分享方式來延伸記憶。大數據的數據記憶特征極大激發了人們的主觀能動性。
三是展呈方式的開放性,即互聯網環境下表達平臺的開放性。在大數據時代,互聯網、云計算技術等信息技術為我們提供了便捷的共享手段。互聯網的全球化覆蓋消除了地理距離的限制,從根本上改變了搜索和提取的經濟成本,去資料庫獲取信息的時間和成本被低廉的網絡通信費用所取代。低廉的數字存儲器、易于提取的數字加工工具,剝離了原始的背景信息,加速了抽象排列向分類系統過渡、提煉有效信息的進程。遍地可見的電腦、智能手機、攝像頭以及其他諸多的信息采集設備和存儲設備將海量數據置于公共空間,為公眾共享信息提供了基礎。
四是認識對象的開放性,即活動主體對問題觀察的開放性:不再純粹只關注因果關系,也開始深入相關關系;不再只單純利用某次數據,更多的關注數據的再利用和挖掘。一方面,通過探求相關關系的“是什么”而不是因果關系的“為什么”,能提供更好的視角來理解世界。大數據時代,相關關系的驗證實驗耗資少、周期短,數學方法、統計方法及數據工具方法眾多,使相關關系的探究更為準確。如經濟學中收入與幸福的正比關系到非線性關系的轉變。另一方面,不同于物質性實體,數據的價值可以多次被處理以發掘潛在的價值,并不會隨著重復使用而減損。如:移動電話運營商收集用戶的位置信息來傳輸電話號碼、利用機票銷售數據來預測未來機票價格、搜索引擎公司通過搜索關鍵詞來監測流感的傳播、麥格雷戈博士以嬰兒的生命體征來預測傳染病的發生。
總之,大數據以磅礴之勢席卷而來,開啟了人類歷史上的重大時代轉型,它改變了人們的生活模式和理解世界的方式,成為新發明和新服務的源泉。這些思維的轉變,將改變我們理解和組建當下社會的方法。不管我們承認與否,它帶給當今全球的益處是方方面面的。不論變化如何,我堅信正如維克托所說,最終將在大數據價值鏈中獲益的是擁有大數據思維的人。
