王天恩
(上海大學智能社會和文化研究院,上海 200444)
在大數據的基本特征中,有一個重要特征以“V”打頭的單詞“velocity”表示,一般理解為速率或高速率。這個“V”特征所包含的內容,比通常的理解豐富得多。它不僅意味著高速、快速,而且由于速率決定了與對象過程的同步關系,還意味著實時的數據流過程。在這個意義上,大數據具有實時流動性。正是隨著大數據速率的提升而發展的數據實時流動性,使大數據具有前所未有的強大預測功能,從而不僅展開了大數據時代“未來已來”的深遠意境,而且為因果關系研究提供了重要的時態向度。
大數據的“大”不在數據量大,而在數據的完備性。正是數據的完備性,使大數據具有規模整全性。大數據的規模整全性[1],為人類認識提供了新的量化整體把握方式。
作為人類信息文明的基礎,大數據的實時流動性與技術設備的數據處理速度密切相關。數據流速是個至關重要的維度,它造就大數據的實時流動性。對于人類來說,大數據的存在不僅取決于數據本身,而且取決于技術設備的數據處理速度,因為數據處理速度決定了實時數據流狀態。在這個意義上,大數據不僅涉及其與人類使用的關系,而且涉及大數據的人類使用。這是信息與物能更與人類直接相關的重要體現,也是人與世界聯系更為密切的方面,同時還是大數據不同于樣本數據的根本所在。
樣本數據在取樣后就與時間沒有了實時關聯,而大數據則是實時數據流。在小數據時代,人們只是獲取標本,而在大數據時代,我們所獲得的則是一個生存的數據基礎。正是高速流動的數據,為大數據提供了趨向與現實生活同步的過程性。這種不是凝固的而是可以看作自然生成的數據流,隨著信息文明的發展,越來越成為人類生存的直接基礎。實時數據流進一步在過程維度表明大數據的形成不是取樣式的標本凝固,而是具體數據的即時生動流出。正是在這個意義上說,大數據不僅不是決定于取樣設計而是自然生成的,而且隨著技術的發展不斷成長擴展。
樣本數據在取樣后就凍結了,與時間沒有了實時關聯,而大數據則實時獲取所需要的信息。當下,這已經是人類生活的基本現實:大數據處理來自商業過程、機器、網絡和類如移動設備等人類互作的高速數據流。對于典型形態的大數據來說,信息是流動的、活的,是隨著時間進程發展的數據流。因此,對于實時的數據流來說,速率就特別重要。在這方面,基于IBM 的大數據實踐,保羅·齊科普洛斯(Paul C.Zikopoulos)等認為:“對速率的傳統理解通常考慮數據到達和存儲以及相關的檢索速率。雖然快速管理所有這些是好的——我們正在查看的數據量是數據到達速度的結果——但我們認為速率觀念實際上是一些比這類傳統定義更有說服力的東西。”[2]8,9因此在大數據意義上,關于“velocity”的理解和定義應與動態數據相聯系,理解為“數據流動的速度”。“如今產生的越來越多的數據具有非常短的保存期,因此組織如果希望在這些數據中找到靈感,就必須能夠接近實時地分析這些數據。大數據規模流計算是IBM已經提出了一段時間的概念,并作為大數據問題的新范式。”[2]8,9典型的比如來自GPS數據的位置信息被實時刷新。“要有效地處理大數據,您需要在數據仍處于運動狀態時對其規模和多樣性進行分析,而不是在其靜止后才進行分析。”[2]8,9這種觀念最初來自IBM。“IBM 似乎是唯一一家談論速率而不只是數據生成速度的供應商。”[2]8,9高速的數據流更能夠在時間上與現實過程同步,因而可以跟人類的存在或生存更密切地聯系在一起。在小數據時代,我們只是獲取標本,而在大數據時代,我們所獲得的則是一個生存的數據流基礎。因此,樣本數據和實時數據(real-time data)的區別,也決定了大數據具有與小數據完全不同的性質,這在更高層次與大數據的規模整全性密切相關。
從更高整體層次看,大數據的規模整全性和實時流動性是一體的。大數據的規模整全性,不僅意味著,而且事實上包含了數據的實時流動性。這意味著相對于樣本數據,大數據規模更整全,而且具有更高的維度。正是在這個意義上,莫里的航海圖雖然不是具有實時流動性的典型大數據,卻正因為如此而對大數據的理解具有雙重特殊意義。由莫里的航海圖可以看到,一方面,由于信息數字編碼的發展,才出現了大規模的數據,典型的大數據是信息數字編碼發展的產物。莫里的航海圖不是由數字數據構成的,數據規模不可能很大,但具有大數據的性質,說明它不是簡單地因為數據規模大而成了大數據,從而凸顯了大數據的規模整全性特征。另一方面,由于更高維的大數據只有作為信息數字編碼發展的產物才可能形成,莫里的航海圖不可能具有大數據的實時流動性,因而還不可能是典型的大數據。這又說明目前的大數據有兩個層次:第一個層次是在數據的靜態構成上具有規模整全性的大數據;第二個層次是在規模整全性基礎上具有實時流動性的大數據。也正是在這個意義上,莫里的航海圖具有與光場相機相似的性質。
2015年,美國Lytro 相機公司發明了一種名為“光場相機”(light field camera)的浸入式360 度相機設備。光場相機能在多個深度捕捉到圖像,在拍攝結束后可以重新聚焦圖像,改變焦距進行再對焦,不僅獲得更完美的照片效果,而且在拍攝之后可以觀看在3D空間中移動的主體視頻,用3D顯示器展示照片,戴上眼鏡可以清楚地看到3D效果。這項拍照技術革命性地超越了普通相機的性質,很像大數據改變了小數據的數據性質和使用方式。使用光場相機拍攝,就像大數據采集全部數據,可以真正捕捉拍攝那一瞬間的全部影像,或者說捕捉到可以代表拍攝那一刻的所有光線。光場相機所采集的數據還不能構成大數據,但能在三維層次說明大數據和樣本數據的不同。盡管光場相機可以捕捉整個光場,但還只是一個過程的瞬間,因而還只能說明靜態構成上具有規模整全性的大數據,不能說明作為實時數據流的大數據。作為實時數據流的大數據可以是與世界過程同步的大數據。光場相機與普通相機的區別主要在于“聚焦點”,而大數據和樣本數據的區別則是存在論意義上的。光場相機只是捕捉一個瞬間的全部影像,一個時刻的所有光線,而實時流動性卻意味著大數據所采集的數據可以構成由過去向未來伸展的數據流。大數據基于歷史向未來無限擴展的可能性,使數據挖掘可以“針對過去,揭示規律;面對未來,預測趨勢”[3]99。大數據的這一特征,從其與小數據資源不同的數據保存時間也可以看到。
在小數據時代,“當數據項目結束時,數據保留有限的時間;然后丟棄”[4]21。數據之間沒有長程歷史累積關系,而在大數據時代,大數據具有小數據所沒有的歷史性關聯。大數據往往必須永久保存。這當然不僅是一個數據保存期的問題,而是涉及大數據的存在論意義。在小數據條件下,數據保存“很少超過7年,這是研究數據的傳統學術壽命”;而在大數據情況下,“大數據項目通常包含必須永久保存的數據。理想情況下,在原始資源終止任務時,存儲于大數據資源中的數據將被吸收入另一資源池。許多大數據項目以前瞻性和追溯性的方式累積,數據延伸到未來和過去(例如,遺留數據)”[5]21,4。由此不僅可以在一定程度上撇開大數據共享涉及的敏感利益關系,看到具體大數據融匯為總體大數據的重要機制,而且在具有歷史維度的基礎上,大數據由于實時流動性而具有至關重要的過程維度,而有的大數據本身則主要甚至完全是對過程同步進行數據采集的產物。因此,才有了大數據的維度展開。
大數據和小數據的根本區別在數據的規模整全性,包括兩個基本方面:數據的整全度和數據的整體層次。數據的整全度是指數據采集對象的范圍達到程度;數據的整體層次則是指數據的整體性維度,包括規模擴展維度、過程持續維度以及數學意義上的更高維。
數據的性質和維度的區分分別有兩個層次的根據:一是數據整全性層次,這是大數據和小數據的區分層次;二是實時流動性層次,這是大數據的維度區分層次。二者區分的根據是數據整全程度,而在數據整全性的基礎上,大數據的發展有一個維度展開的進程,由此形成了不同層次的大數據。
大數據的維度展開,在其最基本的方面與大數據的實時流動性密切相關。大數據的實時流動性主要是就特定對象的數據產生過程持續而言,即數據采集與對象過程達到同步。實時數據流建立在實時數據的基礎之上,典型的大數據都是實時數據,但由于涉及具有關鍵性的速率,大數據的實時流動性必須是在數據處理速率發展到一定程度后才有可能實現。從大數據的發展看,實時流動性建立在規模整全性基礎之上,前者在后者的基礎上發展而來。這意味著,具有規模整全性的大數據,未必具有實時流動性。只有在大數據規模整全的基礎上,才可能達到大數據的實時流動。莫里的航海圖是具有數據規模整全性的數據集合,還沒有上升到大數據的實時流動性層次。只有在數字時代速率達到一定程度,才可能使大數據具有實時流動性。因此,數據本身不僅存在一個整全度的問題,而且存在維度上的巨大區別,由此就有大數據構成維度上的不同。由于數據采集的技術差異,數據的實時流動性會構成大數據維度上的根本不同。大數據時代采集的實時流動的數字數據和19世紀由航海日志構成的模擬數據,在大數據維度上就有根本差異。在當代全球定位系統和具有高速率采集及處理數據能力的條件下,汽車導航系統和莫里的航海圖就有根本區別,僅僅是數據的即時更新,二者就根本不同。雖然同為大數據,它們與小數據的區別都具有根本性,由此構成了大數據的維度區別。不具有實時流動性的大數據是低維大數據,具有實時流動性的大數據是高維大數據。大數據從低維到高維的發展是數據維度展開的結果,正是從數據的維度展開,可以進一步深化大數據及其與小數據關系的理解。
數據發展到目前的大數據階段,已經展開了四個維度:一維數據是單個數據(one)。單個數據是獨立的數據,單個的獨立數據反映了事物間的數量關系,但建立不起數據之間的關系,因而是沒有數據間關聯的一維數據。二維數據是樣本數據(some)。樣本數據不僅反映事物間的量化關系,而且可以構成數據間的相關關系,只是這種相關關系還處于靜止狀態。典型如關系型數據庫處理的數據,這種數據類似普通相機照片,表現為樣本數據的典型二維性質。三維數據是低維大數據(all)。這正是只具有規模整全性的大數據。只要趨向數據規模整全,就構成了低維大數據。光場相機照片和莫里的航海圖最為典型。四維數據是高維大數據(flow)。在數據規模整全基礎上再提升一個維度,數據不僅具有規模整全性,而且具有實時流動性,就在低維大數據的基礎上生成為高維大數據。大數據的完備性,在更高維度正表現在大數據的實時性之中。大數據和小數據的更深層次區別,在于作為樣本數據,小數據是干枯的標本,就像制作好的生物標本已經“失活”。而大數據則可以是實時數據,那是相對具有活性從而具有時態維度的數據。由此可見,樣本數據只能是干枯的標本,從而不可能是具有實時數據流性質的典型大數據。高維大數據是具有實時流動性的數據集合,典型如汽車坐姿大數據。
日本東京先進工業技術研究所教授越水重臣采集汽車駕駛員的坐姿數據,不僅是采集小規模對象的數據建立起大數據,而且是就過程采集數據建立起大數據的典型案例。一個人的坐姿及其變化,反映了其身體輪廓、姿勢和體重分布,這些都可以被量化和制成表格。越水重臣團隊通過在汽車座椅上安裝傳感器,測量臀部360個不同的壓力點,并將每個點在0~256的刻度上表示出來,從而將臀部坐姿數據化。如果只是采集特定人群的靜態坐姿數據,所得到的就只是三維大數據;如果采集的是汽車駕駛過程中司機的坐姿變化過程,則構成四維大數據。由此得到的結果就是典型的由不僅小規模,而且以過程為對象采集的大數據。就數據采集對象而言,汽車駕座的坐姿數據規模可以不大,但卻是實時采集的全體數據。由于每個人的數字代碼都是獨一無二的,由此采集的大數據就在某種程度上構成了駕駛者的身份認證。在一次一定人群的試驗中,該系統能夠以98%的準確率區分受試者。汽車坐姿大數據是在三維大數據基礎上進一步疊加,生成四維大數據。作為三維大數據,由于規模有限,坐姿數據意義也相應有限;但作為四維大數據,意義就以幾何倍數激增。典型的比如在靜態相關關系的基礎上構成動態相關關系,其所展開的是一個有著質性不同的更高層次空間。
由此可見,大數據的規模整全構成了大數據和小數據的基本區別,而數據維度則構成了大數據的發展層次。在具有實時流動性的大數據中,有的大數據是在三維大數據基礎上疊加生成的,而有的大數據則是以四維大數據方式直接生成的。汽車駕駛員的坐姿大數據是就過程進行數據采集的典型例子之一,而完全是對過程進行數據采集的典型例子之一則是電子多點觸摸地板覆蓋物。電子多點觸摸地板覆蓋物只能是四維大數據,沒有人或agent在上面活動,就不可能有大數據的生成。大數據的維度是一個隨著大數據的發展而發展的概念,由此可以得到對大數據的更深刻理解。
在具有實時流動性的大數據中,那些對過程進行數據采集形成的大數據,更有利于由大數據的實時流動性,深化理解大數據本身及其重要意義。越水重臣的汽車駕駛員坐姿大數據基于信息的數字編碼,在大數據以“量化世界”為口號的發展形勢下,聚焦于領域極小的汽車駕駛員坐姿及其變化過程采集大數據,通過數字時代建立起局域性大數據。采集坐姿數據生成的之所以是大數據,因為它具有不同于樣本數據的全數據性質,從而具有不同于樣本數據的大數據功能;汽車坐姿數據之所以是更高層次的大數據,則因為它是對過程數據采集形成的大數據。因此,它具有完全不同的開發空間。
在技術應用上,汽車駕駛坐姿大數據可以通過因果關系的未來向度延伸,開發成汽車防盜系統,當坐在駕駛座上的不是被認可的駕駛員時,配備了這種裝置的車輛能加以識別,并要求輸入密碼才能繼續駕駛,或者可能會切斷引擎。將坐姿轉換為數據,通過創構因果關系的未來向度延伸不僅可以創造可行的服務,也可以帶來潛在的利潤。坐姿大數據的用途遠不僅僅在阻止汽車盜竊并認出小偷,還可以揭示司機姿勢和道路安全之間的關系,比如事故前的位置變化,當司機因疲勞而躺下時,系統感覺到后可以發出警報或自動剎車。[6]77汽車駕駛坐姿大數據研究不僅具有重要技術價值,而且具有豐富的大數據意蘊,有利于我們更深入地理解大數據,尤其是其數據整全特性的高維向度。只要具有整全性,哪怕只是臀部的坐姿及其變化,就可以構成典型的大數據,而且是具有實時流動性的更高層次大數據;而作為量化的整體把握,大數據維度的提升又具有重要因果關系意蘊。
作為完全是對過程進行數據采集形成大數據的典型例子,電子多點觸摸地板覆蓋物屬于由“觸感技術”引發的一系列令人驚喜的應用。“該電子多點觸摸地板覆蓋物具有多個識別形狀的傳感器。電子多點觸摸地板覆蓋物識別與其表面接觸的物體的形狀,然后從諸如數據庫的數據存儲中檢索實體記錄,其中所檢索的實體記錄對應于所識別的形狀。然后從第二數據存儲器中檢索動作,其中所述動作對應于所檢索的實體記錄。最后由計算機系統執行所檢索的動作。”[7]由于完全建立在對過程進行數據采集的基礎之上,沒有過程的進行,就不能建立起大數據,這樣的大數據是指向未來的,由此建立起來的大數據具有系統建立整體關聯的功能。大數據的建立過程,就是其特殊意義實現的過程。房間里放置這樣一塊具有觸感的地毯,當有人進入房間活動時,不僅可以分辨出接觸它的人,而且可以根據其體重、姿勢和行為方式認證其身份。這樣的觸感地毯不僅是保證房屋安全的理想設施,可以通過識別人,系統決定是報警還是為其自動打開門窗和電器,而且可以通過因果關系理解的拓展,更深入地涉及房屋主人的身體健康甚至心理和精神狀況等。
汽車駕駛員坐姿數據和電子多點觸摸地板覆蓋物,都不僅是采集具體對象,而且主要是對過程進行數據采集建立起大數據,典型地凸顯了基于數據的實時流動性,大數據至為重要的過程把握功能。
大數據的實時流動性,既意味著數據的歷史維度,又意味著向未來的動態展開,這正是大數據具有非同尋常理論意義和應用價值的重要原因。為了在現實中更好地應用,我們需要大數據是實時流動的。“由于信用卡交易是即時發生的,因此分析通常也必須實時進行。”[6]27不僅社會生活中的許多數據都必須進行實時分析,而且“數據評估通常必須實時進行”[8]76。實際上,成熟形態的大數據都是實時數據流。因此,在具體的情境中建立起來的實時流動的大數據,更有利于在更高維度理解“全數據”。盡管是在一個很窄的領域(比如一臺運行的機器),不僅也可以建立起作為一個生命體的大數據,而且可以更清楚地看到所謂全數據的涵義。在這個意義上,大數據更不在于其規模大,而在于就特定領域的“全”;不僅是共時性的“全”,而且包括歷時性的“全”。大數據的實時流動性在更高層次展示了數據類型和數據來源的多樣性,因此在大數據實時流動性基礎上理解大數據的結構開放性[1]也具有更深層次的邏輯根據。因此,大數據的結構開放性也不僅是空間意義上的開放,更重要的是向未來開放。
大數據的規模整全性意味著維度全,而維度全意味著包括過程維度的整全,這又意味著大數據不僅是傳統意義上的量的固定把握,更是包括隨著時間流動而不斷動變、實時流動的信息存在。大數據的發展形態可以有不同,但都不是取樣式的凝固標本,而是即時流動的具體數據,都是趨向于自然成長的動態整全數據。在這個意義上,大數據和小數據的原則區別在于小數據是為某種具體目的封存的凝固數據,而大數據則不僅是趨向全數據的存在,而且是實時動態數據,它處于不斷生長的過程中。
從小數據到大數據,數據存在經歷了一個從樣本到全部再到實時流動的維度提升過程。由于涉及大數據實時流動性與數據所反映的對象之間的關系,因此有人認為時至今日,“‘實時’一詞仍難以界定”[9]9。這恰恰從一個側面表明了大數據實時流動性的復雜性和重要性。“樣本—全體—實時”所導向的,將是一個不斷與對象同步,從而具有基本方面存在論對等性的大數據——歸根結底是信息世界。這正是大數據實時流動性特征的重要性所在;也正是因為大數據的這一特征,信息世界得以在過程維度與物能世界相對接。
在經驗空間,我們能想象的只有四維時空,而大數據作為量化的整體,卻不僅可以構成邏輯意義上的更多甚至無限維,而且這些維度還由于作為經驗世界的量化而具有經驗意義。這就是大數據相關關系構成的量化維度,也正是大數據相關關系的無限魅力所在。
大數據復雜的相關關系構成了趨向無限的維度,這種多維度存在構成了幾乎是無限的理解數據相關對象的可能性空間。數據越多,理解的條件越完備,隨著數據不斷增加便會趨向就認識目的和實踐需要而言的完備。正是由此,美國統計學家內特·西爾弗(Nate Silver)利用可以收集到的所有數據,包括推特、臉書等社交平臺,媒體和社區論壇等所有能收集到的數據,成功地預測了美國2012年總統選舉所有州的選舉結果,由此可見數據驅動的核心含義。大數據的完備性源自“數據地圖”的全息效應:數據越多,“地圖”的數據要素越齊全;數據要素越齊全,大數據相關關系越豐富;相關關系越豐富,大數據的維度越多;大數據的維度越多,把握對象的全息效應便越得以凸顯。因此,無論就既存對象的量化把握,還是新對象的創構,這些顯然都是關于大數據理解深化過程中的重要觀念進展。為了提供一個更高層次的整體觀照,由此可以(在哲學層次)更進一步地深化關于大數據的理解:不僅在規模上大到,而且在維度上全到就使用需要而言的實時流動全數據。由此,關于大數據與小數據的根本區別在于大數據不是根據預先設定的具體目的,由抽樣形成的抽象干枯數據標本,而是動態反映事物相互作用過程的活的實時數據流。抽樣形成的數據,就像動植物標本,是干枯失活的。一張平面照片,角度和動靜等都是固定的。而作為動態反映事物相互作用過程的數據流,大數據具有與現實過程同步關聯的實時性。正是不斷向未來伸展的實時數據流,構成了人類生存的“未來已來”處境。
大數據的規模整全性和實時流動性,依靠的是越來越發達的數據采集系統“末梢”,其不僅像人的神經系統的末梢神經遍布全身并高度敏感,而且不用像人類那樣休息,可以夜以繼日地工作。有了大數據這個基礎,智能手機這種高度發達的終端,其功能越來越齊全,實時記錄著使用者(大都是原子化的個人)的可采集言行及其越來越復雜的相互關系。如果有一天,這些終端設備不斷智能化,以至它們像人類大腦那樣,其效果就類似可以直接以電信號的方式與人腦直接對接,網絡就真與人類神經系統“聯網”,這意味著網絡的神經“末梢”呈指數式擴展,每一個網絡“末梢”都連接著一個帶有豐富神經末梢的人工神經系統。這種條件下的數據采集就發展到了不可思議的層次,即已經發展出了基于人類個體智能的“智能網絡”。當然,作為獨立的個體,人們可能不會想讓自己像智能終端那樣隨意連接在智能網絡上,但任何人只要想獲得這種智能網絡的動態信息,都可以接入智能網絡。當接入的人腦和時數足夠多,就構成了一個可以預測人類行為甚至人類需要發展動向的超級智能網絡。對于人類把握包括自身在內的世界,這樣的超級智能網絡具有無可比擬的優勢。
基于這樣的超級智能網絡,人類不僅可以對從過去到未來向度有越來越縱深的把握,而且這種縱深把握既意味著更高整體層次,又意味著更深局部細節。整體把握不僅關系到把握整體,而且具有使部分或局部理解更到位的重要意義。以往,我們主要依靠凝固的抽象整體把握,抽象的整體把握總是以九宮格的方式把握對象,不能與現實的世界發展進程相匹配。而大數據以實時數據流的方式,不僅奠定了動態把握對象的基礎,而且為對于人自身、世界及其相關關系的過去、現在和未來,提供了因果時態把握的可能性,其中就包括為把握人類自身需要的未來發展創造條件。人的本性就是人的需要,由此可以看到大數據存在論意義上的人類生存和發展維度。這對于“未來已來”的當下發展具有前所未有的重要意義,特別是對于大數據基礎上的創構活動。基于大數據的創構活動,正是以人的需要為出發點,以滿足人的需要為最終目的的。[10]這一方面使人類認識活動的整體景觀更為清晰,另一方面又使關系變得更為復雜。
大數據相關關系以量的方式,構成了其所反映的活動區域內的復雜關聯。“通過讓我們確定一個現象真正合適的關聯項,相關關系幫助我們把握當下并預測未來:如果A 經常和B 一起發生,我們需要注意尋找B,以預測A將發生。即使我們不能直接測量或觀察A,以B作為關聯項可以幫助我們捕捉A 可能發生的情況。重要的是,它還幫助我們預測A 未來可能發生什么。當然,相關關系不能預示未來,它們只能以一定的可能性預測未來。”[6]53由于大數據的實時流動性,大數據相關關系指向未來,其意義對于人類相關活動是不可估量的。即使在最不確定的股市領域,大數據預測也應當具有很大空間。事實上,大數據預測已經涉足股市,這是公認的人類最難有效把握的領域之一。其難點主要在于股市大數據相關關系的理解,而其關鍵則是股市相關的現實生活整體觀照。
作為過去和當下的量化反映,大數據具有預測的重要意義。基于大數據相關關系做出實際預測的典型范例之一,就是谷歌的流感預測。這種隨著大數據發展不斷增強的預測能力,就建立在相關關系不斷豐富的基礎之上。在經驗世界,兩個量的增減變化的現象關聯,很可能并不存在相關關系,但在具體的大數據中(比如超市的銷售大數據),購物籃中同時購買兩種類別相差很遠的不同商品出現高度關聯,就很可能存在具有特殊意義的相關性。而且,由于在一個具體的情境中,就像在一個具體的語境中,即使是現象間的商品關聯也可能具有銷售意義。由于大數據具有實時流動性,相關現象的持續出現肯定反映了某種更深層次的關聯。
隨著大數據的不斷發展,所有生活在大數據世界的人,都在大數據中留下永久的數據足跡。“由于物聯網正在將數十億以前離線的設備——電視、冰箱、安全設備、恒溫器、煙霧探測器——連接起來,這些設備現在都在產生和共享數據,因此海量數據正在迅速增長。”正是這些永久數據足跡的累積,構成了數據驅動的基礎。“幾乎一切都是由數據驅動的,由此帶來了許多優勢。”[11]15,11由此構成的人類自身認識的獨特數據優勢,正與其存在論層次的深度關聯密切聯系。由此看到,數據驅動的意義明顯從認識論深化到了存在論層次。大數據與小數據具有存在論意義上的不同,可以從數據存在的歷史性得到說明。與實時數據流相聯系,特別是從與各種具體大數據可以無限整合的前景看,大數據的存在論意蘊就構成了與小數據的更深層次區別。數據驅動的理解深入到存在論層次,使基于大數據的數據挖掘相應具有存在論意義。在現實挖掘(reality mining)中,這種存在論意義體現得淋漓盡致。
數據挖掘(data mining)通常指從存放在數據庫等的大量數據中獲取有用的知識。而麻省理工學院人體動力學實驗室(Human Dynamics Laboratory)主任桑迪·彭特蘭(Sandy Pentland)和內森·伊格爾(Nathan Eagle)提出一種具有重要意義的數據挖掘方式,則是通過智能手機特別是可穿戴貼身傳感器等收集人們的現實數據,挖掘出人們的社會行為和健康情況等信息。他們將這種數據挖掘稱之為“現實挖掘”(reality mining)。
“大數據風靡一時,它已經是我們當代世界的一個事實。關于大數據的會議、書籍、研究論文和創業興趣比比皆是。理由很充分:從以前深不可測的大量數據中挖掘意義,以清楚辯明趨勢,甚至預測未來的想法無疑非常迷人。但就像所有的會議、書籍、研究論文和商業計劃所表明的,弄清楚如何處理并充分利用這種規模的數據,不是一項簡單的任務。大數據向來被稱為數字廢氣或伴隨我們日常活動留下的數字足跡。它是我們生活的元數據。我們相信,在認真負責收集數據的語境中,使用大數據設計更好的系統和更美好的潛在世界是可能的。我們使用一種稱作現實挖掘的方法,不僅涉及分析大數據,而且涉及確保分析反映現實情況和所涉及的人,同時符合認真負責收集數據的做法。現實挖掘是指用大數據開發這樣的系統,這種系統能夠影響所有規模的積極變化,從個人到全球共同體。”[12]1,2-3現實挖掘也稱為“實時數據挖掘”(real-time data-mining),這是大數據及數據挖掘發展必定出現的結果。
隨著大數據的發展,數據挖掘不僅是一種傳統的信息處理技術,而且是越來越涉及人類活動的存在基礎。因此,數據挖掘的難度越來越大。“之所以稱之為‘挖掘’,是比喻在海量數據中尋找知識,就像開礦掘金一樣困難。”[3]98的確,數據挖掘意味著與描述既存世界不同的規律性。“數據挖掘”不僅在某種程度上反映了數據特別是大數據的存在論地位,而且本身也具有存在論意義。相應地,與數據挖掘的相關規律也具有同樣的存在論意蘊。由于實時流動性,大數據的存在具有向未來伸展的動態性質。
隨著大數據和智能算法的發展,人類活動留下的“數據足跡”的整體化將伸向越來越遠的未來。這不是一個涉及新形式決定論的問題,而是因為在大數據基礎上,人類的未來越來越是人類創構的結果。人類活動在大數據留下的數據足跡不僅成了我們過去的數(profiling),而且預示著我們的未來。在更深層次,存在兩個維度的根本變化:一是由于不僅過去,而且未來變得更可能量化把握,過去和未來大大擴展為現在的視域,這也就等于過去和未來越來越大規模地壓縮到現在,使人的存在和發展空間得以空前擴展。二是從更高層級看,大數據帶來的網絡空間信息的對稱化,實質上是使人類個體間的相互性得到極大強化,在類群分化的基礎上,人類群體日益構成整合度越來越高,甚至具有更高層次整體性的存在。這是隨著人工智能的發展,在不久的將來逐漸呈現的現實情景。
隨著網絡和人工智能的發展,大數據實時流動性將給我們展開越來越廣闊的過程空間。過程空間的不斷展開,不僅意味著人類涉及未來向度的深化,而且意味著這種未來向度的深化將提供越來越高層次的整體觀照,使人類對現在乃至過去的理解更為到位。正是人工智能基于大數據的發展,使關于人類的未來預期在越來越大程度上影響甚至決定人們當下的思想和行為,重新改寫人類過去、現在和未來及其之間關系的觀念。
新一代人工智能的發展表明,人工智能的數據基礎和智能網絡的形成將帶來全新的發展形勢。在大數據的基礎上,以人工智能為主要標志的信息科技發展,空前凸顯了“未來已來”的當代特征。從主要由過去和當下構成的存在到“未來已來”的存在,人類的生存和發展境遇會發生根本變化。“未來已來”意味著未來越來越長程地納入當下,由此一方面構成了更長程未來預測的緊迫性,另一方面正好為大數據基礎上更大程度的可預測性提供了充分發揮的用武之地。作為大數據的核心,未來預測的發展是大數據對人類發展影響越來越凸顯的方面。正是未來預測的發展,將構成大數據發展和人類“未來已來”處境發展的雙向超循環機制。
“未來已來”的一個重要涵義,就是現在可以不同程度地看到未來的生成。消費者反向定制生產,可以看作是“未來已來”這種意義上的典型體現。大數據基礎上的發展所預示的“未來已來”,還可以通過數字孿生技術得到典型說明。數字孿生技術,指的是在虛擬計算里復制一個現實世界,由算法工程師在其中推演未來的各種可能。數字孿生技術由此所展開的,不僅是一個具體落地的“未來已來”,而且是人類在大數據基礎上創構的一個全新世界。