陳 艷 李君亮
(1.廣西民族師范學院數學與計算機科學學院 廣西崇左 532200;2.海南大學馬克思主義學院 海南海口 570228 )
大數據技術詮釋使人獲得的是海量數據給定的諸事實間的關系性理解,大數據技術知識發現顯像出的仍然是海量數據給定的諸事實間的相關關系[1]。海量數據給定的諸事實間的相關關系背后實際上蘊涵了因果關系,這是一種什么樣的因果關系?本文將對大數據技術的相關性及因果性以及二者之間的辯證關系做一探討。
大數據技術已經廣泛應用于我們的生產生活之中,其廣泛應用在給我們的生產生活帶來天翻地覆的變化的同時,也對人的思維方式帶來了巨大的沖擊和改變,進而從根本上改變著我們的行為方式。大數據技術已經變得如此重要,并且與我們的生產生活須臾不離分,那么我們就必須對其進行深入的剖析與反思:即大數據技術的本質究竟是什么,它為什么會在今天的生產生活中產生如此重要的影響?
傳統認知模式總是要求人們透過現象去認識事物的本質從而獲得關于事物的知識,于是我們總會問:事物的本質是什么?就是因果性,即我們秉持著這樣一種信念:凡事莫不有因,任何一種現象總是由別種現象引起的。獲得對于事物的本質性認識,即認識隱藏在某種現象背后的現象,尋找這現象產生的原因,這就是傳統認識的根本任務,在獲得了關于現象產生和形成的原因后,我們就獲得了知識,并且唯有這樣的認識才形成科學知識。
大數據給我們的思維帶來的最大變革與沖擊之一就是如舍恩伯格所言,我們不再窮究因果性,我們轉而關注相關性,知道數據表征的現象或事物(事件)的相關關系,這就足夠了。事件的因果性深深隱藏在現象之后,而在大數據時代,由于人們每時每刻都生產出紛繁復雜和多源異構的數據,為了實現更快更好的生活,我們完全可以不必過分深究大數據后隱藏著的因果關系,而只需要充分揭示出海量數據間的相關關系就足夠了。并且在日常生產生活中,我們在工業、商業、政務、行為、心理等領域的活動本身看上去就似乎毫不相干,各種活動彼此分離,雜亂無章,但實際上這些被看做分離的個體的客體具有內在的關系,“即這些關系并非伴隨著這些分開的個體的非關系性質而產生。”[2]運用先進的數據處理設備,對這些看似由彼此孤立的個體活動造成的海量事實展開數據挖掘,就能揭示出它們之間的相關關系。因此,大數據技術通過海量數據表征著數據給定的諸事實之間的相關關系,而大數據技術作為技術則通過知識發現揭示出數據給定的諸事實之間的相關關系[3]。
首先,就大數據本身而言,每一條數據都對應著數據背后的一個事件行為或現象,海量數據對應著海量的事件行為或現象。那么,這些海量數據表征的諸事件或現象之間是否存在著某種關系?按哈貝馬斯的交往行為理論,我們每個人實際上都處在某種行動網格聯系起來的整體之中,在這整體的行動網格中,交往理性將人們的行為從個體到國家再到社會都連為一體。[4]這樣看來,人們在生產生活中制造的不同的事件行為或現象就會產生某種相關性,首先至少是在這網格整體中的網格相關。當然,在實際生活中,海量數據表征的諸事實間的相關關系可能更為具體并更容易通過大數據挖掘而顯現出來。例如,在舍恩伯格例舉的大數據經典案例即“谷歌流感趨勢(GFT)”分析中,海量用戶在谷歌搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”之后就會產生關于此信息的海量數據,如果加上環境因素,比如特定的區域和特定的時間段,那么這些海量的數據就會和流感爆發發生相關關系。
用戶利用谷歌搜索引擎檢索后生成海量檢索數據,對這些數據進行解析,分揀出檢索內容為“哪些是治療咳嗽和發熱的藥物”的所有數據。通常說來,因為有人患了流感才會去搜索“哪些是治療咳嗽和發熱的藥物”,以便購買相應的藥物。那么,在考慮特定區域和特定時期這樣的環境因素下,再對搜索記錄產生的海量數據進行挖掘,就可以作出某地區會在某個時期爆發流感的概率性趨勢預測。
用Py表示流感爆發的概率,y表示流感爆發,xn表示某用戶在谷歌搜索引擎檢索“哪些是治療咳嗽和發熱的藥物”,x表示流感,e表示環境(時間、地點等),N表示檢索記錄趨于無窮大(即有海量數據),于是我們就可以將海量數據表征的流行性感冒的事實之間的相關關系及其可能形成的發展趨勢用概率函數表示為Py=P{f(xn,x,e,N)},這表明,海量數據背后隱藏著的諸事實間的相關關系是一種非線性概率相關關系[3]。
大數據表征的數據背后的諸事實間的相關關系正是通過大數據的技術化應用揭示出來的,這就表明,大數據技術本身就是作為一種關系實在存在。正如肖峰教授指出的那樣,就大數據技術來說,它不僅僅是一種以服務器、處理器、網絡、智能終端設備等實體性技術存在的實體實在;它還是一種對海量數據展開數據采集、存儲、提取、分析、處理、應用的數據挖掘和數據分析活動與過程,因此,大數據技術復是一種活動與過程實在。此外,通過對大數據進行分析,析解出的實際上卻是大數據表征的諸事實之間的相關關系。因此,大數據技術從根本上來說還是一種關系實在[5]。這樣看來,一方面,大數據技術的本質實際上包含著三個層次:第一層次是作為實體性的技術人工物的實體實在,即以電腦、攝像頭、網絡、智能手機、存儲器以及其它智能終端設備等技術人工物為要素而構成的大數據技術實體;第二層次是運用大數據算法對海量數據展開數據挖掘的數據分析活動與過程,這便是大數據技術的技藝;第三層次便是通過數據挖掘和數據分析揭示出的海量數據蘊含的諸事實間的相關關系,基于這種相關關系,然后對事件或現象或行為等做出概率性的預測與推斷,這就是大數據技術的功能。因此,另一方面,大數據技術又在其實現過程中表現出實體—技藝—功能的邏輯鏈關系,并且正是在這種從實體到技藝再到功能的邏輯鏈條中,大數據技術的實際應用真正展開,在大數據技術應用中展開的實體—技藝—功能關系通過人與自然或世界的交往活動得到檢驗、證實和確認。
大數據綻放為技術,人們必然通過對大數據的技術化應用揭示出隱含在海量數據內的諸事實間的相關關系。進入數據化的新時代,人們在工業、商業、政務、休閑等生產生活領域不停歇地制造出各種各樣的海量數據,這些海量數據正如舍恩伯格所言是一座“神奇的鉆石礦”[6]大數據技術的發展與廣泛運用就是要挖掘出隱藏在這座“神奇的鉆石礦”中的諸事實間的相關關系,從而為我們的生產和生活服務。正基于此,舍恩伯格提出,在我們進入到大數據時代后,我們不再窮究事件或現象間的因果關系,在大數據時代,我們將聚焦于隱藏在海量數據背后的諸事實間的相關關系。
海量數據給定的是諸事實間的相關關系,而相關關系背后實際上隱藏著的確實又是因果關系。要梳理大數據技術顯像的相關關系背后隱藏的因果關系,我們先要對因果性問題有一個基本的了解。
人們總是相信:我們觀察到的某種現象(某類現象)Ⅰ總是規則地由某種現象(某類現象)Ⅱ引起的,現象Ⅱ被稱之為原因,現象Ⅰ被稱之為結果,我們把現象Ⅱ和現象Ⅰ之間的這種聯系稱作因果性聯系或因果關系。
自古希臘以來,人們就秉持這樣一種信念,即通過因果性我們才能形成對于世界確定的和普遍必然性認識,基于此,亞里士多德提出了著名的“第一動因”問題,由此可見人類對因果性的信仰與執著。通過對于事物(現象)間因果性聯結的求索,人類的知識進化之樹日益枝繁葉茂。就在人類科學知識迅速進化并開始大放異彩之時,休謨提出了令人尷尬的驚人一問:原因和結果之間存在著的聯結或關系有證據嗎?即因果性知識具有普遍必然性嗎?休謨的這一問衍生出了近代人類科學認識史上著名的因果性問題。
休謨是這樣提出他的疑問的,他寫道,“如果有人問:我們對于事實所作的一切推論的本性是什么?適當的答復似乎是:這些推論是建立在因果關系上。如果再問:我們關于因果關系的一切理論和結論的基礎是什么?就可以用一句話來回答:‘經驗’。可是,如果我們再進一步追根到底地問:由經驗得來的一切結論的基礎是什么?這就包含了一個新問題,這個問題更難以解決和解釋。”[7]需要指出的是,在這里,休謨并沒有否定因果性,也沒有否定因果關系在人類認識發展過程中的重要意義和作用。這樣的論述只是表明,休謨對因果關系知識的根據發出疑問,在他看來,因果關系不屬于證明知識,不能以概念分析為根據;因果關系也不屬于關于事實的知識,不能以經驗推理為根據。讓我們看個例子:“海水潮漲潮落是因為月球引力的作用。”陳述的正是兩個事物(現象)之間存在著的因果關系,我們現在也都知道,潮漲潮落和月球引力之間確實有因果性聯結。但是,在這個例子中,從“潮漲潮落”這一概念無論如何分析不出“月球引力”這一概念;另一方面,我們無論如何也無法從“潮漲潮落”的經驗中推理出“月球引力”。因果關系無法得到概念分析的證明,也不能得到經驗綜合的證明,這就是休謨提出的因果必然性問題。
由因果必然性問題延伸開來,休謨又說,“在我所遇到的每一個道德學體系中,我一向注意到,作者在一個時期是照平常的推理方式進行的,確定了上帝的存在,或是對人事作了一番議論;可是突然之間,我卻大吃一驚地發現,我所遇到的不再是命題中通常的‘是’與‘不是’等聯系詞,而是沒有一個命題不是由一個‘應該’或一個‘不應該’聯系起來的。這個變化雖然是不知不覺的,卻是有極其重大關系的。因為這個應該或不應該既然表示一種新的關系或肯定,所以就必須加以論述和說明;同時對于這種似乎完全不可思議的事情,即這個新關系如何能由完全不同的另外一些關系推出來,也應該舉出理由加以說明。”[8]我們從“是”如何過渡到“應”?從“實然”如何過渡到“應然”?這種過渡必須給出說明與根據。從已然存在的事物(現象)如何能夠追索其應該具有的相聯結的事物(現象),這之間需要給出根據與說明。
我們把上面闡述的從“是”到“應”、從“實然”到“應然”、從結果到原因的過渡的根據與說明問題統稱為因果性問題。
有學者提出,大數據技術的相關關系根植于因果關系,[9]我們認為對大數據技術相關關系的這樣一種評判是公允的。但是為了確保對大數據技術相關關系的真正公平起見,我們有必要對大數據技術的因果關系有清醒的認識和深入的分析。
既然我們相信萬物莫不有因,由是,則對于事物(現象)形成產生和變化發展的原因的探求,是自古希臘以來人類對于自然宇宙不斷執著探究的一個重要原因。古希臘先賢對于萬物本原的沉思,亞里士多德對于事物組成的“四因說”和事物發展變化第一推動因的假設,處處體現著人們心中執著的萬物皆有因的信念。因此,建立起事物之間的因果聯系,獲得事物之間的因果性知識,這是自古以來人類獲得對于世界的確定性的一種努力,也是人類面對自然世界和宇宙萬物的一種信心,即是說,事物(現象)之間的因果必然性聯系,使得人類在面向復雜開放的世界時獲得了一種確定性和信心。建立在這樣一種信念和信心之上,我們確立起來的事物之間的因果聯系是一種強因果關系。
什么是強因果關系呢?即事物(現象)之間的一種正向線性相關的因果聯系。讓我們以萬有引力定律為例來對事物(現象)之間的強因果性進行說明和解釋。

在大數據技術中,數據給定的諸事實間呈現出來的首先是一種相關關系。如在GFT案例中,用戶通過Google搜索引擎檢索“哪些是治療咳嗽和發熱的藥物”后生成的瀏覽足跡形成的海量數據與流行性感冒爆發之間呈現出一種相關關系。然而在這種相關關系中卻隱含著具有某種必然性的因果關系,即因為患上了感冒,所以想要知道“哪些是治療咳嗽和發熱的藥物”以便去藥店購買;由于在某一時間某一地區有海量用戶通過Google搜索引擎檢索“哪些是治療咳嗽和發熱的藥物”,這就說明在這個時期這個地區有許多人患上了感冒;同一段時間內在同一地區有許多人同時患上感冒,這是流感爆發的征兆,所以說,這個地區在這段時期內有流感爆發的趨勢。
通過對GFT案例進行這樣的分析后我們可以發現,大數據技術相關關系是一種概率型關系,因此,隱含在相關關系中的因果關系也就具有一種或然性。也就是說,在大數據技術中的因果關系具有一種非充分的必然性。此外,由于大數據的多源異構和自治的特性,數據給定的諸事實和鏡像世界顯像出的事實間也不是一種簡單的正向線性相關關系。這樣,大數據技術中的因果關系就是一種非簡單正向線性相關的、非充分必然的相關關系,我們把具有這樣一種非簡單正向線性相關、非充分必然的因果關系稱之為弱因果關系。
所以說,海量數據給定的事實表征著事實間的因果關系,但是,大數據技術中的因果關系是一種弱因果關系。
大數據技術綻放出的海量數據給定的諸事實間的相關關系與大數據技術中的弱因果關系之間又存在著什么樣的關系?在討論大數據技術的相關性與因果性之間的辯證關系之前不妨讓我們先來看一下如下這個例子:“我們經常會看到這樣的天氣現象,尤其是在夏天,先是天雷滾滾,然后就下起了瓢潑大雨。那么,打雷和下雨之間有什么關系?”我們都知道,打雷和下雨之間是一種相關關系,通常打雷都會下雨,下雨時也常伴隨著雷聲,但是打雷和下雨之間沒有什么必然性關系,打雷既不是下雨的充分條件也不是下雨的必要條件,反之也是如此。也就是說,打雷和下雨之間不存在因果關系,打雷不是下雨的原因,下雨也不是打雷的原因。為什么會打雷和下雨?原因都在打雷和下雨之外。
在對上述打雷與下雨的例子有所了解后我們再回過頭來看一下大數據技術的經典案例GFT。在GFT案例中,海量用戶在Google搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”生成的大數據與流感爆發之間是一種概率性相關關系,但這兩者之間卻不是因果關系,即:不是因為流感爆發,所以用戶在Google搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”;也不是因為有海量用戶在Google搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”,所以流感爆發。用戶在Google搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”的原因或者流感爆發的原因都外在于這二者。
再讓我們來看看日本先進工業技術研究所的坐姿研究與汽車防盜系統(JAIOIT)這個案例。[10]人坐著的時候的身形、姿勢和重量分布與個人身份、安全駕駛、汽車防盜、盜車案偵破之間是一種相關關系,但卻不具有線性相關的因果必然性關系。人坐著的時候的身形、姿勢和重量分布等之所以與個人身份、安全駕駛、汽車防盜、盜車案偵破之間具有一種相關關系,其原因在個人身份、安全駕駛、汽車防盜、盜車案偵破等之外。
前文已述,大數據技術的相關關系是一種非線性的概率相關關系,大數據技術的因果關系則是一種弱因果關系,通過上述例子我們可以發現,大數據技術的非線性概率相關關系與弱因果關系二者之間存在如下辯證關系:

大數據技術的因果性指示出的是海量數據給定諸事實與其指向的概率性事實之間的其他事實,我們可以把這一(些)事實稱之為原因事實,記為Fr。如,GFT案例中大數據技術的因果性指示出的是海量用戶在Google搜索引擎上檢索“哪些是治療咳嗽和發熱的藥物”諸事實與流感爆發這一概率性事實之間的事實;JAIOIT案例中大數據技術的因果性指示出的是人坐著的時候的身形、姿勢和重量分布諸事實與個人身份、安全駕駛、汽車防盜、盜車案偵破諸事實之間的事實。
在Db,Fp,Fr這三者之間存在如下關系:

其中,符號→為邏輯蘊涵的意思。
在這里需要指出的是,概率性事實和原因事實既可能是同一事實,也可能是一事實集或一事實序列。海量數據越是多源異構和自治,則概率性事實越不確定,原因事實也會更加復雜多變。
第二,大數據技術的因果性源于外在于海量數據給定的諸事實,但也正由于這種外在于海量數據給定的諸事實的因果性的存在,海量數據給定的諸事實才能與概率性事實之間建立起相關關系,或許正是因此之故,才會有學者認為大數據技術中的相關關系根植于因果關系。
第三,大數據技術的復雜非線性概率相關關系源于大數據技術的弱因果關系,這也就是說,大數據技術相關關系的復雜性、非線性、概率性特征的根源在于大數據技術因果關系復雜性、非正向線性、非充分必然性的特征。
第四,大數據技術相關關系的復雜性、非線性、概率性特征與大數據技術因果關系的復雜性、非正向線性、非充分必然性的特征統一于大數據大多源性、異構性和自治性特征。大數據既可能來源于用戶瀏覽網頁留下的數據足跡,也可能來源于圖像、視頻、音頻、微博等智能多媒體終端,海量數據的多源性使得大數據具有了異構性特征,即當大數據投入到實際應用之中,各個數據源在產生收集數據的時候相互獨立,如同互聯網中的自治系統,能夠自主地決定本網絡中使用何種路由協議一樣,這樣的數據特征顯示出大數據的另一個本質特征:分布式和分散式控制的自治數據源,這些自治的數據源沒有集中式控制,能夠自主地決定產生和收集的數據存儲和表示的形式[11]。大數據的這些特性勢必導致大數據技術的非線性概率相關性和大數據技術因果關系的非充分必然性特征。
因此,大數據技術的相關關系與因果關系之間呈現出一種復雜的、非線性的,既有聯系也有區別的辯證關系。
大數據技術相關關系是一種復雜的非線性概率相關關系,其中,海量數據表征了大數據技術的復雜非線性概率相關關系,技術則揭示出了海量數據給定的諸事實間的復雜非線性概率相關關系。大數據技術因果關系是一種復雜非正向線性非充分必然的弱因果關系。
大數據技術的相關性與因果性都指向數據給定的諸事實之外的其他事實,大數據技術相關關系指向的是概率性事實,大數據技術因果關系則指向原因事實。概率性事實和原因事實既可能是同一事實,也可能是一事實集或一事實序列。大數據技術相關關系根源于其弱因果關系,大數據技術相關關系的復雜性、非線性、概率性特征也根源于大數據技術因果關系復雜性、非正向線性、非充分必然性的特征。