馬健文
【摘要】復雜性科學與大數據技術誕生于本世紀之交的科技革命,復雜性科學和大數據技術相繼出現。大數據技術被一些學者認為是復雜性科學的技術實現,復雜性科學是大數據技術的理論表述。大數據應用于復雜性科學研究已成熱議,然而大數據技術是否符合復雜性科學理論的全部特質還需要細致的考量。這里從理論和技術兩方面入手,以前者為主。理論上,通過比對二者的特征差異進行考量。技術上,分析具體實踐應用難題。
【關鍵詞】大數據 復雜性科學 線性與非線性 可逆性與不可逆性 路徑依賴
一、復雜性科學概述
早期自然哲學伊始,人類就不曾停下探尋世界本原的腳步,盡管各家對世界本原的構成之物眾說紛紜,但無一例外都贊同有所謂的世界本原的存在。按照尋求本原的方法論傳統,哲學家們得出了比較貼近近代物理學的說法。認為物質可以無限制的拆分成更小的構成部分,直到最小的世界本原。這種哲學思想就演變為后來的還原論的科學方法。
復雜性科學是系統科學理論的分支學科,系統科學理論源生于貝塔朗菲的“一般系統論”。正如哲學家西蒙( H Simon)闡明的那樣,“一般系統論”在經過一個良好的開端后,因缺乏來自具體科學成果的供給也開始走向死亡。正因如此,哲學家和系統學家開始為系統科學理論尋求新的出路,于是作為一種新的發展方向的復雜性科學誕生。“復雜性的概念,它指的是復雜系統內部關系和外部關系的某種基本性質,并著重從信息、描述和計算的角度來研究這些性質。例如系統元素及其關系的多樣性,這些聯系或關系的纏結性、非線性、多層級性和非對稱性,以及這些關系處于有序與混沌之間的邊緣性都指的是復雜性。”
若采取比較容易的理解方法,可以從與之相對的牛頓的機械還原論入手,牛頓認為物質是由微小粒子通過機械線性疊加而成,世間萬物均可以如此分成更細微的事物,直到構成世界的最小微粒。牛頓的理論學說建立在決定論的簡單性原則上,經典力學認為線性疊加態是萬物固有模態。然而隨著現代科學的演化,這種線性思維越來越多的暴露問題。簡單系統在現有宇宙系統中只占少部分,物質更多的是處于復雜系統當中。簡單系統的線性思維在面對有機生命現象和主體自我意志系統之時往往無能為力,因為傳統的機械力學將構成事物的各部分視為孤立靜止的要素。
傳統還原論認為事物具有線性疊加性,因而可以通過仔細探究這些細小的部分,來達到了解整體的目的。這種窺斑見豹的思維方式對近代科學探索大有裨益,但在隨后的深入研究中遭遇瓶頸。由此萌生了復雜系統的思維路徑,轉向與牛頓機械還原論相對的學科走向。
為了避免傳統還原論科學的局限性, 復雜性科學依照整體論和非還原論的方法論。復雜系統具有中等數目并基于局部信息做出的行動智能型、自適應性主體系統。簡單系統各部分具有均衡性,而復雜系統中的個體具有智能性,且其中一部分的變化并不能引起整體比例性的變化。能夠精確預測月食時間,但卻無法精確預測天氣現象的事例充分表明了這一點。相比前者,后者的系統內部不是線性疊加的,而是局部自適應和不均衡的,因而機械還原論的方法不再具有適用性。
二、大數據時代的思維方式
大數據時代的到來,引發各個領域不同程度的變革。大數據帶給現今人類社會算法的革新以及認知的變革。這表現為三個方面:第一,由隨機抽樣采集到研究全體數據的變革。第二,由力求高精準到找尋大致范圍的變革。第三,由熱衷因果關系到追求相關關系。
(一)隨機抽樣采集到研究全體數據
大數據處理技術來源于信息爆炸產生的計算超負荷的技術難題,后受商業利益驅動,而逐漸發展為一種互聯網商業模式。
算法問題的解決使得無法得到理論證明得到了充分的數據支持。大數據思維,開始將問題納入量化維度。理念的變革帶來數據運用方式的變革,原有少量抽樣數據的信息獲取方式被遍取式的數據測量模式所取代。這不僅能夠寬泛全面的獲取信息,還可以幫助提升信息的精準度,使得事物細節充分顯現。
(二)高精準到找尋大致范圍
數據總量的提升固然能將想要把握的事情進行更加細致的描摹,但數據的海量性勢必造成數據的參差性。這種摻雜進來的細微瑕疵難以導致最終結果的大范圍變動,因而適當放寬結果的精準度不會在根本上顛覆研究的結果。這種方法與建立在小數據基礎上的精確技術不同,海量的數據樣本的采集使得小的讓步與犧牲成為可能。
(三)因果關系到相關關系
從找尋因果關系轉向探索相關關系是人類思想變革的一個重要飛躍,因果關系模型歷來是哲學學者爭論的焦點,黑天鵝理論使得因果關系確證性受到極大沖擊,進而使科學的真理性問題備受爭議議。大數據時代的來臨,為各領域的發展提供了新的思考方式,一場由熱衷因果關系到追求相關關系的認識變革悄然發生。從追問“為什么”到追問“是什么”,復雜性系統十分經濟的解決著社會所面臨的問題。
在具體科學實踐中,因果關系的找尋十分艱難,現在大數據所提供的新的思維方式節省了探究因果關系的步驟。人們轉到因循相關關系路徑,不再過分重視事物緣由,然而這不意味著拋棄因果關系,而只是將相關關系作為一種更加便利、快捷、經濟的思考途徑。相關關系也許不能準確告知事件的發生原因,但卻能夠為事件的發生及其走向提供重要的跡象。“在許多情況中,這種提醒的幫助作用已經足夠巨大。”相關關系雖然給予了解決問題的新啟示,但相關性思維能否抵消掉復雜性科學中獨立個體的自適應情境始終是認知有效性討論的一大障礙。
盡管相關關系的思維方式與復雜性科學的理論內核存在著高度相似性,但能否將大數據思維用于復雜性科學問題的解決還需要通過具體應用實踐中理論特性的比對來加以考證。
三、大數據用于解決復雜性科學
(一)大數據解決復雜性科學的淺層合理性
復雜性科學與大數據技術誕生于本世紀之交的科技革命,二者理論、特征、思維和歷史進程上均有較大關聯。從科技史的角度來說,科學與技術的發展不具有同步性,呈現為交互的推動模式。科學理論倚賴先進技術的檢驗,技術沿革能夠帶來驗證方式的精確化,同時填補理論漏洞甚至破解理論困境。同時,技術領域的進展,有時以科學理論為誘因,以科學理論導引新技術。
也正因為復雜性科學和大數據技術出現時間的歷史相繼性,一些學者將大數據視為復雜性科學的技術實現;相應的,將復雜性科學視為大數據的理論表述。此種意義上可將二者視為系統性理論的不同分支,但這不能成為大數據理論適用于復雜性科學的理由。
就特性而言,二者確有高度契合性,但深入的研究分析便可以發現其中的嚴重分歧。如果未經深入探究與思考,鑒于大數據與復雜性科學的特征的相似性,很容易就過于樂觀的認為可以將大數據的技術用于解決復雜性科學問題。然而,這種技術應用目前不但在實踐環節毫無進展,在理論本身也是存在巨大問題,理論上大數據能否用于解決復雜性科學問題很需要業內學者的關注與探究。
(二)大數據解決復雜性科學的深層理論缺憾
正如前文提及的那樣,就大數據技術能否運用于解決復雜性科學問題需要細致的考量分析。從二者比較明顯突出的特征差異著手,可以初步的得出一些理論與技術不協調、不適用的結論。這樣的分析研究對于調整復雜性系統理論的研究路徑具有重要意義,對于大數據的技術革新,還有復雜性系統理論的匹配技術的探索有很強的推動力。
大數據與復雜性科學在三組特征的比對中可發現明顯差異,這樣的差異性、不相適應性可以表明大數據技術應用于復雜性科學的障礙,而且這種差異性、不相適應性表現出一種無法顛覆的理論本質上的缺憾。這三組差異特征分別是可逆性與不可逆性;線性與非線性;路徑依賴原則與均勻彌散化原則。下面從這三個方面進行分析討論。
(1)不可逆性與可逆性。“發現自己處在一個可逆性和決定論只適用于有限的簡單情況, 而不可逆性和隨機性卻占統治地位的世界之中”。[ 伊·普里戈金、伊·斯唐熱:《從混沌到有序》[M],曾慶宏、沈小峰譯,上海:上海譯文出版社,2005年,第26頁。]因此,“物理科學正在從決定論的可逆過程走向隨機的和不可逆的過程”。近代物理學還原論的無限可分原則以及局部性原則沒有把時間與空間納入科學探究的考察范圍,以至于走向了極端,并認為數學模型可以將宇宙中的一切事物進行量化計算。但這種論斷隨著宇宙學的發展而不斷遭到打擊。
宇宙學熵熷理論的創立使得各門學科誕生了新的理論研究模型,通過反證法,熱力學三大定律的不可逆性被廣為接受。于是在簡單系統之外又發展出了復雜系統,正因復雜系統的不可逆特性以及它與簡單系統的截然對立性,使得復雜性科學受到越來越多的關注。新興的大數據技術作為數據的堆疊并不存在時間先后的壁壘,大數據尋找數據與事物關聯性的作法排除了因果性中的的前后相繼性。由此,可以簡單推斷出大數據計算技術的可逆性特征,所以大數據對復雜性系統做出的逆向預測是無法得到驗證的,因而也無法作為結論來進行進一步推演。
大數據時代海量數據運算的現實特性能夠模糊計算過程同時達到理想結果。如若世界本真的按照因果原則進行演化,那么大數據技術不僅無法為多因一果以及多果一因的情勢提供解讀路徑,而且數據處理過程也因呈現黑匣狀態而無法得到認知。正如查爾斯·漢迪所說:“你不能認為未來是過去的延續……因為未來將會不同。這確實有必要拋開在過去所用的方式,以適應未來。”
(2)非線性與線性。這一組特征與上一組有著巧妙的聯系性,線性原則與可逆原則可以視作是在不同方面對同一事物的表達。一個系統遵從線性原則,那么它亦是可逆的。如果一個現象是可逆的,那么它必遵循線性原則,二者互為充要條件。所謂的線性原則就是把構成整體的各部分視為不具自主性的部分,研究其中的一部分便可得知整體情況。
復雜性系統是非線性的,它不具有簡單的加和性,而大數據技術中的每個數據都是獨立的構成單元具有線性疊加性。雖然大數據也可以通過擴大數據總量來模擬非線性特征,但大數據技術的本性是線性的。用本性為線性的大數據技術去解決非線性的復雜性系統科學是荒謬的。對于非線性系統而言,所有微小的差別在系統中都會經歷路徑的非線性放大。但大數據技術卻無法做到這一點,盡管可以創造出一個相似的數學模型并模擬出非線性放大形式,但是無法確定這個數據非線性放大路徑,如果計算出的輸出結果與復雜性系統的現象相契合,那也只不過是“小”概率事件。
(3)均勻彌散化與路徑依賴。復雜性系統大多只具有局部有序性,這也是近代物理學可以運用線性原則來進行預測的原因,而在大布局上呈現混沌,宇宙學中的熵熷和大爆炸理論模型就是很好的例證。復雜性系統通過各部分的自適選擇從而達到均勻的彌散化。大數據技術,如上所說是無法進行事先路徑選擇的,不過這與大數據路徑依賴的特征并不矛盾。運用大數據進行預測需要事先設定一個合理的模型,其實就是為這些數據的計算輸出設計一個運行路徑,在這之后數據按照路徑進行分布性的預測。值得注意的是,數據、路徑、輸出結果,在模型建立之初就已被確定,其結果輸出需參照以上變量。而復雜性系統的各個部分均具有自適性,并進行著不可逆的非線性運動。若想將大數據技術應用于復雜性科學,那么路徑選擇難題將是無法逾越的障礙。
經過一系列特征差異的比較,大數據技術作為解決復雜性科學的新方法無論在理論上還是技術層面,都存有適配性難題。從哲學層面來講,大數據用于解決復雜性系統科學的方法有兩種:其一是基于大數據技術,建立能夠匹配適應復雜性系統的新型輸出模型;其二是無限擴大路徑選擇方案的樣本,用海量的數據選擇來盡可能囊括事件發生的可能性。以上兩種解決方案各有其弊端,以大數據模型為根基建立新型自適性模型要跨越兩種模型的范式差異。第二解決方案的實現需要建立在大數據技術運算能力的革新,就目前的運算水平與速度來講,還難以達到如此高的樣本處理能力。
參考文獻:
[1]齊磊磊.系統科學、復雜性科學與復雜系統科學哲學[J].廣州.系統科學學報,2012.
[2]維克托·邁爾—舍恩伯格,肯尼思·庫克耶著.大數據時代:生活、工作與思維的大變革[M].盛楊燕、周濤譯,浙江:浙江人民出版社,2012.
[3]伊·普里戈金,伊·斯唐熱.從混沌到有序[M].曾慶宏、沈小峰譯,上海:上海譯文出版社,2005.
[4]黃欣榮.從復雜性科學到大數據技術[J].長沙理工大學學報,2014.
[5]郭元林.論復雜性科學的誕生[J].自然辯證法通訊,2005.