文/林展 陳志武
當代新史學的發展,上發了“史料之革命”,擴展了史料的范圍,形成了多元的史料體系,進而也上發了歷史資料的“大爆炸”。這一發展的最新表現是歷史數據庫的大量出現。量化歷史在如何利用大規模數據庫方面,已經形成了較為完善的分析方法。本文希望在量化歷史研究步驟及其對歷史研究的價值這兩方面提出一些初步的想法。
量化歷史研究是交叉學科,是用社會科學理論和量化分析方法來研究歷史,其目的是發現歷史規律,即人類行為和人類社會的規律。量化歷史研究稱這些規律為因果關系;量化歷史研究的過程,就是發現因果關系的過程。
理解量化歷史研究的含義,一般需要結合三個角度,即社會科學理論、量化分析方法、歷史學。
第一個角度是量化歷史研究廣泛借鑒社會科學的理論。理論對于歷史研究的價值在于為分析、理解歷史提供一個基準和框架。這一框架能夠幫助研究者從紛繁復雜的史料中快速梳理出研究的起點、參照系或靶子,成為理解歷史的重要工具。
第二個角度是量化分析方法。這包括統計學、計量經濟學、人工智能等領域的方法。量化方法是不斷發展的,新的方法不斷出現,能夠處理的數據量越來越多、效率越來越高,發現的結論也會越來越可靠。目前在社會科學研究中,實證研究正在從統計推斷向因果推斷轉變,這種轉變被稱為“可信性革命”。這場革命的核心是基于隨機試驗的思想來獲得因果關系,即規律性認識。
第三個角度是量化歷史研究與歷史學的關系。兩者的關系體現在量化方法不是要取代傳統歷史研究方法,而是對后者的一種補充。量化史學同樣注重對歷史文獻的考證、確認,這一點沒有區別。
量化歷史是新史學的重要組成部分,盡管新史學有不同的含義,但一般都強調盡可能結合人文社會科學的知識和方法來研究歷史。隨著人文社會科學研究方法的量化程度大大提高,量化分析已經在社會科學研究中唱主角,在人文學科中的影響也越來越大。
典型的量化歷史研究大致分為五個步驟:提出問題和假說;尋找史料和數據;對數據進行量化分析,尋找因果關系;對發現的因果關系進行解釋和尋找作用機制;論文寫作。在此,我們以圍繞《新教倫理與資本主義精神》展開的量化研究為例,討論量化歷史研究的主要步驟。
在《新教倫理與資本主義精神》一書中,韋伯指出,新教倫理越強的地方,經濟可能越繁榮,這被認為是關于文化與經濟發展最重要的論斷。為表述方便,我們暫時稱之為“韋伯假說”。韋伯假說隱含了新教倫理可能影響經濟發展的途徑:一是新教徒工作更為努力;二是新教徒儲蓄更多,進而投資更多,從而提高了長期的生產率。上述兩種途徑使得新教倫理推動了資本主義發展。
但這只是解釋資本主義經濟發展的觀點之一。對于這一觀點,是否應該接受?如何來檢驗?如果基于史料,正如韋伯所發現的,新教徒數量越多的地方,經濟發展更好,就能斷定新教倫理推動了資本主義發展嗎?對上述問題的回答,構成了一項典型的量化歷史研究。
這一研究由兩位經濟學家貝克爾(Becker)和沃斯曼(Woessmann)完成。他們利用19世紀普魯士452個縣(郡)級政區的調查數據,發現新教徒占比越高的地區,經濟發展確實越好,這與韋伯的發現一致。但是,當他們將各地平均識字率的差別和新教徒占比的差別放到一起時,發現后者的影響消失了。他們認為,新教之所以推動了經濟增長,主要是由于馬丁·路德呼吁所有人自己去閱讀《圣經》并直接跟上帝對話,從而(意料之外地)提高了讀寫能力,促進了人力資本的提升。因此,是人力資本,而不是新教的思想倫理,推動了經濟的增長。
下面結合貝克爾和沃斯曼的研究和其他的量化歷史研究,對量化歷史研究的步驟進行詳細說明。
量化歷史研究的第一步是提出問題和假說。在韋伯假說中,研究的問題是新教倫理是否導致了資本主義的增長。相對于研究問題,假說則更進一步,認為新教倫理導致了資本主義增長。假說是對人類行為和社會規律的一個猜測(猜想)。這個猜測是對其關心的變量關系的一個明確表述。比如儒家文化阻礙了創新,儒家文化減少了社會沖突,等等。由于是假說,其可能會被數據所證偽。
上面的假說,基本上都涉及兩個變量,比如韋伯假說中,涉及新教倫理和資本主義經濟發展。在量化歷史研究中,把希望解釋的對象叫作被解釋變量,把用來解釋的對象叫作解釋變量。韋伯假說中的被解釋變量是資本主義經濟發展,解釋變量是新教倫理。影響資本主義發展的因素很多,這些因素和新教倫理共同影響了資本主義發展,為了發現新教倫理這個單一因素的作用,需要把其他影響因素的效果也揭示出來,排除出去。這些其他的影響因素,一般稱之為控制變量。
假說被提出之后,研究的路線圖也就形成了。一個假說需要證明解釋變量如何影響被解釋變量,因此首先需要對被解釋變量和解釋變量進行度量,然后通過量化方法尋求兩者之間的關系,以及對這種關系進行解釋。
即使在定性研究中,也存在大量的假說,只是由于研究者沒有特意強調,不容易被人察覺。傳統的歷史研究,避免帶著問題閱讀史料,那么量化歷史研究先提出問題和假說,再去收集整理史料的好處是什么?
首先提出問題和假說的好處,一是可以方便跟已有文獻對話,確定新的貢獻在哪里。史料可能證實也可能證偽提出的問題或假說,如果是證偽,已有的觀點會被推翻,則更容易形成重要的發現。定性研究的特點在于,常常會有很多的假說放在一起討論,這有利于揭示更多歷史細節,但不利于將復雜的歷史條分縷析,將其中的規律揭示出來。二是便于與不同學科交流,回答不同學科的重要問題。比如對韋伯假說的研究,雖然討論的是普魯士的情況,但其基本問題是文化如何影響經濟發展,研究者可以在這一問題之下,討論基督教在中國的發展、儒家文化等對中國經濟的影響。這不僅有利于在這些重大問題中提供中國經驗、中國故事,也有利于知識的積累。三是可以基于要驗證的假說,從被解釋變量、解釋變量和控制變量的角度,高效率地組織史料。最后需要指出的是,量化歷史在研究開始就提出問題和假說,但這不是預設結論,而是猜測,這個猜測可能被史料證實,也可能被證偽。
提出問題和假說之后,我們需要尋找史料來建立數據庫,即找到被解釋變量、解釋變量、控制變量等度量指標和數據。
在拿到相關的史料和數據之后,量化方法并非像很多批評所說的那樣,對數據和史料拿來就用,而是先從不同的維度對它們的質量進行檢驗。下面主要從量化歷史的角度討論如何理解史料,重點是理解史料的代表性問題。
在歷史研究中,拿到的史料往往只是所關心的研究對象的一部分,只能夠基于拿到的史料去開展研究。盡管隨著歷史大數據時代的到來,有時候可以拿到關于研究對象的全部史料,但這樣的情況還比較少見。基于研究對象的部分信息對研究對象的特征進行分析,是統計學研究的核心之一。這里就涉及總體、樣本和隨機抽樣的概念。
在統計分析時,把研究對象的全體稱為總體,每一個研究對象稱為個體,把從總體中抽取的一部分個體稱為樣本。什么對象是總體,取決于研究問題。如果希望知道清代中國的命案率,如果是以省為分析單位,那么每個省在每一年的命案率就是一個總體。如果只分析其中的一個或幾個省,就是樣本。如果只分析乾隆朝的命案,也是一個樣本。前者是基于空間、后者是基于時間的抽樣。
對于歷史研究而言,基于空間和時間的抽樣是非常常見的。一個典型的歷史研究常常會限定地域和時期。做這樣的限定,是為了避免將不同時期、不同地區的史料混用。這一方法有其特有的優勢,也是目前歷史研究中常用的方法,但從實證研究、發現規律的角度看,這可能會帶來選擇性偏差,研究結果不一定帶有普遍性。
選擇性偏差是指由于選擇的樣本不是隨機抽取的,所以不能基于這些樣本的特征推斷總體的特征。隨機抽取是指保證總體中每個樣本被抽中的概率都是一樣的。例如,不能夠基于江南的經濟發展水平去推斷整個中國的經濟發展水平。這樣的選擇性偏差非常明顯,也很容易被察覺,但歷史研究中,還有大量不容易察覺到的選擇性偏差問題。例如,傳統經濟史研究中的“選精”“集粹”問題,其實質就是一個基于樣本推斷總體的問題。
具體而言,如果我們希望知道北宋整個朝代的年均畝產量,那么北宋所有土地上每一年的畝產量就是一個總體。由于不知道這個總體的規模有多大,不妨做一個假定。假設北宋耕地有7億畝,平均每塊耕地面積為70畝,那么耕地數量就有1 000萬塊;再假設是一年一熟制,北宋總共存續了167年,那么理論上,北宋畝產量的觀察值應該有16.7億個;因此要精確地知道宋代的畝產量這個總體幾乎不可能。如果研究者拿到了16 700個北宋畝產量的歷史記載,那么這1萬多個畝產量占全體畝產量的比例約為十萬分之一。然而,這十萬分之一的樣本能否推斷總體呢?
由于研究者拿到的史料通常是樣本,但希望了解的是總體,如何由樣本推斷總體就成為挑戰。這種挑戰在定性和定量研究中都存在,盡管定性研究中不用這套術語,但不代表這個挑戰不存在。定量研究的好處在于,可以明確展示這種挑戰,同時利用已有的量化方法克服這種挑戰。
基于總體和樣本的理解,可以知道,歷史大數據或增加數據量,并不必然會解決“選精”與“集粹”的問題。應對選擇性偏差,基于非隨機抽樣的樣本來推斷總體的特征,是量化分析方法特別是計量經濟學分析方法的核心關注之一。
在提出問題和收集數據之后,第三步是量化分析。量化分析方法主要有三類。第一是對數據進行描述統計,主要包括數據的來源、處理過程,觀察值也即樣本量的多少,每個變量的統計特征,比如平均值、方差等。描述統計主要針對單個變量進行分析。這一方法比較簡單,在歷史學研究中較常見,不贅述。第二是相關性分析,主要分析方法包括畫散點圖、畫地圖、計算相關系數等。這一方法主要用于分析兩個變量之間的關系。第三是因果關系分析,通常使用多元回歸分析的方法,重點是處理內生性問題和發現作用機制。
提出假說實際上是提出一個相關關系。相關關系分為三種,分別指正相關、負相關和不相關。正相關是指兩個變量朝相同的方向變動,比如新教徒數量越多的地區,經濟發展水平越高。負相關是指兩個變量往相反的方向變動,比如儒家文化越發達的地方,發生暴力沖突的次數會更少。不相關是指兩個變量的變動沒有關聯。韋伯在《新教倫理與資本主義精神》中開篇就提到他所發現的相關性。這種相關性構成了這一專著的起點和基石。
韋伯顯然沒有滿足于只是發現新教徒數量與經濟發展之間的相關性,而是繼續追尋背后的因果關系。因果關系的基本含義是改變一個變量的值,就可以使另一個變量的值改變。相關關系不等于因果關系,相關關系中可能隱含有因果關系,也可能沒有,一般需要進一步證明。
學界早已注意到,在定性研究中,本身就隱含了眾多的因果推斷。由于通常情況下,歷史學家沒有明確意識到其中包含的某種函數關系,更難想到在可能的條件下用量化方法檢驗。這使得這些論斷,即使經過一定史實檢驗,陳述的時候也顯得缺乏說服力,經不住計量檢驗。
導致相關關系不等于因果關系的問題,一般也稱為內生性問題。造成內生性問題的主要原因,一種是遺漏變量,一種是反向因果。遺漏變量是指有一個變量在研究過程中沒有被考慮到,一旦這個變量被考慮進來,就能夠解釋為什么之前觀察的兩個變量之間存在相關關系。比如在韋伯假說中,一旦考慮到人力資本這個變量,就會看到新教徒數量與經濟發展水平之間沒有了相關關系。這時候的人力資本,就是一個遺漏變量。反向因果是指因果關系的影響方向與預判的方向是相反的,或者存在互為因果的情況。比如,在韋伯假說中,就可能存在經濟發展潛力越大的地區,越可能選擇新教。這時候就不能得出結論說是新教徒越多的地方,經濟越發展。
既然因果關系是研究的目的,因果推斷在定性研究中也很常見,那么,如何來進行因果推斷呢?
在自然科學中,可以通過重復試驗來解決這一挑戰。通過將影響實驗結果的其他因素都控制住,考察一個因素變動帶來的影響。在醫學中,一般要通過大樣本雙盲對照試驗發現因果關系,其背后的原理就是實驗方法。以醫學中對藥物有效性的驗證為例,在什么情況下,才能夠說一種藥物對于某種疾病有效?在新型冠狀病毒疫情治療案例中,一種藥物對某位美國患者有明顯的療效,是否就可以下判斷說這種藥物是有效的呢?這里面至少存在兩個問題需要解決,首先是這個患者不僅僅只服用了這種藥物,可能也服用了其他的藥物,或者是使用了其他的治療方式,到底是哪一種藥物或治療方式起作用,需要區分開,但是我們只能觀察到多個因素共同起作用的結果。其次是某些疾病即使是不吃藥,有些人也能自愈,因而就有可能遺漏掉患者會自愈這個影響因素。為了證明某種藥物的作用,通常需要做大規模隨機對照試驗。
歷史不能夠做試驗,但研究者發現,在某些情況下,歷史可以很好地充當實驗室。在量化歷史中,一般稱之為(準)自然試驗,即依靠歷史事件模擬隨機對照試驗,將歷史對象分為對照組和處理組。貝克爾和沃斯曼對于韋伯假說的檢驗就是利用準自然試驗的方法,這也是目前量化歷史研究中最為常用的方法。基于歷史自然實驗的思路,實證研究方法有工具變量法、差分方法、斷點回歸方法等。
上述發現因果關系方法的實現,都需要通過回歸分析。回歸分析是一種統計方法,通過建立統計模型,用一個或多個解釋變量來解釋被解釋變量。在量化歷史研究中,多元回歸分析是最為常用的方法。
還是以韋伯假說為例,我們能夠觀察到的是不同地區的經濟發展水平,但影響經濟發展的因素很多。基于經濟增長理論,直接原因有技術、物質資本、人力資本等,而根本原因則有制度、地理、文化等。這么多因素共同作用,影響了一個地區的經濟發展。如何將新教倫理與其他因素分離出來呢?如果觀察到一個縣(郡),新教徒的數量很多,但經濟發展較慢,能否就說新教倫理對于經濟增長起到了反向的作用,即新教徒數量越多,經濟發展越差,或者沒有影響。這里可能遺漏了另外的影響因素。具體來說,假如新教倫理平均可以讓經濟增長快1%,但另外一個因素可以讓經濟增長慢2%,最后,雖然看到一個地區新教徒數量很多,但是經濟增長還可能是負的。出現這樣的問題,正是因為遺漏了重要的其他影響因素。多元回歸分析正是將重要的影響因素都盡可能考慮到,并將不同因素的影響剝離開的方法。
通過上面步驟建立因果關系后,還需要知道為什么這種因果關系會發生,即作用機制是什么。在對“韋伯假說”的論證中,貝克爾和沃斯曼發現新教徒數量越多的地方,經濟增長越快,起作用的機制是新教徒的識字率更高,而不是新教倫理。
機制研究是量化分析的核心組成部分,其價值在于揭示發現的因果關系是如何起作用的,其原理在哪里,也是對因果關系的進一步支撐。對于作用機制的分析,一般需要從三個方面進行。第一,起作用的機制變量,比如人力資本,必須與解釋變量高度相關,即新教倫理越高的地方,人力資本應該越高。第二,需要說明機制變量與被解釋變量高度相關,即人力資本越多的地方,經濟發展狀況更好。第三,需要說明,當同時考慮作用機制變量和解釋變量之后,解釋變量的解釋力變小或消失,即系數在統計上顯著性下降或不顯著;而機制變量有很強的解釋力,即系數在統計上顯著。也就是說,當不同的解釋出現的時候,最好的辦法是使用“賽馬模式”,將可能的解釋變量都放到同一個多元回歸模型中進行分析。
量化歷史是新史學的重要組成部分,量化方法對歷史學的價值主要體現在三個方面。
一是應對歷史大數據的挑戰,幫助分析復雜的歷史。隨著大規模史料的出版、公開、數據庫化,歷史大數據時代已經到來。
歷史大數據包含兩層含義。第一是史料接近全樣本,也就是可以掌握研究對象的總體。比如關于清代官員的信息,由于有縉紳錄和地方志,清代中后期絕大多數官員的信息都能夠得到還原。根據前述樣本與總體關系,隨著歷史學家掌握總體,統計推斷帶來的挑戰會下降,但因果推斷的挑戰依然存在,需要應用最新的量化方法來應對。第二是數據量巨大。比如,僅清代刑科題本檔案就有近65萬件。歷史大數據出現之后,使用定性方法顯然難以將這么多的數據作一個整體分析,從中得出經驗性的認識,但量化分析方法卻可以較好地應對這種挑戰。因為數據量的加大很大程度上只是對計算機計算能力提出了更高的要求,而量化分析的基本原理沒有發生大的變化。
二是識別歷史的長期影響,形成貫通性認識。歷史的長期影響,是人們關心歷史的重要原因。今天很多重要的社會結構性特征,都與歷史有關。比如,儒家文化對今天中國人的影響。那如何識別出歷史的影響呢?實際上,在量化歷史研究中,有很多這方面的研究,一般被稱之為“遺產(legacy)”研究。
一個例子是科舉制度的長期影響。陳婷等結合歷史上的科舉數據、今天的統計數據和大量微觀調查數據,發現科舉制度即使廢除了,那些歷史上出進士較多的地區,今天平均的受教育年限更長,對教育的重視程度更高。之所以產生這樣的影響,主要是由于對教育觀念的重視。
量化方法對歷史長期影響的分析,也有助于形成貫通性的認識。盡管強調時間性和打通斷代是歷史學研究的重要訴求,但中國悠久的歷史留存下來的史料汗牛充棟,要從中對某些歷史特征進行長時段的描述,具有挑戰性。這種困難,通過簡單的量化分析,就可以得到緩解。基于時間序列數據和面板數據,可以快速地對歷史時期非常重要的歷史事件進行長時段的描述、與世界其他地區已有的研究進行對比。更重要的是,這有助于改善知識創造和積累的方式,以后的學者可以在此基礎上作進一步的推進,而不需要從頭開始閱讀史料。
三是推動歷史學與社會科學的交流與對話。史學被認為是一切社會科學的基礎,應該成為社會科學理論創新的源泉,但從實際情況看,史學還沒有起到應有的作用。
量化歷史直接從問題和假說出發開始研究,這些問題和假說也受到不同社會科學的關注。如果假說得到證實,由于歷史提供的實驗室,使得理論被接受的可能性和可靠性得到增強,基于中國歷史的例子也可以很好地融入社會科學理論之中。如果假說和理論被證偽,則會更好地推動理論的修改,形成重要的理論創新,這正是社會科學真實的發展過程。比如,諾貝爾經濟學獎得主米爾頓·弗里德曼等人通過對1867—1960年美國貨幣史的量化歷史研究,推導出了著名的貨幣層次理論及貨幣供應理論,是對經濟學理論的重要貢獻。當然,歷史的作用不僅僅是社會科學理論的實驗室,對于理論的證實和證偽還可以從不同的角度增進對歷史的認識。
隨著歷史大數據時代的到來,如何高效處理大規模史料并從中獲得規律性認識,是當代歷史學面臨的新挑戰。量化方法經過數十年的發展,已經在應對大規模數據庫、發現因果關系方面走在了前面。將量化分析方法和歷史大數據結合起來,是新史學的重要內容,也是一種必然趨勢。
強調量化歷史研究的優勢,并非意味著這些優勢很快就能夠實現,一項好的量化歷史研究需要很多條件的配合,也需要大量堅實的工作。而量化歷史研究作為一個新興的領域,仍然處于不斷完善的過程之中。在使用量化歷史研究方法的過程中,也需要注意其適用的條件,任何一種方法都有其適用的范圍和局限,一項研究的發展也需要學術共同體的監督和批評。量化方法作為“史無定法”中方法的一種,在歷史大數據時代,作用將越來越大。