文/陳志武
量化歷史研究的過去與未來
文/陳志武
2013年,筆者與清華大學龍登高、倫敦經濟學院馬德斌、香港科技大學龔啟圣等教授一起舉辦了第一屆量化歷史講習班。之后,我們每年辦一屆。與4年前相比,國內學界對量化歷史研究的認知和興趣已有了很大的變化。雖然參與過講習班和量化歷史年會的同仁還未必都能用量化方法研究歷史話題,但至少都了解到了量化方法的優勢和不足,當然也不乏對量化史學存有質疑的。
按照經濟史學者諾斯的追溯,用量化方法研究經濟史問題大致起源于1957年,當時幾位學者嘗試研究美國黑奴歷史的經濟邏輯。隨后,量化方法也用到了其他歷史研究領域,包括諾斯對歐洲政治制度史、西波拉對西方的教育史與宗教史的研究。到1960~70年代,量化史學變得流行,這股風潮后來有所消退。但是,1990年代中期后,新一輪量化歷史研究熱潮再度崛起,引人注目。就以國際五大量化歷史數據庫為例,2006~2010年間,新發表的學術論文中運用這些數據庫的就達2360余篇。催生新一輪量化歷史研究的經典作品主要來自經濟學領域。而且,在如何利用大數據論證歷史假說方面,經濟史學者做了許多方法論上的創新,改變了以往社會學家、人口學家只注重歷史數據描述性分析、相關性分析的傳統,將歷史研究進一步往科學化的方向推進。
今天,計算機和互聯網已相當普及,不僅許多歷史資料的數據庫化變得可能,而且使這些歷史數據庫的跨地區、跨國共享成為可能。在互聯網上有數不清的各國歷史資料庫可以免費得到,用起來方便,成本也低。這是以前的歷史學者做夢也想不到的。
當然,眾多量化歷史數據庫只是研究的基礎,關鍵要看研究方法與分析框架是否跟得上。許多同仁說:量化史學不是曾經時興一段,但后來勢頭下降了嗎? 這次為什么會不同呢? 我們必須看到,1980年代之前電腦沒有普及,更沒有互聯網,那時整理歷史大數據很難,做統計回歸分析并檢驗假說也很難。但是,現在沒有這些問題了。今天“大數據”是個時髦話題,可是,很多人沒有看到歷史資料是真正的大數據。比如,僅清代刑科題本檔案就有近60萬本,平均每本大約30頁手稿,加在一起就是1800萬頁資料。更不用說其他明清及民國期間留下的奏折、公文、實錄、文書、契約、方志等史料,加在一起至少有數億頁。如果舉一個極端例子,正如哈佛大學包弼德( Peter Bol)所說,僅2013年那一年,世界上的網站數量超過5億、共480億網頁,相當于6720億GB 的信息量,是所有美國圖書館藏書總和的50萬倍!將來研究今天世界史或中國史的學者會如何作為呢?
首先要看到,采用細讀個案的傳統歷史方法,不僅會讓我們偏重樹木而忽視森林,而且,在歷史資料規模超過一定水平時,這種方法很難行得通。海量歷史資料帶來兩個現象:一是近代史比遠古史更難研究,因為明清資料太多而古代資料很少。因為傳統方法強調細讀一手史料,遠古資料少,使其相對可行,近代史海量資料反倒使其不好研究,只有靠引入新的研究方法才能改變這種奇怪局面;另一現象是由于傳統方法強調個案細節、不強調大樣本,但歷史上的社會現象又錯綜復雜,研究者很多時候都能根據需要挑選到“合意”的歷史案例。所以,在不同學者根據需要去找合意個案的習慣下,得出的結論當然各異。于是,就有了“歷史被任意打扮”的嫌疑。我們需要改變這些現象,這就要靠大樣本量化方法。
中國歷史資料豐富,這是中華文明的優勢。但是,要發揮這種優勢、增加我們自己乃至全人類對我們過去的認知,就必須改進研究方法。量化歷史方法既受益于現代互聯網技術,也受益于現代社會科學分析范式的進步,是歷史研究領域的與時俱進。
接下來,本文分別回答以下幾個常見疑問:第一,量化歷史方法跟傳統歷史方法是什么關系? 第二,歷史能夠量化嗎? 第三,1990年代末期以來的量化歷史研究方法跟之前的量化方法區別在哪里? 最后,量化史學除了證明或證偽傳統史學提出的假說外,能帶給我們對歷史的新認知嗎?
量化歷史方法不是要取代傳統歷史研究方法,而是對后者的一種補充,是把科學研究方法的全過程帶入歷史領域。整理考證史料、注重文獻是歷史學研究的傳統,量化史學同樣注重對歷史文獻的考證、確認,這一點沒有區別。如果原始史料整理出了問題,不管采用什么研究方法,由此推出的結論都難言可信。兩者差別在于量化方法會強調在史料的基礎上盡可能尋找其中的數據,或者即使沒有明顯的數據也可以努力去量化。
不管是自然科學還是社會科學領域,科學研究方法的基本流程是一樣的。其中,第一步是提出問題和假說。第二步是根據提出的研究問題和假說去找數據,或者通過設計實驗產生數據。第三步是做統計分析、檢驗假說的真偽,包括選擇合適的統計分析方法識別因果關系、做因果推斷,避免把虛假的相關性看成因果關系。第四,根據分析檢驗的結果做出解釋,如果是證偽了原假說,那原假說為什么錯了?如果驗證了當初的假說,又是為什么?這里挖掘清楚“因”導致“果”的實際傳導機制甚為重要。為給出令人信服的解釋,既可通過統計方法認證邏輯傳導機制,也可通過簡單數學模型驗證傳導機制的邏輯一致性。第五步就是寫報告或者文章,把科學過程研究出的結果報告出來。
傳統的歷史研究范式基本停留在上述科學方法的第一步和第二步,也就是要么先提出問題或假說,覺得“歷史應該是這樣”,然后去找歷史中的個案或少數幾個案例,只要假說與這些個案相符,就認為假說對歷史的解釋是成立的。或者,先通過對歷史個案的透徹研究,學者得出關于歷史現象中因果關系的假說或猜想,認為歷史中就是這樣由這個“因”導致那個“果”的,然后研究就到此結束了。——但是,從上面講到的科學研究流程來看,這顯然只是研究過程中的一步或兩步,不是全部過程。史料整理是建立歷史數據庫的基礎,在沒有經過大樣本的檢驗之前,這些假說和猜想還僅僅是一種假說,不一定真的成立。
量化研究是在傳統研究方法的基礎上,把科學方法中的第二步(收集大樣本數據)做好、做完,并且把第三、第四步也做完。只有這樣得到的歷史現象背后的“歷史規律”,才讓人能接受,才能避免“以偏概全”。所以,量化歷史方法是對傳統方法的補充,而不是取代。量化歷史研究也不只是簡單的“用數據說話”。數據是量化研究的基礎,但這只是其中一個環節,同樣重要的是要根據歷史大數據對我們感興趣的猜想進行統計檢驗,看這個猜想是否能得到大樣本的支持,而這一點是傳統歷史方法難以做到的。過去,胡適也講過“大膽假設,小心求證”,只不過當時他所講的求證,還只是一般的尋求證據(主要是文獻方面的),并不是統計學分析與大樣本檢驗。
一個經常聽到的問題是:歷史能夠量化嗎?這問得有道理,因為許多歷史現象和因素確實難以量化,即使是今天,有許多事物包括情感等因素都難以量化。但是,難以量化不等于都不能量化,尤其不等于要放棄想象力、放棄創新的努力。只要努力創新,很多因素還是能夠量化的,盡管有時候并不一定那么完美。
以香港科技大學龔啟圣和山東大學馬馳騁最近的一份研究為例,他們的核心問題是如何測度儒家文化的影響并評估其實際貢獻。他們嘗試用間接代理指標來量化“儒家文化影響的強弱”。其研究的目標是清代1644~1910 年間山東107個縣的農民暴動情況,看儒家文化是否會顯著降低各地遭遇災荒沖擊時農民暴動的沖動。通過檢索《清實錄》等資料,他們發現,清時期山東南部各縣農民暴動最頻、次數最多,其次是青島周邊山東東北角的這些縣;而孔廟數量的分布則倒過來:中部各縣孔廟數量最多,以南部和北部縣為最少。在排除各種其他因素的影響之后(包括每個縣的收入水平、起初發達程度、教育水平、社會流動性等),受儒家文化影響越深的縣(即孔廟數量或列女數量越多),即使遭遇災荒沖擊(通過糧價高低測度災荒嚴重度),其在清代農民暴動的頻率也更低,尤其以南部縣域孔廟少、暴動頻,中部縣域則反之。之所以有這樣顯著的結果,機理在于:儒家文化影響深的地區,家族宗族網絡越強,在面對災荒沖擊時宗族內部互通互助的程度就越高,亦即隱性互相保險的程度就越強;這就減少災荒迫使農民走投無路、求助于暴力的必要性。在缺乏保險市場等金融產品的社會里,儒家文化就是這樣促使社會穩定、減少暴力沖突的。或許我們可以對他們的量化研究提出質疑或者提出改進建議,但是,他們的創意價值顯而易見,不僅增加了我們對清朝歷史的理解,而且給我們提供了研究儒家文化以及其他文化的新方法,深化對文化影響社會、影響生活的機理的認知,不再泛泛而談。當然,我們可以列舉更多文化史量化研究的著作,但基本結論是一樣的:有許多表面看上去不能量化的研究課題,其實只要我們發揮想象力,還是可以找到代理變量,或者通過創造性研究設計把不容易量化的研究變得可以量化。
1950年代以及之后的幾十年里,如果歷史學者能用數據說話,那可能就算很前沿的量化歷史研究了。諾斯、麥迪森、西波拉等歷史學家,以及中國史學界的吳承明、趙岡、郭松義、李伯重等史學家,都是這方面的開拓者,包括估算GDP、收入、識字率、經濟規模、耕地面積、城市化率、家庭數據等等。他們通過收集資料、量化各種指標,然后計算相關系數或者通過畫圖展示相關性,并把相關性看成因果關系,得出結論。相對于早期的定性研究而言,他們做的已經是非常量化的研究。當然,我們知道相關性不等于因果關系,他們做的主要是描述性的,完全的量化研究必須做更多,需要對因果關系進行統計檢測。
也正因為以上原因,許多歷史學者就說“量化史學只是把歷史學家已經知道的結論用數據說一遍”!但這是一個比較普遍的誤解。統計檢驗的價值之一是讓我們在針對同一歷史現象的多種假說中排除一些假說、支持一個或幾個其他假說,而如果沒有量化檢驗的方法就很難做到這一點。比如,最近南京師范大學地理學教授吳慶龍領導的考古學家和地質學家團隊在《科學》( Science) 雜志發表一篇文章,稱已經找到發生過一場大規模洪水并由此導致夏朝誕生的證據,說這可能就是一些中國史書中提到的那場大洪水。之所以大洪水會發生,是因為地震引起山體滑坡,形成了橫跨黃河的巨型天然堤壩,使從青藏高原流過來的黃河水無法穿過積石峽,這樣,在6至9個月時間里,河水都匯聚在壩體后邊新形成堰塞湖。接著,壩體在湖水漫過壩頂之際迅速潰決,這是過去一萬年來規模最大的洪水之一。潰壩洪水可能向下游奔涌了2000公里之遠,沖毀了黃河的天然河岸,令許多地方被淹,甚至導致了黃河改道,使接下來的治水挑戰史無前例,催生夏朝的形成。
我們姑且不管吳慶龍教授團隊的結論能否最終得到更多證據的充分證明,他們的研究之所以引起轟動,就是因為到目前為止還沒有考古證據直接證明夏朝的存在,同時關于其存在過的假說很多。那么,如果有任何考古證據排除其中一些假說并同時支持另外一些假說,其學術貢獻就很大。
許多歷史事件的解釋也面對同樣的挑戰:假說或學說很多,但難以找到公認的方法和證據排除一些、保留另一些。比如,關于傳統中國社會的高利貸,解釋就很多,既有剝削論,也有道義經濟論、市場供需關系論等等。那么,到底哪一種假說更接近真實呢?以前,許多歷史學者通過個案做了解釋或佐證,但不管清代、明代還是其他朝代,借貸交易全國每天有千千萬萬起,交易關系和交易結局千差萬別,佐證學者自己觀點的例子應該都能找到。所以,各種學說都有提出,都難以被否定。但是,哪種假說最能反映其中的主要規律呢?陳志武、林展和彭凱翔利用清代1732~1895 年間刑科題本中近5000命案記錄,對民間借貸雙方的關系進行了定量分析。他們發現,在借貸糾紛引發的命案中,一旦借貸利率高于零,被打死方為貸方的概率為60%,而且利率越高,被打死的是貸方的可能性也隨之增加,這說明一旦發生債務違約,貸方面對包括生命風險在內的違約成本是不對稱地更高。這一發現與傳統“高利貸剝削”論和放貸者“超經濟強制”論的推斷相反,道義經濟論可能最接近歷史真實,因為在他們的借貸命案大樣本中,如果借貸是無息,被打死的一方更可能是借方,但借貸利率越高,被打死的一方越可能是貸方。而之所以是這樣,一個重要原因還是在于哪一方有“道義制高點”、“哪一方理虧”。這些基于量化研究的結論,一方面說明歷史現象遠比簡單假說要復雜,另一方面說明高利貸的成因之一是民間借貸背后包含了不小的生命風險,這些高生命風險迫使借貸利率必須高,否則沒有人愿意把錢放貸出去,這符合我們今天熟悉的市場邏輯。如果忽視契約執行時可能的暴力沖突所要求的風險溢價,人們可能難以完整解釋民間借貸的高額利率。
有一個流行的說法,“量化歷史研究只能對已有的假說做認證,但出不了新東西”,筆者用自己近幾年的一些合作研究說明這一點。
在學界甚至社會中,對中華文明的悠久歷史論著很多,也有大量中西文化對比的論著,但是這些論著基本停留在對中西文化經典的對比、定性討論上,沒有落實到具體的量化指標上。各文明的經典之所以為經典,是因為它們匯集了人類真善美的理想愿景,反映了各版本的“仁義禮智信”,所以,如果只是停留在基于價值觀的定性判斷上,的確難以有令人信服的比較結論。于是,就有了文化多元論的說法,“不同文化各有各的好”。但是,一個文化體系的優劣、一個社會文明還是不文明,最好是依據量化業績指標來評估。而在這一方面,經濟史文獻做的比較多,從斯密到馬克思、韋伯、諾斯以及包括Acemoglu、Johnson、Robinson在內的新一批經濟史與社會史學者,都以經濟表現尤其以生產率的量化指標對文化體系做評估比較,于是,哪個文明體系下的人均收入、城市化水平最高或增長最快,那么,哪個文明體系就最優。可是,除了物質收入、貨幣化收入之外,人類關注的還有“安全感”“幸福感”這些未必跟物質收入100%相關的發展維度。比如,社會是充滿野蠻暴力、缺乏安全感,還是平和、安定? 這些維度可以落實到文明化的具體數據指標上,比如每年每10萬人口中有多少死于兇殺等暴力,一個“更文明”的社會應該是命案率更低的社會,“文明化”應該是一個命案率、暴力率不斷降低的歷程,而文字上“文明了”并非等于事實上的文明化。關于暴力史的研究,到目前基本都集中于歐洲社會,比如Gurr、Eisner、Elias 等,他們發現,自1200年以來,歐洲社會的命案率大約下降了60 到100倍,文明化進程顯而易見,普通歐洲人的安全感顯著提升!但是,關于中國的普通暴力史、命案率史,就我們所知,還是一個空白,沒有系統的研究。
基于此,陳志武、彭凱翔和朱禮軍做了嘗試,利用清代命案要案檔案中的黃冊統計和題本數據等資料,建立并研究了1661~1898年間清代的命案率歷史。他們發現,從康熙朝到嘉慶朝末年,中國命案率(不包括戰爭死亡)一直呈上升趨勢,1820年后開始下降。可是,即使在普通人命案率達到高峰的1820年左右,每年10萬人中只有1.6個死于一般暴力,而西歐同時期每年每10萬人有4到8個死于一般暴力。也就是說,雖然歐洲自中世紀中期開始命案率一直在下降、文明化進程在進行,但是,到17至19世紀,其暴力死亡率還是遠高于同期的清朝中國,到19世紀末才接近中國。在這個意義上定義的“文明化”程度,西歐社會落后于中國,后者比歐洲社會更顯得“溫情脈脈”。
雖然在比較中國和西歐普通人、普通社會的命案率時有以上發現,但是,在更高制度建設層面,結論又大為不同。陳志武和林展對中國自秦朝以來658位皇帝是如何死的進行了系統研究,發現38%左右的皇帝死于非命,其中71%是死于親戚或宮廷大臣之手。歷代皇帝的平均統治時間為12.5年。在中國朝代歷史中,每年皇帝死于非命的概率大約是3.1%,比普通人死于非命的概率高1000多倍。按照劍橋大學對現代戰場的定義,每年死亡概率超過0.5%的地方就是“戰場”(battlefield),那么,中國歷代皇宮里死于非命的概率是現代戰場標準的6倍!根據Eisner對600至1800年間歐洲1513個國王的死亡經歷研究,22%的歐洲國王死于非命,是中國皇帝死于非命比例的一半多一點;每年國王死于非命的概率大約為1%,是中國歷朝皇帝面對的暴力死亡率的1/3。比較積極的一面是,中國和歐洲的君主所面對的暴力死亡率,從1000多年前開始都在逐步下降,說明中西制度文明都在進步。
從這些量化研究看,西方和中國的文明化歷程很不同。儒家文化早于歐洲解決了社會底層的治理秩序問題,基于中華文明的命案率低于同期歐洲,這個局面一直維持到19世紀末、20世紀初,但儒家沒有解決好國家治理問題,在君主傳承等制度文化建設方面,歐洲更早地發展起來,使權力的分享與交接秩序更早地文明化,致使西歐君主的暴力死亡率很早就遠低于中國皇帝。制度文明秩序降低了君主面對的兇惡風險。由此,我們看到,量化歷史研究不只是幫助證明、證偽歷史學者過去提出的假說,而且也會帶來對歷史的全新認識,引出新的研究話題與視角。
未來10年、20年會是國內量化歷史研究的黃金期。原因在于,一是對量化方法的了解、接受和應用會越來越多,特別是許多年輕學者會加入這個行列。二是中國史料很多,但絕大多數史料以前沒有被數據庫化。隨著更多歷史數據庫的建立并且可以低成本地獲得這些數據庫,許多相對容易做的量化史學研究一下子變得可行,所以,從這個意義講,越早進入這個領域,就越容易出一些很有新意的成果,也越容易發表,但十幾、20年后情況會不同。
公認、統一的歷史數據庫對量化歷史研究來說非常關鍵,是基礎建設工作。就以金融經濟學為例,1960年由芝加哥大學建立的“CRSP 證券價格數據庫”對之后世界金融學術研究起到了革命性的貢獻,1960年代是金融學研究正式開始從經濟學剝離出來的起點,而如果沒有CRSP 證券數據庫,實證金融學的突飛猛進可能要大打折扣!原因在于,有了公認、統一并且學者都很熟悉的數據庫之后,各路學者就不用花時間去爭論數據來源是否可靠了,而是把精力和爭論都集中在所研究的問題上。金融學的經歷對量化史學有很高的借鑒價值。
沒有充分、完整、公認可信的史料(包括能量化和不能量化的史料),研究當然無法做。所以,過去十幾年我們團隊一直致力于建立基礎數據庫,希望更多同仁也能共同努力,挖掘出更多歷史數據庫資源。這也需要各家歷史檔案館、博物館、文物收藏單位給予幫助,如果他們把更多史料開放并電子化,那會是對歷史研究、對中國社會功德無量的事情。特別是對于年輕學者而言,由于他們經費和時間都有限,更多歷史檔案的電子化以及成本壁壘的降低都是非常關鍵的,這些會決定國內學術事業是否能順利發展。在這些方面,技術條件都已經成熟,只是歷史檔案是否能開放、是否有經費的問題。
量化歷史研究的發展也需要各家學術期刊的支持,需要它們開放更多空間讓這類論文發表,激勵更多學者熱情加入。同時,這也對歷史學教學課程提出新的要求,而不是像現在這樣很少或沒機會跟統計學沾邊。
最后,我們也應該看到,雖然量化史學強調使用現代社會科學尤其經濟學的分析范式、重視大樣本與統計方法,但是,量化歷史研究不只是找到一組歷史數據并對其進行回歸分析,然后就完成研究了,而是也要認真考究史料、摸清史料的歷史背景與社會制度環境。只有這樣才能更貼切把握所研究的因果關系鏈條和傳導機制,增加研究成果的價值。
(作者系耶魯大學金融經濟學教授、香港大學馮氏基金講席教授、北京大學經濟學院特聘教授;摘自《清史研究》2016年第4期)