文/陳爭平
大數據時代與經濟史計量研究
文/陳爭平
近年來國內關于量化歷史(Quantitative History)的研究正在升溫,它與20世紀80年代開始在國內流傳的計量史學(Cliometrics)有何區別?李伯重教授認為“計量史學”與“量化歷史”就是一回事。筆者后來又對Cliometrics與Quantitative History的定義及發展歷程等進行檢索,發現二者確實是一回事。
客觀地從名稱上看,Cliometrics比Quantitative History更簡潔更有學術性。那么,近年來推動量化歷史研究的一些學者為何要拋棄Cliometrics這一名稱,而寧愿采用Quantitative History這一較次的選擇?聯系到吳承明先生關于計量史學發展業績評議,想來由于計量史學發展業績不好,名聲壞了,“人自宋后羞名檜”。所以后來那些學者拋棄“計量史學”而改用“量化歷史”(Quantitative History)這一名稱。
以往計量史學業績差的原因,主要是因為存在四方面問題:
第一方面是以往一些計量史學方法的倡導者過分夸大了歷史數據的客觀性及代表性。細考中國歷史上一些數據來源,往往會發現它們來自于某個官員或士子的估算,后來又有一些研究者再根據這些估算作進一步推論,使得結論的主觀性更強,客觀性更低。一些中國近代農史研究者推崇民國初年的卜凱調查,實際上這一調查在地區的選擇、指標的規定等方面都有較大主觀性。卜凱所用調查人員多是年輕學生,他們多出生于富足人家,所以當時才能上大學,回鄉調查也是多問自家長輩和管家等,有關數據就會偏向富人,對于當時農村總體而言代表性較差。卜凱的著作中提到的貴州遵義平均單位面積產量,大大高于另一外國教授在實地調查中得到的數字。該教授認為,造成這種較大差異的原因在于,卜凱著作僅以優質土地為樣本,而實際上這種土地在遵義的耕地中只占非常小的比例。
第二方面是夸大計量方法的作用,甚至斷言用計量方法就能把歷史學變成真正的科學。這種夸大不但不能提高真正業績,還會引起一些史學家的反感,導致計量史學一再遭遇質疑和批評,一些計量史學倡導者熱情冷卻又回歸到傳統敘事方法。筆者認為,計量方法只是史學走向科學的必要條件,而不是充要條件。把必要條件當做作充要條件,就會使人狹隘,所得出的研究成果也會有偏差。計量方法僅是眾多研究方法中的一種。正如吳承明先生所言:“研究經濟史應根據不同對象和史料條件,采取不同方法。”總的來說,史學研究還是要走定性分析與定量分析相結合之路。
第三方面是各種數量模型的應用都有各自的前提條件,以往一些計量史學研究不論時空差異盲目套用模型,以致扭曲歷史真相,甚至會得出一些荒謬結論。當然,也并非任何模型都不能用,要視具體情況作具體分析。
第四方面是歷史數據缺失,使得計量分析面臨極大的史料困難。吳承明先生認為,在計量方法中,必須有連續十年的系列數據才能建立一個模型。在中國,這種連續十年的系列歷史數據嚴重缺失,以致于在20世紀八九十年代國內那些計量史學的鼓吹者自己也始終停留在鼓吹階段,沒有做出什么業績,身體力行的只有吳承明先生。
既然“量化歷史”原本是改名換姓的“計量史學”,那么導致以往計量史學發展業績差的四方面問題,就值得現在從事量化歷史研究的學者們警惕。
英國學者維克托·邁爾-舍恩伯格、肯尼思·庫克耶在《大數據時代:生活、工作與思維的大變革》一書中宣告:大數據時代來臨。大數據時代的精髓與三個重大的思維轉變有關,這三個轉變是相互聯系和相互作用的,這些轉變將改變我們理解和組建社會的方法。
第一個轉變就是,在大數據時代,我們可以分析更多的數據,而不再依賴于隨機采樣。大數據是指不用隨機分析法這樣的捷徑,而采用所有數據的方法。生活中真正有趣的事情經常藏匿在細節之中,而采樣分析法卻無法捕捉到這些細節。與局限在小數據范圍相比,使用一切數據為我們帶來了更高的精確性,也讓我們看到了一些以前無法發現的細節——大數據讓我們更清楚地看到了樣本無法揭示的細節信息。
第二個轉變就是,當我們擁有海量即時數據時,絕對的精準不再是我們追求的主要目標。當然,我們也不是完全放棄了精確度,只是不再沉迷于此。適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
第三個轉變是,在大數據時代我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系,這會給我們提供非常新穎且有價值的觀點。相關關系也許不能準確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。因果關系只是一種特殊的相關關系。相關關系分析通常情況下能取代因果關系起作用,即使不可取代的情況下,它也能指導因果關系起作用。大數據的相關關系分析更準確、更快,而且不易受偏見影響。
大數據絕不會叫囂“理論已死”,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習慣將被顛覆,很多舊有的制度將面臨挑戰。
吳承明先生指出,定量分析可以檢驗已有的定性分析以盡量避免隨意性定性判斷,它還可以揭示多種變量相互之間的內在關系,揭示經濟事物發展變化趨勢,可以使人們對許多歷史問題的認識不斷深化。經濟史計量分析大致有統計學、計量經濟學、計量史學三大類方法。他告誡我們,計量研究是一項要小心謹慎、要下苦功的工作,統計是經濟史計量研究的基礎。
對于計量經濟學方法,吳老認為它可以用于“檢驗已有的定性分析,而不宜用它創立新的論點”,“計量經濟學方法用于經濟史研究有很大局限性”。他不主張用小數據樣本加數量模型來研究經濟史,還有一個主要原因是數量模型里無“人”,看不見“人”的主觀能動性。
至于計量史學,吳老認為它“已消失生氣”。所以吳老指出,經濟史計量研究仍然“主要是統計學方法”。
實際上,從計量經濟史學派(亦可稱之為“模型派”)、量化歷史派(亦可稱之為“計量史學派”)已有成果看,他們所用的計量方法仍然常用頻率分析、回歸分析等基本統計方法。主成分分析、判別分析與聚類分析等高級統計方法在史學界還很少有人用,更遑論灰色系統理論及GM模型的運用了。高級統計方法在中國史學研究中的運用,還有待年輕學者去努力實踐。
受吳老啟發,對于經濟史計量研究中三大學派之爭,我們認為,統計學派更加貼近大數據時代的主要特點,更符合時代要求。這是因為:(1)大數據的“大”是相對而言,意思就是要分析與某事物相關的所有數據,而不是依靠分析少量的數據樣本。我們的國家社科基金重大項目“近代中國經濟統計研究”工作就是要盡最大可能收集整理與近代中國經濟相關的所有數據,在此基礎上開展計量分析。(2)《大數據時代》書中有這樣的論斷——“大數據的簡單算法比小數據的復雜算法更有效”。據此可以推論以統計為基礎的經濟史計量研究比小數據樣本加數量模型更可靠、更有效。(3)需要強調的是:大數據建設對于加強國際競爭力有重要意義,而本項目研究是中國大數據建設的一部分。筆者認為,在一定場合,方法仍然有優劣之分:“孤證”優于“無證”(細考以往已發表的計量史學成果,有不少數據來源“無證”,純屬研究者臆斷),“羅列”優于“孤證”,“統計”優于“羅列”。所以筆者贊同吳老說的經濟史計量研究仍然“主要是統計學方法”的觀點。
近幾年經濟史計量研究三大學派在我國發展形勢有喜人變化:三大學派都有中青年學者參與。吳老注重統計的思想需要有人踐行,我們的“近代中國經濟統計研究”項目團隊有數十位中青年學者正在披荊斬棘,努力做好這方面工作,我們這一撥算是統計學派;陳志武先生主辦的三屆“量化歷史講習班”吸引了一批又一批青年學人,他們以后在方法論上究竟會有什么走向還不好說,我們暫時按照講習班的名稱把講習班師生這一撥歸為年輕的計量史學派;廣東外語外貿大學劉巍教授組建了中國計量經濟史研究中心,編印了《中國計量經濟史研究動態》學術通訊,發表了一系列重要成果,從他們所用方法來看,應屬于模型派代表。新時期三大學派各自努力,互相激勵,都在推動我國經濟史計量研究。三大學派可以說現在都在打基礎,尤其是我們統計學派打基礎需要花費更多精力。筆者相信,三大學派各自會做出何種業績,預計10年后可以初見分曉。
現在中國經濟史計量研究狀況有兩大問題,一是歷史數據資料缺乏仍然很嚴重,二是已有的數據資料集存在較多問題,需要進行檢驗,不能拿來就用。我們現在進行數據庫建設,既要注意數量,使得規模盡可能大,又要抓好質量,要建設經得起檢驗的數據庫。
習近平主席最近提出要“以數據集中和共享為途徑,建設全國一體化的國家大數據中心”。我們要做的“關于中國近代經濟統計研究”的兩大系列數據庫,是中國大數據建設的一部分,對于經濟學、統計學、歷史學學科建設都有著重要意義,也是我們進一步展開分析的基礎,將按基金管理有關規定提供給社會各界使用。
吳老在給研究生講課時曾經指出,定量分析可以檢驗已有的定性分析,以盡量避免隨意性定性判斷,它還可以揭示多種變量相互之間的內在關系,揭示經濟事物發展變化趨勢,可以使人們對許多歷史問題的認識不斷深化。他曾以清代江西景德鎮制瓷業研究為例,告訴我們:從當時史料數量看,景德鎮官窯留下的史料多,民窯的很少,不做計量研究則會給人清代景德鎮制瓷業是以官窯為主的印象,做了計量研究才發現當時官窯的產量和占用的技術力量都不到民窯的1%。吳老還列舉其他一些案例,使我們對經濟史研究中計量方法的重要性有了較深的印象。
吳老也告誡我們,定量分析要與定性分析相結合,“已有的定性分析常有不確切、不肯定或以偏概全的毛病,用計量學方法加以檢驗,可給予肯定、修正或否定”;而計量經濟學方法可以用于“檢驗已有的定性分析,而不宜用它創立新的論點”。
吳老肯定了經濟史計量研究對檢驗已有的定性分析的作用。至于吳老的后一句,筆者要表示一點不同意見。筆者認為,經濟史計量研究也可以幫助創立新的論點。諾貝爾經濟學獎獲得主M.弗里德曼等人通過對1867-1960年美國貨幣史的統計研究,推導出了著名的貨幣層次理論及貨幣供應決定模型,就是這方面的一個典型案例。
19世紀中葉德國統計學家恩格爾的工作也是這方面的一個典型案例。恩格爾對當時比利時三個階層的消費結構作了統計調查,推出了經濟學上著名的恩格爾定律。筆者認為,恩格爾定律仍有較大的拓展空間。可以推論:隨著收入的增加,消費結構中食物支出比例(恩格爾系數)下降時,其他方面的支出所占總支出比例會相應上升。我們進一步要問的是:消費結構其他方面的變化又有什么規律?明太祖九世孫、“東方百科全書式的人物”朱載堉創作的散曲《山坡羊·十不足》,結合恩格爾關于比利時不同家庭消費結構的統計表第3列數據,可以提出有關假設:
《十不足》講:“逐日奔忙只為饑,才得有食又思衣。”貧民一旦填飽肚子,就要考慮穿衣問題。結合恩格爾關于比利時不同家庭消費結構的統計表數據,可以假設:當恩格爾系數由59%移向50%時,人們由“糊口”走向“溫飽”時,消費重心開始向“穿”的方向移動,衣著所占總支出比例會有較大幅度上升。《十不足》接著講:“置下綾羅身上穿,抬頭又嫌房屋低。”據此可以假設:當恩格爾系數由50%移向40%,人們由“溫飽”走向“小康”時,消費重心開始向“住”和“用”的方向移動,住房及日用必需品等支出所占總支出比例會有較大幅度上升。我們還可以繼續推論:當恩格爾系數由40%移向30%,人們由“小康”奔向“富裕”時,消費重心開始向“文體娛樂”方向移動,文教衛生娛樂費(包括旅游交通費及雇傭仆人費用)等支出所占總支出比例會有較大幅度上升。當恩格爾系數由30%下移,人們由“富裕”邁向“最富裕”時,消費重心開始向“社會公益事業”方向移動,慈善活動費及社會公益費用等支出所占總支出比例會有較大幅度上升。
當然,上述關于恩格爾定律拓展的思考,只是受《十不足》前兩句的啟迪而作出的理論猜想,還有待經濟史統計的證明。如果能得到證明,可以將其命名為“擴展型恩格爾定律”(恩格爾定律+消費結構其他方面變化規律),以向著名統計學家恩格爾致敬。
(作者單位:山東大學經濟研究院、中南財經政法大學經濟學院教授;摘自《中國經濟史研究》2016年第6期)