馬建強
19世紀(jì),當(dāng)科學(xué)勁風(fēng)鼓鼓吹襲時,傳統(tǒng)史學(xué)便已被吹開了科學(xué)化的航帆。20世紀(jì)的史學(xué)受到科學(xué)的沖擊前所未有,可謂巨大、全面、徹底,幾有顛覆傳統(tǒng)史學(xué)根基的勢頭,使得傳統(tǒng)史學(xué)無法獨立自存,開始自覺依傍科學(xué)這個闊氣的后臺。傳統(tǒng)史學(xué)一方面改良自身的基因缺陷,另一方面吸收其他學(xué)科包括自然科學(xué)的優(yōu)秀基因,通過積極的自我調(diào)適,達(dá)到“科學(xué)性”,最終鳳凰涅槃一般地生存下來。今天雖然歷史學(xué)通常不被視作“科學(xué)”,但其“科學(xué)化”轉(zhuǎn)變以后形成的學(xué)科特色和學(xué)科價值已經(jīng)被廣泛接受和認(rèn)同。經(jīng)歷生死存亡的20世紀(jì),歷史學(xué)似乎暫時坐穩(wěn)了自己的學(xué)科地位,然而它所面臨的沖擊、挑戰(zhàn)卻始終未絕。回顧21世紀(jì)剛剛過去的十幾年,我們可以驚愕地發(fā)現(xiàn),歷史學(xué)正面臨著全新的、勢頭更猛烈的、速度更快的科學(xué)巨浪的沖擊。計算機科學(xué)、互聯(lián)網(wǎng)技術(shù)以及由此帶來的“大數(shù)據(jù)”便是這一波巨浪的代表。面對沖擊,史學(xué)研究者應(yīng)該有更多的理性思考,在理論與實踐兩方面積極探索史學(xué)未來的發(fā)展趨向,這對歷史學(xué)適應(yīng)時代潮流獲得嶄新生命有著重要意義。本文試圖梳理當(dāng)前史學(xué)界應(yīng)對新環(huán)境作出的積極回應(yīng),并探討“大數(shù)據(jù)時代”歷史學(xué)發(fā)展可能的走向以及史家應(yīng)具有的態(tài)度和付出的努力。
“大數(shù)據(jù)”(big data)概念誕生未久,是一個新興事物。它伴隨著信息技術(shù)產(chǎn)業(yè)和互聯(lián)網(wǎng)行業(yè)制造的巨量數(shù)據(jù)而出現(xiàn)。目前人們對于大數(shù)據(jù)的探索才剛剛開始,對于它的定義也莫衷一是。維基百科這樣定義:“大數(shù)據(jù),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的形式的信息。”[1]百度百科如此定義:“大數(shù)據(jù),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。”[2]維克托·邁爾-舍恩伯格及肯尼斯·庫克耶所著的《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書認(rèn)為:大數(shù)據(jù)是指不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。當(dāng)前人們對于大數(shù)據(jù)特征的認(rèn)識被總結(jié)為“5V”,即 Volume(大體量)、Velocity(時效性)、Variety(多樣性)、Value(大價值)、Veracity(真實性)。因此人們認(rèn)為大數(shù)據(jù)只有運用云計算服務(wù)器,才能進入可運行的軌道,得到處理并實現(xiàn)價值。Web2.0時代,數(shù)據(jù)究竟有多大?據(jù)統(tǒng)計,2013年中國產(chǎn)生的數(shù)據(jù)總量超過0.8ZB(1 ZB=1,024 EB=1,048,576 PB=1,099,511,627,776GB),是以萬億GB為單位的量。同時2013年產(chǎn)生的數(shù)據(jù)總量是2012年的兩倍,相當(dāng)于2009年全球數(shù)據(jù)總量。預(yù)計到2020年,中國產(chǎn)生的數(shù)據(jù)總量將超過8.5ZB,相當(dāng)于2013年的10倍。然而中國每年新增數(shù)據(jù)量還不到美國的十分之一[3](P21)。這個統(tǒng)計體現(xiàn)了大數(shù)據(jù)不僅巨量,而且增長速度極快,國與國的分布也很不均勻。這樣巨量數(shù)據(jù)的產(chǎn)生是人類過去生產(chǎn)方式、生產(chǎn)能力所不能實現(xiàn)的,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,是數(shù)千年未有之大變局。因此近幾年信息技術(shù)行業(yè)開始用“大數(shù)據(jù)時代”來稱呼我們當(dāng)前的這個時代。
當(dāng)前,大數(shù)據(jù)似乎已經(jīng)以其不可阻擋的強勢沖擊著各個領(lǐng)域,展露出它在很多實用領(lǐng)域的優(yōu)勢,體現(xiàn)了大數(shù)據(jù)的控制、主宰力量。歷史學(xué)恐怕也不可能僥幸逃離這一波沖擊。廣義而言,數(shù)據(jù)之于史學(xué)等同于史料。史料是史學(xué)得以存在與發(fā)展的基礎(chǔ),是史學(xué)家借以獲取史學(xué)認(rèn)知、判斷的依據(jù),這是中外史家的普遍共識。“史料者,歷史知識之唯一源泉也”[4](P176),“近代的歷史學(xué)只是史料學(xué)”[5](P3),這樣類似的言論見諸中外史家者屢見不鮮。筆者以為,大數(shù)據(jù)時代的沖擊對于歷史學(xué)來說應(yīng)該既是挑戰(zhàn)也是機遇,而且首先是挑戰(zhàn)。
每當(dāng)人類歷史面臨全新事物挑戰(zhàn)之時,有的熱情擁抱新事物,以積極的心態(tài)參與到新事物的建設(shè)之中;也有的對新事物采取鴕鳥政策,埋首不問時間流轉(zhuǎn)、宇宙變遷;還有始終視新事物為“奇技淫巧”“變亂綱常”的妖孽,勢不兩立,大加撻伐。近100年前,當(dāng)國人對“新文化”充滿爭議的時候,錢玄同如此形容“殘廢頹敗”的守舊老人:“似乎不必請他們享受新文明的幸福,嘗新生活的趣味;因為他們的心理,只知道牢守那笨拙迂腐的東西,見了迅速捷便的東西,便要‘氣得三尸神炸,七竅生煙’,‘狗血噴頭’的罵我們改了他的老樣子。 ”[6](P27)歷史學(xué)在面對大數(shù)據(jù)時代的挑戰(zhàn)時,首先應(yīng)該調(diào)整姿態(tài),應(yīng)對挑戰(zhàn),適應(yīng)新的研究環(huán)境,既不盲目拒斥,也不一味趨新,在新舊傳承、互動中探索,在探索的同時找到新的發(fā)展機遇。
早在大數(shù)據(jù)概念還沒有產(chǎn)生廣泛影響時①“大數(shù)據(jù)”概念誕生于1980年,著名未來學(xué)家托夫勒在《第三次浪潮》一書中將“大數(shù)據(jù)”稱為“第三次浪潮的華彩樂章”。2008年9月《自然》雜志推出名為“大數(shù)據(jù)”的封面專欄。而直到2009年開始“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)技術(shù)行業(yè)中的熱門詞匯。,華文學(xué)界已有先行者在探索計算機科學(xué)與互聯(lián)網(wǎng)時代的史學(xué)研究方面邁出了步伐。就21世紀(jì)而言,具有代表性的首先應(yīng)屬臺灣清華大學(xué)的黃一農(nóng)教授,他在2005年出版的《兩頭蛇:明末清初的第一代天主教徒》一書中率先提出了“e考據(jù)”的概念并進行了成功的研究嘗試。他認(rèn)為,“一個有條件孕育‘e-考據(jù)學(xué)派’的時代或許已悄然到臨”,“大量史籍被整理重印,再加上網(wǎng)絡(luò)和電子資料庫的蓬勃發(fā)展,深感史學(xué)研究已晉入一前人所無法想象的新局,益發(fā)決定要面對這項自我挑戰(zhàn)”[7](P64)。 這體現(xiàn)了黃教授對學(xué)術(shù)研究新環(huán)境的敏銳性觀察和在史學(xué)方法論建設(shè)上的自覺。2008年旅臺學(xué)人金觀濤、劉青峰夫婦出版了《觀念史研究:中國現(xiàn)代重要政治術(shù)語的形成》一書。書中作者提出“數(shù)據(jù)庫方法”[8](P5-7),并以“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(1830-1930)”研究中國近現(xiàn)代觀念演變。2009年臺灣大學(xué)數(shù)位典藏研究發(fā)展中心舉辦了第一屆“數(shù)位典藏與數(shù)位人文”國際研討會,提出“數(shù)位人文”的概念:“指的是那些唯有借助數(shù)位科技方能進行的人文研究,反過來講,數(shù)位人文的研究,即是企圖尋找在前數(shù)位時代中難以觀察的現(xiàn)象、無法想象的議題與無法進行的研究。”[9](P11)同年遼寧大學(xué)歷史學(xué)院教授焦?jié)櫭魈岢隽恕熬W(wǎng)絡(luò)史學(xué)”的概念:“是歷史學(xué)在信息時代的一種新存在形式”[10]。
在大數(shù)據(jù)觀念逐漸興起的同時,史學(xué)界對互聯(lián)網(wǎng)時代的史學(xué)發(fā)展問題的思考也更加深入廣泛。2011年《史學(xué)理論研究》雜志刊發(fā)“互聯(lián)網(wǎng)與史學(xué)觀念變革”筆談②該筆談共刊發(fā)了李劍鳴的《網(wǎng)絡(luò)史學(xué)的神話與實際》、王晴佳的《互聯(lián)網(wǎng)的普及與歷史觀念的變化》、王加豐的《互聯(lián)網(wǎng)資料的史料價值》、馬勇的《“自媒體時代”的歷史研究與史學(xué)表達(dá)》、王旭東的《信息化的歷史學(xué):基于互聯(lián)網(wǎng)驅(qū)動的史學(xué)變革》、劉軍的《互聯(lián)網(wǎng)與社會平等》6篇文章。。2013年《甘肅社會科學(xué)》以“信息轉(zhuǎn)向:新世紀(jì)的歷史學(xué)在召喚”組織專稿兩篇,其中學(xué)者周兵提出了“數(shù)字史學(xué)”(Digtal History)概念:“是指運用數(shù)字媒體和工具展開的歷史學(xué)實踐、演示、分析和研究。”[11]2014年暑期黃一農(nóng)教授在浙江大學(xué)主持的 “第二屆e考據(jù)與文史研習(xí)營”結(jié)束不久,上海《文匯報》“文匯學(xué)人”刊發(fā)專題文章《當(dāng)乾嘉學(xué)派遇上互聯(lián)網(wǎng)》介紹“e考據(jù)”方法及研究成果[12]。2015年《史學(xué)月刊》第1期刊發(fā)“計算機技術(shù)與史學(xué)研究形態(tài)筆談”③該筆談共刊發(fā)喬治忠的《歷史研究電子資源運用的興利除弊》、王子今的《“史實”與計算機“利器”》、王文濤的《信息時代的文獻閱讀與史料檢索》、陳爽的《回歸傳統(tǒng):淺談數(shù)字化時代的史料處理與運用》、周祥森的《空間轉(zhuǎn)向:電子傳媒技術(shù)與當(dāng)代史學(xué)形態(tài)》5篇文章。。2015年12月4日至6日,上海大學(xué)也成功舉辦國內(nèi)首次以“大數(shù)據(jù)時代下的歷史研究”為議題的國際學(xué)術(shù)研討會。
大數(shù)據(jù)時代的沖擊,究竟能夠給史學(xué)帶來什么新的機遇,史學(xué)界提出了很多有價值的思考。正如黃一農(nóng)教授所言,“e考據(jù)其實就是文科對于大數(shù)據(jù)的一個回應(yīng)”[12],其實何止“e考據(jù)”,包括“數(shù)據(jù)庫方法”“數(shù)位人文”“網(wǎng)絡(luò)史學(xué)”“數(shù)字史學(xué)”等等在內(nèi)的這些概念建設(shè)都應(yīng)當(dāng)看作史學(xué)界為回應(yīng)大數(shù)據(jù)時代對于史學(xué)研究機遇前景的思考與探索,是人文主義與科學(xué)精神的再次碰撞。這些思考和探索的核心都離不開計算機、互聯(lián)網(wǎng)以及“數(shù)據(jù)”或“數(shù)據(jù)庫”(數(shù)據(jù)集合)。站在今天回望歷史,早在1949年世界上第一臺計算機誕生剛剛3年,意大利學(xué)者羅伯托·布薩便開始使用計算機對神學(xué)家托馬斯著作中的字詞“進行大規(guī)模的處理,包括每個字的用法、位置,大概就預(yù)示了未來史學(xué)研究與計算機的不可分離。而1960年代末法國年鑒學(xué)派史家勒華·杜拉里預(yù)言,“將來的歷史學(xué)家一定要是電腦程序員,否則,就不足以成為歷史學(xué)家”[11],雖然這番預(yù)言所針對并不是今天史學(xué)所面對的局面,但從當(dāng)前來看這一預(yù)言無疑正在一步步走向現(xiàn)實。
面對大數(shù)據(jù)時代對史學(xué)的沖擊,史學(xué)界應(yīng)該并且已然進行了一些勇敢的建設(shè)與嘗試。所謂的“建設(shè)”是以積極心態(tài)為營造更好的數(shù)據(jù)環(huán)境而進行的建設(shè);所謂的“嘗試”是在大數(shù)據(jù)時代的環(huán)境下進行史學(xué)研究的新嘗試,主要是利用海量的網(wǎng)絡(luò)數(shù)據(jù)以及規(guī)模較大的“數(shù)據(jù)庫”進行。
在數(shù)據(jù)環(huán)境的建設(shè)方面,臺灣地區(qū)是先行者,最先開始探索以實現(xiàn)全文檢索為目標(biāo)的古籍?dāng)?shù)字化。早在1985年,臺灣“中央研究院”歷史語言研究所便啟動了“漢籍電子文獻資料庫”的建設(shè)工作,內(nèi)容包括“二十五史”“十三經(jīng)”,以及“超過兩千萬字的臺灣史料、一千萬字的大正藏”、道藏、清代經(jīng)世文編等大型類書、叢書,收入典籍達(dá)460多種,計4億多字①參見成果網(wǎng)站:http://hanji.sinica.edu.tw/,2015-05-22日。。值得一提的是,據(jù)筆者對黃一農(nóng)教授訪談所知,早在1987年黃教授便使用該資料庫中的“二十五史”部分研究天文史的議題,并有了對文史環(huán)境改變的最初體會。1999年香港迪志文化出版公司出版“文淵閣四庫全書”電子版,該數(shù)據(jù)庫以超過7億字的規(guī)模成為當(dāng)時最大的數(shù)據(jù)庫②2002年臺灣啟動“數(shù)位典藏國家型科技計劃”,2008年與“數(shù)位學(xué)習(xí)國家型科技計劃”結(jié)合,形成“數(shù)位典藏與數(shù)位學(xué)習(xí)國家型科技計劃”。參見成果網(wǎng)站:http://digitalarchives.tw/。該計劃包含檔案、圖片、古籍、影音等多種類型的臺灣地區(qū)學(xué)術(shù)、收藏機構(gòu)的資料、藏品,并不以全文檢索的方式實現(xiàn)。。進入21世紀(jì),以全文檢索為基礎(chǔ)的數(shù)據(jù)庫發(fā)展迅猛。臺灣雕龍中國古籍全文檢索數(shù)據(jù)庫起始于2001年,在2013年時已聲稱收入古籍文獻約20000多種,近25億字,且以每年新增5000種文獻10億字的速度遞增,數(shù)年后將成為全球第一的超大型中國古籍全文檢索數(shù)據(jù)庫③參見成果網(wǎng)站:http://www.diaolong.net,2014-11-13。。
大陸方面在數(shù)據(jù)環(huán)境建設(shè)的方面起步晚于港臺,但是近年來成果顯著。在古籍?dāng)?shù)字化方面成就最為突出的是北京愛如生公司。2001年該公司與北京大學(xué)劉俊文教授合作,研發(fā)制作“中國基本古籍庫”,該庫分4個子庫、20個大類、100個細(xì)目,精選先秦至民國歷代重要典籍,總計收書1萬種,單庫全文超過17億字。目前愛如生公司已陸續(xù)推出包括中國近代報刊庫、中國方志庫、中國譜牒庫、中國類書庫等在內(nèi)的大型數(shù)據(jù)庫14個;包括四庫系列、別集叢編系列、歷代碑志系列、地方文獻系列等在內(nèi)的9個系列共82個專題數(shù)據(jù)庫;包括明清實錄、永樂大典、四部叢刊等在內(nèi)的數(shù)字叢書庫50個。另外還有“原文影像版數(shù)字原典”產(chǎn)品8個、“全文檢索版拇指數(shù)據(jù)庫”9類1000個產(chǎn)品④參見成果網(wǎng)站:http://www.er07.com/,2015-11-20。。由北京時代瀚堂科技有限公司推出的 《瀚堂典藏》,分為古籍?dāng)?shù)據(jù)庫、近代報刊、民國文獻大全三大主體部分。全庫共包含有15000多種古籍,25000種民國報紙期刊,近4000萬條記錄,漢字總量超過40億⑤參見成果網(wǎng)站:http://www.hytung.cn/,2015-11-23。。近年來湖南青蘋果數(shù)據(jù)中心有限公司提出創(chuàng)建“華文報刊文獻數(shù)據(jù)庫”計劃,將從清朝嘉慶年間至今兩百年的4000種報刊中挑選十分之一進行數(shù)字化,形成擁有4000億漢字和4億篇文章的海量歷史文獻庫⑥參見成果網(wǎng)站:http://www.huawenku.cn/index.html,2015-09-24。。
以上所舉僅是能夠?qū)崿F(xiàn)全文檢索的大型綜合數(shù)據(jù)庫,除此以外還有大量規(guī)模較小的全文數(shù)據(jù)庫,如書同文古籍?dāng)?shù)據(jù)庫、中華經(jīng)典古籍庫;或?qū)n}數(shù)據(jù)庫,如中國金石總錄數(shù)據(jù)庫、東方雜志全文數(shù)據(jù)庫;以及不能實現(xiàn)全文檢索的大型數(shù)據(jù)庫,如“大成故紙堆”系列數(shù)據(jù)庫、晚清期刊全文數(shù)據(jù)庫(1833-1910)、民國期刊全文數(shù)據(jù)庫(1911-1949)、中美百萬冊數(shù)字圖書館、國家圖書館民國圖書、民國期刊數(shù)據(jù)庫、讀秀學(xué)術(shù)搜索等等①分別參見成果網(wǎng)站 :http://guji.unihan.com.cn/,2015-11-23;http://www.zhbc.com.cn/shownews.asp?id=2349,2015-11-23;http://jsk.ch5000.cn/,2015-11-23;http://cpem.cp.com.cn/,2015-11-23;http://www.dachengdata.com/,2015-11-23;http://www.cnbksy.com/shlib_tsdc/index.do,2015-11-23;http://www.cadal.zju.edu.cn/,2015-11-23;http://mylib.nlc.cn/web/guest/minguotushu,2015-11-23;http://mylib.nlc.cn/web/guest/minguoqikan,2015-11-23;http://www.duxiu.com,2015-11-23。。另外在企業(yè)行為之外,史學(xué)界也對數(shù)據(jù)建設(shè)進行了探討。2013年8月,教育部社會科學(xué)委員會歷史學(xué)學(xué)部年度會議進行了“歷史資料的整理、研究和數(shù)字化建設(shè)”的專題研討,有趙毅、桑兵、錢乘旦、曹樹基、常建華、沈志華、葛劍雄、李劍鳴等15位史學(xué)家作了專題發(fā)言。2010年以來國家社科基金支持的以數(shù)據(jù)庫建設(shè)為核心的文史研究項目就有近70項,其中隸屬于“中國歷史”學(xué)科門類的重大項目有6項、重點項目1項、其他類別2項②該統(tǒng)計依據(jù)“國家社科基金項目數(shù)據(jù)庫”,統(tǒng)計包含“中國歷史”“中國文學(xué)”“語言學(xué)”“民族問題研究”“圖書館、情報與文獻學(xué)”等學(xué)科門類。參見http://gp.people.com.cn/yangshuo/skygb/sk/。。
雖然目前數(shù)據(jù)建設(shè)還未臻成熟,但是史學(xué)界一方面已經(jīng)認(rèn)識到了建立相關(guān)專業(yè)數(shù)據(jù)庫的重要性,同時也意識到數(shù)據(jù)庫對推動研究的促進作用。伴隨著日益豐富的數(shù)據(jù)環(huán)境,有一些史家利用數(shù)據(jù)庫或創(chuàng)建數(shù)據(jù)庫展開新的研究嘗試,獲得史學(xué)研究的新突破或開創(chuàng)了新領(lǐng)域,涌現(xiàn)出一些代表性的成果。
首先,談?wù)匋S一農(nóng)教授提出的“e考據(jù)”。自2005年以來,黃教授始終號召并實踐著這種“大數(shù)據(jù)時代”的文史研究方式。在筆者對黃教授的訪談中,黃教授提出“e考據(jù)”并不僅僅是一種研究方法,并且還應(yīng)該是一種融通數(shù)位與傳統(tǒng)的研究態(tài)度。“e考據(jù)”是在e時代作考據(jù),而并非只是用e的方法作考據(jù)。以“e考據(jù)”的學(xué)術(shù)方法和學(xué)術(shù)態(tài)度,2010年黃教授從原本非常熟悉的科學(xué)史、中西文明交流史跨入了被認(rèn)為已遭遇研究困境的 “紅學(xué)”這個陌生的領(lǐng)地。但是僅僅5年時間,黃教授從第一次完整閱讀紅樓夢開始,深入探索并在“紅學(xué)”領(lǐng)域取得了一系列令人矚目的成果,出版了第一部紅學(xué)專著《二重奏:紅學(xué)與清史的對話》。黃教授的研究為原本被認(rèn)為已無多少新材料會出現(xiàn)的 “紅學(xué)”挖掘出一批過去不為人知的真實可靠的新史料,并填補諸多歷史細(xì)節(jié)的隙縫,使得“紅學(xué)”與“清史”之間的隱秘聯(lián)系被彰顯出來。這本著作既是“清史”與“紅學(xué)”的“二重奏”,也是數(shù)位與傳統(tǒng)的“二重奏”,是一部充分展現(xiàn)“e考據(jù)”典范的力作。
第二,在文學(xué)史研究領(lǐng)域,以武漢大學(xué)王兆鵬教授為代表的團隊,自2005年開始嘗試以數(shù)據(jù)計量分析唐詩名篇的影響力,并陸續(xù)擴充數(shù)據(jù)、完善統(tǒng)計方法。于2011年出版《唐詩排行榜》一書,對外公布了該團隊研究成果的第四個版本。著名的文學(xué)史家傅璇琮先生評價該研究說:“這是一部既有傳統(tǒng)深厚理論依據(jù),又處處洋溢著現(xiàn)代學(xué)術(shù)新意的著作。這部著作從傳播和接受的角度,依詩作影響深度和廣度的標(biāo)準(zhǔn)對有唐三百年間的詩歌第一次進行了令人信服的排行,這種研究方式和文本呈現(xiàn),無論在理論拓展還是實踐創(chuàng)新方面,都具有開創(chuàng)性意義。”[14](P235)考察王兆鵬教授團隊研究的內(nèi)在理路,其學(xué)理依據(jù)仍然是文學(xué)史研究中的傳播、接受理論,而在方法上則是利用了新時代才能實現(xiàn)的依托于數(shù)據(jù)庫的計量分析。雖然該研究也遭到來自各方對于數(shù)據(jù)量、計算方式等的質(zhì)疑,但是我們也應(yīng)該看到,在文學(xué)史研究領(lǐng)域中,古典文學(xué)數(shù)字化與定量研究這個議題逐漸被更多的文學(xué)史研究者關(guān)注、認(rèn)同并加入其中[15]。學(xué)者更愿意提出一些建設(shè)性的意見和可以開拓的新領(lǐng)域。
第三,以金觀濤、劉青峰的《觀念史研究》一書為代表的數(shù)據(jù)庫關(guān)鍵詞詞頻統(tǒng)計、語義分析與觀念史研究。作者借助于內(nèi)容達(dá)一億兩千萬字的“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(1830-1930)”進行觀念演變的探討,并將這種方法稱之為“以包含關(guān)鍵詞例句為中心的數(shù)據(jù)庫方法”[8](P1)。作者認(rèn)為這種研究得以展開的前提便是“歷史文獻向數(shù)碼化的方向發(fā)展”,“原則上講,研究者可以通過建立包括過去所有文獻的專業(yè)數(shù)據(jù)庫,采用數(shù)據(jù)挖掘方法,把表達(dá)某一觀念所用過的一切關(guān)鍵詞找出來,再通過核心關(guān)鍵詞的意義統(tǒng)計分析來揭示觀念的起源和演變”[8](P5)。這種數(shù)據(jù)庫方法將觀念史從思想史的附庸中解放出來,獲得了獨立的生命,也避免了過去以核心人物、經(jīng)典為本為中心的思想史研究的局限。觀念史的研究更能夠體現(xiàn)思想發(fā)展的一般性特征,使思想史成為可以檢驗的。這種可檢驗性當(dāng)然取決于數(shù)據(jù)庫與計算機的數(shù)據(jù)挖掘能力。但是作者也承認(rèn),在整個研究過程中,數(shù)據(jù)庫與計算機并非是唯一的全程參與者,“最重要的仍是研究者能否有效地利用挖掘出的大量數(shù)據(jù),結(jié)合歷史背景和文本結(jié)構(gòu)分析,概括出某一時代某一普遍觀念的理想類型,這依然是思想史研究的基本方法”[8](P6-7)。
第四,以李中清、梁晨為代表的研究團隊以“量化史學(xué)”的方法和“群體史學(xué)”的眼光進行中國教育精英研究。2013年兩人曾出版《無聲的革命:北京大學(xué)、蘇州大學(xué)學(xué)生社會來源研究 (1949-2002)》一書。在今年11月7日的北京論壇史學(xué)分論壇上,李中清教授以《中國教育精英四段論》為題首次向國內(nèi)外聽眾介紹了這項研究,認(rèn)為:“1865-1905年,即清政府廢除科舉之前,超過70%的教育精英是官員子弟,來自全國各地的‘紳士’階層;1906-1952年,超過60%的教育精英是地方專業(yè)人士和商人子弟,尤其是江南和珠三角地區(qū);1953-1993年,約超過40%的教育精英是來自全國的無產(chǎn)階級工農(nóng)子弟;1994-2014年,超過50%的教育精英來自各地區(qū)的有產(chǎn)家庭,與特定的重點高中。”該研究依托于李中清、康文林領(lǐng)銜的“基于個人層面的、從1760年至今中國教育精英社會與地區(qū)來源的數(shù)據(jù)庫”[16]。這項研究使筆者聯(lián)想到潘光旦的《近代蘇州的人才》、張仲禮的《中國紳士》、何炳棣的《明清社會史論》三部著作,它們都利用了大量的歷史數(shù)據(jù)和統(tǒng)計計量,具有典范意義。然而相較于今天計算機所能夠處理的數(shù)據(jù)而言,這些數(shù)據(jù)都只能算是小數(shù)據(jù)。
第五,由哈佛大學(xué)燕京學(xué)社、臺灣“中研院”史語所、北京大學(xué)中古史研究中心合作的“中國歷史人物傳記資料庫”(China Biographical Database Project簡稱CBDB)及基于此數(shù)據(jù)庫的相關(guān)研究。當(dāng)前該數(shù)據(jù)庫還在持續(xù)建設(shè)之中,截至2015年4月數(shù)據(jù)庫共收錄約360000人的傳記資料,這些人物主要出自7-19世紀(jì),目前數(shù)據(jù)庫正在收錄更多的明清兩代人物傳記資料。CBDB相較于一些企業(yè)開發(fā)的全文數(shù)據(jù)庫來說,在數(shù)據(jù)結(jié)構(gòu)上更加復(fù)雜、精細(xì)。研發(fā)者將歷史事件轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)架構(gòu)由人物、親屬、非親屬社會關(guān)系、社會區(qū)分、入仕途徑、宦歷、地址、著述等部分構(gòu)成。通過這種結(jié)構(gòu)化數(shù)據(jù)的提取、分析,研究者可以據(jù)此對歷史人物進行群體研究,能夠得到相關(guān)人物、事件的空間分布以及復(fù)雜的社會關(guān)系網(wǎng)絡(luò)。相對于一般的數(shù)據(jù)庫,該數(shù)據(jù)庫可以實現(xiàn)更深層次的數(shù)據(jù)挖掘。同時也提供了一個計算機處理語義復(fù)雜的漢語文言文文本的示范,使得長時段的量化研究、空間分布研究可以實現(xiàn),并從社會經(jīng)濟史領(lǐng)域擴展到政治史甚至是思想史領(lǐng)域的研究中,對于開啟未來研究新方向很具啟示意義。
在這些研究中,“e考據(jù)”融通數(shù)位與傳統(tǒng),綜合使用各種互聯(lián)網(wǎng)數(shù)據(jù)、數(shù)據(jù)庫以及傳統(tǒng)文史研究方法來開拓研究新局。其他幾種大都依賴于某一專業(yè)數(shù)據(jù)庫的建設(shè),是基于專業(yè)數(shù)據(jù)庫對原有研究議題或新的研究領(lǐng)域所展開的新嘗試。實際上,數(shù)據(jù)環(huán)境的建設(shè)與史學(xué)研究的嘗試兩方面是緊密相關(guān)、不可分離的。建設(shè)和嘗試圍繞同一個核心即“大數(shù)據(jù)時代下”的史學(xué)研究,都依賴于互聯(lián)網(wǎng)、計算機等技術(shù)與設(shè)備,建設(shè)是嘗試得以展開的前提和基礎(chǔ),嘗試又為建設(shè)積累經(jīng)驗教訓(xùn),并進一步指導(dǎo)建設(shè)的前進方向。這兩者應(yīng)該始終保持有序互動、共同推進。
第一,大數(shù)據(jù)時代帶來歷史學(xué)方法論預(yù)流與范式突破。1930年,現(xiàn)代著名史家陳寅恪在為陳垣《敦煌劫余錄》所寫的序中提出了一個著名的觀點。他說:“一時代之學(xué)術(shù),必有其新材料與新問題。取用此材料以研究問題,則為時代之新潮流。治學(xué)之士,得預(yù)此潮流者,謂之預(yù)流。其未得預(yù)者,謂之未入流。此古今學(xué)術(shù)史之通義,非彼閉門造車之徒,所能同喻者也。 ”[17](P266)陳寅恪從新的學(xué)術(shù)材料的發(fā)掘以及由此產(chǎn)生的新問題來前瞻學(xué)術(shù)的發(fā)展趨向,認(rèn)為進入這個時代新潮流的學(xué)術(shù)稱之為“預(yù)流”。伴隨著計算機、互聯(lián)網(wǎng)技術(shù)的發(fā)展,大量的數(shù)據(jù)庫層出不窮,歷史存留的文獻也正在被夜以繼日地數(shù)字化,我們明顯感受到了未來文獻載體數(shù)字化的這種強勁趨勢。大數(shù)據(jù)時代伴隨著新的文獻載體,史學(xué)研究的新方法論也正在形成。借用陳寅恪的“預(yù)流”觀,我們可以發(fā)現(xiàn),大數(shù)據(jù)時代下史學(xué)方法論的新潮流也正在成型,今天的文史學(xué)界正在經(jīng)歷一場由技術(shù)革新帶來的方法論預(yù)流。
1962年,美國科學(xué)哲學(xué)家托馬斯·庫恩在《科學(xué)革命的結(jié)構(gòu)》一書中系統(tǒng)提出范式理論。范式通常是一套學(xué)術(shù)共同體共同遵守的研究體系,它是當(dāng)時一切研究的顯著模式并為后來研究發(fā)展提供空間。當(dāng)范式發(fā)生突破,便出現(xiàn)科學(xué)革命,導(dǎo)致探討的問題發(fā)生轉(zhuǎn)移,確定合理問題及解決問題的標(biāo)準(zhǔn)發(fā)生轉(zhuǎn)移,改變了思維方式、研究對象并引發(fā)相關(guān)重要問題的爭論[18](P5)。 借庫恩的“范式理論”來理解歷史學(xué)的學(xué)科前瞻,可以認(rèn)為大數(shù)據(jù)時代利用計算機、互聯(lián)網(wǎng)以及大型數(shù)據(jù)庫來獲取史料、挖掘分析史料信息的一套思維和方法也將成為史學(xué)研究的一種新范式。這種范式的形成將會帶來全新的學(xué)術(shù)問題、學(xué)術(shù)理念、學(xué)術(shù)思維、學(xué)術(shù)視野以及學(xué)術(shù)方法、學(xué)術(shù)形態(tài)。從一定程度上說,大數(shù)據(jù)時代正是歷史學(xué)范式突破的一個契機。
第二,計算歷史學(xué)可能成為大數(shù)據(jù)時代史學(xué)的新趨向。在社會學(xué)領(lǐng)域,羅瑋、羅教講的《新計算社會學(xué):大數(shù)據(jù)時代的社會學(xué)研究》一文將新計算社會學(xué)(new computational sociology)這一概念介紹給了中國學(xué)者,產(chǎn)生了廣泛的學(xué)術(shù)影響。作者認(rèn)為:“新計算社會學(xué)是當(dāng)代社會學(xué)界借助計算機、互聯(lián)網(wǎng)與人工智能技術(shù)等現(xiàn)代科技手段,利用大數(shù)據(jù)、新方法來獲取數(shù)據(jù)與分析數(shù)據(jù),從而研究與解釋社會的一種新的范式或思維方式。”[19]在中國歷史學(xué)領(lǐng)域,1922年梁啟超在東南大學(xué)史地學(xué)會作了“歷史統(tǒng)計學(xué)”的演講,提出“歷史統(tǒng)計學(xué)”的概念:“歷史統(tǒng)計學(xué),是用統(tǒng)計學(xué)的法則,拿數(shù)目字來整理史料推論史跡。”[20](P4045)1935 年商務(wù)印書館出版了史學(xué)家衛(wèi)聚賢的《歷史統(tǒng)計學(xué)》一書。西方1950年代產(chǎn)生了“計量史學(xué)”的概念,并逐漸影響中國史學(xué)界。近年來大數(shù)據(jù)時代沖擊下的史學(xué)界也產(chǎn)生了“e考據(jù)”“數(shù)字史學(xué)”等思考,但是目前中國史學(xué)界還鮮有對 “計算歷史學(xué)”(Computational History)這一概念的自覺認(rèn)識與建設(shè)。
筆者認(rèn)為,“計算歷史學(xué)”應(yīng)該與“新計算社會學(xué)”相似,可能成為超越“計量史學(xué)”的大數(shù)據(jù)時代下的史學(xué)發(fā)展新趨向。“計算歷史學(xué)”所能夠?qū)崿F(xiàn)的前提是計算機科學(xué)、互聯(lián)網(wǎng)、大數(shù)據(jù)以及人工智能技術(shù)等在歷史學(xué)研究方面的有效利用。史學(xué)界對于“計算歷史學(xué)”的認(rèn)識與建設(shè)也會伴隨著大數(shù)據(jù)時代下相關(guān)技術(shù)的進步、數(shù)據(jù)的完善、研究的推進而不斷深化。“計算”最終將遠(yuǎn)遠(yuǎn)超越“統(tǒng)計”“計量”,體現(xiàn)出人類借助于技術(shù)而實現(xiàn)的對歷史文本、信息、數(shù)據(jù)更強大的挖掘、分析能力,彌補人腦在面對龐大信息時搜集、分析上的自然局限。正如上文所述,當(dāng)前借助于“大數(shù)據(jù)”的一些歷史研究新嘗試所示,通過豐富的互聯(lián)網(wǎng)資源,建設(shè)龐大、精準(zhǔn)甚至結(jié)構(gòu)化的數(shù)據(jù)庫,能夠讓歷史研究者為進入研究困境的學(xué)科開創(chuàng)新局,能夠處理過去無法處理的學(xué)術(shù)議題,能夠獲得過去人類自身認(rèn)識局限所不能夠認(rèn)識到的問題,也能夠啟發(fā)研究者開拓更多的新研究空間。
第三,研究者的主體地位與溫故知新的學(xué)術(shù)態(tài)度仍然重要。中國傳統(tǒng)文史學(xué)界將“博雅”視為一個崇高理想,“博雅”實際體現(xiàn)的是人對史料的吸收記憶范圍之廣,運用處理能力之強。錢鐘書以《管錐編》《談藝錄》兩部經(jīng)典著述成為20世紀(jì)文史學(xué)界“博雅”的典范。在今天有人質(zhì)疑錢鐘書的價值,認(rèn)為錢鍾書無非是一個“電腦數(shù)據(jù)庫”。不過吊詭的是,因“博雅”而被稱為“電腦數(shù)據(jù)庫”的錢鐘書在1984年便開始倡導(dǎo)將計算機技術(shù)引入古典文獻的搜集、疏證和整理中來,并且規(guī)劃指導(dǎo)了“中國古典數(shù)字工程”[21](P237-244)。 錢鐘書非常注重計算機技術(shù)在文史研究中的運用,但同時也認(rèn)為:“實踐證明,能幫助人的計算機需要人的更多的幫助。”[22]作為一個具有深厚文史積淀的前輩學(xué)人,錢鐘書超前而又辯證地提出了對未來文史領(lǐng)域中人與計算機技術(shù)之間關(guān)系的思考。
未來計算歷史學(xué)得以飛躍發(fā)展的一個關(guān)鍵應(yīng)該是人工智能技術(shù)的進步,人工智能技術(shù)一定程度上也可以認(rèn)為是針對人與計算機關(guān)系的探索。羅鳳珠女士是臺灣地區(qū)較早關(guān)注計算機與文史研究領(lǐng)域的一位學(xué)者。她在1987年曾訪問當(dāng)時信息科學(xué)領(lǐng)域的張仲陶教授,文史領(lǐng)域的周何教授、毛漢光教授、王邦雄教授、王熙元教授,發(fā)表了《探一探文史數(shù)據(jù)自動化的路》一文。張仲陶教授認(rèn)為,“不要問計算機能做什么,而是問你要計算機做什么”;毛漢光教授認(rèn)為“在文史自動化的過程中,成敗的關(guān)鍵在文史界,不在計算機界”;王邦雄教授認(rèn)為“文史自動化不能失去人的主導(dǎo)地位,計算機畢竟不是人,無法做創(chuàng)發(fā)性的工作”[23]。這些與錢鐘書看法相似的關(guān)于人與計算機關(guān)系的思考,說明在技術(shù)面前研究者的主體地位的重要性,這對史學(xué)界來說仍然有著指導(dǎo)性意義。
“計算歷史學(xué)”作為大數(shù)據(jù)時代中歷史研究的思維和范式,研究者在探索的過程中既要注重開創(chuàng)也要注重傳承,應(yīng)該有“溫故知新”的學(xué)術(shù)態(tài)度。所謂的“故”既包含傳統(tǒng)研究的學(xué)術(shù)方法和學(xué)術(shù)積累,也包括大數(shù)據(jù)時代下陸續(xù)開展的種種史學(xué)研究的新嘗試所積累的經(jīng)驗與教訓(xùn)。所謂的“新”則是不斷發(fā)展的計算機技術(shù)、互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù),以及與日俱增并不斷系統(tǒng)、完善、精確的數(shù)據(jù)環(huán)境,以及在此基礎(chǔ)上的新問題、新思維、新視野,它是永遠(yuǎn)面向未來開放發(fā)展的。在充分溫故的前提之下,不斷地知新,不斷地積累經(jīng)驗、教訓(xùn)進行再創(chuàng)造,使“故”與“新”之間保持一種健康有序的互動、動態(tài)和諧的傳承。
大數(shù)據(jù)時代的歷史研究沒有特別的捷徑,需要史學(xué)工作者的勤勉與努力,嚴(yán)謹(jǐn)厚重仍然是歷史學(xué)的特點。研究者在面對新的學(xué)術(shù)環(huán)境時必須有方法論更新的自覺和勇氣,也必須有全新的歷史思維和問題意識,大數(shù)據(jù)時代既帶來了研究的便利,也給研究者施加了新的研究壓力。計算機能夠幫助人,但同時它幫助人的能力更需要通過人的幫助來不斷提高。面對新環(huán)境更好地發(fā)揮人腦的主動性、創(chuàng)造性,引導(dǎo)計算機、互聯(lián)網(wǎng)、人工智能技術(shù)配合歷史研究發(fā)展,積極地面對并建設(shè)歷史研究所需要的數(shù)據(jù)環(huán)境,更是這一代歷史學(xué)者的使命。
大數(shù)據(jù)時代的到來真切地改變著人類社會的方方面面,這種沖擊也必然波及歷史學(xué)研究。歷史學(xué)研究在大數(shù)據(jù)時代遭遇新挑戰(zhàn)的同時也面臨全新的發(fā)展機遇,未來歷史學(xué)是否能在這一波浪潮的沖擊下乘風(fēng)破浪,很大程度上取決于當(dāng)代歷史學(xué)者對時代的敏感性、對這一波沖擊的認(rèn)識以及是否具有方法論危機感和自我革新的勇氣、自覺。當(dāng)前數(shù)據(jù)建設(shè)的進程日益加快,越來越豐富、越來越多樣的數(shù)據(jù)庫為新的歷史研究提供了新的環(huán)境和新的便利,在此基礎(chǔ)上有一些學(xué)者對歷史學(xué)的發(fā)展提出了頗有啟發(fā)意義的思考,也有一些學(xué)者利用大數(shù)據(jù)時代的網(wǎng)絡(luò)、數(shù)據(jù)環(huán)境開展研究,在打開研究新局面、開創(chuàng)研究新領(lǐng)域、提出研究新思維等方面作出了有益的嘗試,為未來大數(shù)據(jù)時代史學(xué)研究提供了具有參考性的實踐經(jīng)驗。大數(shù)據(jù)時代對于歷史學(xué)來說是一個帶來方法論“預(yù)流”與范式革命的時代,未來計算歷史學(xué)可能成為大數(shù)據(jù)時代歷史研究的一個發(fā)展趨向。但是在這一進程中,歷史研究者既要以溫故而知新的態(tài)度來對待數(shù)據(jù)建設(shè)與研究嘗試,又必須充分發(fā)揮作為研究主體的能動性,協(xié)調(diào)好研究之中人與技術(shù)的關(guān)系。
[1]維基百科”大數(shù)據(jù)“詞條[EB/OL].https://zh.wikipedia.org/wiki/大數(shù)據(jù).2015/10/23,2015-11-17.
[2]百度百科”大數(shù)據(jù)“詞條[EB/OL].http://baike.baidu.com/subview/6954399/13647476.htm,2015-11-17.
[3]郭為.一部精彩紛呈的時代杰作(推薦序二)[A].涂子沛.數(shù)據(jù)之巔:大數(shù)據(jù)革命,歷史、現(xiàn)實與未來[C].北京:中信出版社,2014.
[4]郎格諾瓦,瑟諾博司.史學(xué)原論[M].李思純,譯.上海:商務(wù)印書館,1926.
[5]傅斯年.歷史語言研究所工作之旨趣[A].歐陽哲生.傅斯年全集:第三卷[C].長沙:湖南教育出版社,2003.
[6]錢玄同.李大釗《新的!舊的!》的附言[A].錢玄同文集:第2卷[C].北京:中國人民大學(xué)出版社,1999.
[7]黃一農(nóng).兩頭蛇:明末清初的第一代天主教徒[M].上海:上海古籍出版社,2006.
[8]金觀濤,劉青峰.觀念史研究:中國現(xiàn)代重要政治術(shù)語的形成[M].北京:法律出版社,2009.
[9]項潔,涂豐恩.導(dǎo)論——什么是數(shù)位人文[A].項潔,王泰升,等.從保存到創(chuàng)造:開啟數(shù)位人文研究[C].臺北:國立臺灣大學(xué)出版中心,2011.
[10]焦?jié)櫭?網(wǎng)絡(luò)史學(xué)論綱[J].史學(xué)理論研究,2009,(4).
[11]周兵.歷史學(xué)與新媒體:數(shù)字史學(xué)芻議[J].甘肅社會科學(xué),2013,(5).
[12]任思蘊,李純一.當(dāng)乾嘉學(xué)派遇上互聯(lián)網(wǎng)[N].文匯報·文匯學(xué)人,2014-10-17.
[13]項潔,翁稷安.導(dǎo)論——關(guān)于數(shù)位人文的思考:理論與方法[A].項潔編,金觀濤,等.數(shù)位人文研究的新視野:基礎(chǔ)與想象[C].臺北:國立臺灣大學(xué)出版中心,2011.
[14]傅璇琮.唐詩有了排行榜之后——讀唐詩排行榜[A].濡沫集[C].北京:北京聯(lián)合出版公司,2013.
[15]苗貴松,等.中國古典文學(xué)數(shù)字化進程中的定量研究和爭鳴:兼論唐戴叔倫編年系地信息平臺建設(shè)[EB/OL].http://www.guoxue.com/?p=14705.2013/09/16,2015-11-17.
[16]彭珊珊.專訪李政道之子李中清:150年來中國的精英出身什么家庭 [EB/OL].http://www.thepaper.cn/news-Detail_forward_1395229,2015-11-12.
[17]陳寅恪.陳垣《敦煌劫余錄》序[A].金明館叢稿二編[C].北京:三聯(lián)書店,2001.
[18]托馬斯·庫恩.科學(xué)革命的結(jié)構(gòu)[M].金吾倫,胡新和,譯.北京:北京大學(xué)出版社,2012.
[19]羅瑋,羅教講.新計算社會學(xué):大數(shù)據(jù)時代的社會學(xué)研究[J].社會學(xué)研究,2015,(3).
[20]梁啟超.歷史統(tǒng)計學(xué)[A].梁啟超全集(第 7冊)[C].北京:北京出版社,1999.
[21]胡小偉.錢鍾書與電腦時代[A].丁偉志.錢鐘書先生百年誕辰紀(jì)念文集[C].北京:三聯(lián)書店,2010.
[22]胡小偉.錢鐘書與中國古籍?dāng)?shù)字化[N].人民日報,2011-01-13.
[23]羅鳳珠.引信息的“術(shù)”入文學(xué)的“心”——談情感計算和語義研究在文史領(lǐng)域的應(yīng)用[J].文學(xué)遺產(chǎn),2009,(1).