鈕 亮
數(shù)字人文研究近年獲得極大的關(guān)注,研究者引介數(shù)字技術(shù)到人文領(lǐng)域,試圖開辟出人文領(lǐng)域研究的新天地。就目前應(yīng)用情況來(lái)看,比較突出地是將文本挖掘、社會(huì)網(wǎng)絡(luò)、空間統(tǒng)計(jì)、數(shù)據(jù)庫(kù)等技術(shù)應(yīng)用于人文研究,以期為人文學(xué)科提供新的研究方法[1-4]。具體到史學(xué)方面,有學(xué)者認(rèn)為可以通過(guò)數(shù)字技術(shù)獲得依靠傳統(tǒng)文獻(xiàn)分析方法難以發(fā)現(xiàn)的“新史實(shí)”[5],也有學(xué)者認(rèn)為數(shù)字技術(shù)可以解決史學(xué)家面對(duì)大規(guī)模群體型、連續(xù)性材料繁瑣的考證泥潭[6]。盡管數(shù)字人文已經(jīng)有了一定的發(fā)展,在技術(shù)體系方面包括數(shù)據(jù)管理技術(shù)、數(shù)據(jù)分析技術(shù)、可視化技術(shù)、虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等,但數(shù)字人文研究方法論方面的文獻(xiàn)還不多見(jiàn)[7]。在大數(shù)據(jù)興盛的今天,人文研究必然會(huì)受到影響而發(fā)生變化,產(chǎn)生“信息轉(zhuǎn)向”效應(yīng)。盡管很多時(shí)候傳統(tǒng)人文學(xué)科在面對(duì)新的科學(xué)方法時(shí)表現(xiàn)得不太情愿,但用布羅代爾的話說(shuō):“無(wú)論情愿與否,在人文科學(xué)之中,沒(méi)有一門學(xué)科能夠不直接或間接地受到其他更活躍的學(xué)科的進(jìn)步的影響。”[8]布羅代爾的說(shuō)法在19世紀(jì)的社會(huì)科學(xué)和自然科學(xué)的互動(dòng)過(guò)程中得到過(guò)證實(shí)。受自然科學(xué)解釋世界成功的影響,社會(huì)科學(xué)紛紛沿用自然科學(xué)的思考方法,最明顯的是牛頓力學(xué)對(duì)19世紀(jì)社會(huì)科學(xué)范式的影響。那時(shí)的社會(huì)科學(xué)競(jìng)相沿用牛頓力學(xué)的類比和同源思考方法。例如,美國(guó)經(jīng)濟(jì)學(xué)家凱里提出“人必然會(huì)傾向于受其同胞吸引”的社會(huì)引力原則;瓦爾拉提出“商品的價(jià)格與供應(yīng)量成反比,與需求成正比”的牛頓式經(jīng)濟(jì)學(xué)定律;涂爾干認(rèn)為“社會(huì)大眾(質(zhì)量)和密度的增長(zhǎng)決定了勞動(dòng)分工的進(jìn)步和文明的發(fā)展”的社會(huì)學(xué)原則[9]。之所以社會(huì)科學(xué)沿用自然科學(xué)的方法,目的是獲得概念上的確定性和觀察上的可驗(yàn)證性,達(dá)到對(duì)世界的客觀理解。
科學(xué)研究的演化過(guò)程經(jīng)歷了經(jīng)驗(yàn)科學(xué)、理論科學(xué)、計(jì)算科學(xué)、數(shù)據(jù)密集型科學(xué)四個(gè)階段。數(shù)據(jù)密集型科學(xué)是圍繞大數(shù)據(jù)產(chǎn)生的從關(guān)系出發(fā)的科學(xué)研究方法,被稱為第四范式。它由傳統(tǒng)的假設(shè)驅(qū)動(dòng)向基于數(shù)據(jù)進(jìn)行探索的科學(xué)方法轉(zhuǎn)變。它的特征是“樣本=總體”“關(guān)系替換因果”“5V特點(diǎn)”“整體論代替還原論”“可驗(yàn)證性”[10]。如果人文研究能夠沿用大數(shù)據(jù)的方法,那么大數(shù)據(jù)訴諸的可計(jì)算特性也會(huì)作用于它。可計(jì)算性手段使得人文研究能夠滿足確定性和驗(yàn)證性要求,實(shí)現(xiàn)對(duì)世界的客觀性理解,從而獲得理論的科學(xué)地位。波普爾說(shuō):“衡量一種理論的科學(xué)地位的標(biāo)準(zhǔn)是它的可證偽性或可反駁性或可檢驗(yàn)性。”[11]
人文學(xué)科中的史學(xué)在應(yīng)用大數(shù)據(jù)分析的時(shí)候可能更復(fù)雜一些。柯林武德說(shuō):“歷史學(xué)是為了人類的自我認(rèn)識(shí)”,“歷史學(xué)的價(jià)值就在于它告訴我們?nèi)艘呀?jīng)做過(guò)什么,因此就告訴我們?nèi)耸鞘裁础盵12]。人的復(fù)雜在于他不僅行動(dòng),更重要的是帶著價(jià)值行動(dòng)。赫拉利說(shuō):“從認(rèn)知革命以來(lái),智人一直生活在雙重的現(xiàn)實(shí)之中,一方面我們有像是河流、樹木和獅子這種確實(shí)存在的客觀事實(shí);而另一方面我們也有像是神、國(guó)家和企業(yè)這種想象中的現(xiàn)實(shí)。”[13]這種想象中的事實(shí)是賦予人價(jià)值和意義的東西。在歷史事件中,歷史主體行動(dòng)的理由往往和歷史主體行動(dòng)的價(jià)值取向有關(guān)。按余英時(shí)的說(shuō)法,歷史是由作為符號(hào)材料的“基本事實(shí)”和作為價(jià)值取向的“歷史事實(shí)”構(gòu)成的。只有考慮歷史主體的行動(dòng)價(jià)值來(lái)說(shuō)明歷史的變化,才是歷史所關(guān)心的。當(dāng)然兩者不是彼此偏廢的關(guān)系,而是互相依賴的關(guān)系[14]。按照波普爾說(shuō)的科學(xué)理論要求重復(fù)性檢驗(yàn)的標(biāo)準(zhǔn),史學(xué)中的“基本事實(shí)”的客觀性毋庸置疑是滿足要求的,然而“歷史事實(shí)”中歷史主體的價(jià)值如何也能夠滿足重復(fù)性檢驗(yàn)標(biāo)準(zhǔn),這是回應(yīng)波普爾質(zhì)問(wèn)的關(guān)鍵所在。因此,本文后續(xù)的開展以重復(fù)性檢驗(yàn)為標(biāo)準(zhǔn),梳理傳統(tǒng)史學(xué)在實(shí)踐客觀性理解方面的研究思路,并探討數(shù)字人文史學(xué)何以可能實(shí)現(xiàn)對(duì)史學(xué)的重復(fù)性檢驗(yàn)。由于遵循著這個(gè)共同的標(biāo)準(zhǔn),數(shù)字人文下的史學(xué)與傳統(tǒng)史學(xué)是繼承和發(fā)展的關(guān)系。
歷史正如柯林武德說(shuō)的是人類在過(guò)去的所作所為,是“活動(dòng)事跡”(Res gestae)。在歷史構(gòu)成中,存在著歷史主體遺留下來(lái)的符號(hào)材料和歷史主體行動(dòng)的價(jià)值取向。歷史研究依賴于對(duì)符號(hào)材料和歷史主體價(jià)值的揭示。符號(hào)材料的揭示在保證客觀性上大致是沒(méi)有問(wèn)題的。例如,名物制度、訓(xùn)詁校勘、地理沿革、人物生卒等材料一旦獲得了解,便不會(huì)隨著時(shí)代而變動(dòng)。歷史理解重要且困難的地方在于歷史主體的行動(dòng)價(jià)值如何也能得到客觀的理解。如果自然科學(xué)的客觀性是可控實(shí)驗(yàn)的重復(fù)驗(yàn)證,那么歷史理解的客觀性在保證材料客觀的情況下,就是讓歷史主體的價(jià)值實(shí)現(xiàn)類似可控實(shí)驗(yàn)?zāi)菢拥闹貜?fù)驗(yàn)證,其中的一個(gè)途徑是歷史主體的價(jià)值能夠在認(rèn)識(shí)者心靈里得到重演。柯林武德的歷史哲學(xué)提到了這種心靈重演的可能。他說(shuō):“歷史知識(shí)是關(guān)于心靈在過(guò)去曾經(jīng)做過(guò)什么事的知識(shí),同時(shí)它也是在重做這件事;過(guò)去的永存性就活動(dòng)在現(xiàn)在之中。因此它的對(duì)象就不是一種單純的對(duì)象,不是在認(rèn)識(shí)它的那個(gè)心靈之外的某種東西,它是思想的一種活動(dòng),這種活動(dòng)只有在認(rèn)識(shí)者的心靈重演它并且在這樣做之中認(rèn)識(shí)它的時(shí)候,才能被人認(rèn)識(shí)。對(duì)于歷史學(xué)家來(lái)說(shuō),他所正在研究其歷史的那些活動(dòng)并不是要加以觀看的景象,而是要通過(guò)他自己的心靈去生活的那些經(jīng)驗(yàn);它們是客觀的,或者說(shuō)是為他所認(rèn)識(shí)的,僅僅因?yàn)樗鼈円彩侵饔^的,或者說(shuō)也是他自己的活動(dòng)。”[15]柯林武德這段話中表達(dá)的心靈有兩個(gè)維度,一個(gè)是歷史主體,一個(gè)是認(rèn)識(shí)者。他要想達(dá)到歷史知識(shí)“在認(rèn)識(shí)者的心靈重演它并且在這樣做之中認(rèn)識(shí)它”,則須設(shè)定歷史主體和認(rèn)識(shí)者價(jià)值同一,且歷史主體和認(rèn)識(shí)者處于同一種心里學(xué)條件之中,共享一個(gè)意義整體。通過(guò)歷史主體在認(rèn)識(shí)者心靈中的重演,歷史得到了客觀性理解。
以柯林武德為代表的歷史主體和認(rèn)識(shí)者價(jià)值同一為參照,認(rèn)識(shí)者和歷史主體在處理價(jià)值關(guān)系上出現(xiàn)三種面向:(1)懸置認(rèn)識(shí)者和歷史主體的價(jià)值關(guān)系,僅從史料角度出發(fā)論證發(fā)生事件前因后果關(guān)系的歷史,簡(jiǎn)稱懸置價(jià)值的歷史。(2)認(rèn)識(shí)者和歷史主體價(jià)值同一的歷史,簡(jiǎn)稱價(jià)值同一性的歷史。(3)歷史主體價(jià)值蘊(yùn)含在文本之中,而與認(rèn)識(shí)者無(wú)直接關(guān)系的文本即歷史,簡(jiǎn)稱文本即歷史。這是在大數(shù)據(jù)背景下提出的新歷史觀。
如果不考慮歷史主體的行動(dòng)價(jià)值,也不將認(rèn)識(shí)者所處時(shí)代的價(jià)值附加到歷史主體上,只處理材料問(wèn)題,那么這種歷史知識(shí)的處理就是懸置對(duì)價(jià)值的處理。懸置價(jià)值處理的典型是以蘭克為代表的史料派。史料派強(qiáng)調(diào)第一手資料的收集,歷史研究的可信與否受原始材料和同時(shí)代或接近此時(shí)代的史料決定,而不涉及對(duì)歷史主體的價(jià)值判斷。年鑒學(xué)派擴(kuò)展了蘭克學(xué)派的研究范圍,將人類社會(huì)這個(gè)復(fù)雜系統(tǒng)當(dāng)作一個(gè)整體來(lái)考察,提出“整體的歷史”觀念,并將歷史這門學(xué)科向自然科學(xué)的方向改造。主張通過(guò)模式的歸納對(duì)社會(huì)歷史運(yùn)動(dòng)中的深層結(jié)構(gòu)、特別是“長(zhǎng)時(shí)段”結(jié)構(gòu)加以揭示和分析。為了實(shí)現(xiàn)這些目標(biāo)引入社會(huì)學(xué)、地理學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多學(xué)科作為輔助,大量運(yùn)用數(shù)學(xué)工具和計(jì)量手段。年鑒學(xué)派形成的標(biāo)志是1929年呂西安·費(fèi)弗爾和馬克·布洛赫創(chuàng)辦的《經(jīng)濟(jì)與社會(huì)年鑒》。費(fèi)爾南·布羅代爾在《菲利普二世時(shí)代的地中海和地中海世界》中總結(jié)了年鑒學(xué)派的歷史觀點(diǎn)和方法,規(guī)定了歷史研究的方向。之后又發(fā)展出對(duì)傳統(tǒng)史學(xué)中常見(jiàn)的定性論斷中隱含著的模糊的數(shù)量判斷明晰化的計(jì)量史學(xué),力求揭示歷史變遷的深層結(jié)構(gòu)[16]。計(jì)量史學(xué)是系統(tǒng)地運(yùn)用現(xiàn)代數(shù)學(xué)和統(tǒng)計(jì)學(xué)來(lái)研究歷史現(xiàn)象和歷史過(guò)程的方法,它對(duì)人的心理和思想研究不作討論,認(rèn)為精神的東西很難用數(shù)量關(guān)系來(lái)精確地加以概括。由于依靠自然實(shí)驗(yàn)的設(shè)定,能夠做到不同的認(rèn)識(shí)者對(duì)歷史都能夠得出相同的結(jié)論,實(shí)現(xiàn)了類似科學(xué)的受控實(shí)驗(yàn),滿足了對(duì)歷史的客觀性理解要求。因?yàn)闅v史主體的價(jià)值被懸置,認(rèn)識(shí)者的計(jì)算結(jié)果就是歷史主體的行動(dòng)結(jié)果。麥金德的地緣政治學(xué)也是這種研究的體現(xiàn),他說(shuō):“在計(jì)算時(shí),地理的數(shù)量比起人文的數(shù)量來(lái)可以更好地測(cè)定,更接近于穩(wěn)定不變。因此,我們應(yīng)當(dāng)期望能找到既可用于過(guò)去歷史、也可用于當(dāng)前政策的公式。各個(gè)時(shí)代的社會(huì)運(yùn)動(dòng),基本上都是圍繞著相同的自然特征進(jìn)行。”[17]在懸置價(jià)值的歷史研究中,歷史主體和歷史認(rèn)識(shí)者不存在價(jià)值理解關(guān)系,這種研究的圖示見(jiàn)圖1。

圖1 懸置價(jià)值的歷史關(guān)系圖
價(jià)值同一性的歷史是在考慮史料真實(shí)性的情況下,歷史主體的價(jià)值也得到客觀性理解。歷史主體能夠被客觀理解的條件是他在認(rèn)識(shí)者心靈里實(shí)現(xiàn)了重演。在認(rèn)識(shí)者心靈重演一般有兩種類型,一種是以柯林武德為代表的唯心論史觀,一種是以馬克思為代表的唯物論史觀。柯林武德認(rèn)為歷史學(xué)家所做的工作是“在他自己的心靈里重演他所敘述的那些行動(dòng)者的所做所為的思想和動(dòng)機(jī)”[18]。因?yàn)闅v史主體在認(rèn)識(shí)者心靈實(shí)現(xiàn)重演,就滿足了被客觀理解的條件。這種情況之所以可能是預(yù)設(shè)了歷史主體是一個(gè)活生生的心里意向性對(duì)象,與認(rèn)識(shí)者共享相同的心里結(jié)構(gòu)。歷史主體的意向性向外部世界投射和構(gòu)建的過(guò)程與認(rèn)識(shí)者相同,反之亦然。在相同的心里結(jié)構(gòu)下認(rèn)識(shí)者和歷史主體的價(jià)值沒(méi)有差別,例如作為人性重要構(gòu)成的權(quán)力的意識(shí)和逐利的意識(shí)今人和古人沒(méi)有什么變化。這種基于心里意向性而形成的認(rèn)識(shí)者和歷史主體的價(jià)值同一是以主體間性哲學(xué)為前提的,它經(jīng)由胡塞爾提出的自我和他人的立場(chǎng)的相互交換性,再到海德格爾的自我和他人共享“此在”這個(gè)世界結(jié)構(gòu)來(lái)得到說(shuō)明。當(dāng)歷史主體和認(rèn)識(shí)者以世界為條件時(shí),他們就能夠彼此理解了。世界的存在超越時(shí)間,它的本質(zhì)其實(shí)是語(yǔ)言,語(yǔ)言是連接歷史主體和認(rèn)識(shí)者理解的紐帶。
作為唯物論的馬克思的歷史觀是將歷史主體和認(rèn)識(shí)者劃歸到階級(jí)之中。階級(jí)是意識(shí)形態(tài)的發(fā)明,階級(jí)的作用是把個(gè)別的意識(shí)統(tǒng)一成集體意識(shí)。它表現(xiàn)在個(gè)體不僅通過(guò)相同的社會(huì)結(jié)構(gòu)投射了相似的心里動(dòng)機(jī),而且在精神層面借助于原則、觀念、范疇確立了行動(dòng)的正確或謬誤的標(biāo)準(zhǔn)[19]。如果歷史主體和認(rèn)識(shí)者屬于同一個(gè)階級(jí),那么歷史主體和認(rèn)知者的個(gè)別意識(shí)就被統(tǒng)一成集體意識(shí),歷史主體的思想動(dòng)機(jī)和認(rèn)識(shí)者是一樣的,那他就能夠在認(rèn)識(shí)者這里得到重演了。金觀濤等認(rèn)為,中國(guó)社會(huì)的長(zhǎng)期穩(wěn)定發(fā)展是因?yàn)榉植荚谏蠈印⒅袑雍拖聦拥纳鐣?huì)組織者共享同一套意識(shí)形態(tài),在古代為士大夫,現(xiàn)在是政黨黨員,他們以社會(huì)整合為己任,成為政治文化的載體[20],中國(guó)歷史發(fā)展的超穩(wěn)定結(jié)構(gòu)就是這種載體作用的結(jié)果。
由于設(shè)定了歷史主體的價(jià)值與認(rèn)識(shí)者的價(jià)值是同一的,歷史主體的行動(dòng)就在認(rèn)識(shí)者心靈得到了重演的可能,因此歷史主體和認(rèn)識(shí)者的關(guān)系是強(qiáng)關(guān)系。這種研究的圖示見(jiàn)圖2。

圖2 價(jià)值同一性的歷史關(guān)系圖
上述兩種歷史觀無(wú)論是采用價(jià)值懸置還是價(jià)值同一性,它們滿足歷史主體在認(rèn)識(shí)者這里重演的條件是假設(shè)性的。從經(jīng)驗(yàn)的立場(chǎng)來(lái)看認(rèn)識(shí)者畢竟是主觀的,受其所生活時(shí)代的影響,他與歷史主體之間歷史距離的不可跨越導(dǎo)致他產(chǎn)生的認(rèn)識(shí)無(wú)論如何都難以是客觀的。為了克服歷史距離問(wèn)題,還原歷史主體的價(jià)值選擇,我們采用文本即歷史的觀念。歷史主體的價(jià)值通過(guò)其產(chǎn)生的文本自行展示,無(wú)需借助于認(rèn)識(shí)者的移情代入。這個(gè)立場(chǎng)類似于老子的“以身觀身,以家觀家,以鄉(xiāng)觀鄉(xiāng),以邦觀邦,以天下觀天下”[21]的立場(chǎng),我們是“以文本觀文本”。采用“以文本觀文本”的史觀要求歷史主體產(chǎn)生的文本滿足總體性和情景關(guān)系特征,而大數(shù)據(jù)的方法論也恰好以總體性和情景關(guān)系為出發(fā)點(diǎn),因此文本即歷史所依托的基礎(chǔ)是大數(shù)據(jù)方法。由于大數(shù)據(jù)的可計(jì)算特性就保證了文本即歷史的重復(fù)檢驗(yàn)要求。
解釋“文本即歷史”的客觀性理解同樣會(huì)遇到處理歷史主體的價(jià)值問(wèn)題。如果保留歷史主體,那么對(duì)歷史主體的認(rèn)知就需要通過(guò)認(rèn)識(shí)者的移情來(lái)達(dá)到,但這種移情會(huì)受認(rèn)識(shí)者所處時(shí)代的影響無(wú)法做到客觀真實(shí)。如果歷史主體的行動(dòng)世界與文本世界是同構(gòu)關(guān)系,則可以通過(guò)處理文本來(lái)達(dá)到對(duì)歷史的客觀性理解,這樣做的好處是它避開了歷史主體和認(rèn)識(shí)者關(guān)系的論證假設(shè),進(jìn)入到文本處理的可計(jì)算的經(jīng)驗(yàn)領(lǐng)域。但是單純處理文本和史料派的區(qū)別在哪里?區(qū)別在于它處理的是總體文本,而史料派處理的是認(rèn)識(shí)者選定的有限文本。在有限文本上運(yùn)用統(tǒng)計(jì)方法往往“需要對(duì)變量之間的關(guān)系和分布引入許多較強(qiáng)的假設(shè)。盡管很多假設(shè)并非直接針對(duì)數(shù)據(jù)的局限性,但是有限的數(shù)據(jù)往往限制了研究者對(duì)假設(shè)合理性的檢驗(yàn),從而增加了研究結(jié)論受研究者選擇方法的主觀性影響的風(fēng)險(xiǎn)”[22]。總體文本是歷史主體活動(dòng)留下的全部語(yǔ)言,這個(gè)總體文本和歷史主體行動(dòng)世界是同構(gòu)的,它和大數(shù)據(jù)的方法論也匹配。這樣就可以用文本來(lái)代替歷史主體的活動(dòng),而無(wú)需處理歷史主體的價(jià)值意義問(wèn)題。這個(gè)想法得到語(yǔ)言哲學(xué)的支持。維特根斯坦認(rèn)為:“意義理解的衡量標(biāo)準(zhǔn)并不是某個(gè)人類意向,而只是有待理解的語(yǔ)言的邏輯形式。”“由于語(yǔ)言分析代替了認(rèn)識(shí)論,從而主體及其意向、靈魂等等之類的問(wèn)題在某種程度上變得多余了”[23]。“我的語(yǔ)言的界限意味著我的世界的界限”[24]。這樣總體文本就代替了歷史主體的行動(dòng)世界,為歷史的客觀分析提供了基礎(chǔ)。
當(dāng)歷史蘊(yùn)含在文本中時(shí),對(duì)文本的分析最終落在了對(duì)構(gòu)成文本的詞項(xiàng)分析上。一個(gè)歷史階段的觀念總是不斷重復(fù)地被表達(dá)在特定的關(guān)鍵詞中,因此分析歷史觀念可以通過(guò)選定的關(guān)鍵詞來(lái)執(zhí)行。與文本分析中產(chǎn)生的一般技術(shù)詞是不同的,這些關(guān)鍵詞應(yīng)該具備歷史的效應(yīng),它們承擔(dān)起了歷史基本概念的作用,成為政治和社會(huì)詞匯的不可替代的、無(wú)可回避的一部分。這些關(guān)鍵詞融合了行動(dòng)者各式各樣的經(jīng)驗(yàn)和期望,在既定時(shí)代最緊迫事件的形成中變得必不可少。只有獲得這樣的地位之后,這些基本概念才會(huì)結(jié)晶為單獨(dú)的歷史詞匯,如“民主”“革命”“國(guó)家”“自由”等歷史詞匯。這些詞不僅僅是單純的言說(shuō),而重要的還有行事的能力[25]。
歷史詞匯的獲得在技術(shù)上可以通過(guò)文本挖掘的主題模型來(lái)實(shí)現(xiàn),然后再借助TF-IDF和齊普夫定律等相關(guān)的評(píng)測(cè)標(biāo)準(zhǔn)來(lái)選定[26]。獲得歷史概念的詞匯一直充滿爭(zhēng)議,因?yàn)槌錆M爭(zhēng)議的人群一直在用它,將時(shí)間序列和其他詞項(xiàng)加諸其上可以揭示這些詞的起源、定型和變遷過(guò)程。由于關(guān)鍵詞的計(jì)算是通過(guò)總體文本(一般是數(shù)據(jù)庫(kù)中的大量文本)得到的,可以避免認(rèn)識(shí)者選詞的主觀局限問(wèn)題。
由于關(guān)鍵詞是構(gòu)成歷史敘事的基本概念,了解它意義的變遷非常關(guān)鍵。關(guān)鍵詞的意義變遷是在時(shí)間軸下與其他詞的交互影響下得到體現(xiàn)的。當(dāng)我們能夠捕捉到一個(gè)詞與其他詞之間的互動(dòng)關(guān)系時(shí),那這個(gè)詞的意義也就得到說(shuō)明了。一個(gè)詞的意義不是通過(guò)解釋這個(gè)詞的定義來(lái)決定的,我們理解這個(gè)詞是通過(guò)關(guān)系勾連出的家族相似來(lái)得到的。如果某個(gè)關(guān)鍵詞與其他關(guān)鍵詞經(jīng)常共現(xiàn)在歷史文本的某個(gè)段落或語(yǔ)句中,則這個(gè)關(guān)鍵詞的意義就可以通過(guò)與它共現(xiàn)的其他詞項(xiàng)得到說(shuō)明。David Hall等通過(guò)分析詞匯及其變化來(lái)揭示1978-2006年間計(jì)算語(yǔ)言學(xué)的歷史趨勢(shì),揭示這個(gè)領(lǐng)域的觀念變遷,實(shí)證了庫(kù)恩提出的范式轉(zhuǎn)變,其中詞匯變遷是觀念變遷的重要指示器[27]。
在歷史文本的詞項(xiàng)構(gòu)成中除了表達(dá)觀念的詞匯外,還有一類詞是“人物名稱”詞。這些人物對(duì)觀念也有著說(shuō)明的作用,如果某些關(guān)鍵詞與他們共現(xiàn)在一起,則說(shuō)明這些詞項(xiàng)和人物所代表的觀念相關(guān),詞項(xiàng)的意義也得到了說(shuō)明。例如,Taylor Arnold,Lauren Tilton使用LDA分析16-20世紀(jì)哲學(xué)家維基百科語(yǔ)料中的關(guān)鍵詞分布情況,并進(jìn)一步通過(guò)將關(guān)鍵詞和哲學(xué)家作多維標(biāo)度分析來(lái)確定關(guān)鍵詞的意義分布,發(fā)現(xiàn)克爾凱郭爾處于存在主義與普通哲學(xué)這個(gè)主題之間,而哥德爾卻位于邏輯這個(gè)主題附近[28]。
在歷史事件的推進(jìn)中,文本中“人物名稱”詞構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)展現(xiàn)出一幅清晰的可“看”圖像,觀念的變遷借助于網(wǎng)絡(luò)被直觀地呈現(xiàn)。莫萊蒂說(shuō):“我從網(wǎng)絡(luò)理論得到的是它的基本形式的形象化。戲劇情節(jié)的時(shí)空流能被轉(zhuǎn)化成一系列二維的符號(hào):端點(diǎn)和邊,這樣,有關(guān)情節(jié)的觀念可以在一瞥之后迅速被捕獲。”[29]有了社會(huì)網(wǎng)絡(luò)的直觀呈現(xiàn),進(jìn)一步可以追問(wèn)是何種觀念、何種人物特質(zhì)、何種社會(huì)背景、氣候、地理?xiàng)l件促成了人物網(wǎng)絡(luò)關(guān)系的形成?這些因素對(duì)理解歷史是很重要的。正如毛漢光所說(shuō):“研究社會(huì)史最重要的是探討人與人之間的關(guān)系……幾經(jīng)考慮,覺(jué)得欲研究官僚政治,先得明了社會(huì)背景以及社會(huì)中人物的特質(zhì),否則便僅能知官僚的空架而無(wú)法深究其內(nèi)涵。”[30]可見(jiàn)人物特質(zhì)對(duì)理解官僚政治的重要性。但毛漢光所說(shuō)的社會(huì)背景以及社會(huì)中人物的特質(zhì)是如何影響官僚政治的,他沒(méi)有給出客觀測(cè)度。指數(shù)隨機(jī)圖模型可以解決這個(gè)問(wèn)題。“指數(shù)隨機(jī)圖模型是以關(guān)系為基礎(chǔ)的模型,是為了理解社會(huì)網(wǎng)絡(luò)關(guān)系是如何出現(xiàn)以及為什么會(huì)出現(xiàn)的”,“一旦研究人員把社會(huì)理論轉(zhuǎn)換成以關(guān)系、定量形式表達(dá)的假設(shè),指數(shù)隨機(jī)圖模型就提供了一個(gè)可以用來(lái)進(jìn)行統(tǒng)計(jì)檢驗(yàn)假設(shè)的分析框架”[31]。有學(xué)者以《水滸傳》中108人的身份特質(zhì)(官、商、民)作為個(gè)人屬性,任一兩人之間的座次排名的差異作為二人屬性,以及三角形、邊、k角星這三個(gè)常用的作為圖形屬性,通過(guò)指數(shù)隨機(jī)圖來(lái)預(yù)測(cè)水滸人物的網(wǎng)絡(luò)形成關(guān)系,計(jì)算發(fā)現(xiàn)兩個(gè)人如果在投奔梁山前同樣是官,他們?cè)诹荷浇㈥P(guān)系的概率是隨機(jī)情況下的301%[32]。這個(gè)結(jié)果為理解梁山何以能夠聚會(huì)提供了測(cè)度,進(jìn)而也可以推測(cè)何以梁山最終選擇了詔安,因?yàn)樗麄兊某錾硎枪俚脑颍菀仔纬梢恢乱庖?jiàn)。同時(shí),如果篩選出的影響網(wǎng)絡(luò)形成的參數(shù)中存在地域要素,可以通過(guò)空間統(tǒng)計(jì)的手段來(lái)尋找地域下的人物集聚情況。包弼德通過(guò)空間統(tǒng)計(jì)手段比較南宋、北宋進(jìn)士的地理集聚情況,發(fā)現(xiàn)宋時(shí)期知識(shí)分子大體分布在兩浙東西、福建、江南東西和西川這幾個(gè)圈子[33],這為了解宋代思想觀念的活躍和衰落提供了空間測(cè)度。
“文本即歷史”的研究確立了對(duì)歷史理解的客觀可能,因?yàn)樗膶?shí)施過(guò)程大部分是通過(guò)計(jì)算機(jī)手段來(lái)完成的。認(rèn)識(shí)者需具備程序員的能力,同時(shí)還需要將信息技術(shù)產(chǎn)生出來(lái)的數(shù)據(jù)作深入細(xì)致的解析梳理來(lái)編排成一種歷史敘事,以供他人閱讀理解。他與歷史主體并不建立直接關(guān)系。這種研究的圖示見(jiàn)圖3。

圖3 文本即歷史關(guān)系圖
本研究圍繞史學(xué)的客觀性理解問(wèn)題展開論述,分別討論了懸置價(jià)值的歷史、價(jià)值同一性的歷史和文本即歷史三個(gè)方面。它們達(dá)到客觀性理解的標(biāo)準(zhǔn)是實(shí)現(xiàn)重復(fù)性驗(yàn)證。價(jià)值懸置的歷史借助于統(tǒng)計(jì)手段實(shí)現(xiàn)重復(fù)性驗(yàn)證,價(jià)值同一性借助于在認(rèn)識(shí)者中心靈重演實(shí)現(xiàn)重復(fù)性驗(yàn)證,而文本即歷史借助于對(duì)代表歷史觀念的關(guān)鍵詞和人物的計(jì)算實(shí)現(xiàn)重復(fù)性驗(yàn)證。對(duì)前兩個(gè)方面史學(xué)研究已經(jīng)有相關(guān)的成果給予說(shuō)明,而文本即歷史的提法是探索性的,因此還有一些問(wèn)題需要說(shuō)明。
(1)量化數(shù)據(jù)庫(kù)。文本即歷史的方法論是“以文本觀文本”,它要求文本具備總體性和情景關(guān)系特點(diǎn),因此作為史料文本數(shù)據(jù)庫(kù)的完備性和數(shù)據(jù)清理的科學(xué)性決定了研究的可信程度。比如,在追溯某些現(xiàn)代觀念的起源和變化軌跡的歷史研究中,除選定《新青年》《少年中國(guó)》《新潮》《每周評(píng)論》《建設(shè)》《努力周報(bào)》《向?qū)А贰督夥排c改造》《醒獅周報(bào)》《甲寅》《現(xiàn)代評(píng)論》《星期評(píng)論》等12個(gè)新文化運(yùn)動(dòng)的期刊[34],還需要考慮包括《晨報(bào)》《大公報(bào)》《申報(bào)》《私國(guó)報(bào)》《時(shí)報(bào)》《神州日?qǐng)?bào)》《湘江評(píng)論》《天津?qū)W生聯(lián)合會(huì)報(bào)》等報(bào)紙,這樣就不會(huì)造成所選關(guān)鍵詞存在樣本偏誤的問(wèn)題。同時(shí),與這些進(jìn)步思潮激戰(zhàn)的舊派勢(shì)力報(bào)刊,如《國(guó)故》《新申報(bào)》《東方雜志》《公言報(bào)》也要顧及。因?yàn)橹髁饔^念在推進(jìn)過(guò)程中與非主流的種種層次常同時(shí)疊壓在一起,形成競(jìng)爭(zhēng)狀態(tài),里面有很復(fù)雜、很精微的相互依存關(guān)系。歷史研究要將這些層次關(guān)系展示出來(lái),利于“史實(shí)的建立”“價(jià)值的參照”[35]。基于這種考慮的史料數(shù)據(jù)庫(kù)才完整。
史料文本要經(jīng)歷一個(gè)掃描識(shí)別、轉(zhuǎn)化入庫(kù)的工作,因此制作中因字形差異,校核不精,錯(cuò)行錯(cuò)頁(yè)、脫行脫頁(yè)的情況會(huì)導(dǎo)致出現(xiàn)無(wú)用輸入、無(wú)用輸出現(xiàn)象(Garbage in,garbage out,GIGO)。為了克服這種現(xiàn)象,在史料入庫(kù)過(guò)程中一方面要嚴(yán)格把關(guān),一方面系統(tǒng)在保留文句的過(guò)程中要能夠?qū)崿F(xiàn)自動(dòng)交叉驗(yàn)證,同時(shí)啟動(dòng)開放的糾錯(cuò)接口,允許研究者在研究過(guò)程中發(fā)現(xiàn)錯(cuò)誤,提出改錯(cuò)意見(jiàn),系統(tǒng)完成改正。
(2)整體論視角。文本即歷史的研究依托海量數(shù)據(jù)進(jìn)行分析,它采用的是一種整體論的視角,該視角避免了認(rèn)識(shí)者僅僅選取代表性文本進(jìn)行分析時(shí)產(chǎn)生的局限。它與大數(shù)據(jù)“樣本=總體”的方法一致。因?yàn)椤皹颖?總體”的思維方式的變化,之前樣本的獨(dú)立性檢驗(yàn)讓位于依賴性檢驗(yàn),因果論證讓位于關(guān)系分析。樣本獨(dú)立性設(shè)定是將個(gè)體從其所在的社會(huì)情景中剝離開來(lái),而關(guān)系論證和依賴性的設(shè)定卻是情景主義的,這符合以文本觀文本的立場(chǎng)。
關(guān)系分析是大數(shù)據(jù)時(shí)代的重要方法論,直接導(dǎo)致數(shù)據(jù)密集型科學(xué)范式的產(chǎn)生,甚至因果分析也只是關(guān)系分析的一個(gè)特例。“關(guān)系分析本身意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過(guò)找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析,如果存在因果關(guān)系的話,我們?cè)龠M(jìn)一步找出原因。這種便捷的機(jī)制通過(guò)嚴(yán)格的實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量,這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)中去”[36]。這種以關(guān)系為主,關(guān)系帶動(dòng)發(fā)現(xiàn)因果機(jī)制的大數(shù)據(jù)思維對(duì)史學(xué)工作者發(fā)現(xiàn)隱藏的“歷史事實(shí)”,確立歷史基本概念有很大幫助[37]。
(3)數(shù)據(jù)驅(qū)動(dòng)而非模型驅(qū)動(dòng)。傳統(tǒng)社會(huì)科學(xué)研究中對(duì)于社會(huì)規(guī)律的發(fā)現(xiàn)基本源自于理性駕馭經(jīng)驗(yàn)的能力。這種能力扎根于康德的認(rèn)識(shí)論立場(chǎng)。通過(guò)理性為經(jīng)驗(yàn)立法,歷史變遷的發(fā)生學(xué)便通過(guò)理想類型構(gòu)造起來(lái)。其中典型案例就是韋伯用理想類型模型處理新教倫理同資本主義的關(guān)系。受這種立場(chǎng)的啟發(fā),很多社會(huì)科學(xué)工作者試圖發(fā)明一種理想類型來(lái)解釋歷史長(zhǎng)程變化。例如,蘇秉琦發(fā)明“滿天星斗”模型來(lái)解釋中原地區(qū)只是獨(dú)立發(fā)生發(fā)展但又互相影響的六大區(qū)系之一,從而對(duì)歷史考古學(xué)界根深蒂固的古中原中心、漢族中心、王朝中心的傳統(tǒng)觀念提出挑戰(zhàn)[38];趙汀陽(yáng)提出“旋渦模式”解釋商周至清朝這個(gè)長(zhǎng)時(shí)期的歷史性,認(rèn)為產(chǎn)生漩渦的向心吸引力形成是由于中原創(chuàng)造了一個(gè)完全開放的、可以普遍共享的、人人可以分享的精神世界[39]。然而無(wú)論如何,這種理想類型的思想實(shí)驗(yàn)無(wú)法脫離認(rèn)識(shí)者的主觀設(shè)定,它們的論證過(guò)程是基于后果推斷的。這種圍繞模型的方法勢(shì)必會(huì)導(dǎo)致歷史材料的選擇會(huì)依照模型的需要而收集,失去客觀性標(biāo)準(zhǔn)。文本即歷史是數(shù)據(jù)驅(qū)動(dòng)的史學(xué)立場(chǎng),它從經(jīng)驗(yàn)角度出發(fā)“以文本觀文本”。即便之后形成某種歷史規(guī)律的判斷,提出一種理論,那也是在數(shù)據(jù)作為論證的客觀性上推斷出的。例如,譚凱在寫作《中古中國(guó)門閥大族的消亡》時(shí)建立的“唐五代人物傳記與社會(huì)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)”,從傳記、宗譜以及超過(guò)3000多個(gè)墓葬碑文中獲得3.2萬(wàn)多個(gè)人記錄[40],為他推斷中古門閥大族的消亡提供了堅(jiān)實(shí)的基礎(chǔ)。隨著歷史材料的不斷數(shù)據(jù)庫(kù)化,面對(duì)TB級(jí)數(shù)據(jù)的歷史,研究者不可能窮盡。莊子說(shuō):“吾生也有涯,而知也無(wú)涯。以有涯隨無(wú)涯,殆已。”這個(gè)困境在大數(shù)據(jù)計(jì)算手段下或可解決。大數(shù)據(jù)時(shí)代史學(xué)研究出現(xiàn)定量計(jì)算的趨勢(shì),但并不意味著傳統(tǒng)史學(xué)研究的失效,而是它的存在讓史學(xué)研究的理論建構(gòu)具有了客觀的、可測(cè)度的依據(jù)。
[1]李文娟,傅學(xué)慶,李仁杰,等.基于空間統(tǒng)計(jì)方法的李杜詩(shī)詞文學(xué)空間模式的比較研究[J].河北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(1):80-87.
[2]夏翠娟.中國(guó)歷史地理數(shù)據(jù)在圖書館數(shù)字人文項(xiàng)目中的開放應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2017(2):40-53.
[3]柯平,宮平.數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J].中國(guó)圖書館學(xué)報(bào),2016(6):13-30.
[4]劉煒,謝蓉,張磊,等.面向人文研究的國(guó)家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[J].中國(guó)圖書館學(xué)報(bào),2016(5):29-39.
[5]梁晨,李中清.大數(shù)據(jù)、新史實(shí)與理論演進(jìn)——以學(xué)籍卡材料的史料價(jià)值與研究方法為中心的討論[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2014(5):104-113.
[6]金觀濤,劉青峰.歷史的真實(shí)性:試論數(shù)據(jù)庫(kù)新方法在歷史研究的應(yīng)用[J].清史研究,2008(1):90-108.
[7]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國(guó)圖書館學(xué)報(bào),2017(5):32-41.
[8]費(fèi)爾南·布羅代爾.論歷史[M].劉北成,周立紅,譯.北京:北京大學(xué)出版社,2008:27.
[9]伯納德·科恩.自然科學(xué)與社會(huì)科學(xué)的互動(dòng)[M].張卜天,譯.北京:商務(wù)印書館,2016:26-34.
[10]鄧仲華,李志芳.科學(xué)研究范式的演化——大數(shù)據(jù)時(shí)代的科學(xué)研究第四范式[J].情報(bào)資料工作,2013(4):19-23.
[11][29]陳曉輝.大數(shù)據(jù)時(shí)代的文學(xué)研究方法——基于弗蘭克·莫萊蒂文學(xué)定量分析法的考察[J].文藝?yán)碚撗芯浚?016(2):70-77.
[12][15][18]柯林武德.歷史的觀念[M].何兆武,張文杰,譯.北京:商務(wù)印書館,2004:38,307,176.
[13]尤瓦爾·赫拉利.人類簡(jiǎn)史:從動(dòng)物到上帝[M].林俊宏,譯.北京:中信出版社,2014:33.
[14]余英時(shí).十字路口的中國(guó)史學(xué)[M].李彤,譯.上海:上海古籍出版社,2004:77-78.
[16]高樹博.遠(yuǎn)距離閱讀視野下的文類、空間和文學(xué)史——弗蘭克·莫萊蒂文論思想研究[M].北京:中國(guó)社會(huì)科學(xué)出版社,2016:7-15.
[17]哈·麥金德.歷史的地理樞紐[M].林爾蔚,陳江,譯.北京:商務(wù)印書館,2015:70.
[19]曼海姆.意識(shí)形態(tài)與烏托邦[M].黎鳴,李書崇,譯.北京:商務(wù)印書館,2000:56-71.
[20]金觀濤,劉青峰.中國(guó)現(xiàn)代思想的起源[M].北京:法律出版社,2011:16.
[21]老子[M].饒尚寬,譯注.北京:中華書局,2006:130.
[22]梁晨,董浩,李中清.量化數(shù)據(jù)庫(kù)與歷史研究[J].歷史研究,2015(2):113-128.
[23]卡爾-奧托·阿佩爾.哲學(xué)的改造[M].孫周興,陸興華,譯.上海:上海譯文出版社,2005:13.
[24]維特根斯坦.邏輯哲學(xué)論[M].賀邵甲,譯.北京:商務(wù)印書館,2005:85.
[25]Hartmut Lehmann,Melvin Richter(edited),the meaningofhistoricaltermsand concepts:new studieson begriffsgeschichte[M].German HistoricalInstitute,Washington,D.C.,1996:64-65.
[26][27]Hall D,Jurafsky D,Manning C D.Studying the history of ideas using topic models[C].Conference on Empirical Methods in Natural Language Processing,2008:363-371.
[28]Taylor Arnold,Lauren Tilton.Humanities Data in R:Exploring Notworks,Geospatial Data,Images,and Text[M].New York:Springerpress,2015:162-170.
[30]毛漢光.中國(guó)中古社會(huì)史論[M]上海:上海書店出版社,2002:4.
[31]迪安·魯謝爾,約翰·科斯基寧,加里·羅賓斯.社會(huì)網(wǎng)絡(luò)指數(shù)隨機(jī)圖模型:理論、方法與應(yīng)用[M].杜海峰,任義科,杜巍,等,譯.北京:社科文獻(xiàn)出版社,2016:9,12.
[32]羊肉烤包子.結(jié)構(gòu)與能動(dòng)性的悖論,梁山的例子[EB/OL].[2015-05-10].https://www.douban.com/note/498409957/?type=like.
[33]Peter K.Bol.GIS,prosopography and history[J].Annals of Gis,2012,18 (1):3-15.
[34]金觀濤,劉青峰.中國(guó)近現(xiàn)代觀念起源研究和數(shù)據(jù)庫(kù)方法[J].史學(xué)月刊,2005(5):89-101.
[35]王汎森.關(guān)于《執(zhí)拗的低音》[J].讀書,2013(11):140-145.
[36]維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012:87.
[37]韓炯.從計(jì)量史學(xué)邁向基于大數(shù)據(jù)計(jì)算思維的新歷史學(xué)——對(duì)當(dāng)代西方史學(xué)量化研究新發(fā)展的思考[J].史學(xué)理論研究,2016(1):65-74.
[38]蘇秉琦.滿天星斗:蘇秉琦論遠(yuǎn)古中國(guó)[M].北京:中信出版社,2016:VII-XI.
[39]趙汀陽(yáng).天下的當(dāng)代性:世界秩序的實(shí)踐與想象[M].北京:中信出版社,2016:135-154.
[40]譚凱.中古中國(guó)門閥大族的消亡[M].胡耀飛,謝宇榮,譯.北京:社會(huì)科學(xué)文獻(xiàn)出版社,2017:11.