科技與人文似乎是人類智力活動的兩個極端,但電子信息技術的發(fā)展,已經出現了所謂“數碼化人文研究”(digital humanities)這一新名詞和新領域。早在計算機和數碼技術出現之前,語言學和人文研究就已經開始使用數據統計的方法。這種方法一個基本的應用就是書籍的引得,index,現在一般譯為索引。西方出版的學術著作往往有詳略程度不等的參考書目和索引,對學術研究很有幫助。1930年哈佛燕京學社成立引得編纂處,以洪業(yè)主持其事,從二十世紀三十年代開始,前后出版了六十多種引得,對于海外的漢學研究起了很大作用,對中國學者研究自己的古籍也非常有用。誠如陳毓賢女士在其所著《洪業(yè)傳》里所說,“這些引得在中國研究古籍的學術上創(chuàng)立了新紀元”〔1〕。在傳統學術研究中,雖然博聞強記非常重要,卻沒有以具體字句的統計為基礎的科學方法,而由西方引進的索引,就開創(chuàng)了一種全新的研究方法和研究工具,使學術研究得以離開印象式的評論而具有更扎實的文本基礎。到電子數碼技術出現之后,很快就有了更精確而且大型的引得如Shakespeare Concordance之類的參考書。香港中文大學中國古籍研究中心出版的先秦兩漢古籍逐字索引和魏晉南北朝古籍逐字索引,在中國古代典籍索引方面,也是非常重要的參考書。這些引得或索引對于檢索某個字句的來源出處非常方便,也可以幫助我們了解各個詞匯在不同時代、不同典籍里相關但有時不盡相同的用法。
數據統計方法的另一個應用就是語言詞匯出現頻率的統計。美國教育心理學家桑戴克(Edward L. Thorndike, 1874—1949)以詞匯出現頻率編制最常用詞匯表,語言學家高名凱先生就依據桑戴克的理論,編過一部《英語常用詞匯》,1961年由北京商務印書館出版。學習一種語言,掌握常用詞匯相當重要,而常用詞的定義就是以詞匯使用頻率為科學的依據。詞匯頻率和索引結合起來,往往可以產生在具體材料上有確切依據的觀點和看法,對于學術研究產生很大影響。具體就文學研究而言,一個作家或詩人使用詞匯的頻率,往往可以告訴我們這位作家或詩人文體風格的特點,并且由此引導我們窺見其思想情感的隱秘,在文學批評和研究方面有很大幫助。錢鐘書先生在《談藝錄》里就曾用數節(jié)文字來討論唐代詩人李賀詩中用字,他雖然沒有嚴格統計用字的頻率,但依據長吉詩中用字多少來立論,其實和計算詞匯頻率是同一個道理。錢鐘書說法國詩人“戈蒂埃(Gautier)作詩文,好鏤金刻玉。其談藝篇(L’Art)亦謂詩如寶石精镠,堅不受刃(le bloc résistant)乃佳,故當時人有至寶丹之譏(le matérialisme du style)。…… 近人論赫貝爾(F. Hebbel)之歌詞、愛倫坡(E. A. Poe)之文、波德萊爾(Baudelaire)之詩,各謂三子好取金石硬性物作比喻。…… 竊以為求之吾國古作者,則長吉或其倫乎”。接下去他引了李賀詩中許多例證:“如《李憑箜篌引》之‘昆山玉碎鳳凰叫’,‘石破天驚逗秋雨’;《殘絲曲》之‘縹粉壺中沉琥珀’;《夢天》之‘玉輪軋露濕團光’;《唐兒歌》之‘頭玉磽磽眉刷翠’;《南園》之‘曉月當簾掛玉弓’;《十二月樂詞》之‘香汗沾寶粟,夜天如玉砌’;《秦王飲酒》之‘羲和敲日玻璃聲’;《馬詩》之‘向前敲瘦骨,猶自帶銅聲’;《勉愛行》之‘荒溝古水光如刀’;《春歸昌谷》之‘誰揭赪玉盤,東方發(fā)紅照’;《江南弄》之‘酒中倒臥南山綠,江上團團貼寒玉’;《北中寒》之‘山濕無聲玉虹寒’;《溪晚涼》之‘玉煙青濕白如幢’;《將進酒》之‘琥珀濃,小槽酒滴珍珠紅’等等”。后面錢鐘書還說,李賀詩里常用“凝”字,“至其用‘骨’字、‘死’字、‘寒’字、‘冷’字句,多不勝舉,而作用適與‘凝’字相通”〔2〕。再后面他又說李賀詩中“好用青白紫紅等顏色字”,那是一般讀者都容易注意到的現象,錢鐘書則認為“尚是描畫皮毛,非命脈所在也”〔3〕。可見通過李賀詩中常用的金、石、玉、琥珀等字,可以概括出他的作品語言給讀者一種冷峻、剛硬的感覺,其中有許多詩句想象奇巧疊出,如《秦王飲酒》之“羲和敲日玻璃聲”,《馬詩》之“向前敲瘦骨,猶自帶銅聲”,用“敲”字帶出玻璃和金屬的聲音,給人裂冰碎玉那種硬而脆的感覺,就造成李賀詩特有風格的印象,使我們意識到李賀的確像戈蒂埃等歐美詩人一樣,“好取金石硬性物作比喻”,在風格上可以相比。這一概括以具體詞語的使用頻率為基礎,就很有說服力。如果我們現在用電子信息技術對李賀的文本做一個詞匯頻率統計,就更能夠證明這一點。
在西方文學研究中,卡洛淋·斯佩琴(Caroline Spurgeon)在1935年發(fā)表了《莎士比亞的意象及其意義》(Shakespeare’s Imagery and What It Tells Us)一書,就是以統計的方法來研究莎士比亞的文體風格,并由此探討作家的思想。這在當時的文學研究中很有新意,曾引起一陣轟動,而且這本書歷年來一直重印再版。雖然斯佩琴主要研究《坎特伯雷故事集》(Canterbury Tales)的作者喬叟(Geoffrey Chaucer, 1343—1400),她現在還被人記得的卻是這部研究莎士比亞意象的書,在六十多年之后,劍橋大學出版社于1993年還重印了此書。這本書除了一般學術著作的文字敘述之外,在書后有六個圖表,把莎士比亞作品中一些重要意象使用頻率用圖表標示出來,還把他同時代幾位作家使用的意象繪成圖表,以比較他們的異同。斯佩琴認為,有時候一個突出的意象貫穿莎劇整部作品,例如《李爾王》全劇都給人掙扎、痛苦,甚至一種肉體的、肌膚煎熬之痛的感覺,而這一感覺就來自劇中不斷使用身體受苦的動詞和相關意象。“只要打開這個劇本任何一頁,都很難不被這些意象和動詞所震撼,因為每一種身體的動作,往往是痛苦的身體動作,都用來表現不止于實際上肉體的疼痛,而且也表現精神和抽象的痛苦”〔4〕。許多人讀《李爾王》等莎士比亞作品,都會形成一定的印象,但這種印象是籠統而不明確的,斯佩琴用統計方法把這些印象落實到具體的意象和詞匯,就使印象式批評有了具體文本的依據,造成一種類似科學式的批評,在文學研究中獨辟蹊徑,很有影響。雖然后來的研究者們大都沒有嚴格計算意象頻率,但注重意象成為文學研究中一個十分重要的方法。這就是說,對具體詞匯和意象的把握是討論文學作品一個非常重要的方面,而在這方面,現代飛速發(fā)展的信息科技就可以為文學研究提供更多更便利的研究工具。
十年前電子版《四庫全書》的出版,可以說是數碼化技術一個新的里程碑。這項大工程把文淵閣四庫全書全部數碼化,使之成為可以搜索的電子文本。美國加州大學圣塔芭芭拉分校艾朗諾教授曾撰文詳細談論他使用電子版《四庫全書》的經驗,認為“就其極大規(guī)模和多種用途而言,這電子版《四庫全書》勢必在我們古代中國研究這一人文領域的研究方法上,留下它的印跡”〔5〕。首先是其規(guī)模,其次是其搜尋速度,兩者加在一起,就可以在過去不可能想象的速度和范圍內,搜尋具體的詞句和意象,而且可以根據搜索的結果,看出某個主題或關鍵詞在各種書籍里出現的頻率。艾朗諾教授是研究宋代文學的知名學者,他舉例說明在他的研究中,電子版《四庫全書》如何給他提供許多幫助。例如他通過查詢電子版《四庫全書》,對瓷器在宋詩中出現的情形就得出了可靠而出乎意料的結論。雖然宋瓷非常雅致精美,在宋人生活中應該是日常所用所見,也應該是宋代文人所把玩的,可是通過查詢電子版《四庫全書》,艾朗諾很快發(fā)現宋詩里很少寫到瓷器,只是偶爾提到茶碗。他說﹕“沒有電子查詢,我絕不可能察覺到瓷器在宋詩里這出乎意料的分布情形,即有時候提到,卻并沒有特別注意。同樣重要的是,沒有電子數據庫的依據,就須花費數月甚至數年時間的閱讀,才可能對自己作出的結論產生信心,而有電子搜尋技術的幫助,就很快可以做到這一點。有了電子版《四庫全書》的幫助,我們就可以減少我們結論當中憑印象得來的方面,而更接近在統計上有依據的、可以客觀驗證的結果。”〔6〕對于人文學者說來,電子信息技術的應用使人文研究在某些方面減少了隨意性質,而似乎更近于科學,這是人文學者非常重視的一點。
不過艾朗諾教授也指出一些在使用電子版《四庫全書》當中發(fā)現的問題,最主要是搜索范圍的問題。以關鍵詞為單位得出的結果往往太多,無法對一個具體詞語出現的環(huán)境做進一步限定,于是出現成百上千太多的“匹配”而變得沒有什么用處〔7〕。對于文學研究或廣義的人文研究而言,確定語言詞匯的意義在研究中具有核心作用,而詞匯的意義在任何一個文本(text)中,都取決于上下文的語境(context),于是語境非常重要,而語境總是具體的,對意義的確定具有限定作用。電子文本的好處是可以快速搜索任何詞語,但怎樣使搜索范圍接近具體的、對一個具體詞語的意義有限定作用的語境和范圍,則是現在仍然有待解決的問題。就以編制書籍索引為例,簡單的索引只列出書中提到的人名或其它關鍵詞語,那種索引大概比較容易用計算機完成,但那種索引對讀者并沒有很大幫助。更詳盡的多層次索引才更有幫助,但那就涉及對關鍵詞語及其相互關聯的判斷,是作者本人最能夠知道和制作的,用機械的方法就很難做這樣的索引。
與此相關的機器翻譯問題,也可以說明這一點。到目前為止,機器翻譯較能應付的是比較簡單、程序化的語句,而比較復雜的文本,尤其是文學作品,就不可能用機器來翻譯。我想這其中原因,就是讀者可以以自己的語言能力、閱讀經驗和文學常識為基礎,判斷在一個上下文的具體語境里,一個詞語和意象具有什么意義,應該如何理解。這當中很難歸納出一條普遍適用的規(guī)律,也就很難設計出可以機械操作的程序,再轉換成計算機的語言。文學語言往往不是只有一種理解,一種解釋,尤其是詩的語言,往往利用意義的含蓄多義,造成多種理解的可能,那正是文學豐富意蘊之所在。從這個意義上說,文學和科學之間,大概總存在一種緊張的關系。作為使用工具的動物,可以說人從一開始就在制造各種器具來代替人工,尤其在近代大工業(yè)機械化生產出現以來,機器的作用越來越大,從工業(yè)、農業(yè)、軍事、建筑、旅行、通訊直到我們的日常生活,機器取代人工都成為普遍趨勢。尤其進入二十一世紀以來,電子技術的發(fā)展和所謂數碼革命,使機器取代人本身已經在人們的想象中以各種形式呈現。恰恰在文學的領域,各種科幻小說已經想象cyborg的出現,打破了人和機械的界限,幻想各種比人更有智慧、更強壯、有更高文明程度的機器人。這種幻想與現實之間的關系,也隨著技術的發(fā)展而縮小。
然而一般說72805f1d2a17ccc41448fca7fb933bf2a71f634fa786f930d579e8a653701fa6來,人文學者對機器(包括現在越來越發(fā)展的計算機和數碼技術)能夠達到甚至超越人腦的綜合分析能力,總是抱著懷疑態(tài)度。在人的身體活動能力方面,機器的確往往可以代替人,而且比人更迅速有效。人沒有虎豹的獠牙利爪,卻可以制造武器比任何動物都更具殺傷力;人沒有鷂鷹的羽翼,卻可以制造飛機比任何禽鳥飛得更高更快,環(huán)球旅行。我們日常生活中有各種機器幫助我們做各種事情,那往往是靠人的體力很難、甚至根本無法完成的任務。然而在人的智力和思想方面,在想象和審美經驗方面,我們卻總相信人是不可以取代的。因此,一個人文學者希望于科學技術的是研究工具和研究方法的更加豐富完善,但不是取代人的腦力勞動,也不可能取代人的現實感和想象。有人認為有了計算機,有了數據庫,過去強調那種博聞強記已經毫無意義,這還是言之過早,而且是言過其實。尤其就人文研究而言,記憶不是機械的,而是在思考問題時可以產生聯想、見出事物之間聯系的基礎,而計算機和機器不可能輕易取代。至于計算機信息技術究竟能為我們提供什么,則有待科技專家們?yōu)槿宋膶W者展示我們還遠遠不知道、不了解的科學的奇觀。
注釋:
〔1〕陳毓賢,《洪業(yè)傳》,臺北:聯經1992年版,第171頁。
〔2〕〔3〕錢鐘書:《談藝錄(補訂本)》,中華書局1984年版,第48—49、51頁。
〔4〕Caroline Spurg