自從一九四六年第一臺電子計算機誕生以來,它的應用領域越來越廣泛、越來越深入。目前,已有的應用項目約在四千種以上,幾乎涉及了人類生產與生活的各個領域,無孔不入,無所不能。計算機的廣泛應用已經使人類的生產與生活發生了令人難以置信的變化,人類正在跨進一個新的時代。這個時代在人類歷史上的顯赫地位,計算機在這個時代中舉足輕重的作用,我們今天還很難作出充分的估計和預料。
與人自身能力相比較,計算機的工作有如下幾個顯著特點,這就是速度快、效率高、存貯量大、記憶力強。發揮計算機的上述優勢,使其與生產相結合,可以產生巨大的經濟效益,而與社會科學相結合則會產生無比的社會效益。把計算機引入文藝研究領域,使我們的文藝研究的某些方面擺脫長期純靠手工進行的方式,從而獲得現代化的研究手段,不但是必要的,也是可能的。這是社會科學工作者和自然科學工作者共同的任務。
目前,計算機在文藝研究領域中的應用至少可以在如下幾個方面進行:
一、資料搜集
建立存貯在計算機內部的文藝研究資料庫,實際上這將是一個計算機“圖書館”。這個資料庫至少分為兩部分:
原著資料庫:存貯作家的原著。這是文藝研究的對象,是我們從事文藝研究必須掌握的原始材料。除原著正文外,還可以存貯各種與原著有關的信息,例如:作者原名、筆名、出版年代、出版單位、印刷次數、再版次數、印數、上演年代、上演場次、序言、前言、后記、外文譯本年代及語種等等,重要作品還要存貯不同版本。我們還可以根據需要存貯與原著有關的其他資料和信息,以備研究時自動查詢、提取。例如:原著題材、體裁,作者本人對原著的記述或說明,以及與原著有關的原始素材等等。
論文資料庫:存貯對原著或作家進行研究的論文。這是前人已有的文藝研究成果,是我們從事文藝研究必須了解的寶貴情報。論文可以全文存貯,可以提要存貯,也可以全文和提要兩種形式同時存貯。目前,提要必須在存貯前進行人工編輯,為了以后檢索方便,還必須在存貯前人工提取與論文有關的“主題詞”。由計算機自動編輯論文提要和自動分析提取主題詞,理論上雖是可行的,但在短期內尚難以走向實用,因為這需要依賴計算機對自然語言理解這一高難度人工智能課題的解決才能實現。
在我國,目前建立原著資料庫的工作已經開始。例如:武漢大學語言自動處理研究組已經將老舍的《駱駝祥子》、《老張的哲學》、《離婚》、《茶館》、《龍須溝》;曹禺的《雷雨》、《日出》、《北京人》;茅盾的《子夜》、《蝕》;巴金的《家》、《春》、《秋》;魯迅的《朝花夕拾》、《彷徨》;郭沫若的《棠棣之花》、《屈原》、《虎符》、《蔡文姬》;葉圣陶的《倪煥之》;夏衍的《心防》、《法西斯細菌》;趙樹理的《三里灣》、《小二黑結婚》、《李有才板話》、《李家莊的變遷》、《登記》等原著存入了電子計算機,共約四百萬字的資料。另外,《四世同堂》等現代名著,《紅樓夢》等近代名著和《論衡》等古代名著的輸入工作也正在進行。國內其他有關單位正在籌備《兒女英雄傳》、《老乞大》、《多收了三五斗》等原著的輸入工作。內蒙古自治區計算機站還將蒙文名著《蒙古秘史》存入了計算機。這些名著存入計算機本來是為了從語言或歷史、哲學等角度利用計算機來進行研究,但是,客觀上也為從文學的角度研究這些名著準備了條件,形成了初步的文學原著資料庫。文學原著資料庫的建立必須由哲學社會科學領域的有關各界(如文學、語言、歷史、哲學等)統籌規劃,統一領導,分工協作完成,這樣,可以資料共享,避免重復勞動。
國外有些研究機構從研究漢學的角度出發,也將一些漢籍原著存入了電子計算機,例如日本京都大學就存入了李商隱的《樊南文集》等。
文學論文資料庫的建立工作,根據已知的材料看,在國內尚未進行,這部分工作與一般情報自動檢索工作性質相同。目前國內著重建立的是科技情報自動檢索系統。哲學社會科學領域的情報自動檢索系統的建立可以由有關的學科自建,也可以由哲學社會科學領域的各學科聯合情報檢索機構統一規劃,共同建立。就文藝研究領域而言,可以由有關單位先建立部分論文資料庫(例如有關戲劇方面的論文資料庫或者有關老舍研究、紅學研究、三十年代文藝的論文資料庫等)。這樣,既可以在短期內取得成果,投入使用,也可以為大規模地全面建立文學論文資料庫,形成完善的文藝研究情報自動檢索系統,積累經驗,準備隊伍。
二、資料處埋
隨著人類文學藝術遺產的爆炸性的猛增,一般的圖書館和資料室對館藏資料的處理和管理越來越繁重。我們不談書籍(尤其是善本書)在收藏和保護方面已經存在的嚴重問題,單就新書入庫而言,拆封、編目、分類、上架、查詢、借閱就是非常困難的事情。一個大學的圖書館,新書到后常常半年甚至一年以上還不能上架與讀者見面。至于對已有的資料分類編纂各種有關的索引,進行各種分類統計,則是更為困難的事情了。人們從事任何研究,包括文藝研究,不得不靠手工查詢、搜集、積累有關資料,搜集資料的時間至少與研究資料的時間相等,甚至常常多于研究的時間。
但是,已經存于計算機內部的資料,包括原著資料庫和論文資料庫中的兩種類型的全部資料,卻都可以由計算機自動地進行整理和管理。這些自動進行的工作例如:
自動分類統計:把已經存入計算機的資料自動地進行各種可能的分類并進行統計,如按時期、按作者、按題材、按體裁、按出版社等等統計原著資料。只要存入了與資料有關的什么信息,就可以對什么信息進行分類統計。機器進行這種分類統計的時間與人工進行同樣工作的時間相比較,幾乎可以是忽略不計的。武漢大學語言自動處理研究組還可以從語言的角度對原著進行各種統計,包括全書總字數、不同單字數、用字頻度、用詞頻度、標點符號頻度、句長頻度、平均句長等,而這些統計靠人工是很難進行的。
自動編纂索引:把已經存入的資料自動編成各種索引。這些索引可以是原著書目總索引,論文總索引;也可以是各種分類索引,如小說索引,戲劇索引,老舍著作索引、老舍小說索引、小說論文索引、“論《駱駝祥子》”論文索引,等等。只需根據分類統計時進行的什么樣的分類,就可以自動地將這分出來的類編成索引。另外,還可以編纂各種專名索引,如人名索引、期刊名索引、出版機構名稱索引、外文譯名索引、原著中地名索引、論文中引書名索引等等。機器還可以將上述各種索引排成漢語拼音索引、部首索引、筆畫索引、四角號碼索引、中外名對照索引等各種形式。武漢大學語言自動處理研究組的自動編索程序目前除四角號碼索引外,還可以有其它各種形式的索引。人工需要幾年時間才能編成的索引,機器只要幾天,甚至幾個小時就可以完成了。
自動檢索資料:已經存入計算機的各種有關資料經過自動處理之后,形成數據庫的格式,我們就可以從各種角度對這些材料進行自動檢索了。我們再不必依靠手工去翻檢摘抄大量的材料,只要根據自己的需要下一個簡單的命令,計算機就可以從浩如煙海的資料中迅速檢索到有關資料顯示給你看;如果你認為有用,一個命令,計算機就可以用表格形式、卡片形式、原文形式等各種形式把資料打印給你,需要打印多少份就可以打印多少份。
三、資料研究
利用計算機對于已經輸入的資料進行一些自動的分析和研究,這是研究手段的現代化的一個較為高級的方面,也是一個有著廣泛的探索和開發的領域。
首先,我們可以利用計算機對于一部著作進行具體的分析研究。例如,研究《紅樓夢》中的數百個人物或《茶館》中的數十個角色之間的錯綜聯系、主次關系等;研究《駱駝祥子》的語言特色,包括時代色彩、地方色彩、作家個人的風格色彩等等。在這方面,已經發展出了一門較新的學科——計算風格學。人們甚至可以利用計算機鑒別作品的真偽。例如,英國曾經利用計算機把一部歷來認為是偽作的作品鑒定為是莎士比亞的原作,法國曾經把一部歷來認為是原作的作品鑒定為是后人偽作。也曾有人利用計算機對《紅樓夢》的后四十回與前八十回作過分析,企圖鑒別究竟是出自一人之手還是兩人之手。
其次,可以利用計算機進行不同作品的綜合與比較研究。這種綜合與比較可以在不同時代、不同作家、不同體裁、不同題材之間進行,也可以在不同國別的作品之間進行,看看它們之間的相互影響,比較它們之間的異同之處。這是一種多方面的綜合性文學研究和比較文學研究。例如,通過比較發現老舍的《駱駝樣子》和趙樹理的《三里灣》兩書分別所用到的不同單字數遠遠少于葉圣陶先生的《倪煥之》和茅盾的《子夜》的用字數,這說明前兩部書的用字比后兩部書更為接近口語,而后兩部書的用字則顯得較為文雅。又比如,《子夜》中“莫”一詞的使用量遠遠高于《駱駝祥子》,這也說明了它的南方方言色彩。而老舍作品中用得很多的“敢情”、“壓根兒”、“老爺子”、“勞駕”、“借光”等北京方言土語在茅盾、巴金、葉圣陶等的作品中幾乎是看不到的。這種比較研究還可以在不同人物和角色之間來進行,例如將《月牙兒》中的主人公與同類以妓女為題材的作品中的主人公進行比較;將《月牙兒》的主人公與老舍作品中的同類型人物(例如《駱駝祥子》中的“小福子”)作比較;將《月牙兒》的主人公與她的“影子”——媽媽作比較等等。有些方面的比較研究是容易實現的,也有一些方面的比較研究在設計程序時則相當困難,我們必須先解決對比較研究的研究才行。
再次,可以利用計算機進行不同版本的自動校勘,這主要是指古典文學作品方面。搜集不同的版本,校勘文字,辨證訛舛是很繁難細致的工作。計算機可以很迅速地把不同版本之間文字相異之處一一查找出來以供人們分析辨別。有些作品再版之后經過作者本人文字修改,計算機可以很快地挑出所有經過修改的地方,以供人們分析作者修改意圖和語言修改藝術。更為有意思的是有人設想可以利用計算機對上下文的分析等手段把作品中殘缺或不清的文字構擬出來,當然,這是更為困難的事了。
計算機在創作中的應用也有著廣泛的途徑。
首先,計算機可以作為作家的寫作工具。作家的一部作品從草寫到完稿往往要把許多時間花在修改和謄抄上面,特別是數十萬字的巨著,抄寫校對一遍常常要幾個月的時間。但是如果有一部個人計算機,作家就可以拋開紙和筆,擊鍵打字創作,熒光屏上隨機顯示寫出的樣稿,作家可以對已寫入的樣稿中的字、句、段進行任意的增加、刪除、插入等修改。計算機具有各種相應的編輯功能。改好后,一按鍵,打印機便可以按出版格式打印全部修改后的稿子,無需謄抄、校對。作者認為必要,也可以將定稿之前的一稿、二稿……都存入計算機,以備隨時調用檢查比較。目前,信息處理界正在研究人的語音識別問題。一俟語音自動識別得到全面解決,作家就連擊鍵“寫書”也不必要了,只要坐在計算機旁“說書”即可以了,計算機會自動將“說”的作品轉換成為文字打印出來。
其二,計算機可以用于電影、電視片等制作的工藝流程的自動控制,使制片的質量更高,速度更快。也可以用于較大的劇場、音樂廳的自動化管理,例如售票、收票,燈光音響的自動控制,觀眾的構成和反映的自動調查分析,等等。
其三,利用計算機作曲、作畫、書法都是已經實現的事情,但也都是較為初級的形式。例如,只要你站在計算機旁,圖象自動識別裝置可以在幾分鐘內畫出你的肖像,只要你把著“手”教一遍計算機書寫草書,記憶裝置可以“記住”書寫的全部過程,照樣書寫出逼真的復制品等等。
計算機能不能進行藝術創造并超過人本身的創造呢?這是一個十分復雜的問題,我們最好不要過早地作出簡單的肯定或否定的回答。人教會了計算機下棋,而計算機反過來下贏了人,這是常有的事實。但藝術創造是十分復雜的高級腦力勞動過程,它不僅是為了娛樂,更重要的是要表達人們復雜的思想感情,還有對生活的提煉、加工,主題的深化、升華等等。這些問題的解決是十分困難的事情。也許有一天計算機會根據作家給以的各種原始素材,創作出不同情節和結構的數十種生動的小說或戲劇供作家選擇發表。電影《小街》作者給出了三種不同的結尾供觀眾選擇,而計算機可能會給出三十種不同的結尾供作家選擇。也許計算機創作的樂曲更加優美動聽,創作的繪畫更加逼真絢麗。假使這一切真的都可以實現,那么又如何看待文藝創作?如何評價人的創造和機器創造之間的關系?總有一天,人們將首先對計算機進行藝術創造這問題作出回答,然后再來回答由此引起的一連串微妙的問題。
盡管人類的大腦本身還沒有得到充分的開發和利用,但是我們卻已經進入了一個開發利用“電腦”的時代。在文藝研究領域引入“電腦”,首先開發那些切實可行的研究項目已經可以提上議事日程了。我們期待著文藝研究工作者和計算機專家的新的突破和成功。