張 全 之 韓 莉
(重慶師范大學 文學院,重慶 401331;齊魯工業(yè)大學 圖書館,山東 濟南 250353 )
2017-6-25
張全之(1966--),男,山東沂南人,文學博士,重慶師范大學文學院教授。
韓莉(1970--),女,山東滕州人,齊魯工業(yè)大學圖書館館員。
“大數(shù)據(jù)”時代的中國現(xiàn)當代文學研究
張 全 之 韓 莉
(重慶師范大學 文學院,重慶 401331;齊魯工業(yè)大學 圖書館,山東 濟南 250353 )
我們已經(jīng)進入“大數(shù)據(jù)”時代。“大數(shù)據(jù)”改變著我們的生活,也改變著我們的思維方式,文學研究也必然會受其影響,進入一個新的時代。就目前來看,中國古代文學研究在數(shù)據(jù)庫的開發(fā)利用方面已經(jīng)取得很高成就,在對“大數(shù)據(jù)”使用方面也有較為充分的準備。相對而言,中國現(xiàn)當代文學研究對“大數(shù)據(jù)”時代的反應(yīng)較為遲鈍,尚無理論上的思考和準備。但無論怎樣,“大數(shù)據(jù)”給中國現(xiàn)當代文學帶來的新思維和新方法是無法抗拒的,必將給這一學科的研究帶來巨大變化。
大數(shù)據(jù);數(shù)據(jù)庫;數(shù)字化;數(shù)據(jù)化
當下我們已經(jīng)進入大數(shù)據(jù)時代。所謂“大數(shù)據(jù)”(Big data),麥肯錫全球研究所給出的定義是:“一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。”(見百度百科)舍恩伯格和庫克耶在《大數(shù)據(jù)時代》中指出:“大數(shù)據(jù)標志著‘信息社會’終于名副其實。我們收集的所有數(shù)字信息都可以用新的方式加以利用。我們可以嘗試新的事物并開啟新的價值形式。但是,這需要一種新的思維方式,并將挑戰(zhàn)我們的社會機構(gòu),甚至挑戰(zhàn)我們的認同感。……但是,現(xiàn)在大多數(shù)人都認為數(shù)據(jù)是一個技術(shù)問題,應(yīng)側(cè)重于硬件或軟件,而我們認為應(yīng)當更多地考慮當數(shù)據(jù)說話時會發(fā)生什么。”[1]239-240海量的數(shù)據(jù),通過“云計算”按照操作者的需要進行處理,已經(jīng)得到廣泛的運用,并產(chǎn)生了驚人的效果。在我國,有關(guān)“大數(shù)據(jù)”的研究和討論也漸成熱點。從中國知網(wǎng)看,標題含有“大數(shù)據(jù)”的論文,近一兩年呈井噴之勢,具體數(shù)據(jù)如下:

年份20102011201220132014201520162017論文數(shù)量194335819634448706097802570
很明顯,前三年的數(shù)據(jù)起伏不大,但從2013年開始到2016年,數(shù)據(jù)迅速擴大,成為眾多研究領(lǐng)域中的熱點。與之相適應(yīng),我們國家對“大數(shù)據(jù)”也十分重視。2015年,經(jīng)李克強總理簽批,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》,對“大數(shù)據(jù)”在未來經(jīng)濟社會發(fā)展中的作用給予了高度重視,認為:“堅持創(chuàng)新驅(qū)動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用,已成為穩(wěn)增長、促改革、調(diào)結(jié)構(gòu)、惠民生和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。”“大數(shù)據(jù)”不僅帶來經(jīng)濟和科技發(fā)展的新跨越,對人文社會科學研究也會產(chǎn)生重要影響。事實上,在國外,利用“大數(shù)據(jù)”開展文學研究早已起步。美國斯坦福大學教授弗朗哥·莫萊蒂(Franco Moretti)在他提出的“遠距離閱讀”(distant reading)的基礎(chǔ)上,與馬修·喬克思建立了“文學實驗室”[2]。他通常的做法是雇傭幾個研究生,“專門借助計算機檢索、收集相關(guān)數(shù)據(jù),以供他來分析。他的主要職責是利用統(tǒng)計的數(shù)據(jù)繪制文學的圖表,通過對圖表的分析來揭示文學的秘密”[3]。如他在《文體:對7000個小說標題的反思》一文中,通過對數(shù)據(jù)的整合分析,尋找到小說標題字數(shù)的變化與時代之關(guān)系,還指出了小說標題的四種類型,他的這類研究如果不靠“大數(shù)據(jù)”是無法完成的。所以說,以“大數(shù)據(jù)”為依托,采用數(shù)據(jù)分析法對文學進行研究,已經(jīng)成為一種不可阻擋的新趨勢,也是“大數(shù)據(jù)”時代文學研究的題中應(yīng)有之義。在中國,也有很多學者在思考“大數(shù)據(jù)”時代文學研究的新方法和新問題,相關(guān)研究主要集中在二個方面:一是綜合論述“大數(shù)據(jù)”時代文學研究方法或綜合介紹西方相關(guān)研究的,這樣的論文主要有上面曾經(jīng)引述過的2篇:《大數(shù)據(jù)時代的文學研究方法:基于弗蘭克·莫萊蒂文學定量分析發(fā)的考察》和《“大數(shù)據(jù)”分析與文學研究》。前者詳細介紹了莫萊蒂用定量分析法研究文學取得的成就,認為:“莫萊蒂和他的團隊用定量分析的具體研究成果向世人證明,借助大數(shù)據(jù)的文學研究不是烏托邦的空想,而是具有切實的實踐性,它能夠為文學研究提供新的研究思路。”后者也是以介紹莫萊蒂“文學實驗室”的相關(guān)研究為主,但也提出了“大數(shù)據(jù)”與“小閱讀”的問題。作者認為,研究者個人的“小閱讀”是不可替代的,但通過“大數(shù)據(jù)”分析對文學進行研究,也有積極意義:“人腦和電腦在閱讀文本的時候所用的方法和關(guān)注的重點不一樣,讀出來的東西也可能截然不同。不過人腦和電腦在閱讀闡釋文學的時候也往往可以互為體用,互補短長,文學‘大數(shù)據(jù)’分析和學者個人的‘小閱讀’之間存在著許多交融與合作的可能。”[2]二是各學科紛紛著手研討“大數(shù)據(jù)”與相關(guān)學科研究之間的關(guān)系。比較而言,中國文學下面的二級學科中中國古代文學研究領(lǐng)域顯得較為活躍,早在2005年《文學遺產(chǎn)》就推出了李鐸和王毅的《關(guān)于古代文獻信息化工程與古典文學研究之間互動關(guān)系的對話》,他們特別提醒:“人與計算機將來的關(guān)系不是誰代替誰的問題,而是互相交流和啟發(fā),對話和融通,當然這之中并不是絕對平等的,人的主體性是第一位的,但我們也要向計算機學習,包括進入它的思維方式:要融合各種知識,也要補課,古典文學研究領(lǐng)域以后培養(yǎng)某些研究生時,應(yīng)該開電子信息、統(tǒng)計學等課程,應(yīng)該借鑒社會學數(shù)據(jù)統(tǒng)計方法等等,在知識結(jié)構(gòu)、特別是在研究方法和研究路徑的設(shè)計上,彌補我們學科以往明顯的欠缺。”[4]這是很有前瞻性的建議,可惜到今天也沒有得到充分重視。之后《文學遺產(chǎn)》于2014年推出《加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變——“大數(shù)據(jù)”“云計算”理論與古典文學研究》,2015年又推出《大數(shù)據(jù)時代的古典文學研究——以數(shù)據(jù)分析、數(shù)據(jù)挖掘與圖像檢索為中心》,詳細討論“大數(shù)據(jù)”“云計算”對古代文學研究的助推意義。之后又有人發(fā)表《大數(shù)據(jù)背景下古代文學研究的新策略——以“小李杜”詩詞研究為例》,認為“大數(shù)據(jù)會給古代文學的研究提供新的方法和視角”。
事實上,早在計算機普及之前,已經(jīng)有多人通過數(shù)據(jù)分析的方式研究《紅樓夢》前八十回和后四十回是否為一人所撰的問題,也提出了多種有價值的說法,這充分說明在古代文學研究領(lǐng)域,數(shù)據(jù)分析法早就得到應(yīng)用。[5]在文藝學、網(wǎng)絡(luò)文學和語言學研究領(lǐng)域,采用大數(shù)據(jù)推進學術(shù)研究,也漸漸成為熱門話題,相關(guān)論文有《統(tǒng)計文藝學:大數(shù)據(jù)時代文學研究的新范式》(周才庶)、《大數(shù)據(jù)時代網(wǎng)絡(luò)文學多維度評價方法及應(yīng)用》(介晶)、《大數(shù)據(jù)時代的漢語語言學研究》(詹衛(wèi)東)等,立足于當今的大數(shù)據(jù)時代,提出學科研究的新思維和新方法。但令人奇怪的是,檢索中國知網(wǎng),討論大數(shù)據(jù)與中國現(xiàn)當代文學研究的論文,至今沒有一篇。經(jīng)過深度檢索,《文學研究的大數(shù)據(jù)與小時代》(傅修海)一文涉及到大數(shù)據(jù)與當代文學研究的關(guān)系,但就文章的整體而言,依然談的是大數(shù)據(jù)與文學研究的一般性問題,并不是專門針對當代文學研究而言的。熟悉學術(shù)史的人都很清楚,中國現(xiàn)當代文學研究自新時期以來,就一直處于新思維和新方法的潮頭上,總能率先將西方的各種新潮理論應(yīng)用到具體的文學史研究和文本分析之中,雖然因此也遭受一些詬病,但總體而言,現(xiàn)當代文學研究的先鋒性是有目共睹的。但當我們進入大數(shù)據(jù)時代以后,就大數(shù)據(jù)給本學科研究可能帶來的機遇與挑戰(zhàn),似乎始終處于不自覺狀態(tài),與相鄰學科相比,明顯落后了。所以今天我們來討論這一問題就顯得十分必要。
“大數(shù)據(jù)”時代,數(shù)據(jù)庫建設(shè)是基礎(chǔ),沒有數(shù)據(jù)庫,就無從談起“大數(shù)據(jù)”。與中國古代文學相比,現(xiàn)當代文學研究中的數(shù)據(jù)庫建設(shè)明顯滯后。就目前狀況而言,中國現(xiàn)當代文學研究者常用的數(shù)據(jù)庫主要是綜合庫:google books、中國知網(wǎng)、晚清民國期刊全文數(shù)據(jù)庫(上海圖書館)、瀚文民國書庫、愛如生民國大報庫、大成老舊報刊數(shù)據(jù)庫、臺灣學術(shù)文獻數(shù)據(jù)庫等等,這些綜合性數(shù)據(jù)庫覆蓋很多學科和專業(yè),屬于現(xiàn)當代文學學科的專業(yè)數(shù)據(jù)庫則很少,北京大學出版社開發(fā)過可以檢索的《新青年》數(shù)據(jù)庫,但只能在光盤上使用,沒有上線;重慶師范大學正在建設(shè)“大后方文學史料數(shù)據(jù)庫”,目前尚不能使用。與之相比,古代文學的專題性數(shù)據(jù)庫則有很多,如《四庫全書》《四部叢刊》《歷代石刻史料匯編》《十通》《國學寶典》《中國基本古籍庫》《古今圖書集成》《龍語瀚堂典籍數(shù)據(jù)庫》《全唐詩》《全宋詩》等。而在現(xiàn)代文學研究領(lǐng)域,魯迅研究雖為顯學,但至今沒有建成一個像樣的數(shù)據(jù)庫。所以現(xiàn)當代文學研究者及相關(guān)部門,開發(fā)建設(shè)專題性數(shù)據(jù)庫,已迫在眉睫。但就目前已有的數(shù)據(jù)庫而言,特別是現(xiàn)代文學研究者經(jīng)常使用的“晚清民國期刊全文數(shù)據(jù)庫”和“瀚文民國書庫”,只是完成了將紙質(zhì)圖書變成圖像的過程,只能根據(jù)作者、題名、來源等要素進行檢索,基本上無法對全文進行統(tǒng)計和檢索,這只是一個數(shù)字化的過程,還不能稱為數(shù)據(jù)化。在這一點上,谷歌圖書的做法很有代表性。“剛開始,谷歌所做的就是數(shù)字化文本,每一頁都被掃描然后存入谷歌服務(wù)器的一個高分辨率數(shù)字圖像文件中。書本上的內(nèi)容變成了網(wǎng)絡(luò)上的數(shù)字文本,所以任何地方的任何人都可以方便地進行查閱了。然而,這還是需要用戶要么知道自己要找的內(nèi)容在哪本書上,要么必須在浩瀚的內(nèi)容中尋覓自己需要的片段。因為這些數(shù)字文本沒有被數(shù)據(jù)化,所以他們不能通過搜索詞被查找到,也不能被分析。谷歌所擁有的只是一些圖像,這些圖像只有依靠人的閱讀才能轉(zhuǎn)化為有用的信息。”[1]109-110隨后谷歌使用了能識別數(shù)字圖像的光學字符識別軟件來識別文本的字、詞、句和段落,如此一來,書頁的數(shù)字化圖像就完全數(shù)據(jù)化了,其功能和意義得到成倍增長。比如說通過檢索魯迅、郁達夫、郭沫若三個詞在數(shù)據(jù)庫中出現(xiàn)的頻率在時間上的分布,就可以得到這樣一個對比曲線圖:

這就是“大數(shù)據(jù)”檢索的結(jié)果,如果沒有谷歌的“大數(shù)據(jù)”,我們很難清晰地看到這三個詞在文獻中出現(xiàn)的頻率變化情況。根據(jù)這個圖表,我們可以分析出很多有價值的問題。如魯迅出現(xiàn)的兩個高峰,一個顯然是在1936年前后,因為他的逝世,他的名字頻繁出現(xiàn)在各類文獻中;一次是1980年代思想解放時期。同時通過對比,可以清楚地看出三個人中魯迅出現(xiàn)的頻率是最高的,而三個人出現(xiàn)的高峰似乎有著一致性,其中原因值得深思。
與谷歌將數(shù)字化圖書數(shù)據(jù)化相比,中國大量的數(shù)據(jù)庫都停留在數(shù)字化階段,還沒有完成數(shù)據(jù)化,這無疑影響了研究的深入和拓展。
依靠專業(yè)數(shù)據(jù)庫或者大數(shù)據(jù),現(xiàn)當代文學研究可以拓展出新的路徑,會極大地改觀研究的現(xiàn)狀。“大數(shù)據(jù)”的特點就是“大而全”,不像過去那樣只能靠抽樣,正如有人指出的那樣:“在大數(shù)據(jù)和云計算出現(xiàn)之前,自然科學抑或人文社會科學,都主要依賴抽樣數(shù)據(jù)和局部數(shù)據(jù),甚至在無法獲取實證數(shù)據(jù)時只能依賴假設(shè)、經(jīng)驗理論等去推測。這些基于經(jīng)驗、理論或抽樣數(shù)據(jù)的學術(shù)研究和理論探討在未來相當長的時間內(nèi)還將繼續(xù)發(fā)揮其應(yīng)有的作用。但是,這種方法所得到的結(jié)論,有可能是扭曲的認識或假象,具有一定的局限性。而基于大數(shù)據(jù)思維和方法分析所得到的結(jié)論,在把握問題的實質(zhì)和分析其發(fā)展趨勢方面顯然具有極大的優(yōu)越性。”[6]“大數(shù)據(jù)”帶來的最為有效的研究就是通過對詞頻或字頻的統(tǒng)計數(shù)據(jù),進行關(guān)鍵詞研究。金觀濤和劉青峰撰寫的《觀念史研究:中國現(xiàn)代重要政治術(shù)語的形成》一書就是一次成功的嘗試。兩位作者通過“中國近現(xiàn)代思想史專業(yè)數(shù)據(jù)庫(1830—1930)”“《新青年》數(shù)據(jù)庫”等,統(tǒng)計出了“公理”“國民”“個人”“權(quán)利”等關(guān)鍵詞的使用頻率,借此理出了一條觀念史的演變軌跡,令人耳目一新。在現(xiàn)當代文學研究領(lǐng)域,我們也可以采用數(shù)據(jù)統(tǒng)計的方法,查找“啟蒙”“個人”“反帝”“反封建”等重要概念的使用頻率,也可以從中看到中國文學觀念的演變歷程。除了對這些思想性關(guān)鍵詞進行統(tǒng)計外,還可以對文學意象,尤其是詩歌意象進行統(tǒng)計,也能看出詩歌審美的變化。莫萊蒂還通過關(guān)鍵詞統(tǒng)計的方法,研究過更為復雜的文學史問題。2013年,他出版《資產(chǎn)階級:文學和歷史之間》一書,通過對“有用”“有效”“舒適”“嚴重”“影響”等特定關(guān)鍵詞出現(xiàn)頻率的統(tǒng)計分析,來說明資產(chǎn)階級文學的興衰變遷,這已經(jīng)不是簡單的關(guān)鍵詞分析了,而是指向了更為復雜的文學史現(xiàn)象。
莫萊蒂在斯坦福大學的“文學實驗室”還通過對詞語的統(tǒng)計,分析研究黑格爾的悲劇理論,也產(chǎn)生很大影響,其研究方法也值得借鑒。[7]另外,利用“大數(shù)據(jù)”可以解決的文學問題還有很多。像作家的地域分布、家庭背景、受教育經(jīng)歷等數(shù)據(jù),對我們了解作家的成長與分布很有幫助。就以“文學與生活”的研究而言,如果能拿到書店的銷售記錄、圖書館的借閱記錄以及手機閱讀的相關(guān)數(shù)據(jù),我們一定能從中分析出當前中國人閱讀的整體狀況,以及文學介入人們?nèi)粘I畹纳疃取?/p>
就單個作家而言,可以通過詞匯的分類統(tǒng)計分析,了解一個作家在不同時期或不同階段對詞匯的偏愛以及用語習慣等。有時可以借助語言統(tǒng)計,對一些可疑文本進行數(shù)據(jù)分析,以找到真正的作者。這方面國外有一個成功的案例。《哈利·波特》的作者J.K.羅琳匿名發(fā)表了一本小說《布谷鳥的呼喚》。隨后牛津大學的Peter Millican和Duquesne大學的Patrick Juola通過一系列法律語言學的分析方法對比分析了這部小說和羅琳以往的寫作風格,最后推測這部小說非常可能是羅琳的新作。最后羅琳承認此書是她親筆創(chuàng)作。所以每個作家的作品,都帶有自己的印記,就像人的DNA一樣,可以通過細致的檢測,找到這些個人特征,這為一些佚文或有爭議文本的鑒定提供了條件。
“大數(shù)據(jù)”與“云計算”當前正處于高速發(fā)展和迅速普及的狀態(tài),它給人們帶來的震撼及其潛在的價值和作用,目前還沒有被我們充分意識到,所以率先采用“大數(shù)據(jù)”開展文學研究是適應(yīng)時代發(fā)展的重要步驟。自然,“大數(shù)據(jù)”也是數(shù)據(jù),文學研究需要感情的介入和富有個性的理解、闡釋,通過冷冷的數(shù)據(jù)對文學進行“科學”的分析,自有其局限。但毫無疑問,“大數(shù)據(jù)”帶來的新思維與新方法,必將給文學研究帶來一場變革,也可能是一場革命。
[1] [英]維克托·邁爾—舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代——生活、工作與思維的大變革[M].盛楊燕、周濤譯.杭州:浙江人民出版社,2013.
[2] 金雯,李繩.“大數(shù)據(jù)”分析與文學研究[J].中國圖書評論,2014,(4).
[3] 陳曉輝.大數(shù)據(jù)時代的文學研究方法——基于弗蘭克·莫萊蒂定量分析法的考察[J].文藝理論研究,2016,(2).
[4] 李鐸,王毅.關(guān)于古代文獻信息化工程與古典文學研究之間互動關(guān)系的對話[J].文學遺產(chǎn),2005,(1).
[5] 陳大康.文學、數(shù)學與電子計算機[J].自然雜志. 1988,(12).
[6] 鄭永曉.加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變——“大數(shù)據(jù)”“云計算”理論與古典文學研究[J].文學遺產(chǎn),2014,(6).
[7] 周才庶.統(tǒng)計文藝學:大數(shù)據(jù)時代文學研究的新范式[J].文藝理論研究,2016,(5).
StudyforModernandContemporaryChineseLiteraturein“TheBigData”Era
Zhang Quanzhi Han Li
(School of Literature, Chongqing Normal University, Chongqing 401331;Qilu University of Technology, Library, Jinan Shandong 250353, China)
We’re in the era of “Big Data”. “Big Data” is changing our life, and our way of thinking, and the study of literature is entering a new era. According to the present situation, study for classic Chinese literature has achieved great accomplishment in the development and utilization of database, and that is convenient to own these adequate preparations. Comparatively speaking, study for modern and contemporary Chinese literature, to some degree, slow to respond the era of “Big Data”. And there’s no theoretic thinking or preparation on it. However, the change of new thinking way and the new method that were brought about by “Big Data” is irresistible for modern and contemporary Chinese literature, and it will certainly give rise to great change to study this subject.
big data;database;digitization;datamation
I2
A
1673—0429(2017)05—0005—05
[責任編輯:左福生]