■吳春梅
(作者單位:中國現代文學館)
數字人文,一般被理解為以數字信息技術為方法來研究人文領域的問題。人文研究的對象是人類的精神世界及其積淀的精神文化,它主要運用意義分析和解釋的方法來研證人的觀念、精神、情感、價值和悟性等。因此,人文研究的過程更強調個性、特色、差異。當我們嘗試將數字技術融入到人文研究領域時,人文研究者很快就意識到了數字科技已經不可逆轉地滲透到他們的生活、工作之中,從而改變了他們的工作方式、研究方式和對象的載體。上海大學文學院教授曾軍曾在《數字人文的人文之維》中指出:“數字人文研究作為人文研究與數字技術的跨學科結合,同時包含了兩個維度的趨向:其一是‘人文研究數字化’,即用數字技術解決人文問題;其二是‘數字技術人文化’,即以人文方式發展數字技術,‘讓數字更人文’。”傳統的人文研究是以文獻史料為基礎,而數字人文則是以數據為研究問題的基礎,因此數字人文興起的前提,就是人文資料和文獻史料的數據化和數字化。隨著技術的驅動、研究者數據思維的逐步形成和新時代新寫作手法的不斷涌現,賦予數字人文更深層次的內涵,即以數字化的文獻史料和新傳播方式產生的數字化文本為數據基礎,利用大數據處理和算法分析的方法實現人文學術研究。作為以收集、保管中國現當代作家史料為主要職責的中國現代文學館,在數字時代如何合理地構建文學史料的大數據?為研究者提供怎樣的數字化資源?怎樣將數字化資源應用于文學研究?能夠提供何種數字技術方法來支持人文領域的研究?面對層出不窮的新寫作手法和數據庫文本資料,如何收集、保管?都是文學館要面對和亟待解決的問題。
(一)現當代文學文獻史料數字化是數字人文的基礎。在傳統研究方式上,學者進行學術研究的基礎性工作就是大量閱讀文獻資料,了解本專業的研究背景,廣泛接觸前沿理論,才能進行深一層次的思考,得到更進一步的成果,達到“后浪推前浪”的效果。就文學領域來說,無人不贊嘆錢鍾書先生旁征博引,縱貫古今中西的治學能力。著名國學大師吳宓曾專門寫詩稱贊他的才華:“才情學識誰兼具,新舊中西子竟通。大器能成由早慧,人謀有補賴天工。”然而,就是憑借超群的記憶能力和博覽群書的勤奮態度,錢先生在晚年也深感力不從心,他在《管錐編》再版序言中寫道:“《管錐編》問世以還,數承讀者貽書啟益。余重閱一過,亦見樹義之蘊蓄未宣、舉證之援據中者,往往而有。”此言大概就是緣于錢先生自覺年事已高,記憶力衰退,感嘆自己不再能以博聞強記、考辨舉證的能力為學術擅長而自居。上世紀八十年代,錢先生從女兒錢媛處得知英國利用計算機儲存和查閱莎士比亞資料,并在戲劇研究領域取得顯著成果后,受到啟發而于1984年開始倡導把計算機技術引入到中國古典文獻的搜集、疏證和整理中來。錢先生的治學方式是,“在大量讀書的基礎上,發現相關文獻之間的內在聯系,進而抽繹出問題,并以大量例證予以解析。這顯然是一種抽絲剝繭、披沙揀金的過程。發現大量的材料是前提,深厚的學養、敏銳的眼光和判斷力是關鍵。而在大量書籍中找尋材料與計算機的模式識別數據挖掘顯然具有某種程度上的相似性,只是計算機效率更高,速度更快。”這種數據概念無疑為學者埋首“故紙堆”的傳統研究方式,從治學時間和治學能力上都帶來了很大程度的縮短和降低。
強大的搜索功能和對海量數據的儲存和處理能力是計算機的特長,錢鍾書先生以超前的視野預見到,計算機技術對知識生產方式上可能帶來變革。中南民族大學數字人文資源研究中心主任王兆鵬認為,“傳統的文學研究是以主觀的理解闡釋、客觀的文獻史料為基礎,偶爾會用到數據,但數據只是點綴和補充。而數字人文研究,以數據作為討論問題的基礎,需要將文獻史料轉化為數據。”從研究對象的角度,對于實物文獻的數字化是目前為數字人文研究提供可能性所能做到的數據準備,即全力建設好中國現當代文學文獻基礎設施。在這方面,已經走在前面的有,臺北中研院近史所建立的“胡適檔案資料庫”,北京中國社科院近史所檔案館建立的“顧維鈞檔案數據庫”,北京大學圖書館建立的“陳翰笙檔案資料庫”,中南大學文學院建立的“網絡文學文獻數據庫”等。正在建置中的項目有,山東師范大學申報的“中國近現代文學期刊全文數據庫建設與研究(1872-1949)”,華中師范大學文學院申報的“中國新詩傳播接受文獻集成、研究及數據庫建設(1917-1949)”,重慶師范大學申報的“抗戰大后方文學史料數據庫建設研究”,“延安時期未刊文獻資料收集、整理與數據庫建設”,“中國文學史著作整理、研究及數據庫建設”,“中國近現代文學期刊全文數據庫建設與研究(1872-1949)”等。這些已建成或正在建置的基礎設施,已經從專題角度為現當代文學提供了研究的可能性。而對學者而言,建設一個整合的、互聯互通的、可持續的基礎設施是對館藏機構的學術訴求。
(二)新媒介文學文本為人文研究帶來新的可能。數字人文的出現是現代研究方法發展的一個縮影,隨著數字技術的發展,學術研究已經從理論驅動發展到數據驅動。數據已經成為學術研究的基礎,首先由于數字技術的出現,讓研究對象完全以數據的形式呈現出來。隨著新的歷史條件的變化和社會科技的發展,新時代的文學文本以嶄新的途徑進行傳播和流傳。電腦書寫時代使手稿變得彌足珍貴;電子郵件、社交軟件的盛行使信函成為永遠的歷史;微博、微信的普及極大地加快了信息傳播速度,提高了傳播效果,拓寬了傳播范圍,降低了準入門檻,提高了公眾參與度;網絡文學的“網絡”屬性和它的生產機制無疑增強了公眾對作者寫作的影響力。這些數字科技的產物天然是屬于“數字人文”的,并伴隨數字技術的發展不斷更新迭代。“從傳播學媒介研究的視角來看,技術就是媒介。”[數字技術的發展改變了文學創作者封閉寫作的習慣,延伸了人文研究者獲取資料的能力,擴展了多方交流的途徑。當代評論家陳福民在《破局者:金宇澄和他的〈繁花〉》中記錄,“金宇澄在談及《繁花》在弄堂網連載更新時說,‘起因是我想在網上,寫一些無名無姓者的市井事跡,于是起了網名,上去開帖。我經歷了80 年代的手寫稿時代,小說寫在格子稿紙上,編輯閱讀手寫稿,得到讀者反饋,過程更緩慢,等得更久。現在匿名寫到網上,就有了意見,帶來奇怪的促進作用,與閉門面壁的感覺完全不同。’作為一個作家,他的這種出場姿態也十分值得玩味。他從一個事實上的老作家變身“文學新人”去愉快地匿名寫作,后來人們都知道,《繁花》的寫作過程完全是自由自在無功利的。”網絡文學的生產機制是在互聯網媒介中,依靠數字技術發展形成和不斷更新的。在這種生產機制中生產出的文學作品無疑具備網絡的特性,即開放、平等、互動。那么,“從數字人文的角度介入網絡文學研究,并不僅僅是‘可能的選項’,而理應成為某種不可或缺的、內在化的思維范式。”然而,目前網絡文學發表平臺不勝枚舉,如榕樹下原創文學網、晉江文學城、起點中文網、小說閱讀網、瀟湘書院、紅袖添香、云起書院等,都各具特色、各有偏重,且都具備了一定的專題檢索功能。雖然,資本驅動的商業文學網站從架構和功能上與學術資源庫已具備一定的相似性,但正是由于它的商業本質,使“它終究只需要對投資者和用戶(作者、讀者)負責,既無義務也無意向為學術研究提供服務”。這是人文學者對于學術自覺的擔憂,也是呼吁建立學術導向的網絡文學數據庫的緣由。但是,網絡文學從興起到發展壯大雖然只有二十幾年的時間,已經形成了龐大的數據集群,現在進行廣泛收集、整合談何容易。何況涉及的研究數據各有不同,包括網絡文學原文本、讀者評論、粉絲社群、積分規則和數量、點積量等信息。當然,中國現代文學館作為現當代文學資料中心的自覺性不容許網絡文學領域的缺失。如此看來,與文學網站、社交平臺的戰略合作才是目前切實可行的挽救網絡文學研究所需數據信息的有效途徑。
(三)智能技術助力文學領域人文研究的科技轉化。數字人文起源于人文計算,而人文計算通常是在大數據的基礎上完成。因此,數字人文的前提就是以數據作為討論問題的基礎,在資料數據化、可視化方面做準備,利用計算機的運算速度優勢完成搜索、統計、匯總、分析等功能。人工智能在數據存儲和推理方面已經取得了巨大的突破,從而實現了自我學習,自我更新的能力。因此,智能技術在知識生產方面發揮作用指日可待。只要有一定量級的數據積累,遵循一定的知識生產規則和研究范式,整合文化和意識形態資源完成設定的目標問題就不難實現。然而,設定目的研究本身即是人文研究方向,“人文”服從目的律,“數字”服從因果律。因此,如若將人文與數字更為緊密的聯結,有效的手段還是以數據作為學術研究的基本要素,以人文學者的研究目標為導向設計開發恰當的數字人文分析工具,解決不同的問題。文學館作為資料中心的職能之一就是提供基于數據的服務,因此更應關注到學者在學術研究時希望以何種多元的數字方法切入現代文學研究。上海師范大學學者王賀總結出七個方向的研究方法:一是利用數據庫、互聯網從事包括現代文學版本、圖像史料的內的諸多文獻史料研究。二是利用數據庫、互聯網人事作家生平傳記研究。三是利用數據庫、互聯網從事文學社團、思潮、流派的譜系研究。四是利用數據庫、互聯網從事文學思想史、觀念史的研究。五是利用數據庫、互聯網從事文學文本的文體學(風格學)、修辭學、語言學研究和情感分析等。六是利用數據庫、互聯網將研究數據可視化并展開分析。七是利用數據庫、互聯網從事以現代文學(史)為主體的跨學科、跨地域、跨族裔、跨語言的比較與綜合研究。數字技術已經改變了文學研究的對象,“并非我們熟悉的數千年人類文明的載體——紙質文獻、出版物,而是一種全新的信息生產、儲存和傳播形式——數字文獻。”王賀預言,它勢必“持續地影響我們的閱讀、思考、寫作及日常生活。”
利用數字人文方法進行現當代文學研究,在數據準備方面切實有效的工作路徑可以從數據可視化和文本深度挖掘開始。對于可視化的素材,仰仗老一輩學者的積累和專業機構持之以恒的收集和數字化轉換工作的成果積蓄,已經構建出結構化程度較高的數據基礎。而文本深度挖掘則是對數據資源內容進行精細化揭示,實現資源的知識化、專題化服務。圖書館界已經開始探索實施,對資源進行內容細粒度標引,對文本類資源實現篇章級、段落級的標引,實現主題詞、關鍵詞級的標引建設,對音視頻類資源做關鍵詞、主題詞控制的內容標引。這是一種以人工智能為基礎,全面面向未來的知識圖譜布局,實現了傳統文化數字化、文化服務形式信息化和文化資源共享,也必然會為數字人文研究提供更為全面的數據支持。
數字基礎建置對于館藏機構參與數字人文建設而言十分重要,這需要進行大量的工作并投入大量的資源。而像一些學者呼吁的,希望建設一個互聯互通的數字基礎設施,而不是建立每一個機構獨立的基礎設施,更需要巨額的投入和費用。建設一個整合的、互聯互通的基礎設施需要資金和人才的雙重投入,單純依靠公立館藏機構是難以為繼的,公立機構的適度商業化運營能否成為解決問題的途徑也并不明朗。可能遇到的問題,一是公立機構對館藏資源分享的意愿不足;二是一旦資方覺得數字化的館藏資源并未達到預料中的成效,繼續投入基礎設施建設的意愿就會有所遲疑,導致項目半途而廢。
(一)數字技術驅動人文研究
隨著人工智能技術的發展,數字人文方法也在不斷地升級調整,數字人文已經從“博聞強記”的存儲、搜索時代發展到利用數字技術對數據資源進行分析處理的時代。接下來的數字人文研究方式將是對數據的闡述,這使人文研究外延擴大到跨領域的合作研究。從紙本閱讀到檢索平臺,從檢索平臺到分析工具,從分析工具到人工智能,人文學科的學術研究正在向數字化智能化的方向轉變。當視覺識別技術廣泛應用后,隨著深度學習技術的發展,人工智能程序的識別準確率已經超過了人類的平均水平。目前,對史料照片進行分類、檢索、比較、鑒別的功能已經是照片管理系統的基本功能,見圖識人更是在大量人像標引數據的基礎上利用智能識別技術的現實應用。計算機識別技術的不斷自我深度學習,能否在漢字手寫體識別、字跡甄別方面有進一步突破,從應用層面上讓電腦代替人工進行學術資料生產,勢必極大地提高工作效率。而搜索引擎根據提出的知識性問題給出對應的回答也是在人工智能技術助力下轉變為知識引擎和個人助理的成果,減少了學者搜集資料的工作量,也能夠擴大研究范圍。時下最熱門的深度學習,是對數據的訓練,是建立在大數據基礎上的。它是對特定問題建模,不斷地嘗試、修正,直至最終逼近目標的學習方法。遵循這樣的學習方法可以解決研究領域內相似的問題。那么,我們就可以將其應用到智能翻譯、智能識別、知識推薦等領域中在知識生產中發揮其價值。
《數字人文:媒介驅動的學術生產方式變革》一文中指出,人文學科與數字科技相融合使各學科間的交叉研究有了更多的可能性,“正是由于數字媒介的中介作用,人文學科領域日益走向問題為導向的學術生產格局,打破了固化的思維習慣,轉而根據問題的特性采用多維的研究方法,不同局限于定量和定性的分野,試圖充分發揮數字技術在量化和質化研究中的長處,在跨學科的視野中探索問題的解決方案。”這種改變學術研究方式的變革是數字技術帶來的,也將隨著數字技術的不斷更新、發展改變人們的思維模式和學術發展方向。
(二)數字化的文學知識生產需要人文研究方法
數字人文研究是一種跨學科的研究方法,從最初的數字科技參與人文資源的數字化生產,到人文學者開始習慣利用數字化資源,直至當前采用數字技術進行研究和實踐的數字人文發展路徑。早有學者看到,數字人文研究正在“逐漸從數字技術為主的研究導向轉向以人文性為主、技術為輔的研究導向,讓以數字技術解決人文課題變得有溫度”。尤其在文學研究領域,如德國浪漫派作家、最早的純粹意義上的文學學者之一弗·施萊格爾所言,文學不是“粗糙的書本堆積”,而是對某種“精神”的抒發,對某種共同生活狀態的表達。那么隨著數字技術的發展和研究環境的變化,人文研究主動參與到數字化的文學知識生產過程將勢在必行。
在這里有必要強調的一點是,數字技術生產出的文學知識具有文獻、資料的屬性,而非屬于直覺、審美的文學作品。電腦的本質是處理事實和規則的,它可以根據以往的數據預測結果,但無法像人腦那樣隨心所欲地暢想,憑借難以置信的直覺預測莫名其妙的可能性。固然“深藍”(Deep Blue)可以戰勝加里·卡斯帕羅夫(Garry Kasparov),“阿爾法狗”(AlphaGO)可以戰勝李世石,但是人工智能卻不會下出安慰棋,即在膠著的對戰之后輸掉棋局,且輸得不顯山不露水、讓對手心滿意足的這種人類行為。在文學領域,人工智能也曾做出嘗試,2016年谷歌工程師讓人工智能學習了2865篇愛情小說,然后又教人工智能一些英語詩歌創作的基本格式,于是人工智能算法就真的寫出了一首又一首情感小詩。雖然這些英文詩讀起來真有一些多愁善感的意味,但并不具有文本意義,人工智能始終無法寫出“鄉愁是一枚小小的郵票,我在這頭,母親在那頭”這種奈人尋味的詩句的。
因此,短時間內無需存在人類智能被人工智能取代的隱憂,值得被文學研究者關注的是如何駕馭海量的數字資源?怎樣以數字的思維來完成文學領域的學術研究。如四川師范大學文學院教授譚光輝所言,“記憶已不是最重要的,知識積累并非知識生產的決定性因素,而目的、意識形態、文化、政治、能力、思維方式、信息儲存和傳播技術等因素對知識生產的影響更大。”數字技術發展的依托必然是人文學科已經取得的研究成果。而人文學科通過對情感的反思和研究,必將為數字技術的實現做出重要的貢獻。雖然在現當代文學研究領域數字人文之火還僅呈現星星之態,但已經有很多目光敏銳的學者預測到它的燎原之勢,在不同場合和媒介參與討論和撰寫文章,表達出對文學與數字聯結的興趣,并在此方面做出了嘗試。中國社會科學院文學研究所助理研究員趙薇就以問題意識為指引,將數字人文方法落實到現當代文學的研究,從李劼人的《大波》中人物網絡的結構分析,就“李劼人接受之謎”做出了數據上的實證和解答。
當數字人文深刻地改變文學研究者的知識結構和研究路徑后,勢必會提出傳統文學研究無法提出的問題與研究結論,這才是數字人文開花結果之時,即實現新知識生產機制。如山東大學歷史文化學院歷史學系副研究員邱偉云團隊的工作流程:“先由文學學者提出傳統人文研究的議題,再由統計學者轉譯成可以量化的理論建模,接著由計算機學者進行編程和計算,最后再由人文學者進行應用詮釋。”如此,館藏機構需要在進行基礎設施建設時,思考、整合文學研究者可能提出的人文問題,在館藏數據的準確度、精細度標引上多下功夫。學者們普遍認同,針對大多數文學研究,還是需要個性化設計,才能對問題有細致精微的把握。那么,理想的工作狀態就應該是各盡所能,即館藏機構做好完備、可靠的數據準備工作,而文學研究者要主動進行基于項目的學術研究,利用館藏機構提供的文學史料數據構想人文研究課題、組織利用資源、建立數字模型、進行數字分析,以完成一種文學學術研究項目驅動,館藏機構提供數據基礎,科技團隊進行算法支持的數字人文研究模式。
總之,數字人文是人文學科學術研究的未來,人文學者將漸漸習慣于用數據思維進行人文研究。計算機以其善長的儲存和速算優勢去做那些規律性、事實性的工作,如字句校勘、索引編纂、資料匯編等。學者們則要具備大數據集群搜索的能力,在浩如煙海的不同知識和學科庫中,尋找彼此之間的關系,建立知識與人生存處境之間的關聯,讓知識活起來,讓學術互相融合,“將知識如何使人生活得更美好作為叩問知識問題的終極關懷”。如中國人民大學歷史學院副教授胡恒所言,“數字人文不僅僅是數據庫檢索,而是包含了計量、可視化、社會網絡分析等層次很豐富的研究方法。”“從事數字人文研究,數字化是手段,最終還是要回歸到傳統的人文問題。”