蘇文成,盧章平
數字化時代,互聯網為學者提供了絕佳的數據供給、分析、利用渠道,媒體交互性愈發增強,數據使用不再遵守線性法則[1]。盡管面臨著數據質量與持續性衰減、可讀性減弱、數字鴻溝等問題,數字人文還是順應時代發展的趨勢孕育而生,并體現出隱性知識挖掘高效性[2]、研究工具手段多元性[3]、技術方法范式創新性[4]等特征。在國際數字人文領域研究概念逐漸明晰,發展方向重新界定之際,國內開始涌現該領域的初期研究成果[5-7],各類數字人文研討群組、講座、會議頻出,發展形勢一片大好。然而,任何新興學科或領域在方興未艾之時,都會存在由學科內涵到方法論運用方面的問題。本文結合文獻調研法與案例分析法,匯總、梳理前人數字人文研究中存在的問題與該方法運用現存的爭議點,以筆者在美國伊利諾伊大學香檳分校信息學院訪學時完成的宋詞流派特征遠程閱讀課上項目為例,歸納總結該研究方法尚存的缺陷與不足,以期從另一個角度來輔助本領域學者規避誤區。
數字人文聚焦工具主義,兼具跨學科屬性,盡管具備傳統人文學科未有的優勢,卻也帶來了方法論運用的新問題。在當下學界對數字人文研究主題熱情推廣,對數字研究方法高度推崇的趨勢下,部分學者展開了對數字人文方法的冷靜思考與評判,方法的合理性、科學性遭遇質疑。兩股對立的觀點由此形成了人文學界對數字人文方法論使用的爭議局面。
一項人文領域文化遺產編碼項目中暴露出“層次重疊”問題[8],相較于呆板的機器算法,人工編碼反而具有更強可自動處理性。數字人文學科過于繁復的數據來源、渠道會限制研究成果的受眾,使人文學者群體相互間隔絕[9],可見在選擇數字人文分析方法前,需要衡量各類研究工具利弊,并非只要沾上“算法”二字的方法就能解決人文領域面臨的問題。
學者注意到閱讀行為模式與計算機遠讀關注焦點的不同,前者聚焦閱讀內容元素,后者僅聚焦格式結構。計算機遠讀算法的文本內容挖掘雖能節約大量時間,提升信息分析效率,但對文本自身缺乏理解,由此得出的分析結果可能并不能產生新的研究結論[10]。使用文本分析、主題建模、數據挖掘、可視化等手段對大規模文學文本素材進行分析僅僅只是遠距離閱讀的開始環節,而不應成為其理論終點[11]。因此,無法結合精細閱讀的遠讀研究結論是值得懷疑的,案例章節將就此作重點分析。
數字人文學者批判傳統人文學者太過忽視計算機算法互動[12]。
(1)對被批判者——傳統人文學者而言,數字人文工具背后的機械邏輯冰冷僵硬、不知變通,研究者沒有計算機編程能力改善算法缺陷,眾多工具方法的黑箱化處理既使得文史藝術出身的學者操作上手相對簡單,又造成研究者對所用工具的一知半解。但有時在獲取數據分析結論后,研究者過分依賴分析結果的公正性,對于工具的影響以及實際應用缺乏深入理解,造成分析結論過于根植于個人經驗[13]。筆者在著手宋詞項目分析時,曾對分析軟件聚類算法的內核產生過疑慮,但相關介紹并不透明,因此過分信任數字人文軟件算法并不是明智之舉[14],對軟件工具的選擇仍應持有批判性思維的態度,充分理解軟件工具機理將直接決定數字人文項目開展的方向。
(2)對批判者——數字人文學者而言,現階段算法智能程度的局限性與其自身對于人文學科內涵理解水平的低下,也可能造成數字人文分析算法與研究項目的不適配。數據學家無疑對于大規模數據集的分析實驗具有更扎實的基礎,但對如何從數據中推演相關性缺乏訓練[15]。僅將數據分析處理技術應用到大規模人文數據集是遠遠不夠的。
Alan Liu曾闡述缺乏文化批判主義將造成數字人文學科人文屬性的削減[16],數字人文學者的觀點一定程度上革新了人文學科的核心價值,部分人文學者開始對數據中心論、重圖輕文、重制作輕思想、重編碼輕創作推崇備至[17]。那么人文學科核心價值觀是什么?它不是實驗性的實證去偽思維,而是純粹的腦力活動,受藝術創作和歷史語境的啟發,達到增進理解和培育同情的目的[18],這足見數字人文與傳統人文學科在研究精神上的巨大差異。
以藝術為例,數字人文藝術與傳統藝術學者存在激烈沖突,只因傳統藝術學者聚焦于藝術真品,而對于數字復制品毫無興趣[19]。與即將介紹的宋詞項目分析類似,強調形式韻味的藝術學研究,其美學內核往往會在數字化手段的剖析下變得支離破碎,過分強調、依賴數字化,只會將人文學科推往偏技術、保守的、基于實驗室的實踐研究模式,磨滅人文學者的批判性思維[20]。數字人文實質上干擾了人文學者的真正研究工作,它只是倉促間整合了披上理論闡述裝飾的計算語言學,甚至都不能經受計算語言學自身的檢閱[21]。不論發聲者出于何種角度,人文學者或是數字人文學者都應當警醒,數字人文是否真的在人文學科與理工學科之間搭建了一座溝通橋梁,又或者說其實質是疏遠了兩者的關系,使人文學科在數字技術的引入下完全屈服于科學主義。
筆者2016年8-11月全程參與了美國伊利諾伊大學香檳分校信息學院泰德·安德伍德(Ted Underwood)教授所授數字人文課程(課程編號590DH),該門課程理論與實踐并重,以探討數字人文概念、技術方法(尤其是計算機編程方法)在文學、史學、藝術等學科內的應用為核心。在完成該門課期末匯報任務時,筆者使用遠距離閱讀法,以中國宋詞流派特征分析為題目,對宋詞文學藝術流派中的婉約派與豪放派各自藝術特征作二次挖掘、對比,該匯報引起了國外師生的興趣,從中觀視角揭示了數字人文方法在宋詞藝術作品分析中應用的另一種可能性。在此課上任務操作過程中,筆者初識數字人文的魅力與價值。
詞作為古代詩歌藝術形式,始于唐代,宋代達到頂峰。由于宋詞對唐詩的化用,使其沿襲了唐詩藝術的部分特征,具有深厚的文化底蘊[22]。區別于唐詩,宋詞的流派邊界明顯,可按藝術特征分為婉約派與豪放派[23]。
本項目原始數據源自互聯網的“唐詩宋詞”網站[24],依據隨機抽樣原則,從詞作數量高于10首的詞人中隨機選取6位婉約派詞人與11位豪放派詞人(見表1),分析詞作分別有436首與440首,對于少數詞作語篇中存在的少字、缺字或爭議詞句(如李綱《一剪梅》“數點梅花玉雪嬌”,查閱所有版本,最后一句均已遺失),經反復比較采用流傳最廣的版本。

表1 詞人與詞作數量列表
遠距離閱讀作為數字人文廣為人知的方法,其研究核心在于以各種模型處理“大量未讀”的問題。區別于細讀,遠讀從文學整體觀入手解讀文學作品[25],而非執著于單個文本,忽略文本間關聯性[26]。本項目使用NVivo 11軟件的文本詞頻分析功能,對876首宋詞數字文本進行關鍵詞詞云分析與關鍵詞聚類分析,以期達到挖掘、呈現宋詞文學流派特征形態、規律的目的。
筆者嘗試使用不同分詞長度對獲取文本進行關鍵詞詞頻分析,可視化分析結果見圖1-2,當最小分詞長度為1時,兩大流派均出現了諸如“花”“云”“風”等重要關鍵字。由于中文字義的豐富性,同樣的字可能在不同風格詞作品中會出現詞義的極端反差,如當分詞長度設定為2,出現在圖1、2中的“西風”與“東風”,盡管同源自關鍵字“風”,但在婉約與豪放兩大派別中卻呈現出完全相左的意向。

圖1 婉約派宋詞文本關鍵詞詞云圖

圖2 豪放派宋詞文本關鍵詞詞云圖
當然,兩大派別的詞云也差別迥異:圖1中“情”“恨”“愁”“相思”“惆悵”“蕭蕭”等體現離愁別恨等婉約派主題的關鍵字詞頻繁出現;圖2中“酒”“醉”“英雄”“千古興亡”等豪放派詞作代表關鍵詞大量涌現。由于宋詞詞牌名中,以三字詞牌名詞作數最多(見表2),因此當分詞長度設定為3時,云圖中出現眾多詞牌名。

表2 詞牌名詞作數對比
使用關鍵詞聚類功能對宋詞文本進行分析,聚類數設定為2,相似性設定為0至0.9,分別由軟件計算出兩大流派關鍵詞聚類可視化圖(見圖3),其中淺色聚類為婉約派詞作關鍵詞,深色聚類為豪放派詞作關鍵詞。無論分詞長度為2或3,豪放派聚類中始終會包含婉約派關鍵詞,“凄涼”“明日黃花”等詞在深色聚類中時有出現,反之卻并未能在婉約派詞聚類中發現豪放派詞作關鍵詞。
基于上述可視化處理結果,大量流派特征詞能夠從圖1-3中被直接讀出,諸如婉約派中,“春”“情”“花好月圓”等字詞反映民間世俗感情生活,“愁”“恨”“淚”“憔悴”“柔情似水”等字詞頻度極高,成為該流派中的主要描寫對象,折射了婉約派詞人最擅長描述男女戀人離別相思之苦的片段與該派別詞作內容的藝術風格。豪放派中,“仙”“旌旗”“華發”“功名”“乾坤”“光陰荏苒”“滄海桑田”等字詞,抒發了詞作者在愛國理念感召下,抒寫壯麗山河、描寫歷史遺跡、借引典故及抒發光復故土豪情壯志的派別藝術特征。876首宋詞在遠距離閱讀的視閾下,能夠被直觀辨別出派系,這是數字人文理念給宋詞藝術作品分析領域帶來的創新性研究視角。

圖3 流派關鍵詞聚類(左圖中分詞長度至少為2、右圖中分詞長度至少為3)
從聚類圖3中不難發現,豪放派詞作者自有婉約之作,但從詞云與聚類結果中,卻無法發現婉約派代表作者曾作豪放風格作品。這與豪放派作者社會地位與生平經歷不無關系,該派別起源于北宋蘇軾,宋朝黨爭時代大量文人士大夫受競爭對手誣陷、政治迫害而遭遇貶謫,一批官場豪放派詞人的詞作中時而流露出陰柔之美,憂嘆個人政治仕途的波折與政治愿景不得報。同時,自古文人墨客情感生活中難免的波折坎坷也致使豪放派詞作中出現諸如“花”“春”“凄涼”“故人”“尋花問柳”等字詞。本文的研究立意與視角決定了對于研究發現的解釋并非筆者欲挖掘的重點,從數字人文技術所呈現出的可視化流派特征來揭示宋詞研究領域中的具體問題表象,才是本文想要向讀者傳達的聲音。
受遠距離閱讀思路的啟示,對宋詞相關的文學評價、文學批評文本的可視化挖掘同樣能夠獲得與宋詞流派相關的研究結論或對已獲得的研究發現進行檢索和整理。因此,嘗試使用NVivo提供的文本關鍵詞詞義關聯檢索功能,對由維基百科獲取的柳永與蘇軾生平及藝術成就評價文本進行檢索分析,使用關鍵詞“影響”進行檢索,既能夠從宏觀視角輕松繪制出受柳永婉約派風格影響的作品與詞作者,又能夠溯源影響柳永創作風格形成的重要人物或時間節點(見圖4)。

圖4 柳永生平關鍵詞“影響”詞義關聯
而詞人社交網絡關系也能夠使用類似的方法來進行文本層面的挖掘,以蘇軾為例,圖5中清晰地顯示了其與歐陽修間的關系,排除不相關關鍵詞關聯路徑,可以發現婉約派詞人代表歐陽修與豪放派詞人代表蘇軾間在私人生活與官場工作中有千絲萬縷的關系,也從社交關系與藝術派系風格傳承的視角出發,解釋了蘇軾多有婉約風格作品產生的原因。

圖5 蘇軾生平關鍵詞“歐陽”人物關聯
本小節僅以網絡文本為例,對文本關鍵詞關聯功能在宋詞流派藝術特征分析領域的應用作初步嘗試,未來如能夠將創作時間、作者生平經歷節點等維度信息與云圖同步疊加到分析脈絡中,可能將對包括作者創作風格演化過程、詞作主題研究在內的宋詞藝術史數字人文研究具有借鑒意義,突顯遠距離閱讀優勢。
本案例使用數字人文研究視角對傳統文學形式流派特征進行二次解讀,獲取的結論基本與已有的研究成果保持一致,因此,本項目更確切說是對前人定性化學術研究成果的復核與肯定。通過反思本案例存在的問題,可折射出數字人文方法應用過程中的局限性。
由于遠程閱讀方法對文本的拆解,勢必造成分析角度的單一化,尤其是對于漢語,豐富的字義、詞義往往會令分詞結果的分析無從下手。同時,不同于小說等文學藝術形式,詩詞作品的簡約與飽含深意,更會放大上述問題,例如宋詞五大意向“春”“江”“花”“月”“夜”,僅"月"意向就可分為明月、月滿、月黑、冷月、殘月、秋月等不同表現形式[27],意向的多向性大大提升了宋詞遠距離閱讀的難度[28],造成研究者或讀者的誤讀,映襯上文爭議點分析,計算分析算法的機械性在此暴露無遺。縱使明晰了特定分詞的含義,諸如李熠《春花秋月何時了》一詞中反襯、隱喻等藝術表現手法的應用,同樣會使詞作的情感、格調發生撲朔迷離的變化。以上所述是文本挖掘算法暫時無法逾越的一道技術鴻溝,在更為智能的文本分析工具出現之前,這一弊端都將存在。
有關宋詞流派特征的判定問題一直以來都存在爭議[29],兩派別間固有分明的界限,但也難免有同時具備兩面性的詞作存在。本項目在處理這一問題時,以學界公認的流派代表詞人為界限,進行流派詞作的劃分,這難免導致如蘇軾、陸游這類豪放派詞人作品中摻雜有婉約風格詞作,造成流派特征分析時的混淆視聽。但如若完全以流派為劃分界限,學界對于詞作所屬流派的界定尚不明晰,同樣會造成流派特征分析誤差。這是由該項目引出的又一問題,即數字化分詞方法運用與藝術特征分析主題間的矛盾。綜合考慮,以詞作風格為劃分依據更為合理,但分析的前提應當以智能文本挖掘算法為依托。
詩詞藝術作品閱讀行為的目的到底是什么?詩詞作品以其獨特的藝術魅力,經久不衰的影響、陶冶著無數代讀者的審美情趣。文中案例項目對宋詞作品的遠程閱讀分析和流派藝術特征解讀,某種程度上實際是對詞作自身藝術美感的破壞,中國古典文學作品的藝術韻味全然盡失,過度推崇數字化必將造成人文學科屬性的削減,中國古代文學藝術之美,不細讀無以知其所以。
那么,如何在保證文學研究美學意向的前提下彰顯遠距離閱讀的價值?筆者認為,遠讀為傳統文學研究領域帶來了全新的中觀或宏觀解讀視角與分析方法。在不同研究維度,細讀與遠讀應該互為補充,細讀往往重內,而遠讀重外,表里結合方能推動傳統文學學科的與時俱進,促其由發明邏輯向發現邏輯轉化[30]。
筆者通過宋詞遠讀分析工作的操作,驗證了傳統宋詞學者的部分研究結論,實現了研究思維由傳統人工細讀到基于文本數據計算分析的模式轉變,對宋詞研究方向提出了新的設想。但文章對于數字人文方法在宋詞研究領域的運用挖掘仍然不足,以致研究發現并沒有完全凸顯數字人文工具的獨特魅力。本研究的價值更多地傾向于暴露了項目執行過程中的數字人文方法運用的局限性。盡管目前該方法在實際應用中還存在著算法機械性、研究方法與主題互動性弱、人文學科屬性遭受削減的弊端,過于將功能局限在人文研究數據的采集與保存、知識的圖像化與數量化上[31],但如能正視數字人文給傳統人文學科帶來的研究方法上的沖擊,揚長避短,持續在數字人文項目中應用、改良方法,通過不斷挫敗與經受批判來逐漸掌握人文學科屬性基礎上的合理數字化程度,則有助于實現人文學者由工具理性到價值理性的轉化。因為應當認識到,縱使數字人文技術不能使人文領域現存的問題神奇地消失,但擁抱數字人文帶來的用以解決新問題的可能性,卻能使人文學者的研究工作更加輕松便利[32]。
[1]Dan Cohen R R.Promises and perils of digital history[EB/OL].[2017-03-15].http://chnm.gmu.edu/digitalhistory/introduction/.
[2]王濤.18世紀德語歷史文獻的數據挖掘:以主題模型為例[J].學海,2017(1):206-216.
[3][13]Clement T E.Where is methodology in digital humanities?[EB/OL].[2017-03-18].http://dhdebates.gc.cuny.edu/debates/text/65.
[4][11][16]Liu A.Where is cultural criticism in the digital humanities?[EB/OL].[2017-03-17].http://dhdebates.gc.cuny.edu/debates/text/20.
[5]肖鵬,彭嗣禹,王蕾.基本原則與關鍵問題:學術型圖書館館員如何啟動數字人文項目[J].圖書館論壇,2017(3):1-6.
[6]趙生輝,朱學芳.我國高校數字人文中心建設初探[J].圖書情報工作,2014(6):64-69.
[7]崔春,畢強.關聯數據在數字人文領域中的應用剖析——以關聯爵士項目為例[J].圖書情報工作,2014(24):99-105.
[8]Schmidt D.The inadequacy of embedded markup for culturalheritage texts[J].Literary and Linguistic Computing.2010,25(3):337-356.
[9][15]Robertson S.The Differences between Digital HumanitiesandDigitalHistory[Z].2016.
[10]AllisonSD,HeuserR,JockersM L,etal.Quantitative formalism: an experiment[M].Stanford: Stanford LiteraryLab,2011:1-2.
[12]Underwood T.Theorizingresearch practicesweforgot to theorize twentyyearsago[J].Representations.2014,127(1):64-72.
[14]Koeser R S.Trusting others to'do the math'[J].InterdisciplinaryScienceReviews.2015,40(4):376-392.
[17]KirschA.TechnologyistakingoverEnglishDepartments:the false promise of the Digital Humanities[EB/OL].[2017-05-01].http://www.newrepublic.com/article/117428/limits-digital-humanities-adam-kirsch.
[18][31]李點.面對數字人文的幽靈[J].燕山大學學報(哲學社會科學版),2017(1):1-2.
[19]Terras M M.Moving Forward Digital Art History ReportfromaUCLDH Workshop[EB/OL].[2017-03-18].http://blogs.ucl.ac.uk/dh/2015/10/08movingforward-digital-art-history-report-from-a-ucldhworkshop/.
[20]Allington D.Neoliberal Tools(and Archives):A PoliticalHistory ofDigitalHumanities[EB/OL].[2017-03-15]:https://lareviewofbooks.org/article/neoliberal-tools-archives-political-history-digitalhumanities/.
[21]English JF.Everywhere and nowhere:the sociology of literature after“ the sociology of literature” [J].New LiteraryHistory.2010,41(2):5-23.
[22]陳永宏.試論宋詞對唐詩的化用及其文化解讀[J].文學遺產,1996(4):30-41.
[23][29]萬云駿.試論宋詞的豪放派與婉約派的評價問題——兼評胡云翼的《宋詞選》[J].學術月刊,1979(4):43-48.
[24]唐詩宋詞.唐詩宋詞[EB/OL].[2017-03-17].http://www.shiandci.net/wangzan/scqj.html.
[25]Moretti F.Graphs, maps, trees:abstract models for a literaryhistory[M].New York:Verso,2005:4-92.
[26][30]高樹博.弗蘭克·莫萊蒂對“細讀”的批判[J].學術論壇,2015(4):99-104.
[27]許興寶.文化視域中的宋詞意象初論[D].西安:陜西師范大學,2000.
[28]潘百齊.全宋詞精華分類鑒賞集成[M].南京:河海大學出版社,1991:209.
[32]Van Ruyskensvelde S.Towardsa history of e-ducation?Exploring the possibilities of digital humanities for the history of education[J].Paedagogica Historica.2014,50(6SI):861-870.