撰 汪 蘅>譯 姜文濤>校(圣母大學 英語系,美國 印第安納州南本德市 46556)一、引論本文意在從實證層面找出一個日益"/>
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?[美] 笪章難>撰 汪 蘅>譯 姜文濤>校
(圣母大學 英語系,美國 印第安納州南本德市 46556)
本文意在從實證層面找出一個日益流行的文學研究分支的一系列技術問題、邏輯謬誤和概念缺陷,該分支有各種名稱:文化分析學、文學數據挖掘、定量形式主義、文學文本挖掘、計算文本分析、計算批評、算法文學研究、文學研究的社會計算、計算文學研究(computational literary studies,縮略為CLS——譯者注), 我在文中使用“計算文學研究”這個說法。從現狀看,計算文學分析的問題在于有力的方面很明顯(實證意義上)、不明顯的方面并不有力,考慮到文學數據的本質和統計調查的性質,這一情況不易克服。在統計工具和工具應用的對象之間存在根本性搭配失當。
數字人文這個研究領域包含諸多多樣化主題:媒體史和早期計算實踐史,為開放獲取而做的文本數字化、數字記入和媒介、計算語言學和詞匯學、數據挖掘技術論文;它不是我批判的對象。我具體針對的是在大規模(或通常不那么大的規模)語料庫上運行電腦程序,產出定量結果,再繪圖、制表、測試,得到統計顯著性并用來提出關于文學或文學史的主張;或者設計新工具,用來研究形式、風格、內容和語境。CLS的另一個恰當定義是對文本挖掘中發現的模式的統計學表達,適用于現存關于文學、文學史和文本生產的知識,以便縮小安德魯·派博在其宣言《要有數字》里所說的“證據缺口”(27)Andrew Piper, “There Will be Numbers”, Journal of Cultural Analytics, 23 May 2016, culturalanalytics.org/2016/05/there-will-be-numbers/。CLS 聲稱文學批評家不會再僅憑少量文本就提出關于文學史完整時期的未經證實的主張,也不會忽略大批文學生產——CLS(派博說)能向我們展現新事物,讓我們誠實,辦法是給我們一種用實證證據支持各種主張的方法,或者利用上述證據去挑戰和文學史有關的各種傳統智慧(比如關于風格、體裁、歷史分期等等的主張)。
文學學者不太有辦法查驗CLS的工作,有時是因為獲取有問題。還有些學科環境使得對CLS 的批判難以增加,例如網絡文學社會學的主流化、把形式和形式主義的意義在語義上簡化為可追蹤單元,以及對于可追蹤事物形成的各種模式的研究。CLS還采取了一種研究批評性貢獻的方法,以節制、補充或逐步升級為特征,將挫折重構為一種必要性,以便調整方法論、產生更多檢驗。因此,盡管派博評論道:“迄今已經寫出大量論戰文章支持或反對用數據研究文學、文化、媒體和歷史,再提出一種基本原理看起來非常不必要了”,他又說,“確定無疑的是需要更多研究——研究到底為何、為何是現在,文化的計算研究是必要的。”(28)Piper, “There Will Be Numbers”.CLS聲稱要生產探索性工具,就算是錯誤的工具也是有內在價值的,因為探索就是有內在價值的。錯誤歸類變成關注對象、誤差變成理論、異常值變為審美和哲學探索,而這一切都值得付出更多資金出版。這種戰略上的逐步升級已經使得有些最直言不諱的評論家讓自己的論辯溫和起來——畢竟,誰不想顯得合理、前瞻、開明?
現在已有對CLS的評論文章——值得注意的有提摩太·布倫南的《數字人文的破產》、丹尼爾·阿靈頓、莎拉·布洛萊特和大衛·格倫比亞的《新自由主義工具(和檔案):數字文人的政治史》(29)參見Timothy Brennan, “The Digital-Humanities Bust”, The Chronicle of Higher Education, 15 Oct. 2017, www.chronicle.com/article/The-Digital-Humanities-Bust/241424, 及 Danielle Allington, Sarah Brouillette, and David Golumbia, “Neoliberal Tools (and Archives): A Political History of Digital Humanities”, Los Angeles Review of Books, 1 May 2016, lareviewofbooks.org/article/neoliberal-tools-archives-political-history-digital-humanities/.,對DH的政治和哲學批判已經對我們理解該分支領域的制度和意識形態基礎做出重要貢獻,但它們要么相信CLS說到做到、確實做了它號稱要做的事,要么就忽視了CLS論點的武斷。的確,同它們的貢獻和真正需要的計算能力(除了大規模數字研究計劃)相比,數據挖掘文本實驗室獲得了不成比例的制度資源。只需要一臺筆記本電腦就能在這兒再現幾乎所有的工作,單單一部智能手機就能提供計算能力,這又回到這個問題:我們為什么需要“實驗室”,或CLS何以斂到高得離譜的資金?不過,由于CLS處理文本分析的方式,它能用類似的數據挖掘方法支持非常不同的立場,也已給出理由,認為自己可以提供新方式、捕捉不平等,并“閱讀”出于獲取或審美和價值判斷的理由被正典遺留在外的語料庫。
本文并不主張“數字是新自由主義的、不道德的,不可避免要主張客觀性,目標是從文學研究中清除所有細讀,不能表現時間,會導致‘文化權威’的遺失”,也不認為“數字不可避免(摧毀時間/將閱讀簡化為視覺化/排除主觀性/填補空白)”。(30)Ted Underwood, “It Looks Like You’re Writing an Argument against Data in Literary Study…”, The Stone and the Shell, 21 Sept. 2017, tedunderwood.com/2017/09/21/it-look”-like-youre-writing-an-argument-against-data.也不會有任何關于“數據和數據科學霸權”或者數據本身的客觀性不穩定性的說法。(31)Piper, “Why are Non-Data Driven Representations of Data-Driven Research in the Humanities So Bad?”TXTLAB, 17 Sept. 2017, txtlab.org/2017/09/why-are-non-data-driven -representations-of-data-driven-research-in-the-humanities-so-bad/.已經有人周到而雄辯地這么做了。認為人類和文學現象不可簡化為數字、文學批評中好的闡釋及風格和科學一樣客觀,這是個人信念,不會進入這一批評。我們能用非意識形態的推理看到,就目前CLS實際操作的情況而言,它還沒有獲得什么闡釋的能力。
我討論的是CLS的少數幾個論點(選擇的原因是其顯著的布局、有代表性、作者愿意分享數據和腳本或至少其中一部分)。我選擇的每一篇論文都有文學、歷史或文化批評角度的概念缺陷,但選它們完全是因其自身情況——他們的樣本(經常是唯一來自外人的爭執點)、檢驗、代碼和真理宣稱。我利用基本統計原則討論這些例證,也會討論文本挖掘的已知使用和應用,以及在哪些情況中,文本定量分析和信息的簡化再配置會有用。我解釋真正應用的簡單方式對不住它們無邊的復雜性(多半是由于我自己的局限),但我相信這些方式仍能捕捉這些應用的正當功能及局限。數字人文領域的批評家已經為他們的方法提供了配套的解釋,但一般而言卻是為了讓入門標準顯得很低或為了讓受眾能跟上,引發更多人進入這個分支。我相信,用直觀而有效的方式重新介紹這些方法論,就可以開始理解驅動它們的邏輯并更好地評價CLS的效用,識別對工具和方法的次優使用案例,或使用原因并非預先可見的事例。本文并不試圖處理CLS工作中所有的錯誤和疏忽。執行中的疏忽;缺乏魯棒性(robustness)、精度和召回率;不夠理想的測量在數據挖掘中很常見。因此,雖然我仔細查看了技術議題,但對CLS的反對不會建立在技術細節上,而且一個人也無法承擔這么多工作,要搜尋不完整的數據工作,調試損壞的腳本。對CLS實際從事的計算工作的清晰解釋足以構成對我們其他人的刺激,讓我們理解哪些環境中這種錯誤可容許、哪些不行。我的批判實質非常簡單:我研究的論文分為無結果論文——數據上毫無結果可展示的論文——和的確產生了結果但結果錯誤的論文,討論的是數據的性質以及導致這些結果的統計工具。
CLS論文組織方式基本一樣,以詞語計數(即一元、二元、n元語法,一元語法的定義是兩個空格隔開的事物)為基礎探尋各種模式,做出六種論斷中的一種:(1)某事物的相關性;(2)較大主體中某事物較多或較少;(3)某事物對其他事物的影響力大小;(4)某事物被分類的能力;(5)體裁是否一致或混雜;(6)某事物如何變化或不變。后面會很清楚,所有這六種基本是同一論證,相關性、影響力、關聯性、連通性、體裁一致和歷時變化,全都由同樣的事物代表,也就是對重疊詞匯的基礎測量和統計表現——這些詞是所有詞匯中很小的一部分,因為必須有許多揀選,才有可能有任何統計學的可操作性。高維數的數據集用不同形式的數量縮減解壓縮(往往通過單詞矢量化),其結果用統計軟件繪制成圖標、圖形和映射圖。最后,這個模型(一種新推導出的工具,用于測量文學模式或辨別文學模式)用樣本或子樣本檢驗,而論證本身往往是對數據挖掘結果的描述,最嚴格概念意義上的定量分析在這項工作中時常缺席。通常也缺席的還有用統計工具做假設檢驗并試著表現因果關系(或至少表現特異關聯),以及通過基本文學理論原則對上述因果關系/關聯性加以解釋。
不論統計轉化多炫目,CLS論文的論據建立在X單詞或語法出現的次數上。CLS對數據的處理和視覺化不是本身意義上的闡釋和解讀,如果相信它,那就是誤以為基礎數據工作就是文學闡釋本身,而這項數據工作也許會、也許不會導向好的闡釋和任何數據工作中都必須做的闡釋性選擇(也可能根本沒有數據工作)。CLS數據工作中要決定哪些詞語或標點要計數、如何表現這些計數。就這些。CLS研究的連續字(一元語法)的最高數字是3(三元語法)。馬克·阿爾吉-休伊特查看了二元語法的概率(一個詞語后面跟著另一個特定詞的可能性),以計算語料庫“熵”,這只是換一個說法表達“兩個同時出現的詞語”(回頭我會再講到這篇文章)。讓-巴蒂斯特·米歇爾和其他人的《用數百萬本數字書做文化定量分析》追蹤五元語法(一連串5個一元語法),但結果是為了詞典學以及追蹤大規模語法轉移,不是為了文學史或文學批評。羅伯托·弗朗佐西號稱用三元語法標記找到了“敘事事件”(32)Franzosi, Quantitative Narrative Analysis (Los Angeles, 2010), p. 5.。雖然這在領域內已經過時,但他是我知道的唯一嘗試超越基礎詞頻給自然語言處理加標記的案例。然而,“敘事事件”只是三元語法長度的主語+動詞+賓語次序,而對 “時間”和“空間”的解釋不過是已知的計時器和地理位置(從一個由文學角度縮減而來的編碼角度來看,這極其困難)。(33)這包括意大利黨派出版物中關于罷工的5萬篇文章或佐治亞州55年間關于私刑的新聞 (1875—1930)。Franzosi訓練了一套SQL去查詢從那些并不自動照此排序,但又距此排序不遠的語言中找到正確的主語+動詞+賓語;見Franzosi, Gianluca De Fazio, and Stefania Vicari, “Ways of Measuring Agency: An Application of Quantitative Narrative Analysis to Lynchings in Georgia (1875—1930)”, Sociological Methodology 42 (Nov. 2012): 42.盡管存在相反的說法,但CLS無法超越三個詞去研究任何像情節這種問題。這不只是讓新生領域成熟的問題(文學語料庫分析已經存在半個世紀左右),而且與其對象太少又太復雜有關。建議像克勞德·列維—斯特勞斯嘗試用方程fx(a):fy(b) ?fx(b) :f(a-1)(y)界定神話結構那樣,從早期實驗性結構主義來定量文學,則完全不可操作,因為這些模式太過困難和抽象,無法編碼并界定太少的文本,無法讓機器學習成功地編碼哪怕少量文本中的一個此種現象。(34)這個公式規定了因子a的函數x和因子b的函數y之間的數學比例(analogy),而且當因子顛倒(a的函數x變為b的函數x)時,以及二者中有一個的函數和項值顛倒時也成立。這個公式來自Claude Lévi-Strauss, “The Structural Study of Myth”, Journal of American Folklore 68 (Oct.-Dec. 1955): 442.因此,CLS中出現的一切——網絡分析、數字繪圖、線性和非線性回歸、主題模型、拓撲學、熵——都不過是以更炫的方式談論詞頻變化。分析CLS的錯誤就能澄清為什么盡管20世紀70年代起就存在不同的語義學和句法學標記方法, CLS還往往堅持數字數,并在更加有限的意義上被迫通過調整停頓詞才找到許多顯著性。
我研究的CLS論文分為兩類:第一類將統計上無結果的結果展示為一種研究結果,第二類論文得出的結論來自錯誤的研究結果。
我最早看的一篇文章展現了不是結果的結果,使用的測量方式太弱,無法捕捉確定的差異,這篇文章也能幫我們看到通過詞頻測量所謂同源性、重復性或自我相似性的問題所在。泰德·安德伍德的《體裁的生命周期》試圖考察體裁是否隨時間變化,他僅以詞語同質性為基礎,將偵探小說體裁做成模型,檢驗模型精確性靠的是看它能否以區分A(1941年前的偵探小說)和C(隨機混雜的作品)的同樣方式來區分B(1941年后的偵探小說)和C。(35)Underwood, “The Life Cycle of Genres”, Journal of Cultural Analytics, 23 May 2016, culturalanalytics.org/2016/05/the-life-cycles-of-genres/安德伍德將A同B相比,聲稱150年來偵探小說比文學學者宣稱的要更一致。安德伍德想要主張,體裁并不隨著每一代而變化,它們不只是在20世紀才鞏固——其他人,也就是弗朗哥·莫雷蒂也這么說過——而是從19世紀20年代直到如今都多少保持一致。問題是,他的模型對他的目標毫無助益。安德伍德應該在1941年前的偵探小說(A)上訓練他的模型,和1941年前的“亂燉”(“random stew”,指隨機混雜的作品——譯者注)相比較,再在1941年后的偵探小說(B)上訓練,和1941年后的“亂燉”相比較,而不是在兩組作品上用同一批“亂燉”作品,要這樣去排除下述可能性:A和B之間的差異不足以說明一種較大趨勢(既然所有文學都可能在1941年后發生了變化)。安德伍德用詞頻同質性將偵探小說和隨機小說區分開,他在這其中顯示的一切就是1941年前和1941年后偵探小說間的差異沒有偵探小說和其他隨機小說之間的差異那么大。這不是說同樣的方法能捕捉不同偵探小說類型之間的差異。畢竟,統計學自動假定95%的時間里都沒有差異,只有5%的時間里存在差異。尋找低于0.05的P值就是這個意思。可以這么想:如果每個人都同意有些事情在發生變化——甚至安德伍德也讓步說體裁有進化——但是你設計的一種方式得到結論說并沒有,這并不一定意味著你發現了點什么。這僅僅意味著你的測量工具可能太弱——你的方法可能太無力——無法捕捉到此種變化。
用數據挖掘把自然發生的統計意義呈現為研究結果,這個問題在馬修·喬科斯和嘉比·基里洛夫的論文《理解19世紀小說中的性別和角色能動性》里也能看到,該論文聲稱特定動詞和數據集里的性別代詞(他,她)高度相關。(36)參見Matthew Jockers and Gabi Kirilloff, “Understanding Gender and Character Agency in the Nineteenth-Century Novel”, Journal of Cultural Analytics, 1 Dec. 2016, culturalanalytics.org/2016/12/understanding- gender-and-character-agency-in-the-19th-century-novel/; 因此縮寫為 “UG”(理解性別)。(性別是CLS里受青睞的解析,很可能是因為這是少數能提出清晰的二階分類的內容——分為男性/女性。)這些作者們用語法分析程序在其數據中找到準確的代詞-動詞對,建了分類器,為給定的動詞預測正確性別,號稱81%準確率(比純隨機水平提高了30%)。他們找到了50個與男性最相關的動詞和50個與女性最相關的動詞,每組中有10個詞是“機器發現在區分男性和女性代詞時最有用的”(“UG”)。拋開依存句法分析和OCR辨識中流行的錯誤以及缺乏對否定聯系的解釋(當一個人不做某事時),有些結果顯而易見;有些則不是。作者自己承認,這會構成一種落后的性別觀念(二元的;女人哭泣/weep,男人拿取/take),但我將這留給別人討論。
首先,總是有前5個、前10個、前50個、前100個統計顯著的代詞-動詞對。這就是找出所有代詞-動詞對、按關聯度排列、根據個人選擇截斷排列的一個功能。在好的統計工作里,要顯示自然發生的雙重差分,負擔極高。我們這么說,你用標準5%置信度在測量兩組數據的特征重疊;n個可能的共同特征里,0.05n自動就是顯著的。隨便找點東西做數據挖掘,總會找到顯著關聯。他們所稱的“19世紀角色性別和動詞間存在強相關”是自然成立的,因為根據他們給關聯下的定義,可以就任何世紀的任何一組文學做出這一斷言(“UG”)。這篇論文沒有執行自助法,也就是說遵循這一體裁分類的文學史意見站不住。但我們就算它們站得住,只需要找出每個性別的前10個動詞——這個方法簡單得多——在幾乎相同的語料庫上的代詞-動詞相關的單回歸——每個動詞的男性百分比在女性百分比上回歸——就能產生同等結果。使用同等的語法分析程序做善意重復得到不同的結果。(37)參見在線Appendix第1部分(section 1): https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.那么,這里的附加值在哪里?實際代詞類別是女性時,他們的樣本內模型有22%差錯率;實際類別為男性時,是16%。作者解釋高差錯率時說,動詞的性別化在用于女性時也許較不穩定——但你不能將預測的漏洞變成論點,除非你能證明你的預測的模糊性不是因為你的測量結果不夠有力。為了將測量結果重塑為對小說體裁性別剛性的測量、從而增加擴展貢獻,喬科斯和基里洛夫又說,他們的模型在為他們的6本成長小說、4本銀湯匙小說和3本歷史小說做正確性別分類時有58%、63%和67%的準確率;33本哥特小說有80%準確率;6本工業小說和2本紐蓋特小說有100%準確率。這沒有統計上的嚴謹性,別介意,我們談的是一批數量很小的書籍。不管你起步時的樣本規模如何,你總是可以把它截斷,讓你能得到某方面的100%準確率。在純屬偶然的情況下準確率也會變動;這不意味著存在系統性變化或者在性別和模型的性別預測能力之間存在真正的模式。

圖1 《19世紀小說網絡日期渲染》,摘自馬修·喬科斯《宏觀分析:數字方法和文學史》,第165頁
由于處理數據的方式問題,CLS可以做出統計上不提供信息的宏觀歷史斷言。看看這個圖,“3000本小說網絡”描述了基于詞匯的相似性,馬修·喬科斯說這個圖揭示了一段時間以來3000本小說的某些方面(圖1)。(38)參見Jockers, Macroanalysis: Digital Methods and Literary History (Urbana, Ill.,2013), p.166.這個網絡地圖中“書籍根據其計算出來的風格相似性和主題距離被聚攏(以及分開)”,按喬科斯說,這個圖“不一般”,因為它遵循年代順序(基于寫作時間之上的群集),而“年代校準顯示:主題和風格確實隨時間發生了變化。作者采用的主題和用來搭建主題框架的高頻功能詞幾乎但不總是受限的”(39)Jockers, Macroanalysis: Digital Methods and Literary History (Urbana, Ill.,2013),pp. 164-65.。換句話說,喬科斯說的是:由于淺色點和深色點之間有分離,因為它們并沒有全都混作一團,因為這個網絡視覺化自身并不顯示出版年份,他就證明了較老的作品彼此更類似、更新的作品彼此更類似:它們反映自身的年代。盡管有樣本差錯,這個網絡圖還是表現了數據中的很小一部分。你從這3%里了解的事是同義重復的。
喬科斯計算了書籍間的相似性(歐式距離),基于578項特征——500項是從LDA主題模型(見下文)中抽取的主題,其余是常用詞和標點。LDA主題和常用詞往往會隨時間過去而群集,這些特征有內置的時間關聯。如果你采用類似數據集(一百年來的文本),將絕對歐式距離(基于類似確定特征)回歸到時間上的絕對距離上,就會看到超級顯著的正相關。(40)參見在線附錄第2部分(section 2)涉及此相關性的內容:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.這并不獨特,也沒有洞見;你已經機械地保證會捕捉到一種體裁的時間趨勢及歷來討論的內容加上語言進化。
計算文學批評容易跌入錯誤的過度斷言或對統計結果的錯誤解釋,因為它常將自己置于純粹根據詞頻的位置上做出斷言,而不考慮位置、句法、語境和語義。詞頻和對其差異的測量,不管是歷時的還是作品之間的,都被要求做大量工作,代替截然不同的事物。

圖2 《奧古斯丁懺悔錄的13卷》,摘自安德魯·派博《小說信仰:皈依閱讀、計算建模及現代小說》,《新文學史》46(2015年冬季刊),第72頁

圖3 我的矯正圖每個數字相關聯的內容都和圖2中那些一樣:整個文本的1/20的數據塊
派博的論文《小說信仰:皈依閱讀、計算建模及現代小說》很好地示范了這個問題。論文用一個從歷史和解釋學來說都太過具體的論斷將詞頻差異和結構差異等同,提出兩個論斷:第一,奧古斯丁《懺悔錄》最后3卷和前10卷明顯不同,而后3卷之間彼此也顯著不同。(41)參見Piper, “Novel Devotions: Conversional Reading, Computational Modeling, and the Modern Novel”, New Literary History 46 (Winter 2015): 63-98. (中文版參見安德魯·派博:《小說信仰:皈依閱讀、計算建模及現代小說》,陳先梅譯,《山東社會科學》2016年第11期——譯者注)換句話說,從第10卷就開始感覺不同,而且越來越不同。派博將此歸因于第10卷中的皈依體驗——他認為這一體驗造成了詞匯輸出的真正差異。他說,就是這一點讓《懺悔錄》和受其影響的書籍以可測量的方式對讀者產生影響,也讓這些書“信仰”。第二,派博稱英語和德語小說的結構和奧古斯丁《懺悔錄》一樣;這個文本的后半部分和小說的前半部分非常不同,其內部各部分之間也越來越不同。前半部和后半部之間詞頻(每個單詞)方面的變化量,以及后半部內部不同數據塊之間的詞頻變化量,都通過半部間和半部內分值分別測量,也就是對文本1和文本2(直至文本n)之間詞頻差異的平方和的平方根的歐式測量。派博導出半部內分值和半部間分值,捕捉這一詞頻變化,并用多維縮放(MDS)將結果視覺化,本質上就是將20維的關系集簡化為2個,這樣才能視覺化(圖2)。
這一研究有多處錯誤。任何讀過《懺悔錄》的人都知道,最后3卷不同于前10卷是因為奧古斯丁在用了10卷寫自傳之后,轉向了對《創世紀》的討論,那當然會開始出現不一樣的詞匯。這和皈依沒有任何內在聯系。他的半部內和半部間分值不一定代表這種變化模式,不應被當作擁有此種“信仰”結構的小說的基準。(42)在線附錄第3部分可見其他作品和筆記的半部內和半部間的縮放數值樣本:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.更技術性的問題:派博沒有將拉丁語文本做詞干(提取將詞語轉為動詞和名詞詞根),盡管他為英語和德語文本做了詞干提取。(43)這些詞干提取器(stemmers)打包在Python里。現在僅有的拉丁詞干提取器是Schinke Stemmer (Python里沒有C 代碼);參見Martin Porter, “The Schnike Latin stemming algorithm”, Snowball, snowball.tartarus.org/otherapps/schinke/intro.html.他將拉丁語的同源變位動詞和詞尾變化的名詞計為不同單詞,但在英語里計為相同單詞。一旦拉丁文本被提取詞干、距離矩陣為變量按比例恰當縮放,我們就得到了不同于他的分值,他的結果不再成立。我用已提取詞干的文本再現了派博的圖,恰當地縮放過(圖3)。在我的解讀中,書的第1卷和第2卷沒有和前半部中其他部分群集,第13卷和前半部距離也不遠。
很容易看到結構主義論證根本上和詞頻相關的問題:其中出現詞頻差異的各種文本和情境都和你希望它們展現的內容不匹配。派博無法阻止文本后半部在他不需要的地方在定量上不同于前半部分。要將詞頻變化定義為變化本身(而且是通過皈依的概念滑移)既是同義反復,又有風險。沒有理由將此過程神秘化;隨著更多概念引入文本,更多詞隨之而來。例如《出埃及記》的多維縮放就顯示了這一點(圖4)。《出埃及記》的圖顯示的展布類似于派博在奧古斯丁《懺悔錄》中發現的那種,前半部分彼此更接近,后半部分不僅比前半部分更遠,數據點彼此相距也更遠。除非派博準備提出希伯來圣經也遵循奧古斯丁的懺悔結構(如他定義的那樣),否則他不得不承認這一模式不限于《懺悔錄》。基督教的皈依敘事呈現此種現象并不說明非皈依的敘事不會呈現此種現象。關于宗教文本的這種有效論點需要更多證據和評論。同時,奧古斯丁《懺悔錄》的一個中文譯本產生的MDS(使用派博的方法)看來完全不像他的拉丁文《懺悔錄》的圖表(圖5)。皈依體驗在翻譯之后是否并不繼續存在?

圖4 《出埃及記》英文譯本的MDS,每個數字代表本書的一個1/20數據塊。 前10個數據塊群集在一起,后10個則離得較遠,彼此間也離得更遠,和派博的《懺悔錄》MDS一樣

圖5 《懺悔錄》中譯本。每個數字代表本書的1/20的數據塊。前10個數據塊并不密集,后10個數據塊彼此相距也不遙遠
如果可能存在一種根本性解釋,既能排除你的主張,又讓你的模型變得沒必要,那么,將相似和差異簡化為詞頻差異就會迫使你制造研究成果。關于這個問題,李友仁關于不同類型中文作品差異的研究是現成例子。(44)參見Paul Vierthaler, “Fiction and History: Polarity and Stylistic Gradience in Late Imperial Chinese Literature”, Journal of Cultural Analytics, 23 May 2016, culturalanalytics.org/2016/05/ction-and-history-polarity-and-stylistic-gradience-in-late-imperial-chinese-literature/.作者聲稱,野史和小說這兩種中文作品體裁,并不像文學史家認為的那樣相似。他研究了3個很小的語料庫(分別有14、126和524個文本),比較了其詞頻(一元語法的“字”的頻率),使用分層聚類算法(HCA)做出基于“相似分值”和PCA(主分量分析)的樹狀圖。由于他將每本書分為許多萬字數據塊,再從數據塊中取出1000個最常用漢字(根據簡單的詞頻確定)(45)中文讀者早都要挑戰這一研究,因為不能將“字”看作意義的獨立單元(contained units)。作者承認要確定中文文檔中哪些是“詞”(words)很困難,因為有無法克服的語法分析問題(一個字加上另一個字往往完全構成另一個詞),還有點標點和斷句問題(文言文通常看似并無標點,因此語義和語法必須從上下文推斷),給一元語法(字)計數極其不精確。不過李友仁依然堅持認為,一元語法(字)頻率還是有意義、具預測性的;見上條腳注。,他的PCA上的每個點代表一個萬字數據塊,而非整本書(圖6)。在比較每萬字段落中最常見的1000個字時,該作者已做出極為相似的數據點,并且讓PCA看起來比實際要完善得多。也就是說,作者已經均質化了數據點,不必要地增加了它們的數量。如此一來,PCA上數據點的數量似乎提出了有力的論據,但實際上,來自每種體裁的數據點彼此非常接近,這只是因為作者處理數據的方式。更勉強的是維爾德勒用計算方法向我們證明,由于對正式語言的類似使用,中國的野史其實更接近正史。這一斷言基于明顯區分文言和白話的常見字符,但他以和主題及情節有關的常見字符為基礎描述了一道正史和小說之間的橋梁。這一關系已經為中國古典文學讀者所知曉。明清的野史和正史壓倒性地由差不多同一批文人學者或官員撰寫。野史的差異在于內容而非正式語言的使用,但小說主要以白話文(或傾向于白話文的混雜文字)寫就,包含和野史一樣的主題。如李友仁所言,如果說野史和小說傳統上被歸類到一起,那是因為二者往往都來自道聽途說。要挑戰這個分類是多余的,因為首先這個分類標準從未混淆過。

圖6 使用全文的MDS,沒有分為千字數據塊,依然使用詞頻,產生了類似的展布,但數據點少得多。三個野史文本位于右上角灰色部分
霍伊特·朗和蘇真的《文學模式識別:文本細讀與機器學習之間的現代主義》著手測量東方對西方的形式影響,建立了樸素貝葉斯分類器,去找到不自認為俳句的俳句——部分提供一個分類工具,部分追蹤那些未被明確為俳句的英語詩歌。(46)參見Hoyt Long and Richard Jean So, “Literary Pattern Recognition: Modernism between Close Reading and Machine Learning”, Critical Inquiry 42 (Winter 2016): 235-67. (中文版參見霍伊特·朗、蘇真:《文學模式識別:文本細讀與機器學習之間的現代主義》,林懿譯,《山東社會科學》2016年第11期——譯者注)他們在400個俳句(譯本及改編)和1900個非俳句短詩上訓練分類器,再在未分類的聯合數據集上跑分類器。貝葉斯定理是廣泛應用的定理,隨每次新觀測更新概率分布;這個系統“樸素”,因為各種特征應彼此獨立。你并不告訴算法借以做出分類決定的準確標準;你告訴它要注意什么,它根據某些基本特征學習判斷規則,每當新事物出現就改變概率分布,因此變得越來越聰明、越來越善于將下一事物分類。技術上,霍伊特·朗和蘇真運用樸素貝葉斯(N-B)改進分類器,將檢驗樣本中的每首詩看作一次新觀測。但這兩位作者沒有讓N-B自己辨別截斷音節計數,而是將該判斷規則編為硬碼寫進腳本(如果一首詩歌是譯本,它是否在19個音節以下,如果是改編本,是否在30個音節以下)。分類器借以分類俳句的唯一其他依據是個體詞語出現的簡單可能性分值(例如sky這個詞在非俳句中出現的可能性變成5.7倍)。他們最后得到一個過擬合模型,特征學得非常快。我在長度和意象相似的中文對聯英譯本和10世紀的《和漢朗詠集》(WakanRōeiShū,日本和中國歌謠選集)的200首中文短詩和非俳句日文短詩的英譯本上(比俳句形式的整合早差不多700年)跑了他們的N-B分類器。由于其標準的原始,他們的分類器嚴重地錯誤分類了中文詩歌和前俳句詩歌;(47)參見在線附錄第4部分(section 4)有關錯誤分類的內容: https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.實際上,隨著減低閾值增加(去掉發生次數不足的特征,防止過擬合),精確度進一步降低。也就是說,如果你將俳句定義為30個音節以內、詞匯在俳句中經常出現的詩歌,你實際上就瓦解了東亞詩歌諸多類型的多樣性,將其都歸于俳句形式。
應該說,統計檢驗的力量來自意義的獲得,來自信息豐富的無效假設或者備擇假設的建立,這個假設必須可以解釋人們對事物最根本的一些洞察。在數據中找到一個模式,拒絕了選得很糟糕的零假設,例如“最常用的詞不變”/“多數常用詞確實會變”,這是不夠的。檢驗可能極為有力,但檢驗的是個錯誤問題。它所做到的一切就是對結果的數據挖掘。科學和社會科學研究者非常警惕此類結果。統計工具設計出來是為了特定任務、解決具體問題;它們有特定效用,不應只是用來給詞語計數喬裝打扮。這么說完全不是主張文學分析必須有效用——實際上我相信的正好相反——但是,如果我們所用工具明面上的目標是功能性而非隱喻性的,那我們必須根據其實際功能來運用。
給敘事文本做定量、跑基于詞頻的算法、從形態上將文本數據視覺化,這些做法的理由不太好轉移到本學科。文本數據挖掘的典型應用自帶折中:用速度換精確、用信息范圍換細微差別。這樣的方法對工業、行業和某些學科是有效的,比如要高速處理大量文本數據,無法(也不愿)全部閱讀,或者要從大數據集提取相對簡單信息段,要么是切實可行的,要么能迅速根據簡單特征標注分類。不論人們對用確定算法處理世間萬象懷著何等感情,數據挖掘在倫理上是中性的。在法律取證中,那些大部分內容相同的法律文件(例如合同)可以機器閱讀,在標準術語和形式重復的句法模式中尋找錯誤的措辭或用字(包括誤用的特定詞語),快速識別問題或有意誤導的條款。抽取出來的信息不應語義復雜。投資者用文本挖掘來確定一家公司發布的新聞報道或新聞稿調子是正面或負面,以便迅速做出交易決策。每一秒都有公司發出新聞——年報、季報、股市收益公告等等——沒人想讀這些;也沒人有這個時間都讀完。簡單測量那些驅動特定可測定變化的條款,這是人們能夠且愿意從這些調查模式中收集的;速度是最重要的考慮,因為相應的決策通常必須在數秒內做出,如果不是納秒的話。我們從理論上可以單獨驗證每個報告——文本挖掘知道人類閱讀可以捕捉更多細微差異、例外、歧義和限定條件——但為什么要這么做?你的電子郵件服務器使用的機器學習分類器是在之前用戶標記為垃圾郵件的所有電郵上訓練的,會決定新進文件是否垃圾郵件。有可能沒什么正當理由就把一封電郵放到錯誤的文件夾或標記為重要,但分類器即刻出動、足夠精確,你就不會愿意自己手動來做了。
要在文學中尋找同源性,CLS必須清除許多高維數據,并統計顯著變化的首要動因。這總是會有顯著的信息損失;問題在于這種信息損失是否重要。一個很流行的解壓縮高維數據的方法是因子化,這是一種特別儉省地解釋數字數據中諸多差異的方法。以派博和李友仁用于論文中的PCA或MDS等工具為例,這些工具在CLS中廣泛用于捕捉詞法并呈現定量研究結果。PCA對數據做互不相干的轉化,減少多元數據的位面量,但首先它并不確切知道要尋找怎樣的相同和不同。PCA會將多元數據分為主成分,并基于其對共同矢量的荷載對數據條目間差異做定量描述。如果你有30萬個多元數據的公制分布圖(例如表現出某種或更多病癥的病人和他們的染色體圖),想知道他們有何共同點——但不是他們可能有的每個共同點,只需要三四個點,同時也并不知道那些共同點可能為何——PCA能用這些主成分幫你整理數據。它不會描述性地告訴你這些類別叫什么,或者共享什么主題,但會告訴你什么樣的特征(不同的染色體圖)可能導致了群集(都有心臟病的病人)。在文本分析中,這意味著一篇文章、一段文學作品或一本書和另一個之間的最大差異將是它們在少數幾個共享矢量上的荷載——即定量信息,而非描述性信息。你不會想要走完所有矢量,因為那等于復制全部數據集(至于在哪里停則是專業選擇);這樣一來,就必須顯著減少信息。從統計上確認醫學疾病的共同驅動因素是一回事,要說康德的第三批判和黑格爾的《美學》之間的差異可以通過因為在兩三個詞匯表中有重疊而導出的兩三個數字捕獲,那是另一回事。有許多提取因子的不同辦法,也有大量新技術用于奇怪的數據集,但這些都是非理論方法,意思是,嚴格來說你使用時不能希望它們能魔法般為你產生有意義的解釋,并含有由特定領域界定的意義和洞見。

圖7 霍普和維特摩爾的莎士比亞戲劇PCA,以體裁分類;見莎拉·艾莉森等人的《定量形式主義:一場試驗》,載于《斯坦福文學實驗室》,手冊1,2011年1月15日
想一想斯坦福文學實驗室的這幅圖(最初由邁克爾·維特摩爾和喬納森·霍普制作),該圖提出,也許“敘事體裁可以簡化為兩個基本變量”,也許體裁之外的某些因素驅動了威廉·莎士比亞的喜劇、悲劇、歷史劇和晚期戲劇間的差異(“QF”)(圖7)。(48)參見Michael Witmore and Jonathan Hope, “Shakespeare by the Numbers: On the Linguistic Texture of the Late Plays”,Early Modern Tragicomedy, ed. Subha Mukherji and Raphael Lyne (Rochester, N.Y., 2007), pp. 133-53.但沒人說過一致的詞頻是區分莎士比亞的喜劇和悲劇、悲劇和歷史劇等等的因素——也沒人會這么說,因為這種區分無法以詞頻捕捉。換言之,只有當詞頻確被認為驅動了體裁差異時,這個PCA圖才能變得有意思。也就是說,如果第一和第二主成分能精確確定悲劇和戲劇因子。這也同樣非常不可能,但可能統計上站得住。假設研究人員將每個范疇的所有作品都轉為一個矢量,如此則PCA里只有4個數據點,每種體裁一個點。接著他們可以去查看詞頻矢量,看哪些詞驅動著差異。那還真能教會我們一些東西,盡管它作為文學批評依然是簡化論的。(其實,讓CLS用戶呈現其矢量是不錯的實踐——它去神秘化了該程序的很多內容,往往能揭示其中的概念缺陷。)《定量形式主義》的作者們確實這么試過,產生了多種PCA,卻只是重復發現PCA無法捕捉體裁差異。然后他們研究了DocuScope 散點圖,想發現哪些成分荷載(單詞)最能驅動差異,結果發現多半是停頓詞;接著他們將此現象表現為文學評論觀點:“你想不想寫一個所有空間都會充滿驚喜的故事?方位詞、冠詞和動詞過去式必定接踵而至。”(“QF”)。不管我們是否覺得這種推斷合乎邏輯,它并不是一種啟示,而是一種嘗試,想要從停頓詞問題中造出一些意義。
用文本模式挖掘搞法醫文體學的障礙在于,就算你應用這些簡化了噪音和數據間非線性互動的模式辨認技術,能被捕捉到的文學風格差異也往往是被停頓詞驅動的——if(如果)、but(但是)、and(和)、the(這個、那個)、of(屬于)。為何如此?
馬克·阿爾吉-休伊特和派博告訴我們,“停頓詞通常語義貧乏但風格上豐富……是迄今為止決定作者身份歸屬、將文本分為不同范疇的最佳方式。”(49)Piper and Mark Algee-Hewitt, “The Werther Effect I: Goethe, Objecthood, and the Handling of Knowledge”,in Distant Readings: Topologies of German Culture in the Long Nineteenth Century, ed. Matt Erlin and Lynne Tatlock (Rochester, N.Y., 2014), p. 158.實際上,風格差異歸結為停頓詞,這毫不令人驚訝。要確定事件的統計差異,意味著首先要有足夠多的事件做比較。如果“蛋糕”這個詞在一個文本中只出現1次,在另一文本中出現4次,無法真正在統計學上比較這兩者。嚴格來說,停頓詞是文本彼此間最共同的詞語,這就是為什么其差異化的使用模式會產生最現成的統計差異,也是為什么不得不把它們從文本挖掘中拿走。
停頓詞的兩難——保留,會產生你具有的唯一的一項統計意義;拿走,你就會沒有真正的研究結果——在霍伊特·朗和蘇真的《湍流:世界文學的計算模型》中能看到。這篇論文試圖提出一個用于意識流(SOC)文學現象的預測性算法。論文認為,意識流在不同國家傳播,這種“擴散”能夠追蹤。(50)Long and So, “Turbulent Flow: A Computational Model of World Literature”,Modern Language Quarterly 77 (Sept. 2016): 345.霍伊特·朗和蘇真基于其他學者討論過是意識流段落的內容對比了300個包括1200個字符的意識流段落,并在60部現實主義小說中重復了這個過程(既然現實主義小說常被認為沒有或不用意識流),建立了分類器,檢驗意識流特有的13個語言特征(字符/型符比、擬聲詞、詞語創新、以名詞結尾的句子)。他們聲稱能以95%的精度預測一段意識流文學(日語文學則是97%的精度)。在檢驗的13個特征里,作者認為字符/型符比(一個句子中單詞的數量除以單詞類型的數量)是預測意識流的最重要因素。這個概念學者們在20世紀70年代就提出了,但“從未有如此精度或規模”(51)Long and So, “Turbulent Flow: A Computational Model of World Literature”, Modern Language Quarterly 77 (Sept. 2016): 350.。當霍伊特·朗和蘇真的分類器在對付日語文學中的意識流不那么精確時,作者把這叫作“湍流”——當形式的影響并未一直貫通時。
但是,他們用于預測文章是意識流還是現實主義的最強預測器——字符/型符比——對作者們自己選擇的非標準停頓詞太敏感。如果你不移除這些停頓詞,那么統計顯著性就朝另一頭顛倒(現實主義文本就有更高的字符/型符比)。移除停頓詞會讓方程式顛倒,因為意識流段落中不同停頓詞和全部詞匯的比率在統計上更高。這是因為意識流停頓詞是相似的,而現實主義停頓詞更多變,如果我們使用的是作者自己選擇的停頓詞(就算移除專有名詞,這個作者挑選的詞匯表也比標準停頓詞列表多300個詞)。(52)在線附錄第 5部分可見他們的停頓詞和使用標準停頓詞的t檢驗: https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.使用這個詞匯表時,現實主義文本就會比意識流文本有多得多的停頓詞。這解釋了為什么移除停頓詞會改變字符/型符比,足以讓意識流段落的字符/型符比在統計上比現實主義更高。因此,作者為了區分現實主義文本和意識流文本唯一要做的一件事就是為停頓詞詞頻列表格——這是他們的最強指標,超過他們分離出來的四個指標中的任何一個;也就是說他們最強的解釋特征是一個不必要的測量結果。我重新跑了一遍他們的編碼,用的是標準停頓詞列表,一旦我們僅僅移除標準停頓詞,現實主義文本和意識流文本之間字符/型符比的差異就失去了統計上的意義。在其他領域和應用中,停頓詞被移除的文本能進一步被分類——分為經濟術語、政治術語、女性消費者,等等。必須要有簡單又足夠精確的另一層次的分類,這樣才能對比各種范疇,而不是對比單個詞頻——這才能讓詞語的統計分析成為可能。CLS 試圖這樣研究文學,用不同方法將大型詞語語料庫簡化為合理的分組,它意識到,在執行必要的維度簡化后——挑出不尋常的詞、移除停頓詞、不同單詞組別被矢量化為空間中的單個的點——剩下的只是最初標榜要研究的內容的小部分,而這些內容聚集成的分組如此普通,以至于排除了有意義的闡釋。
為了應對二級分類問題,CLS通常用拓撲學數據分析(TDA)工具、網絡分析工具和主題模型工具,例如隱含迪利克雷分布(latent dirichlet allocation, LDA)和潛在語義分析(LSA)。這代表了CLS中對統計工具最成問題的應用之一。主題模型將每個文本看作主題分布,將每個主題看作詞語分布(因此仍然將文本當作詞語的無序集合處理),它被用來發現大量文本中無監督的主題。它對參數化極為敏感,容易過擬合,作為復雜文本的“相關性”探測器,它頗不穩定,因為你只需要稍微調整小細節就能發現全然不同的主題。既然LDA的召回率取決于要有通過人類決策而形成的真正主題類別,那就沒有真正能測量已發現主題的精確性的方法。其效用在召回率和精度并不太重要的環境中最容易觀測到,就和以內容為基礎推薦系統情況一樣。
如果沒有富于意義的應用,主題模型看起來就像是用于文學批評的詞云生成器。喬科斯和大衛·米默用LDA從文學實驗室語料庫提取主題,發現女性作者有兩倍可能關注女性時尚(女性時尚的一個詞云),男性作者更可能關注有關敵人的主題(與戰爭有關的另一個詞云)。(53)參見Jockers and David Mimno, “Signicant Themes in Nineteenth-Century Litera- ture”, Poetics 41 (Dec. 2013): 755, 759.與此相反,安德伍德認為,主題模型只有在它能找到“意義含糊”的群集而非“直觀”群集,也就是那些清清楚楚與戰爭、航海或貿易有關的詞語時,才對文學研究有用。但這就意味著要依賴那些主題模型在其中該起作用時并沒有起作用的事例。(54)Underwood, “Topic Modeling Made Just Simple Enough”, The Stone and the Shell, 7 Apr. 2012, tedunderwood.com/2012/04/07/topic-modeling-made-just-simple-enough/.真相是,“意義含糊”、意外詞匯聚集的群集要么解釋非常平庸,要么只是重復了作品中實際的詞語出現順序。喬科斯和米默在同一篇文章里試圖延伸主題模型的用途,要找到那些將政治信息藏于宗教主題中的作者——圍繞“修道院”的詞語群集——卻發現匿名語料庫里的兩個文本驅動了與修道院主題有關的大部分內容。(55)Jockers and Mimno, “Signicant Themes in Nineteenth-Century Literature”,p. 763.這只是因為置換現象——談論貓的時候其實是在談論某人的母親——并非主題模型的設計目標,而模型是以可能同時出現的概率模型為基礎的。安德伍德在1815—1835年的女性詩歌中發現了主題22,但因為它不是直觀地一致——讀起來像是用詩歌語料庫最高頻的詞語拼起來的一首詩——解釋它是無意義的,這也是為什么他在講解主題建模概率時不解釋。(56)主題22 包含 “thy, where, over, still, when, oh, deep, bright, wild, eye, yet, light, tis, whose, brow, each, round, through, many, dark, wave, beneath, twas, around, hour, like, while, away, thine, those page, hath, lone, sky, spirit, song, oft, notes, home, mid, grave, vaine, again, though, far, mountain, shore, soul, ocean, and night” (Underwood, “Topic Modeling Made Just Simple Enough”).

圖8 安德伍德和戈德斯通《無聲的轉變》主題-年份分布
主題模型還被用于一種新型學術監視,學界人士就他們一直掩蓋的事互相質問、彼此看穿。倫理考慮不提,還存在這種模型能否有效確定研究領域這個問題。安德伍德和安德魯·戈德斯通的調研《文學研究的無聲轉變:13000名學者能告訴我們什么》,要找出1889—2016年間差不多13000篇學術文章中學者們都在“談論”什么,并發現許多主題變得越來越流行(圖8)。(57)參見Andrew Goldstone and Underwood, “The Quiet Transformations of Literary Studies: What Thirteen Thousand Scholars Could Tell Us”, New Literary History 45 (Summer 2014): 363.例如,他們發現話題80——圍繞“力量”一詞群集的10個詞語——有所增加,這是一種“文學研究特有的趨勢”,在20世紀80年代達到頂峰。(58)參見Andrew Goldstone and Underwood, “The Quiet Transformations of Literary Studies: What Thirteen Thousand Scholars Could Tell Us”, New Literary History 45 (Summer 2014): 363.如果作者想要在期刊文章中不武斷地跨時研究主題的變化,本來可以直接看期刊摘要,還能節省時間。將一年內發表的文章當作單獨樣本(沒有將文章數據集分離為訓練集和測試集),也沒有用先驗概率擬合后驗概率,這意味著算法傾向于形成基于語料庫中連續年份的主題。他們想論證說,有些主題在增長而其他主題在減少,但是用這種方式操作主題模型會機械地產生隨著時間增加和減少的主題。
如果學術研究文獻增長,就會涌現更多文獻。所發現的主題(詞語同時出現)由更新近的學術研究驅動,因為新近的研究更多;因此,回采這個主題較早的學術研究很顯然會顯示該主題隨時間有增長。作者發現主題80隨時間增長了,但個體詞語沒有增長(使用google n-元語法),并認為這反直覺,但如果話題80在全部時間段都存在,但主要由學術研究的近期時段驅動,那么從定義上看,主題80中的詞語確實出現了,但在較早時段中并沒有共同移動。(59)谷歌n元語法包含完全不同的樣本集,用它對主題80做出結論就是錯的。盡管主題80中的個體詞語同時期在谷歌n元語法中沒有上升,但它們很大程度就在原來的數據集里。在講述研究結果時,作者最終為他們發現的主題展示了年份-主題縮放,但這并沒改變這一事實:首先他們還是用全部樣本找到的這些主題。理想情況下,一項研究要么事先就選擇合理的詞語列表,一個主題相關聯,只尋找全部樣本中這些詞的趨勢,或者,這項研究將更多新近文章降低權重,避免群集效應。如果像安德伍德和戈德斯通那樣使用全部樣本來找主題,一位作者就無法對時間序列變化提出論證。
用合理正確的方式使用主題模型時,只有在其他已發現主題(比如說50個主題中的47個)通過氣味測試時才會辨別出有趣且意外的主題。這一研究并非如此;基本的魯棒性檢驗也失敗了。為了看清文章長度能如何影響發現的主題,我執行了兩個魯棒性檢驗。在部分雙重測試(double test)中(在所有其他參數不變的情況下隨機將30%的文檔長度翻倍并且不應影響LDA,因為它是基于詞袋模型),所有主題都改變了。當我隨機移除僅僅1%的原始樣本時,所有主題都改變了。這篇論文也沒有通過還原性檢驗;如果方法是有效的,有過類似訓練的人應能用同樣參數獲得基本一樣的結果,而不用在改過的編碼和隱藏的過濾器中劈波斬浪。我用Python LDA腳本(縮放每個文檔長度)從他們的數據集中找了150個主題,每個主題10個詞,完全像他們那樣。(60)在線附錄第6部分可見這些測試產生的主題vs我的主題:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.我生成的主題全然不同。(61)他們的詞語列表參見Underwood and Goldstone, “List of Stop Words Used in Topic Modeling Journals, Summer 2013”, IDEALS, www.ideals.illinois.edu/handle/2142/45709.這不是說我們當中有人沒有盡力,但確實說明主題模型就像萬花筒,稍微一動,就會將某些事物變得完全不同。
這些日子,輔助機器學習的炫目統計工具并不缺乏,計算相對容易且廉價;工具存在是為了讓你跑遍每條路徑,沿途每一步都做出決策,并提供許多方法可以稍微改變模型以便識別不同模式。最后,統計學事關在可定量的數據中確定高階結構;如果結構并不存在(或者從本體論上來說不同),統計數據無法變魔法造出一個。例如文本挖掘常用到拓撲學,但如果它不能維持拓撲學的功能,即有意義地簡化復雜事物,做出更快、更直觀、非隨機的計算,就失去意義了。在對圖論很根本的數學問題“哥尼斯堡七橋問題”里,必須決定是否存在一條路徑,能在特定的河流和地塊形態配置中一次只通過一座橋(圖9)。你可以手工計算,但如果我們要處理有更多道路交叉、橋梁和奇形怪狀地塊的更大區域或者處理整座城市,就會變得很費勁。萊昂哈德·歐拉提出的按比例復雜性規約,將每塊地塊重新規劃設為一個節點(第三個圖像上的藍點),每個通往另一塊土地的穿越路徑作為一個關系線,產生了一幅只記錄節點和關系線的圖。這幅圖并不是地圖的正式重新排列,而是對地圖信息的根本轉化。河流如何蜿蜒、島嶼多大或什么形狀、它們彼此位置如何(這都是局部的),都不再緊要。你能拿起任何區域,數出地塊及其退出節點的數量。如果其中0個或2個節點的關系線是奇數,這么走通就是可能的。如果不是,那就不能(所以在原始問題中,走通是不可能的)。

圖9 “通往哥尼斯堡的七座橋”,拓撲學轉換
在此情況下,簡化復雜性是必要的,因為你不想窮盡所有路線組合就為了了解市政規劃的答案。拓撲學從這個問題中生發出來,依賴于從實際布局到圖示的復雜性簡化,在持續變形中保持了兩點間的關系。地鐵示意圖這種拓撲學地圖將復雜而隨機的地理信息轉化為基本節點(這個地圖不必反映實際地圖里迷宮般的拓撲學細節,甚至完全不必按比例反映——唯一重要的是交換點)。這些例子闡明了判斷拓撲學轉化是否有用的標準。
CLS理解拓撲學術語宏觀和局部的方式不再充滿圖論的理論含義——在其實踐中網絡繪圖和拓撲學可以互換——并傾向于重新配置信息,以便視覺化低維同源性(相似性并非基于全部文本而是基于非常有限的文本層面)。(62)關于將計算拓撲學應用于高維數據的局限性,見Herbert Edelsbrunner and John L. Harer, Computational Topology: An Introduction (Providence, R.I., 2010), 以及Hubert Wagner, Pawel Dotko, and Marian Mrozek, “Computational Topology in Text Mining”, in Computational Topology in Image Context: 4th International Workshop CTIC 2012 Proceedings (Bertinoro, 28-30 May 2012), pp. 68-78.語料庫繪制成矢量圖,通過測量每個術語的相對權重壓縮文檔,讓每個矢量代表一個文檔。這個矢量空間模型生成非歐坐標系中的數據點集合,CLS繼而將其展現為拓撲學信息。例如,拓撲學模型被用來計算文學景觀中的社會性和社會互動,采用的是對拓撲學關系線極具隱喻性的闡釋。文學社會學家艾倫·劉所說的“隱性社會網絡”或者“核心環線”只是連接的視覺化,使用的是功能上簡化的“聯系”的定義。(63)Liu, “From Reading to Social Computing”, Literary Studies in the Digital Age: An Evolving Anthology, ed. Kenneth M. Price and Ray Siemens, dlsanthology.commons.mla.org/from-reading-to-social-computing/.
CLS網絡分析很容易就能成為推薦系統文學社會學,其中,客戶和話語關聯被視覺化,而不考慮語調、語境、重點、修辭等等——完全就是推薦系統的作用方式。在這里,詞頻重疊構成了空間連接,而網絡意味著對這些連接中的很小一部分的簡單視覺化。這樣的圖表往往呈現為“為其他目的而造的現成社會計算工具和平臺”(64)Liu, “From Reading to Social Computing”, Literary Studies in the Digital Age: An Evolving Anthology, ed. Kenneth M. Price and Ray Siemens, dlsanthology.commons.mla.org/from-reading-to-social-computing/.。但這些現成工具是有用的,比如Facebook Friend Wheel(好友輪),如果你希望通過繪制網絡促進社會化或創業機會,你的網絡的復雜多變不在于所討論的連接的本質,而在于其數量級和其中嵌入的拓撲學信息數量。網絡地圖用來計算基于方向矢量的節點的中心性;因此,比如谷歌知道如何轉入最相關的搜索,因為它計算了網絡中和另一網址相連的節點(網址)數量,這樣就能計算一個網址的相對中心性。網絡地圖無法用其他形式的數據表現替代,由于規模和連接(以2n的速率增長),它變得復雜:為婚禮上的500位賓客安排座位——有些人不能和某些人坐在一起而所有人都有個鄰近偏好遞減的名單——在賓客數升至500萬時要復雜得多。捕捉到這種復雜情況——或通過研究一個其中節點對鏈接的度數分布既非任意、也非有規律,而是遵循其他數學法的網絡而捕捉到網絡復雜性——不等于說,關于莎劇中誰和誰說話了的網絡圖就能捕捉到莎士比亞或人物話語中連接的復雜性。我們處理的是對復雜情況和復雜性根本不同的幾種定義。
如果給小批量數據做網絡圖能幫我們理解用其他方式無法理解的事物,那就不是無意義的活動,但這種視覺化往往并無此類回報。艾德·芬為朱諾·迪亞茲作品《奧斯卡·沃的奇妙生活》的亞馬遜頁面做了個網絡地圖,用“書評和網站推薦……為鏈接”“書名為節點”,為了將顧客和話語關聯視覺化,(65)Ed Finn, “Revenge of the Nerd: Junot Diaz and the Networks of American Literary Imagination”, Digital Humanities Quarterly 7, no. 1 (2013), www.digitalhumanities.org/dhq/vol/7/1/000148/000148.html.芬采用的是遞歸地收集推薦的腳本,為了做出網絡地圖,他繪制了幾個月內的(從2010年12月到2011年3月)前10條“買了這本書的顧客也買了”鏈接和每條鏈接里的前10個推薦(圖10)。但這個圖里的網絡分析在哪里?中心性分值在哪里?同配性測量在哪里?統計推斷呢?

圖10亞馬遜推薦,迪亞茲,2010年12月下旬
(66)
Ed Finn, “Revenge of the Nerd: Junot Diaz and the Networks of American Literary Imagination”,DigitalHumanitiesQuarterly7, no. 1 (2013), www.digitalhumanities.org/dhq/vol/7/1/000148/000148.html.
拓撲學洞察力和用于詞頻論證的拓撲學結構的視覺化工具不是一回事。派博將他的拓撲學運用描述為“當地的”和“協議邏輯的”,是一種拉圖爾的“準客體”網絡、德勒茲的“非關系的關系”,對“限度的氛圍”的巴迪歐式質問,(67)Piper, “Reading’s Refrain: From Bibliography to Topology”, English Literary History 80 (2013), p. 386, 384, 381, 386.“關于遠處的另一種思維”,由賈德-莫瑟瑞啟發的“激進的交替行為”,讓我們“以能動的方式更多地思考語言(它所做的事)”(68)Piper and Algee-Hewitt, “The Werther Effect I”, p. 162, 157.的事物,一種福柯式的“規則的場域”(69)Piper, “Novel Devotions”, p. 71.,某種“經過話語本體論”但也“允許細微得多的話語存在感”(70)Andrew Piper, “Reading’s Refrain”, p. 381.。這些受啟發的對比很難和他對拓撲學的實際應用相符。例如他和馬克·阿爾吉-休伊特的項目《維特效應》,是一系列拓撲學的視覺化,捕捉歌德的《少年維特的煩惱》(1774)對其后期作品(以及歌德之后其他英語和德語作品)的影響。 “影響”的意思是追蹤《少年維特的煩惱》里的91個代表性詞語以及它們在x部其他作品中的頻率,這一測量被認為很重要,因為歌德在宣布放棄《維特》之后的寫作應該不同,也因為眾所周知《維特》影響了后來的作品,但我們不知道如何影響、何等程度上影響。派博和休伊特取了詞頻測量結果的歐式距離,用來測量各種作品的詞匯相似度,接著,為了將矩陣視覺化,嘗試并發現了將矩陣信息折疊為照片的最好辦法,因為這個距離矩陣很大,信息不容易抓取。他們選擇了沃羅諾伊圖,一種非常有用且直觀的數據視覺化形式,能讓你從幾何上按比例看到一部作品和其他每部作品距離有多遠。(71)參見在線附錄第7部分(section 7):https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.拓撲學在這里是作為視覺化詞頻差異矩陣的最佳方式;它不是我們如何從視覺上解讀的再現,不管它是如何隱喻地應用的。在生成沃洛諾伊圖之外(在這種數據類型情況下的應用并非論文作者的原創貢獻),這些距離測量——現在可以一下子全都看到——代表的是91個詞在歌德全部作品中其他部分出現(不管位置、順序、語境、句法、說話人、聲音、語調、彼此的接近程度)的方式。(72)參見在線附錄第6部分的英文和德文列表:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.最終,那91個詞語的重復指出了《少年維特的煩惱》對其他文本的影響。在另一個論壇,作為文學批評家,我們必須決定,測量影響的精確指標時有多少授權,A中的一組詞匯也在頻繁出現在B中是否意味著A影響了B; 此處足以看到,這就是我們在每篇論文里看到的那同一種論證:部分重疊的最常用詞匯即表示影響,當A并不完全是B時,從定義上說B已經逐步影響了A。
定量的視覺化是打算將復雜的數據輸出簡化為其基本特征,CLS沒有能力捕捉文學復雜性。馬克·阿爾吉-休伊特想要超越詞頻計數,測量文學的熵,也就是一部作品的冗余水平,這貌似一種復雜性測量。他給斯坦福實驗室的供稿、多位作者參與的《正典/檔案:文學場域大型動力學》要論證非正典文本比正典文本更少熵(更冗余),他們用查德威克-希利公司語料庫的260本書作為正典語料庫,用同期的949本書作為非正典語料庫。他測量了其中詞語的連續像對數量和概率,基于這一推想:文學作品熵越高,就越少冗余,包含的信息就越多。(73)2016年12月以前通過斯坦福文學實驗室發表的文章的腳本和元數據無法獲取。(中文版參見馬克·阿爾吉-休伊特等:《正典 / 檔案:文學場域大型動力學》,汪蘅譯,《山東社會科學》2017年第9期——譯者注)熵測量聽起來很復雜精巧(而且看似和文學復雜性相似),但它實際做的是測量不同詞對的數量以及它們在二元語法對總數量中的分布。(74)休伊特的測量是香農—韋弗模型(the Shannon-Weaver formula)的改編。這不是一個神秘屬性,而是與詞語多樣性(2000個、2萬個、200萬個不同的詞會有巨大區別)和詞語偏差(一對詞是否那些總是出現的詞,或者其中一個詞是否只出現一次)直接相關。在二元語法相對多樣但沒有具有優勢的特定二元語法的情況下,熵的水平最高,并導致文本中的更多信息,就像華倫·韋弗說的:這“一定不要和意義相混淆”(75)Claude E. Shannon and Warren Weaver, The Mathematical Theory of Communication (1949; Urbana, Ill., 1998), p. 8.。即使我們同意休伊特說的,更多數學上的熵在某種意義上意味著更多文學的新鮮風格或更少文學冗余,他的計算仍然是錯的。我使用356本書的檔案語料庫(因此規模接近他們的查德威克-希利公司語料庫的260本書),重新計算了二者的熵(按比例熵值分別= 0.796391 和 0.793993),魯棒性檢驗后并未發現二者有何統計學差異。(76)參見在線附錄第7部分:https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.馬克·阿爾吉-休伊特從查德威克-希利公司語料庫中得到的更大的熵,是由其檔案語料庫的規模(263vs 949)所驅動的,這產生了查德威克和檔案的不同二元語法數量間差異的大小,導致檔案熵值下降。他的發現,也就是《正典/檔案:文學場域大型動力學》中很大部分內容的基礎,只不過是定標的疏忽。
CLS在解釋類似同指涉或者語句處理方面沒有跟上語料庫語言學,語句處理等問題關心的是嵌入語言結構中的詞語(局部話語)。CLS確實用了自然語言處理(NLP)來標注詞類和音素,看起來超越了概要統計,要以語義學上更有意義的方式抓住詞語,但這些努力是半心半意的,除了因為NLP是近來才發展的,還另有理由。詞類標注對文學文本來說極其不精確。詞法、句法和語法的歧義讓算法很難知曉一個詞是分詞還是動名詞、是形容詞還是名詞、整個短語是否只是作為單個詞性起作用。據說NLP有93%到95%的準確率,但這取決于你拿它做什么以及你需要的分類級別(因此,正式評價非常難)。建造在線聊天機器人或者95%準確率的基礎翻譯非常不同于從一段文學作品中挑出所有的詞性。用于敘事性詞性標注的NLP軟件也不太用戶友好,因為它要求手動注解訓練集。
和文學打交道,你很快就會碰上數據不足和數據復雜性問題。有多少不同的文學數據集——你能夠并愿意手工注解——足夠大到讓你能夠精確地在數據集的其他部分運行NLP?你給一個文本標注后做什么?假設有一天所有的文學事物(包括同形[同音]異義詞、比喻表達、一詞多義、反語、移情)都能精確標注——這假設挺大的了。研究人員仍然會有一張標注及頻率列表,不得不大大縮減其維數才能有任何可提取的統計學意義。這種情況下,語義學或基本情節仍被忽視(除非我們愿意接受其前提,即統計上與其他詞語同時出現的詞語可以有效地反映語義、主題性或情節)。在其他研究領域,有命名的實體識別任務可以用來提供第二層的分類,將標注的詞語分為預定義范疇,例如人名、機構、位置、時間表達、數量、金錢價值、百分比,等等。但是為了得到可用的類別而用這種方式拓寬,只在你有真正大型的數據集、想要迅速提取可用信息時,才有意義。NLP中的標注錯誤和不精確不會充分降低其他諸多語境中的信息提取,但對文學就會。
甚至在用于最適合它的文本類型時——NLP尤其適合那些豐富但相似的數據報道(77)參見Franzosi, De Fzio, and Vicari, “Ways of Measuring Agency”.——弗朗佐西花了30年時間用報刊文章手工訓練標簽器(“有經驗的程序員用頗為復雜的編碼方案,每一頁文檔10—15分鐘”),以確定基本史實的簡化版本。(78)Roberto Franzosi, Quantitative Narrative Analysis (Los Angeles, 2010), p. 149.馬丁·保羅·伊夫也試圖超越停頓詞詞頻,他轉向NLP,想要證明大衛·米切爾的《云圖》是體裁的雜燴。(79)Martin Paul Eve, “Close Reading with Computers: Genre Signals, Parts of Speech, and David Mitchell’s Cloud Atlas”, SubStance 46, no. 3 (2017): 76-104.這是個典型案例,因為伊夫只用了所需的統計工具,解釋了測量結果的相對簡單,將這些測量說成編碼包已有的內容而不是他從零開始設計的。伊夫在移除停頓詞之后,并沒有計算同源性,而是確保能夠通過對常見停頓詞(the, a, I, to, of, in)的詞頻測量而得到一個簡單得多的分類器,能夠精確分類《云圖》中的所有部分,除了能給所有部分分類的20個常用停頓詞,他還取了5000個最常用詞語(或兩個詞)的標準分數的曼哈頓距離及樹狀圖,來預測《云圖》中的不同部分是由同一位作者所寫的可能性。然后伊夫借助NLP顯示,《云圖》中路易莎·雷的部分中,標注的三元語法NNP+NNP+VBZ(專有名詞單數+專有名詞單數+第三人稱單數現在時動詞)的出現有統計意義,但最后的解釋卻徹底乏味。伊夫所做的一切就是證明了米切爾的各個部分彼此截然不同,就像它們和使用停頓詞的其他作者之間截然不同一樣,NLP并未提出任何額外見解。要真正解釋不同的三元語法頻率的主題基礎,他還得去找到副詞+形容詞+名詞的例子,并區分“hopelessly uneven gunfire”(讓人無奈的不平衡的槍戰)和“mostly empty wine” (酒差不多空了)。(80)Eve, “Close Reading with Computers”, p. 101.由于英國的版權法,伊夫將這部小說手動打字出來。要明確知道一章書將角色全名和行動配比比另一章更多,這需要大量工作。
有個更清楚的例子,霍伊特·朗和蘇真的俳句分類器的問題不在于它的準確率,甚至也不是它的參數化,而是其功能性。當然,這個分類器不必百分百準確——不能僅僅因為發現了錯誤分類的情況就拒絕它。如果對霍伊特·朗和蘇真來說,(1)“譯本和改編本”,(2)自稱俳句的事物,和(3)別人分類為俳句的事物實際都是同一種東西——俳句(不管差異為何)——那么,樸素貝葉斯分類器分類為英語俳句的東西無論為何,按照他們的定義,就是英語俳句,既然他們一開始就沒有嚴謹的定義。但我們有沒有討論足夠多的含義含糊的案例(或者非常短的詩歌的總數)來為這個錯誤正名?我們面對的情況是不是數百萬短詩出版但不可能有時間去讀?這兩位作者,事先不了解去哪兒找,自己也沒有好辦法去找到并一點點積攢所有存世短詩,因此在這件事上他們完全沒有替我們節省任何時間。就沒有在詩歌上訓練有素的人去尋找、閱讀、分類嗎?
CLS的支持者提出,用很長時間去做我們已經了解的事情,這無關緊要,既然創新在于一臺電腦居然能夠進行基本閱讀(一條支持人工智能的論點)。但這其實很重要,因為計算在這里被用作一種調查工具,告訴你注意哪里,或者對什么內容隨意發表意見,而CLS作者們一路上只是拿起影響、歷來的變化、歷來沒有變化、體裁一致,或體裁差異等論點,因為他們已經將這些等同于他們唯一會做的那種數據處理,以便用到這些特定工具并好歹得到統計推斷。這不是人工智能,而是人類在做匯總統計。
CLS還求助于一種折中,原諒了自己的方法缺陷和論辯缺陷:誰能把現存所有文學文本都讀完呢?機器閱讀不完美,但比什么都沒有強,它還能告訴我們一些任何一個讀者都看不出來的潛在模式。文學批評家,尤其是那些研究當代文學的,往往會用數字人文來幫自己解釋那些他們感覺正在指數增長的文學對象。他們很自然地假設計算方法能幫他們更快、更綜合且不武斷地解決這個規模。如上所有例子證明的,這是個錯覺。對“大量未讀作品”的尋找、獲取版權、積攢,并戲劇性地將其簡化為統計上可操控的一堆堆數據,再用替代方案檢驗模型能力,這些所需要的時間和武斷(無意義和錯誤的概率也高得多)幾乎和實際閱讀它們一樣多,如果不是多得多的話。CLS的方法論、前提和用于專業領域的那些類似(雖然更原始),但它們對文學、文學史和語言學復雜性的極端簡化缺少經濟或數學的正當理由。在其他那些領域里,我們是真正在處理大型數據集,對幽微之處、詞匯變化和語法復雜性等特征的有目的的簡化是可取的(為了該行業的標準和目標)。文學研究中,這種簡約論沒有基本理由;事實上,這個學科是關于減少簡約論的。就算常量分析結果本身也不會是簡約論思維的產物。
至于過剩的說法,要記住,許多關鍵例證來自那些已經讀過的語料庫或文本,這很重要。CLS處理的數據量和復雜性并沒到(能為他們使用的工具正名的級別),實在不如作者們樂意相信的那么多。基礎數學此處也有助益:100萬單詞差不多相當于10本小說;15億單詞代表15000本小說,1個月讀1本小說,只用1000人讀1年。到最后,過剩宣稱就其本身而言并非正當說法。在科學和社會科學里,也有無法估量的文本、數據集和方案未觸及。有許多事物我們不了解,許多問題尚未回答。這不意味著在那些未知數據中找到的任何模式、任何之前未提出的問題的任何回答或任何問題,都自動值得關注。基本標準應該總是:不要將機械地發生的事混淆為深刻的見識,不要無必要地將統計工具用于簡單得多的操作,要提出統計上合理、論證上有意義的推論,并且確保只要有人讀過文本,函數運算就不會更快、更精確。(81)在線附錄第9部分對這些基本標準有詳述: https://www.journals.uchicago.edu/doi/suppl/10.1086/702594/suppl_file/2018054Appendix.pdf.可能計算文本分析有個最優效益門檻,而文學——特別是好好地解讀文學——就是那個最優效益門檻的界限點所在。