





提 要:本研究探討了基于計算機輔助的主題建模方法在文學文本分析中的應用潛力。我們采用LDA算法對兩個虛構文本子語料庫進行分析,旨在探索不同文本之間母題(мотив)的互文關聯。這兩個語料庫分別是:謝爾蓋·多瓦托夫(以下簡稱多瓦托夫)創作的62篇不同體裁的文本(包括短篇小說、隨筆、中篇小說和評論性文章)和31部多瓦托夫認為對他產生了深遠影響的文學作品。基于LDA算法分析結果,研究者識別出20個主題,根據主題與文本之間的關聯度,將所有文本歸入相應主題。每一個主題都由相關詞鏈(цепочка слов)構成,詞鏈中包含的詞語按照其與主題的相關程度(權重)排列,共同反映了該主題的語義內涵。分析結果顯示,在20個主題中,有3個主題分別同時出現在多瓦托夫創作的文本和其他作家的文本中,由此出現了3個具有關聯性的“文本—主題”(текст — тема)對應關系:(1)鮑里斯·皮利尼亞克的長篇小說《荒年》和多瓦托夫的短篇小說《在河邊》;(2)赫伯特·喬治·威爾斯的長篇小說《時間機器》、海明威的中篇小說《老人與海》和多瓦托夫的短篇小說《移民》;(3)亞歷山大·格林的短篇小說《港口司令》和多瓦托夫的隨筆《我們說著不同的語言》。分析表明,上述對應的虛構文本之間存在著母題交叉現象。基于機器學習的計算機輔助方法可以作為文本分析的探索性工具,幫助研究者從大型語料庫中獲得文本研究的潛在方向和線索,從而更有效地利用自身專業知識進行深入考察①。
關鍵詞:文本分析;計算機輔助主題建模方法;母題;互文性;俄語
中圖分類號:H030 """"文獻標識碼:A """"文章編號:1000-0100(2024)06-0023-9
DOI編碼:10.16263/j.cnki.23-1071/h.2024.06.004
.
Key words:
1 引言
隨著弱人工智能(слабый искусственный интеллект)和強人工智能②(сильный искусственный интеллект)的發展,語言學家獲得了新的針對包括文學文本在內的、不同類型文本的分析工具。長期以來,俄羅斯定量語言學(Андреев" 2016;2019)和文體學研究者(Мартыненко 2021)一直致力于利用定量方法分析文學作品的文體和語義特征,并從中得出定性結論。 然而,機器深度學習模型的出現,為文本研究提供了新的視角和方法,也對傳統語言學家的研究理念和方法論提出了挑戰。
除承認數字方法在傳統專業科學領域,尤其在人文學科中應用的必要性之外,作為研究人員也需要思考,在哪些情況下,可以將研究工作委托給人工智能 (AI) 完成。瓦赫施泰因(Вахшитайн 2021:135-137) 將這種“委托 ”(делегирование)劃分為3個維度:情景確定(определение ситуации)、決策制定(принятие решения)和決策實施(реализация решения)。算法在情境確定方面的能力可以完全被信任,如借助算法識別文本中具有統計學意義的詞語集群(主題),從而對文本的語義結構進行初步分析。然而,在現階段將決策制定和實施的權力完全移交給人工智能,似乎并不可取。例如,在文本主題的歸屬上,仍須研究人員根據算法分析結果以及自身專業知識來判斷,而非完全依賴算法分析結果(Skorinkin, Orekhov" 2023)。 有的學者(Gibson 1986)認為人工智能的價值在于它能夠以不同于人類的方式來解讀文本,從而為研究者提供新的發現和啟示。
我們提出這樣一個假設:作家一生中閱讀的書籍會影響其創作的主題結構。為驗證這一假設,須要使用兩個文本語料庫:一是多瓦托夫③在他寫給塔瑪拉·烏爾茹莫娃的信(多瓦托夫的清單中列出的35部對他產生了深遠影響、每個人都應該閱讀的文學作品);二是多瓦托夫本人的作品。本文將基于機器學習算法的主題建模方法對這兩個語料庫進行分析,并嘗試從主題互文性的角度,解讀多瓦托夫與其喜愛的作家作品之間存在的潛在關聯。希望從多瓦托夫作為“讀者”的視角,對他的創作進行全新解讀。
2 術語“主題”與“母題”
術語“主題”(тема)和“母題”④(мотив)具有非常廣泛的內涵與外延。我們僅在與本研究相關的文學領域內闡釋兩個術語的內涵及關聯。
托馬舍夫斯基(Б.В.Томшевский" 1999:116)認為,在藝術作品表達中,主題(тема)是單句根據其含義相互組合,最終形成的一種結構,這種結構通過作品思想的共性而統一起來,是作品各個元素意義的集合。同時,主題應對讀者具有主觀吸引力,并引起他們的情感共鳴(同上:117)。從廣義視角來看,主題更接近于母題的概念。“除情節和敘事之外,主題是最接近母題的范疇”(И.В.Силантьев 1999:49)。加斯帕羅夫(Б.В.Гаспаров)認為母題的主要屬性是可重復性:“……母題一旦出現,就會重復多次,每次都以新的形式、新的輪廓或與其他母題組合在一起出現。同時,任何現象、事件、性格特征、景觀元素、任何物體、說出的詞語、顏色、聲音等等,都可以作為母題;母題典型特征是它的再現性”(Гаспаров" 1993:30-31)。研究者發現,母題不僅具有語義上的穩定性 (即語義不變性),同時也能以不同的方式在文本的不同部分或不同的文本中呈現出來 (即可變性)。 這種辯證統一的特性促使學者們開始對母題進行系統分類,并探索它們之間存在的結構關系,最終形成“母題網絡”(систематики мотивов)的概念(Жолковский,Щеглов 1986:120)。由于母題不屬于“敘事—情節”(фабула-сюжет)系統,而是屬于“文本—意義”(текст-смысл)系統,作為敘事情節的基本單位,因此它不再局限于描述具體的事件,而是作為一種更抽象的意義單位,體現著文本的深層內涵”(Силантьев 1999:51-52)。成為文本的范疇后,母題就完全進入了互文性理論的坐標系:“母題代表意義,并將文本連接到一個共同的語義空間中”(同上:52)。從語言學的角度來看,母題在形式表達層面表現為指稱鏈(номинационная цепочка),即一系列與主題相關的詞語和詞組,它們在單個鏈內通過指稱關系(指稱的統一性)和意義同一性(意義的等價性或接近性)聯系在一起(Матвеева 1990:21-22)。在傳統的文本分析中,學者們須要手動識別這些指稱鏈,以構建文本的主題內容模型。然而,隨著計算機技術的快速發展,我們不禁思考:能否將這項任務自動化,從而更快速、更有效地進行主題分析?現有的文本數據主題建模模型為我們提供了這種可能性。
3 計算機主題建模方法在文學文本分析中的功能
主題建模是一種計算機技術,它可以像“自動分類器”一樣,將大量的文本按照主題歸類到不同的類別里。這種技術主要關注文本中使用的詞語,因為詞語是表達主題的最基本元素。主題建模算法通過分析大量文本的方式從中識別出潛在主題。算法會為每個文本創建一個“主題標簽”,標明該文本所屬的主題以及每個主題在文本中出現的概率。同時,算法還會為每個主題創建一個“關鍵詞列表”,列出最能代表該主題的詞語以及每個詞語出現的概率。值得一提的是,主題建模算法不僅可以分析詞語,還可以分析詞組、標簽、類別,甚至是非文本信息,例如圖片、音頻、視頻等(Булотов" 2020:14)。
LDA算法⑤及其派生算法是實現主題建模最常用的方法。 如今, 基于BERT-BERTopic模型的算法也逐漸成為 LDA 算法的有力競爭者(Groo-tendorst" 2022)。主題建模算法不會預先設定主題,而是讓計算機算法自動從大量文本中找出經常共同出現的詞語組合,并將這些詞語組合視為潛在主題。每個主題就像一個標簽,可以用來描述文章的內容。重要的是,主題建模算法并不是簡單地比較文章之間的相似度,而是將每篇文章與算法識別出的主題進行比較,并根據關聯度將文章以不同的概率分配到不同的主題下(Niko-lenko et al. 2017:89)。該算法已經成功應用于分析各種類型的文本,如博客文本 (Ritter et al. 2010)、 社交網絡文本 (Quercia et al. 2012)、 科學論文 (JelisavAcˇG1iAc'G1"" et al." 2012)、 新聞 (Koltsov et al. 2018) 和政治話語 (Jacobs,Tschtschel" 2019)。
近年來,學者們也開始嘗試將主題建模方法應用于文學文本分析。例如,克里斯蒂安·舍赫利用 LDA算法分析了 1610年至1810年間出版的890部法國劇作家的戲劇作品。他發現,主題建模方法能夠很好地反映不同戲劇作品的體裁特征,并可以根據體裁 (喜劇、悲劇、悲喜劇) 對戲劇文本進行高度準確的分類 (Schch" 2017)。
在俄羅斯文學研究領域,米特羅法諾娃(О.А. Митрофона)借助 LDA 算法對布爾加科夫的小說《大師與瑪格麗特》中的主題進行了建模 (Митрофона 2019)。她認為,算法識別出的主題與小說的主要情節線基本一致,且可以用來分析作者的語言風格。謝爾斯季諾娃的團隊則利用 LDA 算法構建了9個主題模型,并以此分析20世紀初俄語短篇小說中主題的演變趨勢 (Шерстинова et al. 2021)。 這9個主題模型分別對應3個不同時間段 (20世紀初到1913年,1914-1922年,1923-1930年)的短篇小說,每個時間段包含3個不同規模的子語料庫。研究結果表明,不同時間段的短篇小說主題存在著明顯的差異,這說明主題建模方法可以幫助我們識別不同時期文學作品的主題風格特征。因此,本研究順應了語言文學領域運用數字方法進行研究的趨勢,并在此基礎上進行創新:我們應用主題建模方法分析兩組文學文本,以探索它們之間母題的互文關聯。
4 計算機主題建模方法在文學文本分析中的應用
本研究采用兩個虛構文本子語料庫進行分析。第一個語料庫由31部⑥世界文學作品組成,這些作品均由多瓦托夫列入其個人推薦書單,并評價為“值得一讀”或“本人喜歡”。其中包括俄羅斯、英國、法國和美國作家的作品。作者包括:陀思妥耶夫斯基、庫普林、格林、扎米亞京、赫伯特·喬治·威爾斯、莫泊桑等。
第二個子語料庫由多瓦托夫于1974年至1990年間創作的62篇文本組成,涵蓋短篇小說、中篇小說、隨筆和評論文章等多種體裁。這些文本均來自阿斯布克出版社(Издательство Азбука)出版的多瓦托夫作品五卷本,我們采用連續抽樣的方式收集。所有文本在進行分析之前都經過預處理,步驟如下:
(1)文本格式轉換:將所有文本轉換為表格格式,每行代表一個文本,并包含3列信息:文本標題、出版年份和作者姓名(見圖1)。
(2)作者標記:為了區分兩個語料庫的來源,將第一個語料庫的作者標記為other,將第二個語料庫的作者標記為 Dovlatov(多瓦托夫)。
(3)文本清洗:將所有文本轉換為小寫,進行分詞,刪除標點符號和停用詞,并使用 pymorphy 2軟件包進行詞形還原。
對文本預處理后,運用計算機輔助建模方法對文本分析,具體步驟為:
(1)創建詞典和語料庫:使用Python的gensim 庫(開源主題建模庫)對詞形還原后的文本進行處理。首先創建一個詞典,然后使用過濾極值(filter_extremes)方法過濾掉出現頻率過高或過低的詞語。最后,將所有文本轉換為“詞袋”(bag of words)模型,創建一個語料庫。
(2)設置超參數:在進行主題建模前,須要設置兩個參數:主題數量和算法迭代次數 (“遍數”)。主題數量決定算法要識別多少個主題,迭代次數決定算法的運行時間和結果的準確性。本研究將主題數量設置為 20,迭代次數設置為10。
(3)運行 LDA 算法:使用gensim 庫中的LDA模型對語料庫進行分析。首先將每個文檔表示為“詞袋”模型,然后應用“提取文件主題”(get_document_topic)的方法,計算每個文檔屬于每個主題的概率。
最終得到一個包含:name(文本標題)、author(作者標記:other或Dovlatov)、text(原始文本)、text_processed(詞形還原后的文本)、topic_20(對該文本權重最大的主題編號“從0到19”)、probability_20(該文本屬于該主題的概率)6列關鍵信息的結果(見圖2)。通過比較第二列(作者標記)和第五列(主題編號),我們可以確定哪些主題同時出現在多瓦托夫的作品和他喜歡的作家作品中。為了探究多瓦托夫作品與他所閱讀的作家作品之間是否存在主題上的關聯,我們利用數據表格中的語料庫(“多瓦托夫”或“非多瓦托夫”)和文本所屬主要主題的編號,進行一種映射分析,嘗試找出同時出現在兩個語料庫中的主題。
5 結果和討論
為了更直觀地展示分析結果,我們使用seaborn可視化庫繪制了圖3。其中,橫軸表示作者(“Dovlatov”或“other”),縱軸表示主題編號。從圖3中可以看出,只有3個主題 (0、7和9) 同時出現在兩個子語料庫中。 表1列出了構成這3個主題的10個權重最高的詞語。
為進一步分析這些主題的分布情況,我們統計每個文本屬于其主要主題⑦的概率,并將結果列于表2中。表2顯示了不同文本歸屬于其主要主題的概率值。分析結果顯示:皮利尼亞克的小說《荒年》極有可能屬于主題 0,而多瓦托夫的《在河邊》屬于該主題的概率則低了一半。亞歷山大·格林的《港口司令》屬于主題 7 的概率為 44%,而多瓦托夫的散文《我們說著不同的語言》屬于該主題的概率高達 99%。喬治·威爾斯的小說《時間機器》和海明威的中篇小說《老人與海》幾乎以相同的、極高的概率屬于主題 9,而多瓦托夫的相關作品歸屬于該主題的概率則要低一半。
下面我們對不同文本在主題0、主題7、主題9層面上的互文關聯性進行分析。
主題0:多瓦托夫的短篇小說《在河邊》的情節建立在這樣一個事實上,一個名叫費佳的年輕人被他的愛人季諾奇卡拒絕后,打算去河邊自殺,但當他走進水里時,他注意到一個小偷正在偷走季諾奇卡唯一的褲子。費佳開始追趕,和一個警察一起抓住了小偷,成為鎮上的英雄,從而重新贏得了季諾奇卡的青睞。因此,文本中可以清楚地看到社會角色“偶然地轉變”的主題——從自殺者到英雄。將皮利尼亞克的小說與多瓦托夫的短篇小說進行比較是很困難的,但上面提到的社會顛覆的母題也貫穿了整部小說:富裕商人家庭的繼承人多納特·拉特金加入了紅軍,并無情地摧毀了祖屋(從富裕的繼承人變成了侵略性的革命者);市政委員會無產階級執行委員會的文員奧爾加·昆茨對政委萊蒂斯充滿熱情,但卻作為敵對分子被捕(從政委的愛人變成了革命的敵人,變成了囚犯);公爵小姐娜塔莉亞·奧爾丁娜成為了一名革命者,等等。
主題7:亞歷山大·格林的《港口司令》和多瓦托夫的《我們說著不同的語言》這兩部作品都探討一個共同的主題,可以概括為“走向他人的人”:在格林的作品中,老蒂爾斯扮演了這個角色,他成為連接所有來到港口的船只上水手的特殊紐帶;在多瓦托夫的作品中,是德國醫生弗里茨·馬庫薩斯,他年輕時參加了革命運動,經歷了戰爭,并在和平時期幫助運動員應對傷病。兩位主人公都生活在“男人的世界”里:蒂爾斯生活在水手中,馬庫薩斯生活在工人中,然后是士兵中,后來是接受他治療的運動員中。
分析表明,這兩篇文本都存在著“交流重要性”的母題,某種共同語言對于一個人或一群人的世界觀形成至關重要。
格林作品中的主人公老蒂爾斯,穿梭于停泊在港口的船只之間,與來自各地的水手們交談。 有時人們和他開玩笑,有時熱情地歡迎他,有時又粗暴地將他趕走。但無論如何,他始終扮演著社會調解員的角色,為水手們帶來最新的消息,與他們一起回憶往事, 詢問他們的近況,并送上真摯的祝福。當須要告知女招待她情人去世的噩耗時,所有人都覺得只有老蒂爾斯才能勝任這份艱難的任務。而當老蒂爾斯去世后,鎮上和港口的所有人才真正意識到他的重要性——他是不可替代的。他就像一條紐帶,用一種“共同語言”將人們連接在一起。 直到一位當地年輕人試圖取代他的位置時,人們才明白老蒂爾斯留下的空白是多么難以填補,如例①:
①" —" Нет, нет," —" ответил с палубы, не обижаясь на дурака, Ластон. — Подделка налицо." Никогда" твоя пасть не спросит как надо о том,"ыл ли хорош рейс//“不,不,”拉斯特從甲板上回答,并沒有因為這個傻瓜而生氣。“這顯然是假的。你的嘴永遠不會像應該的那樣問‘航行順利嗎’。”
多瓦托夫的作品則以相反的方式展現了這一母題:盡管主人公馬庫薩斯和反面人物海因茨·馮·克尼布什說著同一種母語——德語, 但由于人生經歷和選擇的不同, 他們最終卻“說著不同的語言”,如例②:
② Гранд-отель в Мюнхене. На лестнице беседуют двое пожилых мужчин.
—" Так мы увидимся?" — спрашивает Гейнц фон Книбуш." —" Не забывай, мы старые приятели. Мы говорим на одном языке.
— О нет, ты ошибаешься, Гейнц Мы говорим на разных языках," — отвечает Маркузас.//慕尼黑的一家豪華酒店。兩個老人在樓梯上聊天。“那么我們還會見面嗎?”海因茨·馮·克尼布什問道。“別忘了,我們是老朋友了。我們說著同一種語言。”“不,你錯了,海因茨。我們說著不同的語言,”馬庫薩斯回答說。
主題9:威爾斯的《時間機器》和多瓦托夫的短篇小說《移民》都包含了“進入另一個空間”這一母題。在威爾斯的作品中,19世紀發明家穿越到未來城市;而在多瓦托夫的作品中,兩個偶然相遇的朋友踏上了一段前往荷蘭的虛構旅程 (實際上,荷蘭只是列寧格勒的一個地區——新荷蘭)。有趣的是,在這兩部作品中,“太陽”都象征著進入“另一個世界”。試比較下例(例③-⑤來自威爾斯,例⑥-⑦來自多瓦托夫):
③ Пока я мчался таким образом, ночи сменялись днями, подобно взмахам крыльев. Скоро смутные очертания моей лаборатории исчезли, и я увидел солнце, каждую минуту делавшее скачок по небу от востока до запада, и каждую минуту наступал новый день. //當我以這種方式飛馳時,黑夜和白天交替出現,就像翅膀的拍打。很快,我實驗室的模糊輪廓就消失了,我看到了太陽,它每分鐘都從東到西跳躍一次,每分鐘都是新的一天。
④ Скоро я заметил, что полоса, в которую превратилось солнце, колеблется то к северу, то к югу""" —" от летнего солнцестояния к зимнему," —" показывая, что я пролетал более года в минуту, и каждую минуту снег покрывал землю и сменялся яркой весенней зеленью.//很快我就注意到,太陽變成的那條帶子時而向北,時而向南——從夏至到冬至——這表明我每分鐘都在飛行一年多,每分鐘積雪都覆蓋著大地,然后又被明媚的春天綠色所取代。
⑤ Наконец я отвел от него глаза и увидел, что завеса града прорвалась, небо прояснилось и скоро должно появиться солнце. //最后,我把目光從它身上移開,看到冰雹的帷幕被撕裂了,天空晴朗了,太陽應該很快就會出現。
⑥" Солнце вставало неохотно. Оно задевало фабричные трубы. Бросалось под колеса машин на холодный асфальт. Блуждало в зарослях телевизионных антенн. В грязном маленьком сквере проснулись одновременно Чикваидзе и Шаповалов.//太陽不情愿地升起。它觸碰著工廠的煙囪。它投射在冰冷的瀝青路面上汽車的車輪下。它在電視天線的叢林中游蕩。在一個骯臟的小廣場上,奇克瓦伊茲和沙波瓦洛夫同時醒來。
⑦" Дома обступили маленький сквер. Бледное солнце вставало у них за плечами. Остатки ночной темноты прятались среди мусорных баков.//房屋環繞著小廣場。蒼白的太陽從他們身后升起。夜晚的黑暗殘留物隱藏在垃圾桶中。
“太陽” 這一關鍵詞(терм)是該主題的一部分,其權重為0.005(見表1)。在威爾斯的作品中,太陽的出現標志著時間流逝,象征著主人公在飛往未來的過程中所經歷的時間變化(例③-④),以及最終抵達“另一個世界”的時刻(例⑤)。 在多瓦托夫的作品中,太陽的出現也象征著主人公的“頓悟”——他們突然意識到自己身處異國他鄉。 此外,威爾斯和多瓦托夫筆下主人公對“另一個世界”的感知也存在著有趣的相似之處,例如多瓦托夫筆下的描述,如例⑧:
⑧ Друзья шли по набережной. Свернули на людную улицу. Поблескивали витрины. Таяло мороженое. Улыбались женщины и светофоры.
—" Посмотри, благодать-то какая!" —" неожиданно воскликнул Шаповалов." —" Живут неплохо," — поддакнул Чикваидзе." —" А как одеты! —" Ведь это" —" Запад! — Кругом асфальт!" Полно машин! А солнце?!//朋友們沿著河岸走著。他們拐進一條繁華的街道。櫥窗閃閃發光。冰淇淋融化了。女人和交通信號燈都在微笑。
“你看,多好啊!”沙波瓦洛夫突然驚呼道。
“他們生活得不錯,”奇克瓦伊茲表示贊同。“穿得多好啊!——畢竟,這是——西方!——到處都是瀝青路!到處都是汽車!還有太陽?!”
威爾斯的描述見例⑨:
⑨" Подбежавший человек показался мне удивительно прекрасным, грациозным, но чрезвычайно хрупким существом... я был весь увешан гирляндами цветов и окружен волнующейся толпой людей, облаченных в светлые, нежных расцветок одежды, сверкавших белизной" обнаженных рук и смеявшихся и мелодично ворковавших.
Мир"瘙爯иного瘙爲" воспринимается как олицетворение счастья, где все улыбаются (улыбались женщины и светофоры...; смеявшихся...), хорошо одеты (а как одеты!; облаченных в светлые, нежных расцветок одежды).//那個跑過來的人在我看來非常英俊、優雅,但又極其脆弱……我渾身掛滿了花環,周圍圍著一群激動的人,他們穿著淺色的、柔和的衣服,露出的手臂白皙閃亮,他們笑著,低聲細語。
“另一個世界”被視為幸福的化身,那里每個人都在微笑(女人和交通信號燈都在微笑……;他們笑著……),穿著考究(穿得多好啊!;穿著淺色的、柔和的衣服)。
與美麗的“另一個世界”形成鮮明對比的是黑暗的形象,它象征著“自己的世界”(關鍵詞“黑暗”的權重為0.004,見表1)。因此,當多瓦托夫的主人公們在經歷了一個平常的夜晚(醉酒斗毆、相識、在成堆的木片上宿醉)后醒來,并打算弄清楚自己在哪里時,敘述者說道(見例⑩ ):
⑩" Остатки ночной темноты прятались среди мусорных баков. //夜晚的黑暗殘留物隱藏在垃圾桶中。
隨著夜幕降臨,威爾斯的這位發明家終于可以沉浸在自己的世界里,反思他在“美麗新世界”中所看到的一切(見例B11):
Пока я сидел в сгущавшейся темноте, мне казалось, что этим простым объяснением я разрешил загадку мира и постиг тайну прелестного маленького народа. /當我坐在越來越濃的夜色中時,我似乎通過這個簡單的解釋就解開了世界之謎,并領悟了這個可愛的小民族的秘密。
值得注意的是,上述分析的文本與海明威的《老人與海》之間也存在著互文關聯,這似乎體現在“晝夜交替”這一母題上。它象征著時間和空間的運動:威爾斯的時空旅行者通過觀察太陽和黑暗的交替來感知自己的運動軌跡;沙波瓦洛夫和奇克瓦伊茲在經歷了平常的夜晚(醉酒斗毆、相識、宿醉)后,隨著太陽的升起,在新荷蘭開始了“新生活”;老人與大海的搏斗也跨越了時間和空間,而晝夜交替則是他們唯一的參照。
圖4顯示了“太陽”(солнц-)和“黑暗”(темн-)這兩個詞素在《老人與海》文本中出現的頻率分布,它們在整部作品中成對出現,貫穿始終。
分析結果表明,多瓦托夫的短篇小說中體現了一些他從閱讀經歷中汲取的母題。 這些母題的呈現方式有時十分隱晦,難以識別,遑論發現多瓦托夫與格林、威爾斯、皮利尼亞克或海明威等風格迥異的作家作品之間的互文關聯了。因此,我們認為,人工智能模型在分析大型文本數據方面具有重要的啟發式價值——分析結果可以為文學文本的研究提供新的方向和思路。
6 結束語
本研究的目標是探究多瓦托夫的閱讀經歷對其創作的影響,并嘗試回答這樣一個問題:他閱讀過的作品以何種形式體現在他的作品中。基于“母題可以表現為重復出現的主題,可以通過分析具有統計學意義的詞匯單位來識別它”這一假設,我們對多瓦托夫閱讀的作品和他本人的作品進行了主題建模分析,嘗試通過統計重要的詞匯單位來識別潛在的母題。分析結果部分證實了我們的假設:在20個識別出的主題中,有3個主題同時出現在多瓦托夫的作品和他喜歡的作家作品中,盡管兩組文本歸屬于這些主題的概率有所不同。進一步的分析表明,這些主題及其關鍵詞具有一定闡釋性,為我們理解這些風格迥異的作品之間的互文聯系提供了新視角。此外,本研究在一定程度上證明人工智能在文學文本語義分析框架內的潛在效用。
注釋
①A.V. Kolmogorava為“數字人文:經驗、問題與前景”會議的特邀專家,經協商將本文作為此次會議推介的譯文。本文翻譯已獲得原作者授權。原文信息如下:Колмогорова А.В., Залевская Е.Д. Компьютерное моделирование как инструмент анализа художественного текста[J]. Филологический класс," 2023(2):22-33. 限于版面,譯文中僅列出部分參考文獻,具體參見原文。
②譯者注:弱人工智能指的是專注于解決特定任務的人工智能,例如圖像識別、語音助手等。它能夠在特定領域表現出與人類相當甚至超越人類的能力,但缺乏通用智能,無法像人類一樣進行推理、思考和創造。強人工智能則是指具備與人類同等甚至超越人類的通用智能的人工智能,它能夠像人類一樣思考、學習、理解和解決各種問題。
③譯者注:謝爾蓋·多瓦托夫(Сергей Донатович Довлатов, 1941-1990)著名俄羅斯裔美國作家,以其簡潔、諷刺和幽默的文風著稱。出生于蘇聯,曾做過記者、導游和文學編輯,1978年移民美國。作品主要以短篇小說和中篇小說為主,內容大多取材于他自身的經歷和觀察,以冷峻的筆觸描繪了蘇聯社會現實和知識分子的生活狀態。
④譯者注:母題是指在不同作品中反復出現的主題、意象、人物類型、敘事模式或其他文學元素,它們以不同的形式呈現,但具有相似的意義和功能,體現了文學作品之間的互文性和文化傳承。母題的識別和分析有助于深入理解作品的主題、作者的意圖以及不同作品之間的關聯性。
⑤譯者注:潛在狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)算法是基于計算機技術的概率主題模型,用于從文本中發現抽象主題。該算法假設每個文本都包含多個主題,每個主題在該文本內容中所占的權重不同,且每個主題都由一組具有特定概率分布的詞語來表示。LDA 算法統計文本的主題分布和主題的詞語分布,計算每個文本屬于各個主題的概率,以及每個主題包含各個詞語的概率。基于學習到的概率分布,該算法可以識別文本主題并歸類。
⑥譯者注:文中出現的例子部分提取自子語料庫一,該語料庫由多瓦托夫推薦的35部作品中的31部構成,包括《白象似的群山》(歐內斯特·海明威 1927);《群魔》(費多爾·陀思妥耶夫斯基 1872);《九點半的臺球》(赫伯特·歐內斯特·貝茨 1959);《往事與隨想》(亞歷山大·赫爾岑 1868);《去斯萬家那邊》(馬塞爾·普魯斯特 1913);《藍色旅館》(斯蒂芬·克蘭 1958);《荒年》(鮑里斯·皮利尼亞克 1922);《石榴鐲》(亞歷山大·庫普林 1911);《嫉妒》(奧列沙 1927);《伊甸之東》(約翰·斯坦貝克 1961);《哥薩克》(列夫·托爾斯泰 1863);《港口司令》(亞歷山大·格林 1933);《時間機器》(赫伯特·威爾斯 1895);《漂亮朋友》(居伊·德·莫泊桑 1885);《海上故事》(維克多·科涅茨基);《我們》(葉夫根尼·扎米亞京 1924);《繼承人》(列夫·斯拉溫 1930);《昨日的世界》(斯蒂芬·茨威格 1939);《平凡的女人》(阿爾卡季·阿韋爾琴科 1917);《決斗》(庫普林 1905);《文化的勝利》(米哈伊爾·左琴科 1934);《紅毛》(阿爾弗雷德·德·維尼 1894);《塞瓦斯托波爾故事》(列夫·托爾斯泰 1855);《英雄之死》(理查德·阿爾丁頓 1929);《老人與海》(歐內斯特·海明威 1952);《暗巷》(蒲寧 1938);《靜靜的頓河》(肖洛霍夫 1925-1940);《太陽照常升起》(歐內斯特·海明威 1926);《怪人(故事集)》(第一卷)(阿列克謝·托爾斯泰 1908-1911);《別人的妻子及床底下的丈夫》(費多爾·陀思妥耶夫斯基" 1848);《驢皮記》(奧諾雷·德·巴爾扎克 1831)。
⑦譯者注:在主題建模分析中,每個文本可能與多個主題相關聯,但算法會根據概率值,確定一個與該文本關聯度最高的主題,這個主題就被稱為該文本的主要主題。主要主題是算法認為最能概括該文本內容的主題。
⑧譯者注:在主題建模中,每個主題都由一組與該主題相關的詞語構成,這些詞語按照其與主題的相關程度(權重)排列。每個詞語就是一個“терм”,也就是構成主題的關鍵詞。
參考文獻
Gibson, J. The Ecological Approach to Visual Perception[M]. London: Tailor and Francis, 1986.
Grootendorst, M. BERTopic: NeuralTopic Modeling with a Class-based TF-IDF Procedure[OL]. arXiv:2203.05794, 2022.
Jacobs, T. Tschtschel, R. Topic Models Meet Discourse Analysis: A Quantitative Tool for a Qualitative Approach[J]. International Journal of Social Research Methodology, 2019(22).
JelisavAcˇG1iAc'G1, V., Furlan, B., ProtiAc'G1, J., MilutinoviAc'G1, C." Topic Models and Advanced Algorithms for Profiling of" Know-ledge in Scientific Papers[P]. Proceedings of the 35th International Convention, 2012.
Koltsov, S., Pashakhin, S.," Dokuka, S." A Full-Cycle Me-thodology for News Topic Modeling and User Feedback Research[P]. 10th International Conference on Social Informatics, SocInfo, 2018.
Nikolenko, S.I. Koltcov, S., Koltsova, O. Topic Modelling for Qualitative Studies[J]. Journal of Information Science, 2017(1).
Quercia, D. Askham, H., Crowcroft, J. Tweet LDA: Supervised Topic Classification and Link Prediction in Twitter[P]. Proceedings of the ACM Web Science Conference, 2012.
Ritter, A. Cherry, C. Dolan, B. Unsupervised Modeling of Twitter Conversations[P]. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics," 2010.
Schch, C. Topic Modeling Genre: An Exploration of French Classical and Enlightenment Drama[J]. Digital Humanities Quarterly, 2017(2).
Skorinkin, D., Orekhov, B. Hacking Stylometry with Multiple Voices: Imaginary Writers Can Override Authorial Signal in Delta[J]. Digital Scholarship in the Humanities, 2023(3).
Андреев, В.С. "瘙爯Светлый瘙爲 Лонгфелло: концепт Свет в меняющемся стиле[J]. Известия Смоленского государственного университета, 2019(3).‖Andreev, V.S. “Light” Longfellow: The Concept of Light in a Changing Style[J]. Proceedings of Smolensk State University, 2019(3).
Андреев, С.Н. Распределение триграмм в тексте (динамический аспект изучения стихотворного текста)[J]. Квантитативная лингвистика, 2016(4).‖Andreev, S.N. Distribution of Trigrams in the Text (Dynamic Aspect of Studying Poetry)[J]. Quantitative Linguistics, 2016(4).
Вахштайн, В. Техника[M]. СПб.: Издательство Европейского университета в Санкт-Петербурге, 2021.‖Vakhshtain," V." Technology[M]. St. Petersburg: European University Press, 2021.
Мартыненко, Г.Я. Методы математической лингвистики в стилистических исследованиях[M]. Санкт-Петербург: Нестор-История, 2019.‖Martynenko, G.Y." Methods of Mathematical Linguistics in Stylistic Stu-dies[M]. St. Petersburg: Nestor-History, 2019.
Матвеева, Г.В. Функциональные стили в аспекте текстовых категорий: Синхронно-опоставительный очерк[M]. Свердловск: Издательство Уральского университета, 1990.‖Matveeva, G.V. Functional Styles in the Aspect of" Text Categories: A Synchronic-Comparative Essay[M]. Sverdlovsk: Ural University Press, 1990.
定稿日期:2024-10-10【責任編輯 陳慶斌】