999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字人文視角下多日記人物關系聯合挖掘及可視化研究

2023-08-08 13:16:10張錦勝林澤斐
知識管理論壇 2023年3期
關鍵詞:文本挖掘

張錦勝 林澤斐

摘要:[目的/意義]聯合挖掘與西南聯大有關的多部名人日記,構建融合多部文獻信息的西南聯大社會網絡圖譜,以期通過多日記聯合挖掘,發現更多的潛在社會關系,突破單日記社會網絡挖掘的局限性。[方法/過程]以1938—1941年間與西南聯大相關的多部日記為語料,利用Python程序統計人物共現關系,使用Gephi構建多日記社交網絡圖譜。通過社會網絡分析方法,對網絡拓撲特征、人物中心度特征以及基于模塊化和K-core的人物群體特征等進行分析和探討。[結果/結論]相較于獨立日記挖掘,多日記社會網絡聯合挖掘顯示出更明顯的網絡結構特征,更加去中心化,社會關系信息也更為豐富,可揭示出較為隱蔽的社交關系,在數字人文領域具有良好的應用價值。

關鍵詞:數字人文;社會網絡;文本挖掘;西南聯大

分類號:G254

引用格式:張錦勝, 林澤斐. 數字人文視角下多日記人物關系聯合挖掘及可視化研究: 以西南聯大相關日記為例[J/OL]. 知識管理論壇, 2022, 8(3): 171-182[引用日期]. http://www.kmf.ac.cn/p/342/.名人日記作為一種歷史文獻,較為真實地記錄了僅作者了解卻不為大眾所知的事務,并能夠間接反映特定時期社會、政治、經濟、文化等方面的背景信息,具有很高的史料價值。與傳統的日記研究相比,數字人文視閾下的文本挖掘方法具有高效且直觀的優勢,能夠從海量語料中快速構建人物社會網絡,其中蘊含的社會關系信息可與其他史料相互印證,甚至得到新的發現。現有名人日記文本挖掘工作均基于獨立日記開展。相較于單日記文本挖掘,多日記聯合挖掘可以更好地揭示歷史時期的社交網絡結構和關鍵人物,有助于豐富歷史人物研究的廣度和深度。因此,多日記聯合挖掘在名人日記文本挖掘研究中具有重要的價值。

西南聯合大學(以下簡稱“西南聯大”)是抗日戰爭打響后,我國重要的高等教育機構,曾培養了一大批優秀的思想家、科學家、文學家、實業家和社會活動家,被公認為中國高等教育歷史上一顆璀璨奪目的明珠。西南聯大的師生中不乏有記日記習慣的人士,這為深入探究西南聯大的發展歷程提供了可以相互佐證的參考。近年來,諸如《梅貽琦西南聯大日記》《鄭天挺西南聯大日記》《西南聯大求學日記》等相關日記相繼出版,為構建融合多日記的西南聯大社會網絡提供了條件。

基于此,本研究對與西南聯大相關的4部日記進行聯合挖掘,首次通過多日記聯合挖掘的方式構建面向歷史研究的較大規模的人物社會網絡,以人物關系為主要脈絡,發現并提煉西南聯大相關的多本日記中所蘊藏的知識,以期為數字人文視角下名人日記聯合開發工作提供參考借鑒。

1? 文獻回顧

目前,面向數字人文的文本挖掘工作主要涉及以下幾個領域:①作者歸屬與風格分析,相關研究多采用定量統計分析和計算機輔助技術,對作者在用詞、句式等方面的特點進行分析,以此來鑒定作者身份和風格特征[1-2];②作品情感分析,相關研究利用自然語言處理技術和情感分析方法,挖掘文學作品中的情感特征,從而自動分析文學作品的情感傾向性[3-5];③社會網絡分析與挖掘,相關研究多使用自然語言處理技術,從文學作品中抽取人物并構建社會網絡,以此來研究文學作品中的人物關系和社會結構特征[6-9];④面向人文文獻的基礎自然語言處理(Natural Language Processing, NLP)任務研究,相關研究主要針對古籍資料等人文文獻,利用傳統機器學習方法和深度學習方法對詞法分析[10-12]、命名實體識別[13-15]等基礎性NLP任務進行探索。

日記是一種私人記載形式,按照時間順序記錄了作者的親身經歷以及作者對人、事、物的看法,歷來被認為具有直接史料的價值[16]。傳統日記研究主要涉及歷史學、檔案學、藝術學、軍事學等多個學科領域。例如,R. F. Grattan對英國陸軍元帥阿蘭布魯克勛爵的戰爭日記運用比較方法,利用軍事與管理理論得出一些關于如何提出成功戰略的結論[17];張詩洋對《張彭春日記》進行了深入研究,通過對該日記的分析和解讀,補充了中國早期話劇發展史以及張彭春本人戲劇思想的論據[18];吳景平則對《蔣介石日記》進行了詳細研究,從而印證了國民黨在抗戰初期對日的態度[19]。這些研究都以傳統人文研究方法發掘了日記所承載的歷史、文化和社會價值。

近年來,隨著數字人文研究熱度的不斷攀升,文本挖掘和社會網絡分析方法開始被應用于名人日記研究中,如T. Cserpes對18世紀匈牙利貴族S. Károlyi的日記文本進行社交網絡分析,闡釋匈牙利貴族的社交網絡如何與這一時期出現的新型社會地位相聯系[20];J. Zhou等使用LIWC古漢語詞典和CC-LIWC系統作為分析工具,量化分析曾國藩日記以探究其心理變化[21];宋雪雁、鐘文敏對《王世杰日記》和《譚延闿日記》的文本挖掘,較為系統地對日記所蘊含的社交網絡、地理位置、文本情感進行知識發現[22-24];黃紫荊等使用BERT(Bidirectional Encoder Representation from Transformers)模型對《拉貝日記》進行情感極性識別,揭示了南京大屠殺前后拉貝的情感分布特征[25]。

值得注意的是,目前針對名人日記的文本挖掘研究均基于獨立日記開展,而單一日記承載的信息量相對有限。相比于單一日記,具有相似社會背景的多部名人日記具有更大的信息量,且可以相互印證,從而具有更高的挖掘價值。因此,本研究將采用多文本聯合挖掘的方式,以西南聯大師生日記中的人物關系作為挖掘對象,借助文本挖掘技術對西南聯大師生的社會關系進行分析與可視化展示,以此對面向數字人文的多日記聯合挖掘方法予以探討。

2? 西南聯大日記社會網絡構建

2.1? 數據來源

西南聯大是中國抗日戰爭后由北京大學、清華大學、南開大學內遷設于昆明的一所綜合性大學。自1937年8月建立到1946年7月31日停止辦學,該校共存在了8年11個月。西南聯大保存了抗戰時期我國重要的科研力量,并培育了大量杰出的學生,其中不少人成為了世界一流的學者。

本研究以《梅貽琦西南聯大日記》《鄭天挺西南聯大日記》《朱自清日記》《西南聯大求學日記》4部名人日記作為語料開展研究,各日記的基本信息見表1。由于4部日記的起始年和終止年不盡相同,為控制時間的統一性,取各日記記載時間與1938—1943年的交集部分開展研究,這一時間跨度包含了西南聯大8年辦學時間中的6年,涉及日記文本共約90萬字。

4部日記都是作者對個人生活的日常記錄,具有鮮明的個人風格。其中,梅貽琦作為校務委員會主席,記錄較為簡潔;鄭天挺先生作為教務長,記錄的內容瑣碎且細致;朱自清教授語言十分干練簡白;許淵沖先生在學生時期更多地記錄讀書學習與日常生活,較為詳盡。4部日記分別以校長、總務長、教授、學生4個身份反映出西南聯大從創立之初到逐漸發展的過程。

2.2? 語料預處理

日記原文中對人物的記錄有著許多姓氏、字號、職位、身份、昵稱、學位等不同種類的省略及代稱。針對這些省略及代稱,本研究結合百科、日記注釋、檔案、歷史文獻等有關資料,通過對原文的研讀,查找、校對資料,建立人物姓名與在日記中稱謂的對照詞表,示例見表2,以該詞表為基準,通過文本編輯器查找、替換功能將原文中的各種指代稱謂替換為人物的正式姓名并逐一加以人工核對。

本研究使用基于Python的NLP工具包PaddleNLP[26]作為文本分詞工具。為提高人名分詞的準確性,通過設置自定義詞典,將日記出現的所有人名存放于詞典文件。根據分詞處理后所產生的詞性標簽,去除其他無關的詞匯,提取各句中帶有實質意義的人名詞匯。

2.3? 人物共現統計

為統計每一人名詞匯對在所有句子中的共現頻次,利用Python編程枚舉每個句子中共現人名詞匯對,然后將4部日記原文中所有句子中的相同人名詞匯對進行歸并統計。為了將分析重點聚焦于重要的高頻人物,本研究通過閾值限定參與人物共現分析的人名數量,閾值設定為各日記及各年份出現頻次最高的前200個人名詞匯對中所出現的人名。

經過整理和統計,《梅貽琦西南聯大日記》得到118名人物與1 312對共現關系;《鄭天挺西南聯大日記》得到75名人物與6 718對共現關系;《朱自清日記》得到115名人物與1 040對共現關系;《西南聯大求學日記》得到88名人物與1 568對共現關系。四部日記綜合去重后最終得到317名人物和他們之間的10 638對共現關系。最后,分別將4部作品及綜合的人物共現關系轉換為CSV格式的Gephi鄰接表數據[27]。

2.4? 生成社會網絡

將處理過的CSV鄰接表,導入Gephi中,使用ForceAtlas 2算法[28]生成各獨立日記社會網絡圖譜以及融合各日記信息的社會網絡圖譜(以下簡稱“融合社會網絡”),見圖1和圖2。圖譜中,節點的大小反映人物的中心度大小,邊的粗細程度則反映出兩個相關人物的共現頻次。

本研究利用Gephi的網絡統計功能,進行網絡結構特征的計算。網絡直徑、網絡平均度、平均路徑長度等統計特征指標可以用來描述日記人物共現關系網絡的拓撲結構。對本研究構建的多篇日記人物共現關系網絡的特征指標進行計算,結果如表3所示:

與單獨日記社交網絡相比,融合社會網絡的規模較大,但是其網絡密度有所下降,這與社會網絡融合后人物數量增加,而4位日記作者的社交圈并非完全一致有關。根據網絡統計特征指標計算結果可以看出,獨立和融合社會網絡的平均聚類系數均較大,平均路徑長度較短,反映出典型的小世界特性[29],其中,融合社會網絡的網絡直徑為6,更接近真實世界社會網絡的六度分隔(six degrees of separation)現象。

模塊化指數(modularity index)為M. E. J. Newman和M. Girvan提出的社區劃分評估指標[30]。一般認為,模塊化指數大于0.3,即代表網絡具有較明顯的社區結構,真實世界社區的模塊化指數通常介于0.3—0.7之間[31]。本研究中利用Gephi劃分社群并計算了融合社會網絡的模塊化指數,其指標為0.352,這意味著同時進行多篇日記聯合挖掘后,仍具有較為明顯的網絡社區結構。

根據生成的可視化圖譜和網絡結構特征,可以看出融合后的社會網絡相較于單日記社會網絡更加地去中心化,不僅保留了各日記自身的社會關系,還揭示出一些較為隱蔽的社交關系,網絡信息也更為豐富。

3? 西南聯大社會網絡關系挖掘

3.1? 網絡人物中心度分析

3.1.1? 融合社會網絡人物中心度分析

本研究統計了融合社會網絡中人物的中心度(degree centrality),排名前20位的人物見表4。通過表4可知,4部日記作者的中心度排名均為前列。鄭天挺作為西南聯大的總務長,既要負責外部關于西南聯大的發展事務,也要負責學校內部教授的教學活動安排以及本身負責的教學領域研究,與各個教授、同仁交流較多;梅貽琦作為西南聯大常務委員會的常委會主席,主抓西南聯大的各項工作[32];朱自清原是清華大學中文系主任,在西南聯大中與其他學校的中文系教授經常交流,且因學科建設研究要求等要與校長、總務長、文學院同仁保持聯系;許淵沖是西南聯大首屆外語系學生,在社交網絡中,他與同齡人、外文語文系的老師頻繁交流。此外,還有樊際昌、蔣夢麟、楊振聲、羅常培、羅庸、陳雪屏、章廷謙、姚從吾、查良釗等或是西南聯大行政人員或是相關院系主要負責人,在人物共現圖中占不小的比例。結合他們在西南聯大的職務和身份,這一結果與西南聯大歷史事實相符。

3.1.2? 各年份網絡人物中心度變化分析

人物的社會關系在時間維度上具有一定的動態性,為分析不同年份西南聯大的社會關系,我們融合各單獨日記中的歷年日記文本,生成各年份的融合社會網絡。統計人物中心度信息后可以發現,各年份融合社會網絡中核心人物中心度的變化,基本可以分為3類:①陳岱孫、查良釗、劉匡南、錢端升、吳瓊、魏建功、曾慕蠡等核心人物在日記人物共現關系網絡圖中有著空白年份,即在該年份,由于該人物共現頻次較低,未出現在所抽取的社會網絡中;②樊際昌、楊振聲、馮友蘭、陳福田、趙乃摶、萬兆鳳、羅庸等核心人物在日記人物共現網絡圖中有著某一年份中心度與其他年份差異較大或各年份的中心度變化明顯的現象;③羅常培、陳雪屏、章延謙、蔣夢麟等核心人物在日記人物共現關系網絡中一直有著很高的中心度地位且變化幅度很小。

針對以上3種類型的人物,筆者從核心人物中選取部分有代表性的人物,代表性核心人物名單及其中心度相對排名的變化情況見表5。

結合這些核心人物的生平及其在西南聯大與梅貽琦、鄭天挺、朱自清、許淵沖等日記作者或其他核心人物的交往過程進行分析,發現以上人物的中心度變化與歷史領域學者對西南聯大的許多研究成果相呼應。

在第一組中,劉匡南、吳瓊、曾慕蠡受許淵沖參軍入伍影響,中心度存在空白[33];陳岱孫是西南聯大經濟系的教授;查良釗、錢端升都是1938年應邀擔任西南聯大師范學院教授,查良釗次年出任聯大訓導長,錢端升之后出任北大辦事處法學院院長,對應了查良釗與錢端升在人物共現網絡中的中心度提升[34];魏建功與鄭天挺原同為北京大學文學系教授, 1940年鄭天挺兼任西南聯大總務長事務繁忙,同年魏建功離職換崗,網絡中心度變化體現了其二人事業方向的不同選擇[35]。

在第二組中,樊際昌在社交網絡的中心度大幅下降是因為1943年國民政府令聯大開辦譯員訓練班,樊際昌擔任訓練班主任[36];楊振聲在1941年中心度的下降印證了西南聯大選派他任敘永分校校長的經歷[34];馮友蘭、陳福田均為許淵沖上過課,授課期間人物中心度大幅提升[34];趙乃摶的社交網絡中心度在1943年驟降,印證了趙乃摶教授該年在譯員訓練班教學的經歷[37];萬兆鳳與許淵沖聯系緊密,直至1942年和1943年,許淵沖入伍,忙于畢業,其社交網絡中心度迅速下跌;羅庸與鄭天挺交流密切,至1940年鄭天挺任教務長交流驟減,1942年鄭天挺將中文系事務交予羅庸,社交網絡中心度的變化印證這一史實。

在第三組中,羅常培、陳雪屏、章延謙、蔣夢麟在社交網絡的中心度常年穩定前列。羅常培是梅貽琦、鄭天挺的左膀右臂,三人關系相當緊密,且羅常培與朱自清同為西南聯大中文系教授[34];陳雪屏多次擔任西南聯大校務會議教授代表,曾任北京大學教育系代理主任,與鄭天挺、羅常培等人交流頻繁[38];章延謙曾任西南聯大常務委員辦公室秘書長,蔣夢麟歷任中華民國教育部長、北京大學校長、西南聯大常務委員會委員[34]。

3.2? 西南聯大日記的網絡人物社群分析

3.2.1? 基于模塊化的凝聚子群分解

調用Gephi統計設置中的Community Detection的模塊化方法,選擇節點—顏色—分割“Modularity Class”后不同社區有著不同的顏色,直觀地驗證了模塊化后的結果:從網絡整體出發,不同顏色之間的位置相對分明,有4個較為明顯的社區,存在明顯的人物社交群落,見圖3。其中的左側數字,為數據模塊化后,分配給各個社區的默認ID;右側則是每個社區節點數占全部節點數的比例,從大到小,依次排列。

從融合社會網絡圖譜(圖2)可以看出,西南聯大部分日記人物的共現關系有著鮮明的中心點,即4部日記的作者,因此該融合社交網絡圖譜有著明顯的群體區分。此外,每個群體又有著更細致的分類,還具有明顯的中心與外緣差別。所有人物都至少和4位中心人物有著關聯,形成了復雜的社交網絡。位于群體中心的人物彼此聯系緊密,如:以梅貽琦、鄭天挺為首的西南聯大行政人員,掌握西南聯大的外部事務及內部事務;以朱自清、胡適、羅常培為核心人員的西南聯大中文系,進行頻繁的學術交流和生活社交;以許淵沖、林同端、萬兆鳳、劉匡南為主要人員的西南聯大學生,圍繞學習和生活,占據了一部分人物共現圖譜。而處于三大群體外的邊緣人物只存在極少的人物共現關聯,在西南聯大影響力不足。

3.2.2? 基于 K-core 的人物群體過濾

采用K-core對各年份模塊化分解后的多篇日記社交網絡進行過濾,可以更清晰地挖掘核心群體的人物及其之間的共現關系。在前文各個年份社交網絡統計特征的基礎上,分別以K=3、4、5進行觀察,最后設置K=4為標準對1938—1943年各年份西南聯大日記社交網絡進行人物過濾,保留核心人物群體共現關系進行可視化展示,如圖4所示:

多篇日記人物K-core結構社交網絡中,相同顏色節點代表人物是相同群體,不同顏色的節點位置距離程度代表人物群體間的關聯密切程度。社交網絡人物間的共現關系由邊體現,鏈接權重越大,邊越粗,意味著兩個人物的共現關聯越密切,聯系越頻繁。從整體趨勢上來看,共現網絡中人物節點受到力引導后能夠較為清晰地劃分為“學生”“教授”“行政人員”3類:“學生”部分人物多是與許淵沖相關聯的人物或為江西籍學生,或為外語系學生,或為外語系教授,涵蓋了許淵沖在西南聯大求學的生活;“教授”部分人物或為西南聯大同仁,或為朱自清的親人朋友;“行政人員”或為西南聯大常務委員、總務處、教務處和建設處等相關人員,或為政府行政人員。由上述分析可以看出,對不同年份的融合社會網絡進行K-core過濾,能夠較好地表現出各年份核心人物之間的社交關系變化。

3.2.3? 核心人物群體分析

社會網絡中的高中心度人物有較多的存留歷史檔案資料,通過分析這些資料,可以得出這些高中心度人物間的真實社會關系。本研究使用Gephi對各年份融合社會網絡進行社區劃分,得到各年份的人物類簇,最終選擇群體較大的人物類簇進行分析,見表6,并將各類簇中包含的核心人物(高中心度人物)與歷史資料相印證。

表6中每年都在核心群體中占比較大的人物如蔣夢麟、章延謙、羅常培、魏建功、羅庸等人均是西南聯大的教授或行政人員,與4位日記作者存在同事或師生關系[34,39]。例如,1942年群體1的繆云臺是梅貽琦的好友,1938年群體0中的邱椿、周作仁是鄭天挺的好友,1938年群體1的蕭乾和1941年群體1的葉圣陶、聞宥、呂叔湘是朱自清的好友,1941年群體9中的萬紹祖、趙家珍、曾慕蠡、黃有莘、張德基是許淵沖的同學好友[33,40-41]。1942年群體1的韓詠華、梅祖彥、梅祖彬是梅貽琦的妻兒,1943年群體0的鄭雯是鄭天挺的女兒,1938年群體1的周翕庭是朱自清的姐夫,林同端是許淵沖當時愛慕的女生[33]。1943年群體5的陳立夫和1942年群體1費子堅、馬光宸、張道藩、盧漢是國民政府下的軍官或政府人員。從上述史料可以看出,各類簇中包含的核心人物在真實歷史中具有明顯的集聚性,這表明對本研究構建的融合社會網絡進行社區聚類,可較為有效地反映出現實世界的人物社會關系。

此外,通過融合社會網絡,還可以發現傳統研究視角不易發現的隱蔽社群關系,例如結合圖2、表6和日記文本描述,可以較為直觀地挖掘出西南聯大橋牌社交網絡:梅貽琦曾與繆云臺、梅祖杉、蕭蘧、章耘夫等8人打過橋牌;鄭天挺曾與陳雪屏、羅常培、朱洪、周樹人、章耘夫、邵循正等12人打過橋牌;朱自清曾與吳晗、蕭蘧、陳岱孫、馮友蘭等19人打過橋牌;許淵沖曾與吳瓊、陳福田等25人打過橋牌。不難發現橋牌這一娛樂活動在西南聯大的師生中風靡一時,相關日記作者亦不例外:朱自清和吳晗、柳無忌、邵循正等十余人成立了橋牌俱樂部;許淵沖不僅平時和許多同學打橋牌,甚至和陳福田教授、聯大幾位助教都有過交手。與4位日記作者交手次數越多的人物,其在核心人物群體中的地位也越明顯,例如,陳福田、陳岱孫、陳雪屏、陳省身被譽為西南聯大橋牌名將“四陳”,1941年群體0社群就包含了聯大橋牌名將“四陳”中的兩位。顯然,小小的橋牌將西南聯大的眾多師生串聯了起來,其在當時西南聯大師生日常生活的重要性可見一斑。

4? 總結

本研究利用《梅貽琦西南聯大日記》《鄭天挺西南聯大日記》《朱自清日記》《西南聯大求學日記》等4部日記類書籍構建人物社會網絡,從多本非結構化的日記文本中抽取出結構化人物實體與共現關聯數據進行統計與量化分析,結合社會網絡分析方法,對網絡拓撲特征、人物中心性特征以及基于模塊化和K-core的人物群體特征等問題進行分析與討論,通過印證相關歷史研究進行分析。與獨立日記挖掘相比,多日記聯合挖掘可以得出更明顯的網絡結構特征和更全面的社交網絡可視化圖譜,更加地去中心化,信息也更為豐富,有助于發現傳統研究視角不易發現的隱蔽社交關系,從而對傳統研究做出有益補充。

本研究也存在著一定的不足之處。本研究僅基于梅貽琦、鄭天挺、朱自清、許淵沖4人的個人日記文本進行人物關系挖掘,師生關系、人員關系較為復雜,且該關系網絡中的人物關系結構并不一定能夠完全代表某一人物在當時西南聯大師生群體間的影響力。梅貽琦的日記與其他3部日記存在時間不重合的問題,鄭天挺和梅貽琦的日記原文存在一定的缺失,朱自清在日記中對人物共現情況的記錄較為簡略,1943年許淵沖在日記中的記錄也特別簡略,在一定程度上影響對人物共現原因的分析與判斷。本研究所抽取的人物,多為西南聯大文學院師生、西南聯大行政人物,僅能展現西南聯大局部師生關系、師師關系。此外,本研究所抽取的數據為局部時間段數據,僅能展現西南聯大局部時間段之內的特定人物關系,更多、更豐富的人物關系的挖掘與呈現,還需更長時段的數據與更多相關日記文本的充實。

參考文獻:

[1] 武曉春, 黃萱菁, 吳立德. 基于語義分析的作者身份識別方法研究[J]. 中文信息學報, 2006(6): 61-68.

[2] 年洪東, 陳小荷, 王東波. 現當代文學作品的作者身份識別研究[J]. 計算機工程與應用, 2010, 46(4): 226-229.

[3] LORD G, SMITH M N, KIRSCHENBUAM M G, et al. Exploring erotics in Emily Dickinsons correspondence with text mining and visual interfaces[C]// Proceedings of the 6th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, 2006:141-150.

[4] 邰沁清, 夏恩賞, 饒高琦, 等. 數字人文視角下的金庸文本挖掘研究[J]. 數字人文, 2020(4): 115-136.

[5] Yumpu.com. Seeking the sentimental in nineteenth century American fiction[EB/OL]. [2023-03-12]. https://www.yumpu.com/en/document/view/33692161/seeking-the-sentimental-in-nineteenth-century-american-fiction.

[6] MORETTI F. Network theory, plot analysis[J]. New left review, 2011(68): 80-102.

[7] 范文潔, 李忠凱, 黃水清. 基于社會網絡分析的《左傳》戰爭計量及可視化研究[J]. 圖書情報工作, 2020, 64(6): 90-99.

[8] 宋雪雁, 霍曉楠, 劉寅鵬, 等. 數字人文視角下《全唐詩》貶謫詩人社會關系研究[J]. 現代情報, 2022, 42(2): 14-21.

[9] REYNALDO. Analyzing social networks of XML plays: exploring Shakespeares genres - DH2018[EB/OL]. [2023-03-12]. https://dh2018.adho.org/en/analyzing-social-networks-of-xml-plays-exploring-shakespeares-genres/.

[10] 程寧, 李斌, 葛四嘉, 等. 基于BiLSTM-CRF的古漢語自動斷句與詞法分析一體化研究[J]. 中文信息學報, 2020, 34(4): 1-9.

[11] 程寧. 基于深度學習的古籍文本斷句與詞法分析一體化處理技術研究[D].南京:南京師范大學,2020.

[12] 李斌, 袁義國, 蘆靖雅, 等. 第一屆古代漢語分詞和詞性標注國際評測[J]. 中文信息學報, 2023, 37(3): 46-53.

[13] 于舒娟, 毛新濤, 張昀, 等. 基于詞典和字形特征的中文命名實體識別[J]. 中文信息學報, 2023, 37(3): 112-122.

[14] 劉瀏. 古漢語典籍中的實體知識挖掘研究[D].南京:南京大學,2018.

[15] 湯亞芬.先秦古漢語典籍中的人名自動識別研究[J].現代圖書情報技術,2013(S1):63-68.

[16] 齊世榮. 談日記的史料價值[J]. 首都師范大學學報(社會科學版), 2011(6): 1-15.

[17] GRATTAN R F. A study in comparative strategy using the Alanbrooke diaries[J]. Management decision, 2004, 42(8): 1024-1036.

[18] 張詩洋. 新發現張彭春日記的文獻價值考述[J]. 文獻, 2021(5): 73-88.

[19] 吳景平. 蔣介石與抗戰初期國民黨的對日和戰態度——以名人日記為中心的比較研究[J]. 抗日戰爭研究, 2010(2): 131-144.

[20] CSERPES T. Measuring identity change: analysing fragments from the diary of Sándor Károlyi with social-network analysis[J]. European review of history: revue européenne dhistoire, 2012, 19(5): 729-748.

[21] ZHOU J, ZHU T. Research on the psychology of historical figures based on big data analysis and data mining : taking Zeng Guofans diary as an example[C]// Proceedings of 3rd international academic exchange conference on science and technology innovation. Guangzhou: IAECST, 2021: 704-708.

[22] 宋雪雁, 崔浩男, 梁穎, 等. 數字人文視角下名人日記資源知識發現研究——以王世杰日記為例[J]. 情報理論與實踐, 2021, 44(6): 105-111.

[23] 宋雪雁, 鐘文敏. 數字人文視角下《譚延闿日記》人物關系挖掘及可視化研究[J]. 情報科學, 2022, 40(6): 25-35.

[24] 宋雪雁, 鐘文敏. 數字人文視域下《譚延闿日記》的地理位置挖掘與可視化研究[J]. 蘭臺世界, 2021(10): 33-38.

[25] 黃紫荊,邱玉倩,沈彤,等.數字人文視角下的《拉貝日記》情感識別與分析[J].圖書館論壇,2023,43(3):54-63.

[26] PaddleNLP Contributors. PaddleNLP: an easy-to-use and high performance NLP library[EB/OL]. [2023-03-01]. https://github.com/PaddlePaddle/PaddleNLP.

[27] Gephi. CSV Format[EB/OL]. [2023-03-02]. https://gephi.org/users/supported-graph-formats/csv-format.

[28] JACOMY M, VENTURINI T, HEYMANN S, et al. ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software[J]. Plos one, 2014, 9(6): e98679.

[29] WATTS D J, STROGATZ S H. Collective Dynamics of ‘small-world networks[J]. Nature, 1998, 393(6684): 440-442.

[30] NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical review E, 2004, 69(2): 026113.

[31] GREEN D G, LIU J, ABBASS H A. Dual-phase evolution[M]. New York: Springer, 2014: 3-40.

[32] 于正陽. 西南聯大梅貽琦治校理念及實踐研究:一個關系協調的視角[J]. 揚州大學學報(高教研究版), 2021, 25(3): 52-59.

[33] 許淵沖. 西南聯大求學日記[M]. 北京:中譯出版社, 2021.

[34] 北京大學. 國立西南聯合大學史料:教職員卷[M]. 昆明:云南教育出版社, 1998.

[35] 楊紹軍. 魏建功先生在西南聯大[J]. 學術探索, 2011(1): 2,145.

[36] 聞黎明. 關于西南聯合大學戰時從軍運動的考察[J]. 抗日戰爭研究, 2010(3): 5-18.

[37] 張友仁. 趙迺摶教授的生平和學術(下)[J]. 西安財經學院學報, 2015, 28(2): 121-128.

[38] 劉火雄. 興觀群怨 詩史互證——鄭天挺西南聯大時期的詩詞交游及其學術活動考察[J]. 文藝評論, 2022(5): 17-25.

[39] 鄭天挺. 鄭天挺西南聯大日記[M]. 北京:中華書局, 2018.

[40] 吳衛萍. 朱自清、葉圣陶的成都友誼[J]. 青年文學家, 2010(1): 24.

[41] 朱自清. 朱自清日記·上(1937-1941)[M]. 北京:石油工業出版社, 2018.

作者貢獻說明:

張錦勝:確定選題,提出研究思路,分析和處理數據,撰寫論文,修改論文;

林澤斐:修改論文并定稿。

Joint Mining and Visualization of Character Relationships in Multiple Diaries from the Perspective of Digital Humanities——A Case Study of Diaries Related to Southwest Associated University

Zhang Jinsheng? Lin Zefei

College of Social Development, Fujian Normal University, Fuzhou 350117

Abstract: [Purpose/Significance] By jointly mining multiple diaries related to National South-west Associated University (NSAU), a social network graph of NSAU that integrates information from multiple sources is constructed. The aim is to discover more potential social relationships through joint mining of multiple diaries, and break through the limitations of single diary social network mining. [Method/Process] Using multiple diaries related to NSAU from 1938 to 1941 as corpus, Python program is used to count co-occurrence relationships of characters, and Gephi is used to construct multi-diary social network graph. Through social network analysis methods, the network topology features, character centrality features and character group features based on modularity and K-core are analyzed and discussed. [Result/Conclusion] Compared with independent diary mining, multi-diary social network joint mining showed more obvious network structure features, more decentralized and rich social relationship information, which can reveal more hidden social relationships, and has good application value in the field of digital humanities.

Keywords: digital humanities? ? social network? ? text mining? ? National South-west Associated University

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
慧眼識璞玉,妙手煉渾金
主站蜘蛛池模板: 国产在线视频导航| 国产白浆在线| 国产精品三区四区| 国产亚洲视频中文字幕视频| www精品久久| 性欧美在线| P尤物久久99国产综合精品| 制服丝袜无码每日更新| 99精品视频播放| 国产精品人成在线播放| 免费无码AV片在线观看国产| 亚洲欧美成人综合| 亚洲性网站| 亚洲精品国产综合99| 91精品国产自产91精品资源| 国产黑丝一区| 99热这里只有精品国产99| 久久96热在精品国产高清| 欧美精品亚洲日韩a| 找国产毛片看| 亚洲性日韩精品一区二区| 国产三级a| 天天躁夜夜躁狠狠躁躁88| 日韩天堂在线观看| 久久国产精品夜色| 欧美午夜视频在线| 中文字幕天无码久久精品视频免费 | 欧洲免费精品视频在线| 在线亚洲小视频| 久草视频一区| 欧美亚洲综合免费精品高清在线观看 | 精品中文字幕一区在线| 精品伊人久久久大香线蕉欧美 | 久久国产拍爱| 手机在线国产精品| 亚洲无限乱码一二三四区| 色综合成人| 国产av一码二码三码无码| 秋霞午夜国产精品成人片| 国产又爽又黄无遮挡免费观看| 亚洲av成人无码网站在线观看| 亚洲综合香蕉| 国产在线观看一区二区三区| 久久精品丝袜高跟鞋| 国产日韩欧美在线视频免费观看 | 精品福利视频导航| 国产在线麻豆波多野结衣| 国产精品一区二区不卡的视频| 国产成人a毛片在线| 午夜天堂视频| 91网红精品在线观看| 国产在线日本| 日韩毛片基地| 成人精品免费视频| 国产探花在线视频| 夜夜拍夜夜爽| 欧美精品在线免费| 97超级碰碰碰碰精品| 亚洲最新在线| 午夜啪啪网| 国产在线无码av完整版在线观看| 91精品专区国产盗摄| 日韩一区二区在线电影| 久久久四虎成人永久免费网站| 欧美黑人欧美精品刺激| 3344在线观看无码| 精品国产免费观看一区| 91精品国产一区| 久久鸭综合久久国产| 欧美一级黄片一区2区| 欧美另类精品一区二区三区| 国内精自视频品线一二区| 国产成人精品免费av| 久久国产高潮流白浆免费观看| 操美女免费网站| 91亚洲精品第一| 亚欧成人无码AV在线播放| 午夜福利网址| 亚洲精品国产自在现线最新| 毛片在线播放网址| 老司机午夜精品网站在线观看| 国产又色又爽又黄|