林世華 譚富強
[摘 要] 研究提出一種基于word2vec和變分自編碼器(VAE)相結合的wordVAE數字人文知識生產特征挖掘方法。以數字人文研究成果(CSSCI期刊論文)和相關書籍著作為研究對象,對其知識生產特征進行實證研究。研究顯示:從期刊文獻的研究結果看,數字人文知識生產特征主要有知識生產結構化與邊界模糊化并存、跨學科合作化;以書籍的研究結果看,數字人文知識生產特征主要有主題凝聚性、視野廣闊性。
[關鍵詞] 數字人文 知識生產特征 wordVAE 范式轉變
[中圖分類號] G237 [文獻標識碼] A [文章編號] 1009-5853 (2022) 02-0057-10
Research on the Characteristics of Digital Humanistic Knowledge Based on Natural Language Processing
Lin Shihua Tan Fuqiang
(School of Media and Communication, Shenzhen University, Shenzhen, 518060)(Institute for Cultural Industries Shenzhen University, Shenzhen, 518060)
[Abstract] The paper proposes a wordVAE digital humanities knowledge production feature mining method based on the combination of word2vec and Variational Auto-Encoder (VAE). The study conducts an empirical research on the characteristics of knowledge production taking digital humanities research results (CSSCI Journal Papers) and related books as research objects. The research shows that:in terms of the research results of Journal Papers, the main characteristics of digital humanities knowledge production are the coexistence of knowledge production structure and boundary blurring, and interdisciplinary collaboration. In terms of the research results of books, the main characteristics are thematic cohesiveness and broad horizons.
[Key words] Digital humanities Knowledge production characteristics WordVAE Paradigm shift
1 問題緣起
當下,人類已然進入數字人文時代,知識和信息的邊界越發模糊,二者本身已經不再成為制約人類知識增長的關鍵因素。多渠道獲取海量知識的途徑將成為推動知識發展的重要手段,然而如何在便捷的知識獲取渠道下完成對信息與知識的再加工成為數字人文時代人類所面臨的重大問題之一。自施賴布曼(Schreibman)等人正式提出“數字人文”這一概念后,其本身所具備的計算機科學與人文學科的交叉屬性使得數字人文作為新興研究領域越發受到學界重視[1]。目前,學界關于數字人文知識生產的研究主要集中于以下幾個方面:一是基于知識網絡的數字人文領域的知識網絡演化研究。知識網絡概念源自心理學[2],于20世紀80年代末被引入中國[3],美國科學基金會認為知識網絡是由專家、信息和知識三者構成的凝聚體[4]。中國學者趙蓉英將知識網絡看作由“節點”和“邊”關聯所構成的網絡化知識體系[5]。依據上述對知識網絡的定義,不少學者假定期刊、著作、學者以及文獻關鍵詞為知識網絡演進中的關鍵節點,將引用關系、共現關系假定為邊,進而力圖將現有數字人文的研究成果進行網絡化梳理,在對相關文獻進行取舍后,通過計算完成數字人文知識網絡演變機制以及相關路徑[6][7],在一定程度上回答了數字人文本位視角下的知識生產。二是基于圖書館知識服務模式的相關研究。因當今時代“互聯網+”的逐步興起,人們對信息的需求度及其需求方式都已發生轉變,在此背景下,傳統圖書館服務模式無法滿足人們尤其是數字人文學者的需求,圖書館數字技術普遍得到重視[8]。一些人文學者開始將目光聚焦于圖書館服務模式的研究[9],在專注圖書數字化保存的同時也開始關注到相應平臺的數字人文文本分析[10]。因此,圖書館在數字人文發展過程中扮演著重要角色,數字人文因圖書館獲得了新的發展機遇,兩者互嵌的模式引發了相應的知識生產,推進了相關學術研究[11]。有學者對數字人文與圖書館的知識生產關系進行了辯證看待:一方面,館藏文本的數字化豐富圖書館的知識服務;另一方面,大量數字化文本的生產將促使人們對其進行知識挖掘、知識組織與開發[12]。一言以蔽之,數字人文以其新技術提升了圖書館的知識服務內涵與層次,而其所側重的文獻資源數字化儲藏方式則為用戶提供起一套有價值的研究內容以及據此而研發出的科學數據挖掘方式[13]。此外,周建新和譚富強以曼海姆的知識社會學作為理論視角分析了數字人文的知識生產屬性特征,指出數字人文的知識生產屬性具有多重聯動特征[14],從而在一定程度上探索了數字人文的知識生產特性問題。
綜上所述,學界對數字人文知識生產的相關研究取得了相應成果,但也存在以下不足之處:第一,既往研究側重于對數字人文知識網絡演化的研究,對數字人文的知識生產缺乏研究;第二,既往研究主要討論了數字人文知識生產的相關節點與邊界,但對數字人文知識生產的影響因素及其排列機制缺乏相應的解釋力;第三,既往研究主要立足于圖書館與數字人文關系,在一定程度上忽視了數字人文本體研究;第四,既往研究缺乏足夠的科學性與嚴謹性,這主要表現在數字人文的相關研究缺乏足夠的科學衡量標準,并對數字人文現象缺乏深刻理解;第五,既往研究缺乏對數字人文知識生產屬性的分析,這將導致對數字人文知識生產缺乏理論認識。
鑒于此,本研究將以既往數字人文研究論文和圖書著作為研究數據,通過搭建word2vec與變分自編碼器(VAE)相組合的wordVAE數字人文知識生產挖掘方法來分析近年來數字人文研究成果的知識生產特征,以深化對數字人文知識生產及其屬性的相關認識。
2 基于wordVAE的數字人文知識生產實證研究
2.1 研究數據
本文是基于既往數字人文研究成果與數字人文圖書著作而進行的自然語言處理研究,旨在揭示數字人文知識生產及其屬性特征。因而依據研究需要,首先,收集了題目、關鍵詞以及研究主題等層面包含數字人文知識生產的相關研究論文共計600篇;其次,收集了國內翻譯的數字人文著作,具體為《數字人文:改變知識創新與分享的游戲規則》以及《數字人文:數字時代的知識與批判》。
2.2 研究工具
由于研究需要,本次研究采用自然語言處理中的詞向量word2vec(Word to Vector)為研究工具。首先,詞向量最早由辛頓(Hinton)[15]提出,而本吉奧(Bengio)等人[16]則建立了最早的詞向量原模型,該方法主要可分為獨熱表示(One-hot Representation)[17]與分布式表示(Distributed Representation)[18]兩種,前者表示方法簡單,但語義表達能力有限,后者是基于前者的推進模型,在一定程度上彌補了前者語義表達能力有限以及矩陣存在稀疏冗長等問題[19]。其次,word2vec工具是由谷歌(Google)于2013年推出的自然語言處理工具,內部算法則借鑒了神經網絡語言模型(Neural Network Language Model, NNLM)的基本理念。其優點在于通過給定的語料庫可將文本中的詞映射至實數向量空間,而該實數向量空間由多個維度組成,每一維度都能夠代表相應的淺層語義特征[20]。最后,成熟的word2vec工具主要分為連續的詞袋模型(Continuous Bag-of-Words)以及連續的跳字模型(Continious skip-gram)兩種模型,因本次研究的訓練集數量較大,因而采用通過輸入一個詞便有望測量出上下相關詞的跳字模型,該模型具有語義精確且在大型訓練集中表現優異的特色[21][22]。
變分自編碼器(Variational Auto-Encoder,VAE)。變分自編碼器是自動編碼器的升級版本,其結構跟自動編碼器較為類似,也由編碼器和解碼器構成。相比于自編碼器,VAE更傾向于數據生成。正因如此,研究將word2vec的詞向量結果輸入VAE,從而獲得更好的分類結果。VAE的最大特點是模仿自動編碼機的學習預測機制,在可測函數之間進行編碼、解碼[23]。變分自編碼器是基于無監督學習的深度生成網絡模型,由金馬(Kingma)和威林(Welling)在2014年提出,該模型的思想源自傳統的自編碼器網絡模型(auto encoder,AE),與傳統的自編碼器不同的是,VAE考慮了隱變量的分布誤差,并用相對熵(也稱為KL散度,Kullback-Leibler divergence)來表示。KL 散度觀察聯合分布差距公式為[24]:
公式1
該模型還引入了貝葉斯公式從而構建起變分自編碼器的核心公式:
公式2
需要說明的是,本研究使用的VAE模型使用了隨機梯度下降法來訓練網絡參數,該方法的公式如下所示:
公式3
2.3 研究流程
本次研究具體分為四個流程:首先是原始語料庫預處理,其次是實詞抽取,再次是模型運行,最后為研究結果呈現。詳細研究流程如圖1所示:
針對期刊雜志與圖書著作的特性,本研究以自然語言處理技術針對二者的關鍵詞進行分析,具體流程如下。
首先,原始語料庫預處理。理論而言,本研究所使用的研究技術適用于多個語種的文本,但由于本次研究所用的是中文文本,因而在研究開始之前需要進行原始語料庫的處理,并去除與本次研究無關的停用詞以避免相應的噪聲干擾,從而提升話題的精密度。此外,為提升后期抽取實詞,進而對相應的詞性標注,本次研究所使用的詞性標注工具為自然語言處理與信息檢索共享平臺(NLPIR)漢語分詞系統[25]。
其次,實詞抽取。期刊雜志文獻的關鍵詞通常是由相關作者給出,具備準確率高、貼合文章主題、全文精簡指引等特征,因而以往研究通常采用關鍵詞抽取的辦法進行研究。但本次研究需要對所有資料進行全文檢驗,意在抽取文本中的名詞、動詞、形容詞以及副詞,因此需要采用較為經典的關鍵詞權重計算公式(Term Frequency–Inverse DocumentFrequency, TF-IDF),通過計算所抽取詞匯的TF-IDF數值來過濾TF-IDF數值小于制定標準的詞匯,最終形成相應的實詞集合。TF-IDF計算公式為:
公式4
再次,模型運行。一是基于word2vec技術的實詞詞向量獲取。期刊雜志論文與數字人文圖書著作在一定程度上因主題聚焦而具備了共同屬性的同時也存在明顯聯系,這也是本研究的基礎。然而,事實上在通過初步研究后發現二者依然具有相當差異,這主要體現在期刊雜志論文專業詞匯較多,而數字人文圖書著作口語化更為顯著。本研究認為盡管二者之間有一定的差異,存在關鍵詞不對應的情況,且同一術語在期刊雜志論文與圖書著作中的表達方式不同,但由于本次研究具備主題凝練性特征,術語的使用環境也較為相似,因此以詞匯的上下文信息判斷可以較好地解決該問題。二是通過關鍵詞詞向量聚類的計算獲取主題及主題向量表示。本次研究采取基于X―means的關鍵詞詞向量聚類,該算法是基于K―means算法的改進版本,其優勢在于運算之初無需制定聚類數量K,只需制定聚類數量K的取值范圍即可,如此一來,算法將通過計算在制定范圍內尋找最后聚類數量K,以實現優化下的關鍵詞詞向量聚類劃分。三是基于詞向量計算主題詞的語義相似度。語義相似度是由兩個實詞合集之間的余弦距離所決定。本次研究采用改良后的夾角余弦公式來計算主題詞C1與C2的語義相似度,假設C1主題下具有以下合集{W11,W12,… , W1m},而C2主題詞下的實詞合集為{W21,W22,…, W2n},且m>n。夾角余弦計算公式為:
公式5
最后,變分自編碼器運行。借鑒聶錦燃等人的研究,編碼器和生成器是變分自編碼器的主要組成部分,均采用循環神經網絡(Recurrent Neural Networks)結構。將門控循環單元(Gated recurrent unit,GRU)作為RNN的基本單元[26]。內容編碼器作為提取源端輸入文本的內容。內容的表征z,且將標簽向量L,作為線性變換的基礎,隨后使用RNN-GRU作為生成器,從而輸出數字人文研究的知識特征分類結果。
通過以上流程(見圖2),本研究得到了相關的研究結果。
3 研究結果
3.1 基于數字人文圖書著作的“數字人文知識生產”特征結果
將數字人文的圖書著作為文本,在使用python中的詞向量技術后,得出詞云圖(見圖3),可更加直觀地展示出圖書著作的主題強度。
在主題強度分析基礎上,研究結果展現出了相關主題詞及其詞頻。為使得結果更加清晰化,本研究摘取排名前十的主題詞及其詞頻以供展示(見表1)。
在本次研究中,以“數字人文知識生產”為主題的圖書著作中,“數字”一詞占據該表榜首,詞頻高達6288;緊隨其次的便是“人文”一詞,詞頻高達5714。由此可見,在圖書著作中大多數使用者對數字人文知識生產的重點感受為“數字”,而該詞的相關詞匯則是數字化、數字平臺等,這在一定程度上說明數字人文的屬性重在數字化。
3.2 基于期刊雜志論文的“數字人文”特征結果
本次以“數字人文”的相關期刊雜志文獻共計600篇,其詞云圖為圖4。
同樣,本研究依據主題強度分析,研究結果也展現了基于期刊雜志論文的數字人文知識生產主題詞及其詞頻。研究摘錄排名前十的主題詞及其詞頻以供展示(見表2)。
在本次研究中,期刊雜志論文中的“數字人文知識生產”主題詞及其詞頻與基于數字人文圖書著作的“數字人文知識生產”主題詞及其詞頻表在主題詞遴選上差異不大,僅為排名第八的主題詞有所差異,而前者有“分析”主題,后者有“進行”主題詞。這在一定程度上表現了期刊雜志論文的術語用詞與圖書著作的用詞存在一定差異,但其他主題詞變化不大,這在一定程度上反映了學者們的用詞慣習以及用語環境具有高度的凝聚性傾向。而在詞頻方面,單純從數字看二者差異不大,但細探之下二者具有相當差異:首先,從文本字數看,基于數字人文圖書著作的文本約29萬余字,而基于期刊論文的相關文本則約有4萬余字,兩者的主題詞及其詞頻在各自文本中所占據的比例具有相當差異。然而,盡管各自文本的字數差異如此之大,但在主題詞聚斂方面表現出了相當一致性,這在一定程度上說明數字人文知識生產的主題具有高度凝聚性以及強烈的趨同性特征。
3.3 基于word2vec技術的主題詞及其下屬實詞的關聯距離
本研究基于word2vec技術的文本挖掘,重點在于測算主題詞及其下屬實詞的關聯距離,該距離的測量能夠在一定程度上反映出主題詞對文本的概括性以及實詞集合挖掘的優良特征。
基于word2vec技術可以測算出主題詞及其下屬實詞的關聯距離,摘取排名前五關鍵詞及其合集內排名前三的實詞,見表3。
3.4 基于wordVAE的數字人文知識生產特征結果
研究根據wordVAE的模型結構框架,運算wordVAE方法,從而得到了近年來數字人文研究的知識生產矩陣,并使用譜聚類的方式對相關數據進行繪圖,在選取前排名前50的運算結果后,繪制圖5。
根據wordVAE的譜聚類結果圖可知,當前的數字人文研究主要形成了四個結構中心,分別是“數字人文研究”節點中心、“圖書館”節點中心、“人文研究”節點中心以及“數字化”節點研究中心。其中“數字人文研究”節點突顯出了人文思想挖掘、數字技術、人文建設、圖書館基礎、文本分析等知識生產特性;“圖書館”節點中心則含有人文反思、信息管理、具體知識、人文思想等知識生產特性;“人文研究”節點突顯出了古文分析、事件關系(抽?。?、文本共現等知識生產特性。
由此可見,數字人文相關研究所呈現出“人文”與“數字化”并存的局面,且相應的研究成果具有一定的交叉特性,這樣顯示出數字人文研究的知識生產特征具有典型的跨學科合作特點。相關分析見下節。
3.5 研究結論
基于自然語言處理的詞向量文本挖掘研究結束,通過主題詞挖掘及其頻次以及主題詞及其下屬實詞關聯距離等內容的研判,研究認為基于期刊論文的研究結果突顯出以下特征。
(1)數字人文知識生產結構化與邊界模糊化并存。以中文核心期刊為文本的結果突顯出相當的數字人文知識生產結構化與邊界模糊化,體現為重視數字人文知識生產的宏觀層面和微觀層面知識生產結構問題。就“數字人文知識生產”的宏觀層面而言,基于word2vec技術的主題詞挖掘表明:首先,數字人文知識生產結構化主要體現在“人文”“數字”“學科”“協作”“跨學科”等維度。這些具有強烈結構化的主題詞一方面顯示了數字人文知識生產具有相對的獨立結構化,另一方面又明確出數字人文的知識生產具有相對的關聯程度,這在一定程度上使得其具備知識生產結構化特征的同時又具有知識生產邊界模糊化。其次,數字人文知識生產邊界模糊化主要表征為在結構化基礎之上而呈現出的結構邊界模糊化。“跨學科”“協作”等主題詞的出現,表明數字人文知識生產在一定程度上突破了傳統的知識生產模式,達到既基于學科優勢,又融合了信息化技術的多體表征。最后,以數字人文的跨界知識生產而言,其與圖書館的知識生產模式在一定程度上具有一致性,圖書館一方面可支持數字人文的核心需要,另一方面也能從技術與數據庫方面給予數字人文發展支持??偠灾?,數字人文與圖書館的合作關系模型表明二者之間存在諸多共同點[27]。
(2)數字人文知識生產跨學科合作化。上段中論述了數字人文的跨學科屬性會導致一定程度上的數字人文知識生產邊界模糊化,在本段中講論了數字人文知識生產跨學科的合作化問題。首先,數字人文知識生產跨學科合作源于解決實際問題。隨著科技進步,當下的知識生產模式已然發生著深刻變革,數字人文作為新興崛起的知識生產中心,其顯著特征是“知識生產更多地源于實際問題,因而具有天然的跨學科屬性”[28]。源于現實需要進而引發的跨學科合作化現象在當下已是屢見不鮮,數字人文領域的跨學科合作研究已有眾包項目實戰案例,將其他學術群體引入數字人文研究中,不僅在知識生產上提供了學科協作化生產,也為數字人文領域研究與其他學科、公眾群體建立了緊密聯系[29]。這種融合大眾為學術研究工作的方式,用戶與數字人文機構的跨學科甚至是跨領域合作化知識生產機制將能夠營造出雙贏局面[30]。
(3)數字人文知識生產的凝聚性?;凇皵底秩宋闹R生產”為主題的數字人文圖書著作突顯出了明確的主題凝聚性。首先,數字人文知識生產的凝聚性體現在檢索方式的變化。數字人文的出現打破了以往學習時間、地點以及資源利用等固有方式,使得原本較為散亂的學習資料變得更為凝聚,通過相關的關鍵詞掃描以及數字化搜索便能夠提供所需要的關鍵信息,這無疑給予研究者們相當的方便性,提高了知識搜尋的精準度,從而為使用數字人文方法進行知識生產提供了保障。其次,數字人文知識生產的凝聚性還體現在數字人文方法改變了知識生產者的思維方式。信息搜集方式的轉變在無形之中影響了平臺使用的思考方式與路徑,從文本挖掘中的“技術”“信息”“分析”等主題詞可以明確出數字人文的出現改變了數據文本的加工方式,文本信息加工過程的革新使得原本基于人腦的加工思維變為以技術為中心的加工,這種改變能夠有效影響到知識生產者的思維[31],處理方式的變化在一定程度上更利于知識生產者專注某一知識點的鉆研。
(4)數字人文知識生產的視野廣闊性。數字人文的圖書著作突顯出了一定的視野廣闊性,可從其文本挖掘的主題詞“知識”“資源”“數據”“圖書館”等信息中推斷,數字人文能夠引發使用者對其評價為“知識”一類的宏觀詞匯,其下屬相近詞為“知識創造”“知識視野”“知識生產”等。下屬詞匯表明,數字人文的圖書著作在努力闡述出數字人文知識生產的廣闊性,它模糊了學科知識生產的相關邊界,進而將目光投向于更為宏大的維度,亦即說數字人文在引導相關使用者將目光投射得更遠、更為廣闊。數字人文知識生產的視野廣闊性是基于其數據資源足夠宏大的基礎以及推薦算法的優越性而得以完成。因而也可以說,數字人文知識生產的視野廣闊性是基于宏大數據資源上的優秀推薦算法而得以實現,數據資源的宏大以及推薦算法的優良將在一定程度上影響到數字人文知識生產的相關屬性。
4 結 語
本研究以“數字人文知識生產”為主題,通過建構起wordVAE數字人文知識生產特征研究方法,以既往關于數字人文期刊論文和著作為文本資料,回答了數字人文知識生產屬性的特征的問題,結果表明:首先,數字人文的知識生產屬性主要有知識生產結構化與邊界模糊化并存、跨學科合作化;其次,數字人文知識生產屬性主要有主題凝聚性、視野廣闊性。數字人文知識生產作為一種具有恒久活力的話題,尚需更多的實證研究去發掘它的優劣勢,從而為人類知識進步做出貢獻。
盡管本研究使用wordVAE方法作為數字人文知識生產特征研究方法,但其依舊存在一定的局限性:首先,對文本語料庫的預先分析尤其是個別停用詞匯的處理上,仍存在進一步提升的可能;其次,word2vec詞向量具備兩個文本處理模型,研究僅采用了連續的跳字模型,進而相關主題詞的挖掘與呈現可能與連續的詞袋模型所產生的主題詞存在一定差異;最后,數字人文知識生產屬性的結果是基于一定的思維推導而得以呈現,因此理論上存在因學者思維差異而概括出不同屬性特征的局限。
注 釋
[1]許鑫,陳路遙,楊佳穎.數字人文研究領域的知識網絡演化:基于題錄信息和引文上下文的關鍵詞共詞分析[J].情報學報,2019,38(3):322-334
[2]趙蓉英. 知識網絡及其應用[M]. 北京: 北京圖書館出版社,2007: 8-58
[3]舒剛.企業知識管理新熱點:知識網絡[J]:科技創業月刊,2008, 21(9): 14-15
[4]Sharda R, Frankwick G L, Turetken O. Group knowledge networks:A framework and an implementation[J]. Information SystemsFrontiers, 1999, 1(3): 221-239
[5]趙蓉英. 知識網絡研究(Ⅱ)——知識網絡的概念、內涵和特征[J]. 情報學報, 2007, 26(3): 470-476
[6]柯平, 宮平. 數字人文研究演化路徑與熱點領域分析[J]. 中國圖書館學報, 2016, 42(6): 13-30
[7]高瑾. 數字人文學科結構研究的回顧與探索[J]. 圖書館論壇, 2017, 37(1): 1-9
[8]朱娜. 數字人文的興起及圖書館的角色[J]. 圖書館, 2016(12): 17-22+48
[9]Fay E, Nyhan J. Webbs on the Web: libraries, digital humanities and collaboration[J]. Library review, 2015,64(1/2):118-134
[10]黃鈺新, 王遠智. 嵌入數字人文過程的圖書館科研數據服務研究[J]. 情報資料工作, 2017, 38(6): 84-89
[11]王新雨. 面向數字人文的圖書館知識服務模式研究[J]. 圖書館工作與研究, 2019, 1(8): 71-76
[12]張詩博. “數字人文” 背景下的圖書館知識服務[J]. 晉圖學刊, 2013 (5): 40-42+53
[13]周晨. 國際數字人文研究特征與知識結構[J]. 圖書館論壇, 2017, 37(4): 1-8
[14]周建新,譚富強.數字人文知識生產的屬性和分析框架:基于曼海姆知識社會學的考察[J].江海學刊,2020(5):130-135+255
[15]Hinton G E . Learning distributed representations of concepts.[C]// Eighth Conference of the CognitiveScience Society,1986:12
[16]BengioY,SchwenkH,Senecal J S,et al. Neural probabilistic language models[M]//Innovations in Machine Learning.Springer Berlin Heidelberg,2006:137-186
[17]Mathew J, RadhakrishnanD.An FIR digital filter using one-hot coded residue representation[C]// SignalProcessing Conference, 2000, European.IEEE, 2008:1-4
[18]MikolovT,ChenK,CorradoG,et al.Efficient Estimation of Word Representations in Vector Space[J].arXivpreprint arXiv:1301.3781,2013
[19]龔麗娟,王昊,張紫玄,等. Word2Vec對海關報關商品文本特征降維效果分析[J].數據分析與知識發現,2020(4)(Z1):89-100
[20]Zheng XQ, Chen HY, Xu TY. Deep learning for Chinese word segmentation and POS tagging[C]// Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, WA, USA. 2013: 647-657
[21]范并思. 推動社科情報的學科建設[J]. 情報資料工作, 2006(5): 12-14
[22]張聿忠. 走進新世紀的社科信息理論與實踐研究: 歷史的回眸與展望[J]. 情報資料工作, 2000(1):2-6
[23]劉佳琦,李陽.基于信息最大化變分自編碼器的孿生神經主題模型[J].計算機應用與軟件,2020,37(9):118-125
[24]郭奉琦,孟凡榮,王志曉.基于變分自編碼器的謠言立場分類算法[J].計算機工程,2022,48(2):99-105
[25]徐紅姣,曾文,張運良.基于Word2Vec的論文和專利主題關聯演化分析方法研究[J].情報雜志, 2018, 37(12): 36-42
[26]聶錦燃,魏蛟龍,唐祖平.基于變分自編碼器的無監督文本風格轉換[J].中文信息學報,2020,34(07):79-88
[27]Sula C A. Digital humanities and libraries: A conceptual model[J]. Journal of Library Administration, 2013, 53(1): 10-26
[28]陳洪捷.知識生產模式的轉變與博士質量的危機[J].高等教育研究,2010,31(1):57-63
[29]Terras M. Crowdsourcing in the Digital Humanities[M]// A New Companion to Digital Humanities.John Wiley & Sons, Ltd, 2015:420-438
[30]賀晨芝,張磊.圖書館數字人文眾包項目實踐[J].圖書館論壇,2020,40(5):3-9
[31]戎思淼.量子思維對大數據背景下信息決策新思路的啟示[J].科技進步與對策,2016,33(8):6-10
(收稿日期:2022-01-13)
[作者簡介] 林世華,深圳大學傳播學院2019級博士生;譚富強,深圳大學文化產業研究院2020級博士生。