摘要:分析我國學術出版領域研究現狀,為探索學術出版未來發展路徑提供借鑒參考。文章通過在中國知網獲取學術出版相關期刊文獻,采用BERTopic 主題建模方法,對學術出版領域1998—2024年CSSCI 期刊的發文趨勢、高產作者、作者合作情況,以及研究主題進行梳理總結。研究發現:學術出版領域的發文數量保持穩定增長態勢;高產作者較多,達到87 名,所屬機構較廣,包括但不限于高校學院、專業雜志社、研究所和研究院等;在合作模式方面,學術出版領域的作者傾向于通過團隊合作進行研究和發表論文,已形成較為穩定的社團關系;研究主要圍繞開放獲取與開放科學、學術出版倫理與版權保護、科技期刊評價與指標、人工智能與智慧出版、出版國際化、圖書館學術出版服務、學術期刊出版數字化轉型、數據出版等八個方面展開,人工智能與智慧出版成為學界關注的熱點話題。展望未來,智能體技術的引入將顯著提升學術出版流程效率,大語言模型則有望推動學術出版研究朝著跨學科方向深入發展。
關鍵詞:學術出版;科技出版;人工智能;智慧出版;研究綜述;BERTopic
DOI:10.19619/j.issn.1007-1938.2025.00.007
作者單位:上海理工大學出版學院
引文格式:李文科,鐘子琪,叢挺. 基于BERTopic模型的我國學術出版研究主題與趨勢展望[J]. 出版與印刷,2025(1):57-71.
一、引言
學術出版是以推進科研、探究學問、弘揚學術、傳播新知為根本宗旨,以學術著作、學術論文等為基本形式,以學術成果發布、展示、傳播以及交流為基本內容,遵守出版管理規定與學術規范,涵蓋社會科學與自然科學范疇的一種出版形態。[1] 作為科研成果傳播和知識生產的關鍵環節,學術出版在推動國家科技創新能力提升和增強國際競爭力方面發揮著至關重要的作用。它不僅是科研成果轉化為實際生產力的重要媒介,更是促進學術交流、推動科技進步的關鍵驅動力。黨的二十大報告指出,高質量發展是全面建設社會主義現代化國家的首要任務。在當前全球科技競爭日益激烈的背景下,高質量的學術出版對于提升國家的科研競爭力和創新能力具有深遠影響。
近二十年來,在多重因素作用下我國學術出版發展日新月異,以數字化轉型、集團化改革、國際化發展為主要方向的學術出版轉型持續推進,與此同時全球范圍內的開放科學運動促進了本土學術出版的開放化進程,而大數據、區塊鏈與人工智能技術的興起則對學術出版帶來顛覆性挑戰。作為學術出版實踐發展的理論支撐,學術出版研究本身亦呈現出高度多元復雜態勢,亟須通過系統地梳理以揭示其整體性脈絡,從而為探索學術出版未來發展路徑提供借鑒參考。
當前,在學術出版研究綜述領域,國內一些學者采用CiteSpace 計量統計軟件或其他量化分析方法對該領域的期刊文獻進行關鍵詞分析與主題聚類研究,張建中[2] 基于Webof Science 數據,通過關鍵詞共現和文獻共被引分析,揭示了國際學術出版近十年的研究熱點與趨勢,將研究主題歸納為掠奪性出版、替代計量學、開放獲取出版等六個方面;王維嘉等[3] 利用PQDT 數據庫和CNKI 學位論文平臺,對國內外學術出版領域的學位論文進行了主題和關鍵詞的定量比較分析,探討國內外學術出版發展差異,為國內學術出版發展提供了建議;叢挺等[4] 基于中國知網數據庫,采用共詞分析方法,梳理了國內學術出版領域十年來的主題演變。還有部分學者從定性角度對學術出版的發展脈絡進行了分析梳理 。[5?7] 然而,整體上現有學術出版研究呈現出碎片化特征,針對該領域系統綜述的研究相對匱乏,使得研究者往往陷于“樹木”而不見“森林”,難以全面把握學術出版的整體發展現狀。在方法應用層面,基于關鍵詞頻率統計的傳統綜述方法在進行文獻主題分析時,往往難以精確捕捉和表征研究內容中的細微且關鍵的語義細節。這些局限性使得我們難以深入理解學術出版研究的內在聯系和演進趨勢。
鑒于此,本研究選擇采用BERTopic 主題模型對國內學術出版領域的研究現狀、主題趨勢展開綜述。BERTopic 作為一種先進的深度學習模型,能夠更好地理解和處理文本的語義信息,從而克服傳統關鍵詞分析方法的局限性。通過深入主題語義關系層面進行綜述,可以更全面地揭示學術出版研究中主題結構和主題間的潛在關聯,整合分析當下學術出版領域的各類研究方向,為學術出版的未來發展提供參考和啟示。
二、研究設計
1. 研究思路
本研究的研究思路如圖1 所示。首先,通過在中國知網檢索相關論文導出其題錄信息做數據清洗,剔除無關信息后將論文的摘要數據作為文檔嵌入,向量嵌入模型選擇“gte-base-zh”,通過使用UMAP(uniformmanifold approximation and projection)降維以及HDBSCAN 聚類方法得到文檔的“主題—詞分布”結果,使用KeyBERTInspired 以及maximal marginal relevance(最大邊際相關性,英文縮寫MMR)作為主題微調模型。借助BERTopic 內置的動態主題建模(dynamic topicmodel,英文縮寫DTM)獲得主題演化趨勢結果。其次,使用Python 將導出的題錄信息中的作者列數據構建共現矩陣,將其導入Gephi可視化軟件中生成作者合作網絡。
2. 數據來源與數據處理
一般而言,學術出版是以遵守學術規范為前提,以傳播科學研究與學術成果為宗旨,以學術著作和學術論文為基本形式的一種出版活動。[8] 通常情況下,學術出版涵蓋了學術圖書出版和學術期刊出版。在預實驗階段發現,將“學術期刊”作為檢索關鍵詞會導致主題建模結果出現顯著的主題偏差和噪聲。而科技出版與學術出版兩個概念雖然同樣具有一定包含關系,但前者主要指向以科技期刊和科技圖書為主的出版,后者則泛指包含人文社科在內的出版活動,兩者檢索結果的重合度較低。基于此,本研究采用更為合理的檢索策略,將關鍵詞定位于學術出版本體及與其密切關聯的科技出版領域,并以中國知網期刊全文數據庫作為核心數據源進行實證研究。通過構建檢索策略:TS =(主題:學術出版)OR(主題:科技出版),同時限定文獻類型為期刊論文、期刊來源設定為《中文社會科學引文索引》(簡稱CSSCI),經查詢過濾,發現我國最早涉及學術出版的研究論文發表于1998 年,因此本研究以1998 年為檢索起始點,時間范圍設定為1998 年1 月至2024 年5 月,共篩選出期刊論文3243 篇。通過導出文獻的標題、作者、期刊名稱及被引次數等關鍵信息,人工排除重復條目,剔除非研究性內容(如通知、會議紀要等),并針對摘要進行數據清洗(移除版權聲明、圖書館情報類等無關信息) , 最終剩余有效文獻2164 篇。
3. 研究方法
本研究使用BERTopic 進行主題建模,BERTopic 是基于BERT(bidirectional" encoderrepresentations from transformers)詞向量的主題建模技術,它利用BERT 嵌入、統一面域逼近和UMAP 降維、HDBSCAN 聚類算法來創建密集的集群,輕松解釋主題并在主題中保留重要詞。[9]在傳統主題建模領域,潛在狄利克雷分配(latent dirichlet allocation,英文縮寫LDA)模型占據著核心地位。然而,LDA模型在處理文本數據時,往往將文本簡化為詞的無序集合,從而忽視了詞匯間的序列關系及其上下文信息,這種簡化在一定程度上限制了模型對文本深層語義的捕捉能力。隨著BERT詞向量技術的興起,其為文本分析領域帶來了新的視角。BERT 詞向量技術通過雙向transformer模型捕獲詞匯的上下文信息,從而為文本中的每個詞賦予更為豐富和精確的語義。BERTopic模型能夠直接利用BERT 詞向量進行文本表示,從而避免了傳統文本主題建模中去除停用詞這一煩瑣且必要的預處理步驟。這種方法不僅提高了模型對文本語義的理解精度,同時也顯著提升了主題建模的效率。鑒于BERTopic 在文本主題建模方面的這些優勢,本文將采用BERTopic 模型作為分析工具,對相關文獻進行深入分析。
三、研究現狀
1. 發文趨勢分析
圖2為1998—2024年學術出版領域CSSCI期刊發文量。根據其發文量數據,可將學術出版領域的發展趨勢劃分為三個顯著的階段。①初始發展階段(1998—2010年):在這一時期,學術出版領域的文獻發表數量相對較低,顯示出研究尚處于起步和發展的初期。②快速增長階段(2011—2019年):此階段的發文量呈現出逐年穩定增長的趨勢。從2011年的80篇逐漸上升至2019年的186篇,表明學術出版領域研究正在逐漸成熟,吸引了更多學者的參與。③振蕩調整階段(2020—2024 年):自2020年起,該領域的發文量呈現出波動調整的趨勢。盡管整體上發文量有所增長,但其間出現了明顯的數量下跌。推測這一現象可能與新冠疫情導致的實驗室和研究機構關閉或活動受限有關,這些因素可能引發研究進程的放緩,進而對學術論文的產出量造成一定影響。總體而言,學術出版領域文獻的數量呈現穩步增長態勢。
2. 高產作者分析
在所屬機構方面,國內學術出版領域的高產發文作者分布在不同的學術機構和研究單位,具有廣泛的代表性,包括長安大學人文學院、中華醫學會雜志社,以及武漢大學數字出版研究所和信息管理學院等。這些作者所屬的機構包括但不限于高校學院、專業雜志社、研究所和研究院等,涵蓋了從理論研究到實踐應用的多個層面。此外,部分作者來自同一機構,如中華醫學會雜志社的劉冰、沈錫賓和魏均民等,反映了該機構在學術出版領域的集中優勢和特色研究方向。從所屬機構的性質來看,這些作者大多有出版、信息管理、數字技術等相關的學科背景,這與他們的研究方向和成果產出緊密相關。
3. 作者合作分析
使用Python將題錄信息中的作者列導出為共現矩陣表,將共現矩陣表導入Gephi可視化軟件中,使用Fruchterman Reingold算法進行圖布局,運用濾波發現網絡分割社團,將作者共現合著網絡分割后得到101個社團。使用K-Core算法進行網絡過濾以呈現聯系度較高的社團,設置K 核數為2來選定網絡中所有節點度數至少為2 的最大子圖,生成圖3作者合作網絡關系圖。Gephi統計軟件顯示,此時導入的節點有333個(N=333),邊有336條(E=336)。各節點的平均度為2.024,表明每個節點平均與2 個其他節點相連;平均加權度為5.337,反映了節點之間連接的強度。網絡直徑為5,說明網絡中任意兩個節點之間的最長路徑為5 步; 網絡密度( density) 為0.006,表明網絡中的連接較為稀疏;模塊化為0.956,說明網絡中存在較為明顯的社區結構;平均聚類系數為0.757,表明節點之間具有較強的聚類傾向;平均路徑長度為1.579,說明節點之間的信息傳遞效率較高。然而,盡管網絡具有一定的聚類性和信息傳遞效率,其較低的密度和較小的平均度表明節點之間的連接較為有限,科研合作尚未形成廣泛且緊密的網絡結構。因此,可以認為該領域暫未形成高影響力的科研合作群體。但也從側面反映了作者間的合作網絡正在逐漸形成,還有待加強和完善。
圖中的節點大小代表某一作者的直接關聯節點數,而節點間的連線粗細則反映了作者間的合作頻次。在合作模式方面,學術出版領域的作者傾向于通過團隊合作進行研究和發表論文,形成了較為穩定的社團關系,例如,社團一:魏均民、劉紅霞、沈錫賓、王海娟、李鵬、趙巍等;社團二:路文如、程維紅、任勝利、嚴謹、王應寬、方梅;社團三:徐麗芳、叢挺、周伊、鄒青、羅婷、田崢崢等。
四、主題分析
1. 研究主題識別
本文采用BERTopic 進行主題建模,識別學術出版領域的研究主題與研究方向。具體參數設置如下:①文檔向量嵌入選擇“gtebase-zh”模型;②向量降維采取UMAP 算法,經筆者多次實驗,確定參數設置為最近鄰數(n_neighbors)為10,投影后的維數(n_components)為5,點之間的最小距離( min_dist)為0,空間距離計算方法(metrics)采用余弦相似度(cosine)。③聚類方法采取HDBSCAN 聚類,將nr_topics 設置為“auto”,由模型自主決定聚類數量。④主題表示模型,采取KeyBERTInspired與MMR相結合的表示方式,KeyBERT 是一個關鍵詞提取工具,它結合了BERT 模型和關鍵詞提取技術,KeyBERTInspired基于KeyBERT 并優化了推理速度。相比于C-TF-IDF 僅計算詞在整個文檔集合中出現的頻率來進行主題詞表示,KeyBERTInspired使用BERT 嵌入和簡單的余弦相似性來查找文檔中與文檔本身最相似的子短語,更深層次地理解了文本的語義結構,使得抽取出的關鍵詞更加精準和富有代表性。MMR 能夠在保持主題詞一致性的同時,揭示同一主題內部的多樣化表達,并有助于發掘更多潛在的主題詞,從而促進對跨領域研究內容的探索。通過調整MMR 中的diversity(多樣性)參數,可以控制主題詞的多樣性程度:當該參數值接近1 時,所生成的主題詞表現出更高的多樣性;而當其接近0 時,則主題詞更加集中于核心話題。基于此,為了確保在圍繞核心話題展開討論的同時,仍能獲得相對豐富的主題詞集合,本研究將MMR 的多樣性參數設定為0.3。這一設置旨在平衡主題聚焦性與主題詞的多樣性,以期達到更全面的研究視角。研究將主要依據KeyBERTInspired的主題詞,并結合MMR 主題詞的分析結果,通過人工概括與抽象過程,為每一個主題簇定義相應的主題標簽。人工概括并抽象出每一個主題簇對應的主題標簽。結果見表2。
表2 顯示,Topic 0涵蓋學術出版、數字化和增強出版,歸納為學術期刊數字化出版;Topic 1涉及科技期刊、科技圖書及出版社等,關注科技圖書出版創新;Topic 2聚焦開放科學,關鍵詞包括開放獲取和同行評議等;Topic 3關注高校圖書館的學術服務能力建設,涉及學術交流與知識服務模式等;Topic 4 圍繞人工智能與生成式人工智能在學術出版中的應用;Topic 5和Topic 6聚焦學術出版的國際化,探討中國國際學術話語體系及科技期刊的國際化與推廣;Topic 7討論學術期刊開放獲取模式,關鍵詞包括掠奪性期刊與開放存取等;Topic 8探討學術出版領域的倫理規范建設,涉及學術不端與倫理問題;Topic 9聚焦學術期刊數字化轉型,關鍵詞有優先與網絡首發等;Topic 10圍繞科技期刊的專題策劃出版;Topic 11 關注科技數據共享與出版管理,關鍵詞有數據共享與倉儲等;Topic 12聚焦科技期刊引用分析;Topic 13 關注科技期刊集團化運營管理;Topic 14討論學術出版項目資助管理,關鍵詞有基金與資助等;Topic 15關注高校學報數字化出版變革。
圖4為研究主題的層次聚類結構。層次聚類是一種無監督學習方法,通過遞歸地對數據點進行合并,將數據點分組為一系列嵌套簇。每個數據點最初被看作是一個單獨的簇,然后通過計算相似度或距離逐步合并成更大的簇。在圖4 中,橫軸表示不同簇之間的距離或不相似性程度,縱軸列出了各個數據點或簇。隨著向右移動,簇間的距離逐漸增加,表明它們之間的差異變大。在距離約0.8處形成最終的兩個主要類簇,第一個主類簇包含類目15至類目9(從上往下),顯示這些類目間具有較強的相似性;第二個主類簇包含類目12、10與14,這三個類目直到較高的距離值才與其他類簇合并,表明這些層次的類目與其他類目的差異性較大。
結合表2 的數據,從圖4 聚類結構的整體特征來看:①學術期刊_學術_學術出版(類目0)與科技_科技圖書_競爭力(類目1)作為傳統核心節點,與走出去_話語_中國(類目5)、人工智能_AI_ChatGPT(類目4)等新興主題形成了緊密的關聯集群。這種關聯模式反映了傳統出版范式向數字智能范式轉型的發展趨勢;②在開放獲取(類目2)領域,通過與圖書館服務(類目3)、數據出版(類目11)等主題的深度融合,形成開放數據驅動的出版服務創新生態;③圖書館學術出版服務(類目3)與開放科學實踐(類目2、類目7)、數據出版服務(類目11)等多個維度形成了緊密的聚類關聯,這種結構特征預示著機構知識服務正在經歷從傳統資源管理向創新服務轉型的范式轉換;④出版倫理與版權保護(類目8)和數字化轉型(類目9)之間形成的顯著關聯,凸顯了區塊鏈、智能合約等新興技術的引入,正在重構學術出版的倫理治理體系;⑤在科技期刊評價與指標體系方面,聚類分析顯示科技期刊(類目10)與指標評價(類目12)形成了相互支撐的關聯結構。這一關聯特征在一定程度上反映了當前學術評價體系的演進趨勢,即評價方式正從傳統的單一引文計量,逐步向多源數據融合的綜合評價模式轉變。
綜上所述,為了清晰劃分學術出版領域當前的主要研究問題,我們對原始的主題簇進行刪除與合并,主題2與主題7都聚焦于開放獲取與開放科學的討論,因此可以歸為一類主題;主題10、主題12大多在探討科技期刊的相關話題,因此可以進行主題合并;主題5、主題6 聚焦于出版國際化相關的討論,可以歸為一類主題;主題0、主題9分別圍繞學術出版核心議題及期刊數字化轉型等內容,可以合并為一類主題。參照以上數據,經過人工去除無關主題以及合并集群數量較少及相似主題,如主題13、主題14、主題15 呈現出相對較低的聚類密度,其討論內容與學術研究領域的相關性較弱,故予以剔除;主題1包含科技圖書等相關詞匯,經數據檢查發現實際有效文獻數較少,大部分文獻為述評類文章,因此不納入最終主題匯總。最后,我們把我國學術出版領域1998—2024 年發表的論文劃分為“開放獲取與開放科學”“學術出版倫理與版權保護”“科技期刊評價與指標”等八個研究方向,具體如表3所示。
2. 研究趨勢
使用BERTopic內置的動態主題建模進行演化趨勢圖的繪制,經筆者多次調試,設置參數nr_bins=20,evolution_tuning=False,global_tuning=False能確保主題詞更準確地反映階段性的主題演化。結果如圖5所示:呈現了八個主題隨時間的發文頻次變化,這些變化能夠反映各主題隨時間的演化過程,T-7作為學術出版領域的核心討論話題發文量較多,因此對坐標軸比例進行適當調整以方便研究者準確把握該領域的發展動態與演變規律。從整體的發文趨勢而言,學術出版領域各個主題在近些年基本呈現穩步增長的態勢。
基于前述所劃分的時間段進行深入分析,可以觀察到1998—2010年,T-1(開放獲取與開放科學)、T-3(科技期刊評價與指標)、T-7(學術期刊出版數字化轉型)這三個領域率先起步,并在該時期末尾呈現出顯著的文獻發表高峰。與此同時,T-2(學術出版倫理與版權保護)和T-5(出版國際化)相關主題雖已嶄露頭角,但未深入探討。2011—2019年,T-2(學術出版倫理與版權保護)、T-6(圖書館學術出版服務)及T-8(數據出版)領域的論文發表數量顯著增多。2020年后,T-4(人工智能與智慧出版)和T-5(出版國際化)領域的文獻發表量呈明顯上升趨勢,進一步反映了學術界對這些新興領域的關注度不斷提高。綜合來看,學術出版領域相關研究主題的熱度仍然保持上升態勢,尤其是在全球開放獲取運動和人工智能技術迅速發展的背景下,相關研究的廣度與深度均得到了顯著拓展。
以下是對八大主題的具體分析。
(1)開放獲取與開放科學
開放科學運動的核心是開放獲取,開放獲取模式允許學術成果免費在線訪問。中國的制度優勢和龐大的科研產出為開放科學的發展提供了強有力的條件,這使得中國在開放科學領域已經初具規模。[11] 但在學術出版方面,中國學術期刊在開放科學實踐中存在一些問題,例如多元出版格局尚未建立、重傳播渠道建設輕知識內容服務、開放同行評議任重道遠等。
(2)學術出版倫理與版權保護
近年來,學術不端行為如重復發表、抄襲剽竊和一稿多投等問題依然存在,并且對學術期刊的可持續發展構成了威脅。[12] 為了應對這一問題,許多學術期刊制定了嚴格的出版倫理規范,要求作者、審稿人和編輯在出版過程中遵循道德規范和行為準則,以防范和預警學術不端行為的發生。[13] 在版權保護方面,隨著開放獲取出版模式的興起,學術期刊面臨著如何平衡版權保護與知識傳播的挑戰。開放獲取期刊的著作權協議存在諸多問題,如未明確著作權轉讓范圍、協議生效和失效方式不合理等。因此,完善著作權協議,避免可能存在的糾紛成為當務之急。[14]此外,新興技術如區塊鏈在版權保護中的應用也作為解決數字版權保護失衡的一種可能方案被提出。通過增強學術出版相關主體的版權意識,推進區塊鏈技術的落地及版權保護標準的統一,可以有效應對數字化轉型帶來的版權挑戰。[15]141
(3)科技期刊評價與指標
當前的科技期刊評價體系主要由數據庫主導,但這種體系存在不足,如量化指標被過度推崇和人為操縱,以及中外科技期刊未被同質等效使用。[16] 一些期刊通過過度自引或人為操控載文量來提高其影響因子,從而在評價體系中獲得更高的排名。這種行為不僅扭曲了學術評價的公平性,還可能誤導學術界對某些研究成果的重視程度。[17] 隨著開放科學的深入發展,科技期刊的評價指標體系將更加注重學術出版過程的開放性、透明性和可復現性。例如,在同行評議過程中公開審稿內容和作者與審稿人之間的直接交流,將有助于減少偏倚并提高評審質量。[18] 同時,完善開放科學基礎設施和重構科研資助模式也將為科技期刊提供更好的支持。[19]
(4)人工智能與智慧出版
人工智能對學術出版的影響重點聚焦于生成式人工智能。一方面,基于強大的自然語言處理模型,生成式人工智能在學術出版的諸多環節可進行場景式優化。例如,《新醫學》應用生成式人工智能的海量數據收集與分析能力,輔助選題策劃,提高了選題的科學性和前瞻性。[20] 另一方面,人工智能學術倫理也成為學者們研究的熱點話題,從開始的理性討論,到現在的規范性使用,學術出版界對AI 工具的使用態度和政策也在不斷演變。相關學者就AIGC 在學術出版中的信任機制建構問題,提出AIGC 技術介入下的學術出版信任建設需要技術信任、人際信任和制度信任三維協同以“責任鏈”范式調動技術研發者、科研人員、出版機構、行業協會、政府機構等主體共同參與。[21] 一些期刊已經開始制定關于AI 使用的規范政策,以確保學術誠信和原創性。這些政策通常涉及對AI 工具本身的界定、作者身份的限定、使用方式、版權處理以及編輯和同行評議的使用規定。[22]英國醫學雜志(British Medical Journal,英文縮寫BMJ)出版集團就生成式人工智能用于學術出版物的立場謹慎而明確,要求在作者貢獻聲明中披露AI 技術的名稱、使用原因、完成任務,在補充材料中說明原始輸入提示和輸出內容。[23] 換言之,作者不僅需要明確披露AI 工具的使用情況,更需提供令人信服的理由,以證明在特定研究背景下,AI 的應用確有必要且恰當,預示著學術出版界正朝著建立AI 工具使用倫理規范和最佳實踐的方向邁進,力求在創新與嚴謹之間取得平衡。
(5)出版國際化
出版國際化指中國學術出版“走出去”以及國際話語權體系的建立。學術出版“走出去”是提升國家學術話語權的重要手段,也是推動中國文化軟實力和國際影響力的關鍵途徑。然而,中國學術出版在國際化進程中還存在一些短板。在國際話語權的競爭中,西方國家已基本占據壟斷地位,因此中國需要打造具有國際話語權和競爭力的學術期刊,積極參與國際話語權的競爭。可以通過多語種翻譯、資源二次開發等方式,提高海外影響力,講好中國故事。[24] 例如,中國人民大學出版社積極推動學術出版業“走出去”,在羅馬尼亞和蒙古國開設了學術出版合作中心和圖書翻譯出版中心。[25] 還可以通過與國外大學簽署版權轉讓協議,實現校際學術成果的傳播,并利用國際出版商的平臺和渠道,策劃出版高水準的學術品牌系列叢書。
(6)圖書館學術出版服務
圖書館學術出版服務在數字化轉型中也面臨著智能化技術的應用以及服務質量與用戶體驗等新的挑戰。對于圖書館而言,開放獲取對其學術出版服務產生了深遠影響。高校圖書館需要調整業務和服務功能布局,以適應開放獲取出版及轉換的需求,并探索適合本國國情的開放獲取出版模式。[26] 同時,高校圖書館還應積極關注智慧圖書館的建設,通過優化用戶體驗場景,提高智慧信息服務和系統服務的質量,增強用戶對智慧圖書館服務的積極態度。[27] 例如,上海交通大學圖書館將傳統印本文獻、口述歷史資料、網絡原創作品,乃至微信、微博、抖音等社交媒體信息,納入知識倉儲范疇,通過智能挖掘和語義關聯,形成智慧化知識圖譜,支持用戶基于問題場景便捷獲取高質量知識資源,進行深度學習與創造。
(7)學術期刊出版數字化轉型
學術期刊出版的數字化轉型正在經歷深刻的變革,這一過程受到多種因素的影響和推動。首先,數字技術如人工智能、互聯網、大數據、物聯網和云計算等,正在重塑期刊出版的全產業鏈條,提高出版效率和傳播范圍,解決傳統出版模式中存在的效率低和實時性差等問題。其次,智慧出版作為一種新興的出版模式,通過新媒體平臺傳播學術內容,探索新的出版路徑,為學術期刊提供了新的發展機遇。與此同時,學術期刊在數字化轉型過程中也面臨諸多問題與挑戰,例如,數字化期刊產品與服務的可持續運營問題尚未得到充分解決。[28] 數字版權保護在學術期刊中也存在失衡問題,需要通過增強版權意識和推進區塊鏈技術的應用來加以應對。[15]144學術期刊應加強內容質量監控,拓展品牌價值,激勵編輯多元化轉型,并積極借鑒國際經驗,以實現高質量發展。例如,英國老牌出版商愛墨瑞德(Emerald)通過構建豐富的期刊矩陣和知識服務體系,順應開放獲取出版潮流,積極開發數字服務產品,成功實現了轉型和融合發展。[29]
(8)數據出版
數據出版相關話題伴隨高質量發展、新質生產力等關鍵詞成為近些年研究的熱點話題。數據出版是使科學數據獲得“可溯源”“可引用”“質量審查”“承認作者貢獻”“長期保存”等特征的出版活動。[30] 數據要素在出版業中逐漸成為關鍵的生產要素,具有低成本、易獲取、用途廣泛等特點,并具備虛擬性、非競爭性、部分排他性、規模報酬遞增及智能即時性特征。這些特性使得數據要素在出版業中具有重要的應用價值,能夠推動出版新業態的創新和發展。[31] 同時,數據資產化成為出版業高質量發展的關鍵手段,可以通過數據驅動重構出版活動各個環節。例如,人民交通出版社等機構通過接入百度的文心一言,試圖打造“出版+人工智能”的全系產品與服務。因此,數據要素在推動出版業轉型升級、實現高質量發展方面展現出巨大潛力,其與智能技術等新質生產力的融合發展值得持續關注和深入研究,以期構建更加繁榮、高效、創新驅動的出版生態。
五、結論和展望
1. 研究結論
本文通過使用計量統計分析以及主題建模的方法,揭示了國內學術出版領域的發展態勢和研究熱點。經過研究,可以得出以下結論。
一是從整體發文量來看,學術出版領域的文獻數量呈現持續增長態勢,除了個別年份有所降低,總體發文量持續增加。初始發展階段(1998—2010年):研究文獻數量較少,增長緩慢,話題較為單一,主要聚焦于開放獲取運動;快速增長階段(2011—2019年):數字化平臺發展所帶來的新的出版、管理和盈利模式,為學術出版領域的研究注入了新的血液,研究主題呈現多元化和深度化的特征,學術出版研究進入快速增長階段;振蕩調整階段(2020—2024年):發文量有較小波動,但整體保持穩定,除了持續聚焦開放科學運動等,人工智能、數智化出版發展等相關研究主題開始涌現。
二是從研究熱點看,近年來,學術出版領域呈現出一系列高頻關鍵詞,其中包括人工智能、ChatGPT、智慧出版、數據出版以及出版融合等。這些關鍵詞的頻繁出現不僅反映了學術出版領域的研究熱點,更凸顯了科技創新在推動學術出版高質量發展中的核心作用。作為知識傳播和學術交流的重要載體,學術出版正經歷著由數字化轉型到數據智能深度賦能的變革過程。特別是2023年以來,生成式人工智能的迅猛發展與高質量發展內在要求的政策推動,顯著擴展了學術出版領域的研究范疇,簡而言之,這些研究熱點反映了學術出版領域正處于技術創新與傳統價值重塑的交匯點,預示著該領域未來發展將更加注重科技創新與優質出版能力的融合。
2. 研究展望
縱觀全局,我國學術出版領域的研究正處于蓬勃發展階段,不斷涌現出新的研究主題和創新性內容,在理論建構的同時也更加注重實踐經驗的總結。與此同時,科技的飛速進步,特別是人工智能技術的突破性發展,正在深刻改變學術內容的生產、傳播和消費模式。面對這些機遇與挑戰,學術界需要持續拓寬研究視野,完善理論體系,探索創新模式。故此,筆者認為,關于學術出版領域的未來研究,應當在出版數據內容挖掘與研究方法創新層面進行深度思考。
在出版數據內容挖掘層面,隨著智能科技的發展,新的智能體不斷涌入學術出版生產,為學術出版研究領域注入了新的活力,其通過自動化和智能化處理,大幅提高了文獻檢索、數據分析、文本生成等環節的效率,從而優化了整個學術出版流程。然而,智能體的參與也帶來了前所未有的倫理挑戰,我們需要審慎考慮其在學術創作中的角色定位、著作權歸屬、學術倫理等問題。此外,如何確保智能體生成的內容符合學術標準,如何平衡人機協作,等等,都是亟待解決的難題。
在研究方法創新層面,現有研究主要采用案例分析或文獻調研的方式展開對學術出版領域的相關研究。大語言模型(large languagemodel,英文縮寫LLM)作為典型的新質生產力,具備跨領域知識整合的能力,可以幫助研究者發現不同學科間的潛在聯系,促進學術出版研究的跨學科創新,推動知識服務模式創新。可以借助LLM 優化現有領域研究,例如科技期刊的評價指標與影響因素分析,開放科學領域的政策文本分析,以輔助優化傳統的量化分析方法和文本分析方法,加速科學知識的發現。
盡管本研究嘗試引入基于BERTopic主題建模的文獻分析方法,但在研究主題詞上限定于“學術出版”或“科技出版”,對“學術期刊”或“科技期刊”這一關聯主題文獻或存在一定缺漏,且針對相關細分主題的分析有待深化。未來隨著學術出版實踐領域的不斷發展,需要持續地跟蹤和分析學術出版新興主題和研究動態。