嚴煒煒,溫 馨,曹燦瑜
隨著學科相互交叉與融合,如何實現自身學科研究的突破與創新,跟蹤學科的最新發展動向是科學研究的基礎工作[1],通過主題分析法可揭示研究中的主題結構及研究趨勢,幫助學者發現自身研究中的薄弱之處及改進措施。在科學研究中,從不同源的科技文獻中識別挖掘科研熱點,同樣對開展下一步的科研工作具有指導意義[2]。雖然當前科研主題挖掘主要采用傳統學術媒介作為數據來源,但隨著社交網絡及其應用工具以近乎零壁壘的信息發布與傳播方式傳遞著科學知識和信息[3],其權威性和真實性也得到圖情學者認同[4],基于學術社交網絡交互內容的主題挖掘正成為揭示學科用戶在線交流重點的新途徑。
區別于傳統學術交流媒介在科研成果收錄、在線交流效率等方面的局限性,學術社交網絡更加強調學科用戶在參與、分享、交流與協作的主觀能動性,其多樣化的信息共享方式以及便捷的交流途徑,使學術資源得以高效組織與利用,彌補了傳統學術媒介傳播渠道單一的缺陷。作為學術社交網絡重要平臺之一,Research Gate(RG)是面向科學家和研究人員的專業網絡,它將世界范圍內的研究人員及其推進科研工作所需的人員、研究和資源聯系起來,擁有超過1,700萬注冊會員以及1.35 億項科研成果[5]。Research Interest等指標利用學術社交網絡環境中多種原始計數指標(如瀏覽量、被引量等)進行特定的組合計量,能夠及時、直觀歸納和呈現科研成果在平臺內的網絡影響力表現。相關研究表明,RG逐漸受到圖情學科用戶的歡迎,主要利用其追蹤本學科領域內的學術信息和前沿熱點,對跨學科研究也有一定關注[6]。考慮到不同傳播媒介中用戶對于科研成果的關注點可能存在共通與相異之處,針對以RG為代表的學術社交網絡平臺指標篩選得到的圖情學科高網絡影響力成果進行主題分析,有助于圖情學科研究重點的直觀展現和補充揭示。因此,本文基于RG這一學術社交網絡典型平臺進行圖情學科成果的主題挖掘,引入時間維度揭示科研成果的主題強度演化,在與傳統學術渠道中的學術熱點的定性比較中,凸顯在線學術交流背景下圖情學科用戶開展專業知識交流的規律特點,以期指導學科用戶合理利用學術社交網絡,促進科研成果傳播與觀點交流的實際能力與效率;對學科發展而言,從學術社交網絡切入聚焦學科研究前沿重點,為學科前瞻布局優化和互動創新激勵的提供參考,亦有助于平臺開展質量建設,促進平臺有效利用與組織學術資源。
為跟蹤不同時期圖情學科發展狀況,學者圍繞科研成果開展主題探究。隨著新一代信息技術快速發展,iSchools聯盟院校圖情學科的研究呈現多領域交叉融合和向不同產業領域應用發展的態勢[7];大數據、人工智能、數據挖掘等成為2015年以來國際圖情學界關注的焦點[8]。美國研究主題集中于用戶信息行為研究和知識管理研究,信息系統的設計和績效評價、信息交流等是美國發文關注度較高的領域[9];亞非研究主題集中于信息檢索、信息需求、信息用戶等[10]。我國近年圖書情報領域呈現出圖書館學研究、信息情報研究、數字資源研究三足鼎立格局[11],與計算機科學領域的交流密切[12],研究主題共現網絡擴張較為明顯且聚焦于關鍵性問題[13],國際發文的研究領域具有明顯的跨學科性[14]。
當前應用于主題分析的常用方法主要有詞頻分析法、引文分析法、社會網絡分析法、文本挖掘方法等,其中詞頻分析法、引文分析法等基本信息單元是篇章,未涉及文本層面的內容和語義,而文本挖掘處理的基本信息單元是符號群,通過直接對文本內容分解來關注文本的內部特征,得到的知識更細微并能夠進行更深層次的研究[15]。隱含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)是文本挖掘領域的常用主題模型之一,包含詞項、主題和文檔三層結構,在此結構中假設詞是由主題概率分布混合產生,再假設文檔由潛在主題概率分布混合產生[16]。對某篇文檔,首先從該文檔的主題分布中抽取一個主題,再從該主題對應的詞項分布中抽取某個單詞,重復此步驟形成整篇文檔。在這一過程中形成2個相互獨立的矩陣,即文檔-主題矩陣和主題-詞項矩陣,前者為文檔中各個主題的概率分布,后者包含由這些主題產生的詞項概率分布。LDA模型也視為通過使用聯合概率分布計算給定觀測變量值下的隱含變量的條件分布[17]。給定參數α(潛在主題強弱的先驗參數)和β(所有潛在主題下特征詞概率分布的先驗參數),文檔中主題和特征詞的聯合后驗分布概率如公式(1)所示[18]:

其中,θ是文檔中的主題分布,z為主題,w為詞項,N指文檔的總詞數,zn為文檔中第n個詞項的主題,wn為文檔中的第n個詞項,因此LDA模型實質在于給定文檔各個詞項w的前提下,計算各個詞項的主題標識、文檔的主題分布及各個主題內的詞項概率分布的后驗概率分布。此外相比于NMF等模型,LDA能提供更廣泛主題的良好描述[19],提煉大規模語料庫中隱含的主題信息并展現其發展動態,在科研熱點識別[20]、核心研究主題演化路徑研究[21]、探測研究前沿[22]等方面也有諸多實踐應用和改良優化,面向學科成果文獻的主題揭示應用已經較為普遍。
盡管圖情學科的研究主題采用各種方法并結合實際數據集得到揭示和展現,但數據樣本大多是基于綜合型數據庫(如Web of Science核心合集數據庫),而針對在線學術交流下的實證研究尚顯缺乏,不同媒介下的研究熱點也缺乏比較分析。本文聚焦于學術社交網絡中高影響力科研成果文本內容的挖掘,采用LDA模型識別科研成果潛在的主題信息,進行主題強度演化分析,與傳統學術交流方式下的研究熱點進行定性比較,旨在提煉圖情學科用戶基于學術社交網絡交流的高影響力科研成果的主題偏好。

圖1 數據獲取與處理流程圖
圖情學科與其他學科的交叉融合形成以信息為中心并向跨學科方向發展的趨勢,對傳統的圖情學科提出挑戰,iSchools運動應運而生[23]。由于iSchools旨在形成一個大的信息學院聯盟體,用以拓寬圖書館學情報學等與信息相關學科的研究領域[24],致力于以信息、技術和人相互關系為中心的研究與實踐,成為近年國際圖情學科改革最顯著的舉動[25]。因此,為獲取國際范圍內圖情學科的高影響力科研成果樣本,選取全球頂尖信息科學學院聯盟iSchools層級最高的決策機構iCaucus,獲取其成員在RG中公開分享的高影響力科研成果作為研究數據,以此探究圖情學科高網絡影響力科研成果所展現的主題特性及演化情況。數據獲取與處理流程見圖1。由圖1 可見,數據的獲取主要是通過iSchools 官網中查詢得到39所iCaucus成員機構,再根據各iCaucus機構RG賬號URL獲取機構成員用戶RG 主頁中所有科研成果的公開信息,包括摘要、來源年份、類型以及Research Interest(RI)等字段。其中,RI專注于單個科研成果在學術社交網絡中在瀏覽、推薦、引用等方面的綜合表現,能夠度量同行對于該成果的關注、接受與應用的整體水平[26],反映出該成果的網絡影響力。由于文獻的摘要也是語料構建LDA文本語料庫比較理想的選擇,能夠廣泛、全面、準確、清晰地抽取學科研究主題[27],因此本文將摘要經處理后形成的語料庫應用于主題挖掘。數據采集時間為2019年9月20日-10月20日,剔除頁面失效等成員機構科研成果數據后,得到46,275條有效信息。
對數據的處理,二八定律能夠有效區分論文的學術價值且在不同學科領域中均保持相對穩定[28],因此本文將RI 排名前20%的科研成果視為高影響力樣本(RI≥13.6),然后保留擁有摘要的文章類型(包括article 和conference paper 兩類),刪除無年份信息、摘要為非英語以及摘要為空的成果數據,手動檢查摘要并剔除不相關的內容,共得到8,350條有效數據。經過小寫轉換、刪除標點符號和停用詞、詞形還原等預處理操作,最終形成語料庫以供后續模型訓練。
由于LDA模型可以很好地模擬大規模語料的語義信息的特點[29],本文運用LDA模型揭示圖情學科在網絡交流背景下的主題特征與演化規律,并與傳統學術渠道中的學術熱點進行定性比較。
利用LDA模型進行主題抽取時,首先需要確定主題數目。主題一致性(topic coherence)是通過衡量主題中高概率詞項間的語義相似度來評估模型效果,明顯優于目前提出的所有一致性的度量,故常作為主題數目確定的依據[30]。圖2分別計算各主題數目下模型的主題一致性,當主題數目為5時所對應的主題一致性(0.4365)最大,此時該模型的效果最優。

圖2 主題數與主題一致性的關系圖

表1 高影響力科研成果的主題分布
經LDA模型訓練后,將每篇成果依據文檔-主題概率分布取概率最高值歸類,即每篇成果只屬于占比最高的主題,統計得到各個主題下的成果數量及占比;然后根據主題-詞項概率分布選取與主題相關的前10個高概率詞項視為主題的含義代表,并結合對應的文檔內容進行主題標識,如表1所示。圖情學科在學術社交網絡中的高影響力成果呈現出主題多樣性,可劃分為健康信息學(Topic 1)、用戶信息行為(Topic 2)、算法技術(Topic 3)、應用開發(Topic 4)、通信網絡(Topic 5)。
(1)健康信息學(Topic 1)。隨著計算機技術發展,1950年代以來信息技術在醫學領域得到廣泛應用[31],呈現多學科融合特點。該主題內容大部分屬于生物信息領域的信息分析與處理,特別是基因組學、蛋白質組學、藥物設計等方向的研究,結合計算機科學與信息技術從海量數據中揭示生命科學規律,解決系統性的復雜問題。此外,部分有關醫學信息資源建設與信息系統設計、公眾健康數據分析等方面的科研成果在學術社交網絡中受到較高關注,可見學術社交網絡中的圖情學科用戶正在積極拓寬研究領域,關注信息技術為生物醫學領域帶來的理論影響與技術變革。
(2)用戶信息行為(Topic 2)。重點關注用戶信息行為,即圍繞以滿足用戶信息需求為目標的信息搜尋、瀏覽、使用、交流、共享等具體信息行為,尤其是聚焦網絡環境下研究人員、學生等用戶群體,結合元分析、共引分析等研究方法和技術手段進行信息行為探究,研究角度涉及概念理論探討、影響因素分析、行為類型挖掘等方面。
(3)算法技術(Topic 3)。Topic 3的內容與計算機科學相近,偏向于計算機理論(如數據結構和算法、計算理論、編程方法與語言)和應用技術(如計算機圖形學、科學計算、人工智能),特別是信息檢索、大數據管理、自然語言處理、信息可視化等方面成果多,既凸顯圖情與信息科學的學科交叉屬性,也說明圖情學者在吸收計算機科學領域前沿知識和技術的過程中亦服務于自身學科建設,促進學術創新與科研質量提升。
(4)應用開發(Topic 4)。先進實用的自動化工具有利于圖書情報工作的順利開展,Topic 4的內容與軟件工程學科相似,主要圍繞圖情學科的需求,設計和構造高效實用的各類應用程序,運行和維護這些信息系統所必需的相關文檔資料,保障和提升軟件性能和運行效率。與Topic 4相關的工具開發、模型優化方案、軟件技術文檔等內容在學術社交網絡中引起用戶關注和跟進。
(5)通信網絡(Topic 5)。不同形式、地域與載體的信息資源以數字方式存貯并經由通信網絡相互連接得以提供即時利用[32],針對通信網絡方面的研究同樣是圖情學者共享于學術社交網絡中的高影響力成果的關注重點之一。Topic 5的內容除了通信網絡結構理論與建設策略,還注重信息數據在交流與傳遞過程中的安全性、可靠性以及傳輸效率,探討其中涉及的信息安全與隱私問題,為圖情業務中的諸多挑戰提供解決方案。
綜合而言,Topic 3的文檔比例與主題強度均為最高,可見算法、模型、技術等學科普適性內容更大概率能在學術社交網絡中產生高影響力;與圖情學科研究內容更為相關的Topic 2和Topic4,其偏高的文檔比例與主題強度反映出該類學術成果同樣受到關注;歸屬于Topic 2的成果數量占比(32.635%)排名第二也顯示出信息行為主題是當前學者研究的重點領域,這也印證了圖情科學在解釋人類信息行為中占據主導地位[33]。此外相關跨學科研究內容(如Topic 1 和Topic 5)也在高網絡影響力科研成果中逐漸顯現,揭示了圖情學科鮮明的跨領域研究屬性。
為進一步探究高影響力科研成果不同時期的主題強度變化,根據文檔-主題概率分布矩陣可得到每一篇文檔從屬于不同主題的概率,依此計算某個時間窗口內的主題強度,可衡量這一時間窗口下該主題的受關注程度,如公式(2)所示:

其中,為文檔d中主題a所占的比例,Dt為該時間窗口t上的文檔集合,|Dt|表示文檔集合D中的文檔數量,由此計算得到在時間窗口t的文檔集合上a主題所占比例,即主題強度,其數值越大表明越有可能視為熱點主題。本文利用成果的來源年份信息離散到以年代劃分的6個時間窗口中,通過計算各個主題在不同時間窗口的主題強度值并繪制折線圖,即可分析各個主題在觀測時間內的相對熱度演化情況。如圖3所示,根據形態全局特征可劃分為趨勢平穩主題(Topic 1健康信息學),上升趨勢主題(Topic 2用戶信息行為、Topic 5通信網絡)和下降趨勢主題(Topic 3算法技術、Topic 4應用開發)。
由圖3可見,Topic 1的總體變化幅度較小,20世紀六七十年代呈下降趨勢,隨后稍有起伏;2010年后主題強度出現回升,但整體數值均維持在較低水平,可見該主題在學術社交網絡中受到的關注度較為有限。雖然此前研究中曾指出健康信息學不是北美LIS 學院最熱門的研究方向[34],但仍有圖情學者對此開展研究,并在學術社交網絡中取得不小的關注度,可見在目前信息環境不斷變化的背景下,以健康信息學為代表的交叉學科內容仍然是不可忽視的研究重點。
上升趨勢主題之一的Topic 2在1960-1969年間的主題強度值(0.0890)較小,在學術社交網絡中的影響力相對偏低,而在此后出現持續上升趨勢,特別是2010-2019年間上升為最熱門主題,針對用戶信息行為的研究越來越受到關注且迅速成為研究熱點。由于用戶的信息行為與環境緊密相連,特別是進入21 世紀以來,逐漸普及的互聯網與日益加深的用戶參與程度使得該方面的研究進入新時期[35]。相比于Topic 2,Topic 5同樣呈上升趨勢,這表明圖情學科針對通信網絡等方向的研究同樣具有高網絡影響力,但整體偏低的數值可能歸因于非純工科的學術背景,該類主題的熱度上升后勁不足。

圖3 高影響力科研成果的主題強度演化圖
Topic 3 和Topic 4 均呈現出下降趨勢。Topic 3在21世紀前明顯減少,其后基本穩定在0.3 左 右,除2010-2019 年 間的大部分時段中基本占據所有主題中的熱度最高值,盡管近年來算法技術主題的關注度有所降低,但仍然受到學術社交網絡用戶長期熱情關注。而Topic 4在1970-1979 年間上升到頂峰后出現緩慢下降,21世紀后迅速下降,可能是針對應用開發主題的研究日趨成熟,在學術社交網絡中的影響力有限。
傳統學術交流方式中的高影響力評判標準往往由其引用情況、刊載刊物等因素所決定;而學術社交網絡中的相關指標也能為科研成果的網絡影響力的評價提供了一個及時、全面的度量,兩者在本質上都是以各自媒介中的評價標準體系來對科研成果的影響力進行評價,對應得到的主題分析結論可視為圖情學科在兩種傳播媒介中的研究熱點,因此通過定性比較,可總結在學術社交網絡環境下當前學科集中討論的重點方向,實現圖情學科研究主題的相互補充和完整揭示。
從主題相似性看,有學者通過應用LDA模型分析1978-2014年圖情領域LISA數據庫中的科研成果主題,將19個主題歸納為數據處理、信息技術、圖書館和信息應用4個領域[36];國際三大頂級期刊中iSchools聯盟的研究涵蓋科學發展研究、生物信息學、用戶信息行為、信息經濟學、計算機技術、信息通信理論六大領域的內容[37];2005-2015年的五大研究熱點為信息資源管理、替代計量學、H指數、科學結構地圖和醫學信息技術[38]。上述從傳統學術媒介中得到的部分主題(如信息應用、計算機技術、信息通信理論、醫學信息技術、用戶信息行為)與本文的結論較為相近。從主題強度變化看,國際圖情領域在1965-1985年最顯著的變化在于對技術方法和LIS分析失去興趣[39],這與上文中算法技術的主題強度在前期的大幅下降趨勢相一致。2008-2012 年的研究熱點分別是計量、管理、技術、網絡、檢索、醫學衛生,研究前沿包括醫學信息學、引文分析、虛擬網絡社區、語義信息檢索等研究領域[40],前文中健康信息學主題強度近年也出現回升。相關研究顯現出近年該主題的相關研究較為豐富,其發展呈現出不斷深入、與時俱進的特點。在未來仍會結合新出現的信息技術和不斷的學科融合而出現新的變化[41],學術社交網絡其學科邊界模糊性的知識交流方式也將給健康信息學等交叉主題帶來新的發展契機和研究潛力。
對比圖情領域在學術社交網絡與期刊領域中的高影響力成果,主題內容相似性較高,部分期刊領域中的結論能對學術社交網絡得到的變化趨勢具有解釋性,可能原因在于多數RG用戶上傳期刊論文作為主要共享的學術資源。但由于期刊領域的研究一般通過選取圖情期刊及其成果來歸納當前學科特點,而未收錄該領域學者在其他學科期刊中的發文情況,因此學術社交網絡的高影響力科研成果的研究主題更凸顯其跨學科的一面,研究內容呈現出社會化、技術化與知識化的多元發展態勢。同時也發現結合當前技術熱點的研究更容易在學術社交網絡中引起關注,相關詞項反映出在研究方法的設計上具有前沿性、創新性和智能化,傳統的理論與技術正拓展原有領域的應用范圍,更加強調學科間的交流與融合。
本文聚焦于圖情學科,選取學術社交網絡中高影響力科研成果作為研究樣本,通過構建LDA模型深入挖掘摘要文本內容,結合來源年份信息分析各時期的主題演化情況,最后進行跨媒介定性比較,全方位展現在線學術交流背景下圖情學科的研究重點及其變化趨勢。研究發現,圖情學科的高影響力成果劃分為健康信息學、用戶信息行為、算法技術、應用開發、通信網絡5 個主題。從主題強度變化來看,用戶信息行為、通信網絡呈現上升趨勢,算法技術、應用開發整體出現下降,健康信息學表現平穩。計算機科學、圖書情報領域的科研成果更易受到密切關注,健康信息學等跨學科研究主題熱度相對有限。在跨媒介比較中,學術社交網絡與期刊領域得到的熱點主題雖具有一定的相似性,但學術社交網絡的情況更加表現出學科間的交叉與融合,研究方法設計上具有前沿性與智能化的成果受到學科用戶的重點關注。這顯現出學術社交網絡不僅僅只是期刊領域成果管理的新載體或共享途徑,更有助于其用戶在作者和讀者的雙重角色間不斷尋求科學研究的靈感與學科交叉的突破點。對于圖情學者而言,應積極通過學術社交網絡分享科研成果,增加與世界范圍內學術界同行尤其是跨學科領域學者的交流與學習,提升學術影響力。對于平臺而言,應加強學術資源建設與開發,結合當前學科的關注重點優化學術資源的推薦與分發,弱化信息繭房效應;開展主題交流活動等方式也可鼓勵用戶參與其中,加強不同地域、不同學科用戶間的學術交流。本文的不足之處在于內容挖掘僅涉及主題強度的演化,后續研究中可進一步探索熱點主題隨時間變化或遷移的潛在特性,并可針對平臺中新興主題進行識別分析。