孫盟盟 奚洋洋



★基金項目:本文系河北省社會科學發展研究課題“數字人文視域下高校圖書館特藏資源建設與服務策略研究”(20230303047)的研究成果。
摘要:以WOS核心合集與CNKI數據庫作為數據來源,運用文獻計量和內容分析方法,借助Citespace、VOSviewer對國內外關于科技文獻的知識挖掘研究情況進行系統梳理。通過對發文趨勢、作者共現、機構共現和關鍵詞共現進行分析,揭示該領域的熱點主題與發展趨勢。研究發現關于科技文獻知識挖掘的熱點主題集中于面向科技創新的知識挖掘、知識產權與主題演化分析、細粒度知識抽取及知識關聯挖掘等方面。提出未來需要探索多樣化的知識挖掘方法,以更好地開發科技文獻價值的相關建議。
關鍵詞:科技文獻;知識挖掘;主題演化;文獻計量
中圖分類號:G353.1??? 文獻標識碼:A
DOI:10.13897/j.cnki.hbkjty.2023.0078
隨著科學技術的迅猛發展,知識更新迭代的周期不斷縮短。科技文獻作為科學技術研究活動的成果記錄,每年的總體產出持續增長。據中國科學技術信息研究所發布的《2022年中國科技論文統計報告》顯示,我國在國際頂尖期刊中的論文數量繼續保持在世界第二位[1]。與此同時,根據WIPO公布的數據,我國專利申請量已連續多年位居世界第一。科技文獻作為表達科學機理、闡述研究思路以及展示科技成果的重要載體,其中蘊含了豐富的知識,是科技創新活動中最重要的資源。因此,近年來諸多研究開始探索如何采用大數據技術深入挖掘、集成和利用海量的科技文獻資源,促進知識發現、知識增值。而知識挖掘主要采用知識抽取、知識識別、知識發現、分類、聚類等技術方法,從龐大數據資源中自動發現隱藏的知識和信息,曾廣泛應用于智能搜索、深度問答、社交網絡以及一些垂直行業。在此背景下,本文擬對國內外關于科技文獻資源的知識挖掘理論、方法、技術等相關研究進行進一步梳理和總結,以期為后續研究提供參考和借鑒。
1? 數據來源與研究方法
本研究選擇Web of Science核心合集數據庫作為外文文獻數據來源,從中國知網平臺獲取中文文獻。直接以“科技文獻知識挖掘”為主題進行檢索,返回的結果較少,需要調整檢索策略進行擴檢。考慮到科技文獻的類型主要為科技論文、專利、科技報告,因此構造中文檢索式為:((主題=科技文獻) OR (主題=科技論文) OR (主題=專利) OR (主題=科技報告) ) AND ((主題=挖掘) OR (主題=識別) OR (主題=抽取) OR (主題=發現) OR (主題=分類) OR (主題=聚類)) AND (主題=知識),限定文獻類型為期刊論文。外文檢索式為(TS=(scientific paper) OR TS=(patent) OR TS=(scientific Report)) AND (TS=(mining)OR TS=(identify)OR TS=(extract)OR TS=(classify) OR TS=(cluster)) AND (TS=(knowledge)),限定文獻類型為Article,時間范圍不做設定,檢索時間為2023年5月31日。根據上述檢索策略,清除會議報道、資訊簡介、書評等,共獲得中文文獻1 121篇,外文文獻9 160篇。
在研究方法上,本文采用文獻計量和圖譜可視化的方式對國內外關于科技文獻知識挖掘的相關論文進行分析。其中,針對發文趨勢、作者共現、機構共現的分析通過Citespace進行梳理;在分析熱點研究主題及應用時,借助VOSviewer可視化工具進行,對數據進行布局,調整標簽、節點,最后根據圖譜總結歸納相關主題。
2? 國內外發文趨勢分析
2.1? 年度發文量分析
發文量的年度變化趨勢是衡量某一研究領域發展態勢的關鍵指標[2]。關于科技文獻知識挖掘研究的國內外論文發文時間如圖1所示,從圖1可看出國際上的相關研究最早可追溯到1994年前后,國內大概始于2000年。早期研究主要以科技文獻資源的發現為主,國內外年度產出整體呈穩定增長態勢。2006年,我國召開全國科學技術大會,相關研究逐漸增多。從國際整體發文趨勢來看,2016年成為文獻激增的拐點,大數據、人工智能技術的飛速發展,為科技文獻的知識挖掘提供了方法和技術支撐。2023年文獻量因未完整統計不作參考。可以預見,知識挖掘在未來很長一段時間內都會是知識組織、知識服務等領域的研究重點。
2.2? 研究作者及主要發文機構分析
2.2.1? 研究作者及共現分析
普賴斯定律[2]可預測研究主題的核心作者群體,公式為:m≈0.749(Nmax )1/2,發文數超過m的作者即為核心作者,Nmax是最高產作者的發文數。根據檢索數據,國內發表文獻量排名前十的作者見表1,其中,黃魯成、蔡虹、許海云均發文11篇,計算可知滿足發文量超過 3 篇的核心作者共59位,累計發文194篇,約占全部發文的17.3%;國外發表文獻量排名前十的作者見表2,其中,Yoon Janghyeok發文18篇,計算可知滿足發文量超過4篇的核心作者共482位,累計發文1 958篇,約占全部發文的21.4%。總體來看,國內外均未形成核心作者群體。
基于中國知網文獻數據,使用Citespace設定時間節點為“2000年1月至2023年5月”,時間切片為“1年”,節點類型選擇“author”,生成國內20多年科技文獻知識挖掘研究領域的作者合作網絡圖譜(圖2):節點數量N=198,連線數E=77,網絡密度D=0.0039,可見該研究領域的作者合作較少且分散;外文文獻數據分析保持其他參數及默認值不變,設定時間節點為“1994年1月至2023年5月”,生成國外近30年相關研究領域的作者合作網絡圖譜(圖3):節點數量N=272,連線數E=387,網絡密度D=0.0105,該研究領域的國際學者已形成一定合作團隊,但仍有一部分研究者是獨立發表。
2.2.2? 發文機構及共現分析
從發文機構的文獻數量來看,國內發文量排在前五位的機構分別是中國科學院大學(43篇)、中國科學技術信息研究所(38篇)、大連理工大學(36篇)、北京工業大學(29篇)和中國科學院文獻情報中心(25篇),基本集中于北京地區;國外發文量排在前五位的機構分別為加州大學(197篇)、法國研究型大學聯盟(173篇)、倫敦大學(159篇)、法國國家科學研究中心(131篇)、哈佛大學(109篇),基本為歐美大學。
對科技文獻知識挖掘研究進行機構共現網絡分析,保持其他參數不變,節點類型選擇“Institution”,國內作者合作網絡圖譜如圖4所示(閾值設定為5),國外作者合作網絡圖譜如圖5所示(閾值設定為50)。從圖4可知,國內發文機構仍以獨立發文居多,機構合作以中國科學技術信息研究所、中國科學院文獻情報中心為中心的合作網絡較為凸顯,區域內合作僅凸顯出武漢地區的小范圍合作網絡;從圖5中可看出,國外發文機構間的合作較為普遍,以加州大學、倫敦大學、哈佛大學等形成的合作集群較為突出,形成了一定的研究合力。加州大學是多個研究機構的連接紐帶。
3? 科技文獻知識挖掘研究主題分析
研究借助VOSviewer工具對論文關鍵詞進行分析,構建文獻共詞網絡,洞悉該領域的熱點主題以及各主題之間的關系。具體實現過程為:中文分析所有文獻;外文因數量較多,僅選取SSCI和SCI來源期刊的論文作為樣本數據。關鍵詞頻次設定為5,生成中文論文關鍵詞共現圖譜(圖6)和外文論文關鍵詞共現圖譜(圖7)。其中,元素的顏色代表所屬聚類,可看出國內關于科技文獻知識挖掘研究的共同關注點集中于知識產權、專利、知識圖譜、科技文獻、數據挖掘、專利信息等;國外關注點集中于創新、專利、文獻計量學、系統評價、文本分析、氣候變化、藥用植物等。國內外共同點在于:研究對象集中于知識產權、專利和科技論文,研究主題主要涉及科技文獻的技術創新、知識抽取、知識關聯、知識發現、分類與聚類、主題分析與演化等,采用方法主要包括文獻計量分析、機器學習、深度學習、內容分析、社會網絡分析等。同時,可以看出國際上對科技文獻的知識挖掘已逐漸深入到細分學科領域,如醫學、生態學、藥理學等。
根據圖譜揭示的研究概況,并對樣本文獻進行內容分析,可發現國內外相關研究主題主要集中于科技創新的知識挖掘、知識產權與主題演化分析、基于機器學習的細粒度知識抽取、知識關聯挖掘與知識網絡構建、科技文獻的分類與聚類五個方面。
3.1? 面向科技創新的知識挖掘
從圖6、7可看出,相關研究中“創新”這一關鍵詞出現頻率較高。從根本上而言,科學研究及對科研成果的知識挖掘都是為了促進科技創新。因此,國內外學者開展了較多支持科技創新的知識挖掘研究,具體包括對科技文獻中創新點的挖掘、技術創新識別、基于內容的創新性測度等。針對創新點的挖掘,張楠等
[3]以石墨烯領域的論文和專利為研究樣本,采用LDA2Vec主題模型和Kmeans聚類算法進行了硬科技創新候選技術主題挖掘。R.K.Amplayo等[4]以arXiv中一定時間范圍內的科技論文作為數據集,構建了基于作者、關鍵詞、主題詞等實體的引用圖譜,當新的論文被添加時,圖譜的變化會體現出該論文的創新點,將其輸入自動編碼器神經網絡中能實現創新檢測。針對創新技術的識別,周瀟等[5]以語音識別領域的專利文本數據為例,通過Word2Vec構建領域技術主題的詞向量語義網絡,并利用CFDP算法識別出潛在創新要素及組合方式。王金鳳等[6]構建基于文本挖掘、機器學習算法及多維空間專利地圖的技術創新路徑識別模型。針對基于內容的創新性測度,S.Shibayama等
[7-8]依據論文所引參考文獻的篇名之間的語義距離、S.Uddin等綜合關鍵詞數量、長度以及新詞比例等指標測度科技文獻的創新性。
3.2? 知識產權與主題演化分析
專利是科技文獻中應用性極強的一部分,如何有效開展專利挖掘、執行專利布局是知識產權戰略的重要一環。在專利挖掘領域,關鍵技術與主題演化分析作為科技文獻知識挖掘的一個重要研究方向,能夠幫助企業更好地開展專利布局,抓住市場機會[9]。因此,國內外學者在該方面做出了諸多探索。如,A.Momeni[10]提出了一種基于專利發展路徑、k-core分析的主題建模方法,以識別光伏產業中有潛力產生決定性影響的技術。許學國等[11]基于機器學習和經驗模態分解方法,識別出了新能源汽車領域的20項核心技術。近年來,深度學習技術為科技文獻知識挖掘提供了更加智能的手段,楊辰等[12]利用Doc2vec模型結合基于密度的離群值檢測算法、黃魯成等[13]利用TF-IDF及ABOD異常點檢測方法識別出了具有潛在技術機會的異常專利。除了專利以外,同樣也有基于科技論文數據進行關鍵技術識別的研究[14-15]。同時,也有學者將多種方法結合起來用于技術主題的演化分析,如綜合使用主題建模與社會網絡分析法識別基因編輯的核心主題、突出主題和新興主題,并預測基因編輯技術的未來發展趨勢[16];或通過Leiden算法識別技術主題,采用專利引文網絡分析發現決定性技術的主題演化趨勢[17]。
3.3? 基于機器學習的細粒度知識抽取
隨著自然語言處理技術的發展,對科技文獻的知識挖掘逐漸深入到細粒度的知識元,從章節、段落、句子到短語,實現了對科技文獻中的術語、技術要素、關系的抽取以及結構功能的識別。采用方法主要有基于統計的、基于規則的及基于機器學習的方法,抽取對象既有科技論文也有專利文獻。如,S.Kaewphan等
[18]利用深度學習模型CNN-BiLSTM-CRF,從生物醫學領域的科技論文中抽取分子、細胞和組織等實體。趙丹寧等[19-20]利用基于規則的方法從藥物代謝動力學文獻摘要中抽取了實驗、藥物、給藥方式、藥物代謝力學參數等實驗數據,并采用LSTM、Attention機制等深度學習模型,自動抽取了非結構式摘要中的“目的”“方法”“結果”三種結構要素。Pang N等
[21]提出了一種基于BERT-CRF模型的化學實體和關系抽取方法,從科技文獻中抽取了化合物、溶液、方法、反應、化學鍵、PKA、PKA-VALUE 7類實體以及化學鍵能數據鏈。D.Zhao等[22]結合表征學習和多頭注意力機制,以生物醫學領域科技文獻為分析對象,實現了跨句子多元關系抽取。同時,也有較多研究探索了科技文獻結構功能識別的方法,以滿足科研人員對科技文獻中部分特定知識的檢索,幫助他們快速獲取精細的知識點。比如,A.Varga A等[23]提出了一種用于篇章結構識別的zoneLDA 模型。馬曉慧等[24]利用CNN、LSTM、BERT等深度學習模型,分別從句子、段落、章節內容等層次對科技論文進行了結構功能識別。
3.4? 知識關聯挖掘與知識網絡構建
知識關聯挖掘與知識網絡構建常被用于發現科技文獻資源或內部知識之間的潛在關聯,在此基礎上進行預測與知識推理,挖掘隱性知識。比如,范馨月等
[25]以PubMed論文集為研究對象,采用文本挖掘方法,構建了“藥物—副作用”的共現矩陣,進而發現兩者之間的潛在關系。賈麗燕等[26]利用關聯規則分析方法,通過對醫療文獻的數據挖掘,發現了糖尿病視網膜病變的用藥規律。同時,也有研究從科技文獻資源縱向挖掘角度建立知識網絡,根據知識網絡節點間錯綜復雜的關系進一步發現核心的或隱含的知識點。如,王凱等[27]將文獻正文表示成一個以句子為節點,句子間關聯為邊的文本關系網絡,采用社會網絡分析方法挖掘出重要章節中的核心句。近年來,知識圖譜被廣泛用于科技文獻的知識組織與知識關聯中,以實現語義搜索、智能問答等知識服務。李星原等[28]以癲癇領域的相關論文作為數據集,構建了多模態的知識圖譜,直觀地呈現了該領域醫療實體之間的關聯。A.Rossanez等[29]提出了一種基于規則的半自動方法,從一組生物醫學論文的摘要中識別生物醫學命名實體和關系,生成知識圖譜,并將其鏈接到生物醫學領域的本體中。鐘將等[30]以人工智能、大數據等領域的最新科技論文為語料集,從中提取知識三元組(涵蓋處理任務、處理方法、處理對象以及性能指標4類實體以及包含、應用、對比和同指4種關系),構建了計算機領域知識圖譜。
3.5? 科技文獻的分類與聚類
科技文獻的分類和聚類是建立在對文本主題、內容或屬性進行特征表示、特征選擇的基礎上實現,進而發現同類文獻之間潛在的相似模式。科技文獻的分類對資源的檢索、篩選和推薦都有重要意義,而對科技文獻資源的聚類分析則被廣泛用于技術熱點的挖掘、價值評估等各個方面。分類和聚類一般基于文本內容或主題,采用機器學習方法實現。肖悅珺等[31]以新能源汽車領域的專利文本作為實驗數據,利用BERT模型提取句子和重要專有名詞的特征表示向量,并根據文本特征結合專有名詞及其上下文語句信息對專利文本進行分類。宮小翠等[32]提出了基于 Labeled LDA 主題模型的醫學文獻自動分類法。白思萌等[33]采用文本級超圖和交叉注意力機制捕捉科技文獻的組織結構及語義語法信息,對生物醫學領域的文本進行分類。J.Yun[34]根據科技文獻的共引網絡與共被引網絡的結構信息進行了文獻聚類。馬建紅等[35]采用信息實體語義增強表示(ERNIE)和卷積神經網絡(CNN)相結合的深度學習模型,提出了一種基于功效特征的跨領域專利聚類的方法。李玉等[36]通過DBSCAN聚類改進了隨機森林算法,并將其用于專利的價值評估中。李俊州等[37]利用K-medoids聚類算法提出了一種針對科技文獻文本特征選擇的方法,實現文本內容的特征降維。
4? 結論與展望
本研究借助Citespace、VOSviewer對科技文獻知識挖掘領域的發展現狀、熱點研究主題等進行系統梳理和總結,根據分析結果,主要提出以下建議:
(1)整體來看,現階段正是科技文獻知識挖掘研究的白熱化時期,國內外都應加強多學科、多領域、跨區域間的合作交流,逐漸形成一批用于知識發現、知識檢索、知識推薦等領域的成熟技術與產品。
(2)語義網、關聯數據、知識圖譜的發展,從語義層面為科技文獻的知識挖掘、組織、關聯提供了極大的技術支撐,但文獻內容知識元間的聯系揭示仍然受自然語言處理、信息抽取、知識圖譜等技術和算法的限制,如自然語言處理技術中的文本匹配算法、情感分析算法等仍存在一定的誤差[38],復雜的非結構化數據的信息抽取技術還需要依賴于大量的數據訓練[39]等,需加強對新技術的關注及在人力、物力、財力方面的投入,推動數據處理、模型優化和訓練等研究的開展、普及與應用。
(3)機器學習與深度學習技術使得科技文獻的知識挖掘更加智能化,為科技文獻深度聚類研究提供了更多思路。科技文獻的分類與聚類分析主要是建立在處理文本數據的基礎上,而對復雜的圖像、時序類數據的探索不足,可考慮利用深度神經網絡等人工智能技術來提高聚類效果,發展到更多領域,更好地改變人們的生產生活。
研究發現當前的科技文獻知識挖掘方法及其應用仍處于初級探索階段,還存在較多亟待解決的問題,例如,如何開展跨領域的知識挖掘,如何提高知識挖掘方法的可移植性與準確性等,未來還需要進行更深入的研究。
參考文獻
[1]中國科學技術信息研究所.2022年中國科技論文統計報告發布
[EB/OL].[2023-03-08].https://www.istic.ac.cn/html/1/284/338/1292211314138981529.html.
[2]顧海,奉子嵐,吳迪,等.我國遠程醫療研究現狀及趨勢——基于CiteSpace的文獻量化分析[J].信息資源管理學報,2020,10(4):119-129.
[3]張楠,趙輝.基于論文—專利的石墨烯領域硬科技創新技術主題識別研究[J].高技術通訊,2021,31(8):892-900.
[4]Amplayo R K , Hong S L , Song M . Network-based Approach to detect novelty of scholarly literature[J]. Information sciences, 2017(422):542-557.
[5]周瀟,許銀彪,史益.基于深度學習與語義挖掘的技術創新組合識別與追蹤[J].圖書情報工作,2022,66(10):33-44.
[6]王金鳳,徐正強,馮立杰,等.基于多維空間專利地圖及可拓學的技術創新路徑識別與評價[J].科技管理研究,2022,42(8):8-17.
[7]Shibayama S, Yin D, Matsumoto K.Measuring novelty in science with word Embedding[J].PLoS ONE, 2021,16(7):e0254034.
[8]Uddin S, Khan A. The impact of author-selected keywords on citation counts[J].Journal of Informetrics, 2016, 10(4):1166-1177.
[9]賈軍,魏潔云.新興產業核心技術早期識別方法與應用研究[J].科學學研究,2018,36(7): 1206-1214.
[10]MOMENI A, ROST K. Identification and monitoring of possible disruptive technologies by patent-development paths and topic modeling[J].Technological Forecasting and Social Change, 2016, 104:16-29.
[11]許學國,桂美增.基于機器學習的新能源汽車核心技術識別及布局研究[J].科技管理研究,2021,41(9):96-106.
[12]楊辰,王楚涵,陶琬瑩,等.基于專利的技術機會識別:深度學習領域的案例分析[J].科技管理研究,2021,41(12):172-176.
[13]黃魯成,李曉宇,李晉.基于專利的ABOD-RFM技術機會識別方法研究[J].情報理論與實踐,2020,43(9):144-149.
[14]Jia W, Xie Y, Zhao Y, et al. Research on Disruptive Technology Recognition of Chinas Electronic Information and Communication Industry Based on Patent Influence[J].Journal of Global
Information Management,
2021, 29(2):148-165.
[15]Dotsika F, Watkins A. Identifying Potentially Disruptive Trends by Means of Keyword Network Analysis[J].Technological Forecasting Social Change, 2017(119): 114-127.
[16]翟東升,金苑苑,徐碩,等.基于語義特征的潛在標準必要專利識別研究[J].科研管理,2022,43(3):183-191.
[17]吳潔,桂亮,劉鵬.基于圖卷積網絡的高質量專利自動識別方案研究[J].情報雜志,2022,41(1):88-95,124.
[18]Liu J, Wei J, Liu Y. Technology Forecasting based on Topic Analysis and Social Network Analysis: A Case Study Focusing on Gene Editing Patents[J].JOURNAL OF SCIENTIFIC & INDUSTRIAL RESEARCH, 2021, 80(5):428-437.
[19]李乾瑞,郭俊芳,黃穎,等.基于突變——融合視角的顛覆性技術主題演化研究[J].科學學研究,2021,39(12):
2129-2139.
[20]Kaewphan S, Hakala K, Miekka N, et al. Wide-scope Biomedical Named Entity Recognition and Normalization with CRFs,Fuzzy Matching and Character Level Modeling[J]. Database:The Journal of Biological Databases and Curation, 2018(2018):1-10.
[21]趙丹寧,牟冬梅,斯琴.研究型科技文獻的實驗數據自動抽取研究——以藥物代謝動力學文獻為例[J].圖書館建設,2017(12):33-38.
[22]趙丹寧,牟冬梅,白森.基于深度學習的科技文獻摘要結構要素自動抽取方法研究[J].數據分析與知識發現,2021,5(7):70-80.
[23]Pang N , Qian L , Lyu W , et al. Transfer Learning for Scientific Data Chain Extraction in Small Chemical Corpus with BERT-CRF Model: arXiv, 10.48550/arXiv.1905.05615[P]. 2019.
[24]Zhao D , Wang J , Zhang Y , et al. Incorporating representation learning and multihead attention to improve biomedical cross-sentence n-ary relation extraction[J]. BMC Bioinformatics, 2020, 21(1):312.
[25]Varga A , Preotiuc-Pietro D , Ciravegna F. Unsupervised document zone identification using probabilistic graphical models[C]// Eight International Conference on Language Resources & Evaluation. 2012:1610-1617.
[26]馬曉慧,趙文娟,劉忠寶.基于深度學習的多學科多層次學術論文結構功能識別方法比較研究[J].情報科學,2021,39(8):94-102.
[27]范馨月,崔雷.基于文本挖掘的藥物副作用知識發現研究[J].數據分析與知識發現,2018,2(3):79-86.
[28]賈麗燕,來保勇,趙楠琦,等.基于文獻數據挖掘的糖尿病視網膜病變中藥用藥關聯規則分析[J].中國中醫眼科雜志,2019,29(1):25-30.
[29]王凱,孫濟慶,李楠.面向學術文獻的知識挖掘方法研究[J].現代情報,2017,37(5):47-51,110.
[30]李星原,汪鵬,申牧,等.癲癇病相關論文多模態知識圖譜的構建初探[J].北京郵電大學學報,2022,45(4):19-24.
[31]RossanezA,Reis J D,Torres R,et al.KGen:a knowledge graph generator from biomedical scientific literature[J].BMC Medical Informatics and Decision Making, 2020, 20(S1):1-24.
[32]鐘將,尹紅,張劍.基于學術知識圖譜的輔助創新技術研究[J].計算機科學,2022,49(5): 194-199.
[33]肖悅珺,李紅蓮,張樂,等.特征融合的中文專利文本分類方法研究[J].數據分析與知識發現,2022,6(4):49-59.
[34]宮小翠,安新穎,單連慧.基于Labeled LDA主題模型的醫學文獻自動分類法[J].中華醫學圖書情報雜志,2018,27(10):53-58.
[35]白思萌,牛振東,何慧,等.基于超圖注意力網絡的生物醫學文本分類方法[J].數據分析與知識發現,2022,6(11):13-24.
[36]Yun J ,Ahn S , Lee J Y . Return to basics: Clustering of scientific literature using structural information[J]. Journal of Informetrics, 2020,14(4):101099.
[37]馬建紅,曹文斌,劉元剛,等.基于功效特征的專利聚類方法[J].計算機應用,2021,41(5): 1361-1366.
[38]李玉,王利,周志平,等.基于DBSCAN聚類改進隨機森林算法的專利價值評估方法[J].科學技術與工程,2020,20(14):5673-5679.
[39]李俊州,武瑩.基于改進K-medoids算法的科技文獻特征選擇方法[J].華中師范大學學報(自然科學版),2015,49(4):541-545.
[40]孫靜含,任靜.計算機文本分析算法發展綜述[J].電子技術應用,2023,49(3):42-47.
[41]楊洋,關毅,李雪,等.中文醫學細粒度知識表示體系與標注語料庫構建[J].中文信息學報,2023,37(6):52-66.
作者簡介:
孫盟盟(1990),女,碩士,河北大學圖書館館員。研究方向:信息素養、文獻分析。
奚洋洋(1990),女,碩士,河北大學圖書館館員。研究方向:信息服務、數據可視化。
(收稿日期:2023-07-17? 責任編輯:孫? 煒)
Research Hot spots and Prospects of Knowledge Mining for Scientific and
Technological Literature at Home and Abroad
—Quantitative Analysis Based on WOS Core Collection and CNKI Database
Sun Meng-meng? Xi Yang-yang
Abstract:Taking the WOS core collection and CNKI database as data sources, using bibliometric and content analysis methods,with the help of Citespace and VOSviewer, knowledge mining research on scientific and technological literature at home and abroad is systematically sorted out. By analyzing the publication trend and the co-occurrence of authors, institutions and keywords, this paper reveals the hot topics and development trends in this field. It is found that the hot topics about knowledge mining of scientific and technological literature are concentrated in the aspects of knowledge mining for scientific and technological innovation, intellectual property and topic evolution analysis, fine-grained knowledge extraction and knowledge association mining. Some suggestions are put forward that diversified knowledge mining methods should be explored in the future to better exploit the value of scientific and technological literature.
Keywords:Scientific Literature; Knowledge Mining; Theme Evolution; Bibliometrics