999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

嵌入科技創新流程的查新輔助系統

2024-10-01 00:00:00劉驍湯亞南
無線互聯科技 2024年18期

摘要:文章對領域主題詞表構建技術及專業詞庫生成方法進行了調研,在現有查新報告中人工專家學術關鍵詞整理基礎上,提出了構建嵌入科技創新流程的科技查新領域主題詞輔助系統,借助該系統,實現查新關鍵詞語義匹配及自動擴展、相關文獻潛在主題挖掘以及檢索詞智能抽取功能,以期更好地開展科技查新服務,提高查新效率與智能化水平。

關鍵詞:科技查新;查新助手;輔助系統;領域主題詞;詞表構建技術

中圖分類號:G252.62;G258.6 文獻標志碼:A文獻標志碼

0 引言

隨著ChatGPT的興起以及大語言模型在圖書館的智能化應用,科技查新工作面臨著前所未有的挑戰。在過去,科技查新工作完全依賴于查新員的經驗以及專家的專業知識,查新員在各個數據庫系統中檢索文獻,經過專家輔助做出對比分析結論。近年來,查新輔助系統的陸續出現開啟了查新報告撰寫與查新流程自動化管理的未來,查新工作逐漸信息化、智能化,效率不斷提升。

查新輔助系統是一種基于人工智能技術的創新工具,可以是翻譯助手、關鍵詞助手、去重助手,理論上講,未來的查新助手可以做到能夠通過分析大量的文獻和數據,快速準確地判斷某項科技成果是否具有新穎性和創新性。然而,盡管查新輔助系統的出現給科技查新工作帶來了巨大的機遇,也帶來了一些挑戰,對于高度依賴經驗與專業知識的檢索詞抽取與檢索策略構建部分,沒有一定數量的專家詞庫與敘詞表技術,無法真正實現查新檢索詞的自動化構建,也就無法平衡檢索結果的查全率與查準率,影響項目的新穎性鑒定。針對上述問題,本文以東北大學科技查新輔助系統為實例,嵌入科技創新流程,開發了基于領域主題詞表的查新輔助系統,從而提高查新效率,使查新工作向專業化、智能化方向發展。

1 研究現狀

科技查新經歷了從傳統手工查新階段到計算機輔助查新、網絡化查新、智能化查新、個性化查新,到現如今協同化查新階段,各種輔助查新系統應運而生。

2000年以后,科技查新項目管理系統開始集成MS Word,如甘肅省科學技術情報研究所科技查新合同自動生成模塊[1]、東北大學科技查新格式自動化輔助系統等;2005年以后,各查新站開始搭建基于Web的查新工作環境,將查新員在工作當中經常使用的查新工具集成到系統中,如北京大學圖書館查新信息管理系統[2]、清華大學科技查新系統[3];2015年以后,隨著人工智能技術的發展,科技查新輔助系統開始引入智能檢索、自然語言處理、知識圖譜等技術,實現對海量信息的智能分析和挖掘,如基于J2EE和JADE的科技查新可視化分析系統[4]、基于Lucene的科研查新系統[5]、基于Solr的科技成果查新系統[6],通過構建領域庫輔助檢索系統對以往查新項目進行智能檢索,匹配檢索近義詞;近年來,查新用戶覆蓋范圍越來越廣,查新業務量逐年遞增,科技查新輔助系統開始提供個性化的查新服務,以提高查新員的工作效率,如哈爾濱工業大學中文查新智能去重系統[7]、清華大學檢索數據去重、近義詞檢索庫等查新助手,以及解決異構數據庫數據集成和“一站式”訪問問題的科技查新輔助檢索資源發現系統[8-9];2020年以后,隨著大語言模型在圖書館咨詢服務中的應用,科技查新進入人機協作階段,如基于主題模型的查新輔助分析系統[10]、問答系統、委托書分析系統、文獻比對系統等科技查新輔助系統群[11]。

2 科技查新中的領域主題詞表研究現狀

2.1 詞表

狹義的詞表(受控詞表,如敘詞表等)一般稱為主題詞表;廣義的詞表(包括分類法、敘詞表、語義網絡和本體等類型)是包含了上下位關系與相關關系的敘詞表。

2.2 領域主題詞表

主題詞有多種表現形式,最常見的有敘詞與關鍵詞,前者為受控語言,后者為自然語言。因為數據庫知識組織多采用自然語言與受控語言結合的方式,因此在科技查新工作中,多采用“關鍵詞法+敘詞法”來提高某一主題領域文獻的查全率。但由于關鍵詞法為自然語言,自然語言在檢索式中的表達沒有統一的規范,須要查新員在對查新課題了解的基礎上,盡量擴展同義詞、近義詞與相關詞以及全稱、簡稱、縮寫與代碼,以避免漏檢與誤檢,同時消除與課題不相關的歧義詞與噪聲詞。因此,為了提高查新效率,各大查新機構紛紛開展了領域主題詞表的研究,并設計出基于主題模型的查新輔助分析系統,輔助查新員進行文獻檢索與對比分析。

2.3 領域主題詞表發展趨勢

領域主題詞表的互操作研究(包括跨語言、多類型、多領域等異構詞表間的互操作)一直是國內外的研究熱點。

國內主題詞表經歷了領域化、與自然語言結合、本體化、可視化、異構主題詞表關聯整合與多語言映射與互操作等階段。在主題詞表領域化階段,中國科學技術信息研究所利用開放語料庫,構建檔案領域詞表自動化輔助系統[12],賈冰[13]構建了石墨烯領域的專用語料庫,李艷超等[14]構建了醫學學科領域的檢索詞庫。近年來,主題詞表在領域化基礎上,逐漸向本體化發展,王汀等[15]利用領域主題詞表與網絡百科知識庫相融合的方式,構建了大規模中國電子政務領域本體;張磊[16]以《農業科學敘詞表》和農業領域文獻為基礎進行了農業領域本體半自動構建。在領域詞表可視化方面;王丹[17]基于領域信息源、文本關鍵詞以及主題詞表提取農業機械領域本體核心概念并進行可視化展示;謝澤宇等[18]利用國際淡水爭端分面分類詞表結合圖數據庫實現對分面本體知識的存儲以及可視化。在異構主題詞表多語言映射互操作方面,石澤順等[19]利用SKOS模型對LISTA圖情學科敘詞屬性進行映射,實現了圖情學科知識概念的中英文瀏覽、查詢和檢索;劉華梅等[20]以教育類數據為例,以《中分表》為核心,實現分類法、主題法之間互操作與智能信息檢索。

國外領域主題詞表包括術語表、敘詞表、主題詞表、分類表等,因敘詞表本身代表某領域知識體系和結構,所以也被廣泛用于國內外科技查新中,以明確檢索關鍵詞、精確檢索結果。國外主要學科領域已形成相對權威的敘詞表,1800多部自然科學領域的知識組織體系全領域覆蓋,包括敘詞表447部、術語表和專業詞典1200多部、分類表78部[21],并且已經在本體與知識圖譜構建、詞典術語映射等方面有較為深入的研究。如工程領域的IEEE Thesaurus、Pubmed系統中的MeSH醫學主題詞表、美國化學文摘社的CA General Subject Headings、EBSCO的自然及社會學科Academic Search Premier Subject Terms、Business Thesaurus、Library Information Science & Technology Thesaurus等。

3 領域主題詞表構建技術及應用實例

3.1 傳統領域主題詞表構建技術

傳統主題詞表(又稱敘詞表)最早作為檢索工具在圖書館興起,其制定多半依賴領域專家,如果查新員選取檢索詞與文獻標引主題詞不一致,就會造成漏檢。于是計算機與圖書情報相關領域研究人員開始研究領域詞表的自動構建技術。國外研究學者早在20世紀70年代就已經開始研究主題詞表的自動構建技術[22];隨著互聯網的興起,20世紀90年代開始,領域主題詞表的研究成為熱點,如生物蠕蟲領域的主題詞表的自動構建[23]。2000年以后,隨著Web2.0技術的發展,基于自然語言處理(NLP)的敘詞表自動構建方法與基于Web挖掘的敘詞表構建方法走進圖情領域,NLP技術解決了圖情領域分詞、詞性標注等自動化處理問題,雖然有良好的文獻保障,但在語義關聯構建方面較欠缺。

國內領域主題詞表構建技術起步較晚,但隨著人工智能技術的發展,以概念空間方法、共現分析方法、貝葉斯網絡方法為代表的詞表自動構建技術在科技查新服務中得到應用,尤其是在術語自動抽取與識別方面,如王培霞等[24]利用科技查新過程中檢出的實時相關語料作為領域知識來源,通過關鍵詞抽取、領域特征擴展相結合的遞進式迭代方法智能抽取科技查新某領域檢索詞。隨著大數據技術在圖書館的成熟應用,基于主題模型(LDA)的查新輔助分析系統出現[10,25],是領域主題詞表在科技查新工作中應用得最為普遍的模式。但無論是以詞頻共現分析法為代表的統計分詞方法,還是融合了查新員與用戶檢索策略的文本挖掘分析方法,都無法全面、動態地展示詞間關系,對于查新員而言,無法通過傳統領域主題詞表直觀掌握領域主題上下位概念。

3.2 新興領域主題詞表構建技術

隨著語義網、本體、關聯數據、可視化等知識組織技術的發展,領域主題詞表克服了深層語義關系匱乏、詞間關系不夠完善的問題。在敘詞表的語義化描述方面,SKOS作為一種傳統知識組織系統向關聯化數據發展的描述機制,解決了分布式領域主題詞表的互操作檢索問題,如王曉光等[26]采用SKOS模型進行敘詞表的語義描述,構建了敦煌壁畫敘詞表并進行關聯數據發布。在敘詞表的領域本體自動構建技術方面,敘詞表逐步以關聯數據的形式發展為網絡敘詞表,實現基于專題或領域的語義檢索,如王汀等[15]提出了一種領域主題詞表與網絡百科知識庫相融合的兩階段領域本體自動化構建方案。在詞表的互操作與可視化技術方面,王曉光等[26]運用深度學習工具將詞條進行向量形式轉化,構建了醫學詞表間的語義映射;喬波[27]采用BERT預訓練的農業實體關系聯合抽取模型BERT-BILSTM-LSTM建立了農業知識圖譜可視化應用系統;陳歡歡[28]利用Jambalaya插件將圖書情報領域本體進行可視化展示。

3.3 領域主題詞表應用場景

隨著領域主題詞表逐漸網絡化、語義化與可視化,其在圖書館各項業務中均有應用,包括書目數據關聯發布、特色文獻信息資源組織與檢索、術語服務、數字人文項目、數字資源信息共享建設、公共文化服務等。余凡[29]以測繪學敘詞表和文獻為例構建了測繪學領域本體,對館藏資源深度聚合進行了實證研究;周軍根等[30]在《海洋主題詞表》基礎上構建了海洋領域本體,促進信息共享;丁晟春等[31]利用OWL構建了基于航天敘詞表的領域本體;金晶等[32]利用Protg本體開發工具構建了基于主題詞表的政務領域本體;陳京蓮等[33]利用敘詞表構建了領域本體,并應用于宋代廬陵文化名人研究數據庫;王曉雪等[34]采用規則方法、K-means、KNN等構建了公共文化領域詞表,形成術語詞典。

綜上所述,領域主題詞表無論是以傳統自然語言處理為代表的構建技術還是以本體技術為代表的新興構建技術,都可以解決圖書館實際uVT0hH0bhU4isONb3Nep/DApBMolL5jQv25inMG+fss=業務中關于文獻資源深度揭示、語義檢索等實際問題。近年來領域主題詞表在向網絡化、語義化與可視化方向發展的過程中,也不斷有新技術加入,未來可能結合大語言模型ChatGPT,構建端到端的對話系統。

4 基于領域主題詞表的科技查新輔助系統設計

4.1 嵌入創新流程的查新輔助系統

系統主要依靠以往查新報告構建的動態語料庫實現查新領域近義詞查詢功能和結果的可視化展示:(1)在課題委托初期,針對查新點修改與完善部分,構建基于詞表的重點學科領域本體語義檢索功能,進行基于控制科學與工程、冶金、材料、礦業工程等學科領域詞表的本體構建實驗,不斷修正創新點;(2)在檢索策略制定過程中,實現查新報告檢索詞智能抽取功能,用戶可以將委托單中的文本轉換成查新檢索詞,降低溝通成本,提高檢索效率;(3)在報告撰寫期間,實現查新密切相關文獻潛在主題挖掘功能,為撰寫查新結論提供參考。

4.2 基于領域主題詞表的科技查新輔助系統功能架構

系統可以實現3個功能,分別為查新領域關聯詞系統、相關文獻潛在主題挖掘系統與檢索詞智能抽取系統(見圖1)。在查新領域關聯詞系統方面,以重點學科領域主題范圍科技查新報告、查新數據庫為主要數據源獲取術語,抽取相關主題領域查新概念,融入本體思想與可視化顯示技術,采用自動分詞工具進行分詞,借助人工進行半自動詞性還原,構建查新領域主題詞語料庫,開展面向用戶的科技查新近義詞庫構建實驗研究,實現查新近義詞檢索功能。在查新主題輔助分析系統方面,利用LDA、共詞等模型對查新員導出的文獻進行主題挖掘,識別潛在主題,生成詞向量空間,對比委托課題的研究內容,輔助撰寫對比分析結論。在檢索詞智能抽取系統方面,利用TextRank算法抽取查新委托單中的術語、產品等概念,包括項目名稱、科學技術要點與查新點,采用詞云的形式展現。

4.3 系統設計及實現

系統采用Python語言與JavaScript語言,在數據存儲方面采用MySQL數據庫。關鍵詞提取功能主要使用Python語言,利用正則表達式,將關鍵詞提取出來并保存到SQLite數據庫中,將輸入、詞匯抽取、構建語料庫以及目標查新詞的展示功能整合起來,平臺提供輸入界面,用戶輸入有效的科技查新技術性詞匯,系統在完成語料庫構建的基礎上,最終將輸出目標查新詞的相關信息以可視化的形式返回給用戶,即根據需求通過圖界面展示出來,同時根據用戶需求提供學術關鍵詞與網絡主題詞兩種或多種顯示方式。檢索詞抽取采用TextRank算法,潛在主題挖掘采用LDA模型,查詢系統采用B\S架構、前后端分離的系統設計,前端使用Vue框架以及Element Plus組件實現,后端接口采用Nodejs以及Express實現。

5 結語

隨著高校學科服務逐漸轉向智慧化與智能化,科技查新作為工科高校圖書館學科服務的核心業務,應與時俱進、加速發展。嵌入科技創新流程的查新輔助系統在傳統的人工構建檢索策略、篩選文獻、撰寫分析結論的基礎上,構建控制科學與工程、冶金、材料、礦業工程等學科領域主題詞表,采用人機結合的方式,融入查新點構建、領域關鍵詞檢索、潛在主題挖掘的科技創新流程。該系統的設計與實現,可提高科技查新服務效率,使圖書館學科服務在智慧服務背景下有可持續的發展。

參考文獻

[1]王權,張纓,楊生舉,等.科技查新項目管理系統中嵌入Word的若干問題研究[J].甘肅科技,2006(11):73-74.

[2]盧振波,梁南燕,張春紅.論查新信息的規范管理:北京大學圖書館案例分析[J].現代情報,2005(3):125-126.

[3]李鳳俠,戰玉華,趙軍平,等.清華大學科技查新系統的開發與實踐[J].大學圖書館學報,2014(2):33-38.

[4]沈鏞.基于J2EE和JADE的科技查新可視化分析系統架構研究[J].情報探索,2016(12):91-95.

[5]焦洋,王純,韓靜茹.基于Lucene的科研查新系統構建[J].計算機技術與發展,2018(5):193-196,200.

[6]溫慧明,宮曉輝.基于Solr的科技成果查新系統的構建研究[J].計算機技術與發展,2014(6):67-70.

[7]李雪婷,李莘,王曉丹.基于JAVA的圖書館中文查新智能去重系統的研究與實現[J].圖書館學研究,2013(17):56-58.

[8]陸文燕.基于中間件的科技查新輔助檢索系統的設計與實現[D].蘇州:蘇州大學,2011.

[9]王菁,王曉丹,田永梅,等.資源發現系統在科技查新工作中的應用實踐[J].高校圖書館工作,2015(3):62-66.

[10]馬林山,郭磊.基于主題模型(LDA)的查新輔助分析系統設計研究[J].現代情報,2018(2):111-115.

[11]范午攸.科技查新語義角色標注及其在報告自動生成系統中的應用[J].圖書館學研究,2020(9):60-64,79.

[12]張昱,于薇.檔案領域詞表自動化輔助構建及知識組織應用探析[J].數字圖書館論壇,2018(6):67-72.

[13]賈冰.專用語料庫在科技查新工作中的應用[J].河南圖書館學刊,2018(3):109-111.

[14]李艷超,王艷,金新建.面向醫學學科領域的檢索詞庫構建[J].醫學信息學雜志,2017(5):80-84.

[15]王汀,冀付軍.基于主題詞表與百科知識相融合的領域本體自動構建研究[J].情報學報,2017(7):723-733.

[16]張磊.基于敘詞表和文獻數據庫的農業領域本體構建方法研究[D].北京:中國農業科學院,2011.

[17]王丹.面向知識服務的農業機械領域本體構建研究[D].鎮江:江蘇大學,2020.

[18]謝澤宇,施國良,楊漢鈺,等.國際淡水爭端領域分面本體構建與應用[J].情報雜志,2018(11):192-196.

[19]石澤順,肖明.基于網絡敘詞表的圖情學科SKOS構建與可視化研究[J].情報學報,2018(3):274-284.

[20]劉華梅,侯漢清.基于受控詞表互操作的集成詞庫構建研究[J].中國圖書館學報,2010(3):67-72.

[21]宋文,張士男.支持語義發現的集成知識組織體系研究[J].圖書情報導刊,2022(7):20-28.

[22]曾文,王惠臨.跨語言主題詞表自動構建技術研究[J].圖書情報工作,2011(4):106-109.

[23]CHEN H,NG T D,MARTINEZ J,et al. JA concept space approach to addressing the vocabulary problem in scientific information retrieval: an experiment on the worm community system[J].Journal of the American Society for Information Science,1997(48):17-31.

[24]王培霞,余海,陳力,等.科技查新中檢索詞智能抽取系統的設計與實現[J].現代圖書情報技術,2016(11):82-93.

[25]李美凝,張芹,張秀美.基于LDA主題模型的高校科技查新服務新方法探索[J].圖書館雜志,2020(10):45-52,62.

[26]王曉光,侯西龍,程航航,等.敦煌壁畫敘詞表構建與關聯數據發布[J].中國圖書館學報,2020(4):69-84.

[27]喬波.基于農業敘詞表的知識圖譜構建技術研究[D].長沙:湖南農業大學,2019.

[28]陳歡歡.圖書情報學領域本體的構建研究[J].圖書館學研究,2011(21):11-16,26.

[29]余凡.領域本體構建方法及實證研究:以測繪學領域為例[D].武漢:武漢大學,2018.

[30]周軍根,劉柏嵩.基于敘詞表的海洋領域本體構建研究[J].寧波大學學報(理工版),2012(1):108-112.

[31]丁晟春,傅柱.基于航天敘詞表的領域本體半自動化構建研究[J].情報理論與實踐,2011(11):113-116.

[32]金晶,宋敏霞,徐晨琛,等.基于主題詞表的政務領域本體構建[J].圖書情報工作,2010(8):16-20.

[33]陳京蓮,羅紅.基于敘詞表領域本體構建在地方文獻數據庫中的應用:以“宋代廬陵文化名人研究數據庫”為例[J].圖書館理論與實踐,2013(6):42-45.

[34]王曉雪,化柏林.基于多源數據融合的公共文化領域詞表構建研究[J].圖書館雜志,2022(10):25-34,96.

Novelty retrieval auxiliary system embedded in scientific and technological innovation

process: development and practice of thesaurus in sci-tech novelty retrieval

field in Northeastern University Library

Abstract: This paper investigates the technology of constructing domain thesaurus and the method of generating specialized thesaurus. Based on the arrangement of academic keywords by artificial experts in existing novelty retrieval reports, it is proposed to construct an auxiliary system of subject words in sci-tech novelty retrieval domain embedded in sci-tech innovation process. With the help of this system, the functions of semantic matching and automatic expansion of novelty retrieval keywords, mining potential topics of related documents and intelligent extraction of search words can be realized, so as to better carry out sci-tech novelty retrieval services and improve novelty retrieval efficiency and intelligent level.

Key words: sci-tech novelty retrieval; novelty search assistant; auxiliary system; domain subject words; thesaurus construction technology

主站蜘蛛池模板: 久久精品欧美一区二区| 久久大香伊蕉在人线观看热2| 日本久久久久久免费网络| 性视频久久| 2022国产91精品久久久久久| 欧美亚洲国产日韩电影在线| 欧美综合激情| 韩日无码在线不卡| 99精品视频在线观看免费播放| 国产www网站| 国产成本人片免费a∨短片| 中文字幕无码中文字幕有码在线 | 久久久久人妻一区精品| 亚洲热线99精品视频| 亚洲毛片一级带毛片基地 | 国产欧美日韩视频一区二区三区| 尤物视频一区| 国产啪在线| 尤物视频一区| 国产免费怡红院视频| 人与鲁专区| 日韩无码黄色| 中文字幕人成人乱码亚洲电影| a级毛片免费看| 久久精品66| 在线免费观看AV| 日本免费一级视频| 国产成人精品日本亚洲| 看国产毛片| 久久精品国产精品一区二区| 国产一级二级三级毛片| aa级毛片毛片免费观看久| 麻豆国产原创视频在线播放 | 女人爽到高潮免费视频大全| 99视频在线观看免费| 午夜电影在线观看国产1区| 国产午夜无码专区喷水| 亚洲精品欧美重口| 国产人前露出系列视频| 成人免费黄色小视频| 亚洲成人在线免费观看| 国产无码性爱一区二区三区| 国产成人久久777777| 精品99在线观看| 国产一级毛片在线| 亚洲视频一区在线| 国产精品女主播| 免费毛片网站在线观看| 国产精品亚洲欧美日韩久久| 免费日韩在线视频| 亚洲视屏在线观看| 亚洲色图欧美视频| 毛片网站在线播放| 国产久操视频| 成年av福利永久免费观看| 久草国产在线观看| 亚洲欧美色中文字幕| 国产成人精品一区二区免费看京| 午夜啪啪福利| 国产成人精品一区二区免费看京| 伊人久久婷婷| 人妻丝袜无码视频| 五月婷婷欧美| 精品自窥自偷在线看| 最新国产网站| 99在线观看视频免费| 女人18毛片久久| a天堂视频| 中文字幕首页系列人妻| 97色伦色在线综合视频| 色亚洲成人| 婷婷99视频精品全部在线观看| 青草91视频免费观看| 日韩不卡免费视频| 亚洲色图欧美在线| 欧美另类精品一区二区三区| 91毛片网| 久久国语对白| 欧美在线伊人| 日韩一区二区三免费高清| 欧美日韩国产在线播放| 日本伊人色综合网|