999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

學術資源挖掘方法研究綜述

2021-12-21 11:01:19王穎
現代情報 2021年12期
關鍵詞:關聯語義文本

王穎

DOI.10.3969/j.issn.1008-0821.2021.12.016

[中圖分類號]G250.76 [文獻標識碼]A [文章編號]1008-0821(2021)12-0164-14

科學技術突飛猛進促進了學術交流與合作,也產生了海量的學術資源,如期刊論文、學位論文、會議論文、科技報告、圖書專著、專利、標準等正式出版物,以及學術網站、學術社交媒體、科教文化信息、科學數據等網絡資源。面向海量學術資源,科研人員一直致力于對不同的學術資源進行挖掘、集成和利用,結合數據挖掘、文本挖掘、機器學習等技術提出了眾多挖掘方法與算法模型,并開發了一系列實用工具,不斷優化學術資源利用環境,滿足用戶日益增長的知識服務需求。在此背景下,本文擬對國內外學術資源挖掘方法研究現狀進行總結和分析,以期為學術資源挖掘方法的進一步優化提供相應的支撐和參考。

本文的研究對象主體為學術資源,往往容易與科技文獻、學術論文等概念混淆。國家標準GB7713-87中定義學術論文是某一學術課題在實驗性、理論性或觀測性上具有新的科學研究成果或創新見解和知識的科學記錄:或是某種已知原理應用于實際中取得新進展的科學總結。邱均平教授認為,“凡是將人類的知識用文字、圖形、符號、聲頻、視頻的手段記錄于一定載體之上所形成的東西統稱為文獻,科技文獻是一類含有科學技術知識內容的文獻,按出版形式分為圖書、期刊、會議錄、科技報告、學位論文、專利文獻、技術標準、產品樣本等”。蘇新寧教授認為,“學術資源是指能夠幫助支持開展學術研究活動的所有資料,除正式出版物,還應包括對科學研究有幫助的政府信息、社會信息、科教文化信息、科學數據等”。從覆蓋范圍對比,科技文獻包括學術論文,而學術資源包括科技文獻。從作用上對比,學術論文既是一種探討學術問題的手段,又是一種學術交流工具,科學文獻主要用來記錄、積累、傳播和繼承知識,而學術資源的來源更加廣泛、信息量更強、傳播范圍也更廣,是學術研究長期開發、共享和利用的基礎資源。從形式上對比,學術論文和科技文獻多為正式出版物,而學術資源涉及非正式出版的內部出版物、實驗報告、教案、學術動態以及學術網站、學科專業論壇、學者博客等網絡信息資源。

學術資源挖掘涉及圖書情報學、計算機科學、生物醫學等不同領域的研究,如文獻挖掘、文獻計量、非相關文獻知識發現(LBD)、數據挖掘、文本挖掘、機器學習等,這些研究之間存在交叉和融合,并且相互促進共同發展。文獻挖掘、文獻計量、LBD都是以科學文獻為數據集的研究。文獻挖掘旨在從科技文獻中挖掘有價值的知識:文獻計量利用數學和統計學的方法對文獻進行定量分析:LBD從非相關文獻中識別出潛在關聯促進新知識的產生。而學術資源挖掘以科技文獻和其他非正式學術資源為研究對象,研究范圍更廣。數據挖掘、文本挖掘、機器學習是計算機科學領域的重要分支,數據挖掘的研究對象可以是各種類型的數據源,文本挖掘的主要對象是文本數據,也包括學術資源的文本。學術資源挖掘通常采用數據挖掘技術進行關鍵詞統計、主題分析、引用分析、關聯挖掘等,利用文本挖掘技術對學術文本進行知識抽取、文本聚類和分類,并借助機器學習技術優化研究方法提升性能。

1學術資源挖掘研究主題分析

由于學術資源涉及類型較多、研究方法較廣,分別以“學術資源”“文獻”“論文”“圖書”“專利”“報告”“工具書”“標準”“學術社交媒體”“教育資源”等為研究對象主題,“挖掘”“抽取”“識別”“分類”“聚類”等為研究方法主體構建檢索式,從中國知網、萬方、ScienceDirect、ACMDigital Library、IEEE Xplorer Digital IJibrary、Springer Link等數據庫中檢索相關中英文論文,通過泛讀,從中篩選獲得與本研究主題相關的論文,并在此基礎上對相關引文、相關主題進行擴展檢索,最終獲得研究問題相關論文集合,以此為基礎對學術資源挖掘方法進行總結和歸納。

通過去重和去除不相關論文,共獲得137篇英文論文和256篇中文論文。對沒有關鍵詞的英文或中文論文,利用TextRank算法從標題和摘要中抽取關鍵詞,并采用百度翻譯工具對沒有對照英文關鍵詞的中文論文進行翻譯,最后借助VOSviewer工具對論文關鍵詞進行分析,構建了如圖1所示的文獻共詞網絡。從圖中可知,學術資源挖掘涉及科技文獻(scientific literature)、文本挖掘(text mining)、信息抽?。╥nforrnalion extraction)、術語抽?。╰erm extraetion)、深度學習(deep leaming)、專利挖掘(patent mining)、數據挖掘(data mining)、知識抽?。╧nowledge extmction)等熱點研究主題。

2學術資源挖掘方法分類分析

在對學術資源挖掘研究主題分析的基礎上,本文從研究對象、研究維度、采用技術等角度進一步分類分析。

2.1按研究對象分析

學術資源包括學術論文、圖書、報刊、專利文獻、科技報告、標準、工具書等正式出版物,也涉及學術網站、學術社交媒體、開放學術知識庫、教學課件等非正式出版物或網絡資源,針對不同研究對象的挖掘方法有所不同。

2.1.1學術論文挖掘

學術論文挖掘研究工作開展已久,特別是在生物醫學領域,一些挖掘方法和實用工具已用于挖掘學術論文的內在知識,如PubTator工具識別PubMed文獻中生物醫學實體,如基因、化學物質、疾病、變異、物種等。SemRep工具使用UMLS語義網絡判斷論文中兩個生物醫學概念之間的關系。CoPub5.0系統從文獻中挖掘研究疾病背后的機理、連接基因和Pathway,發現現有藥物的新型應用等。此外,還有一些研究利用文本挖掘技術從學術論文中識別生物分子事件、藥物之間的相互作用(DDI)、蛋白質的相互作用(PPI)、Protein-residue關聯、基因關系、基因功能或GeneRIFs、基因事件提取等。通過從生物醫學文獻和臨床記錄中挖掘信息來輔助數據庫管理、構建本體、促進語義Web搜索和幫助開發交互式系統(例如計算機輔助管理工具)。

2.1.2專利文獻挖掘

專利文獻是一種非常重要的學術資源,是技術信息最有效的載體。專利挖掘通過分析專利文獻,尋找技術創新的特征,識別核心技術并對現有技術進行改進,研究方法涉及專利術語抽取、專利聚類、專利分類、專利統計分析、技術預測等。如Fenn J等對專利信息進行多維度挖掘,搭建專利知識空間。孫寧寧使用LDA主題模型對專利非結構化的文本信息進行分析,發現潛藏的技術主題。洪勇等基于專利引用關系研究不同企業之間的技術相關性。劉小玲等基于引文分析方法和文本挖掘,創建用于聚類分析的C-T專利網絡,研究技術演化過程。謝凱基于IPC分類號形成技術關聯網絡,分析不同技術之間的關聯范圍和關聯程度。林弘杰設計了一種基于深度學習的專利價值評估模型DLPQV,充分利用專利信息來預測評估專利的價值。此外,一些學者提出基于SAO(Subiect-Action-Object)結構的專利挖掘方法用于技術路線分析、R&D合作伙伴識別、技術機會分析、技術形態識別、技術演化等。

2.1.3工具書挖掘

工具書包括辭書、類書、政書、百科全書、年鑒、手冊、書目、索引、文摘、表譜、圖錄、地圖、名錄等,由數位領域專家經過多年集體創造,具有權威性、完整性、規范性和一致性。一些學者通過挖掘工具書構建知識庫,提高工具書內部知識的可用性,如二十四史語義知識庫、國史知識庫,通過應用自然語言處理、語義推理技術,發掘工具書中的潛在知識,構建語義分析平臺,為用戶提供了具有語義的知識服務。除傳統工具書外,在線開放百科也成為重要的知識資源,如林澤斐等從百度百科中抽取人物社會關系網絡。開放關聯數據云(LOD)的核心DBpedia即是從維基百科中抽取的實體、屬性和關系,Google推出的Knowdedge Graph也從維基百科中抽取數據并進行人工協同編輯,此外還有YAGO、百度知識圖譜、搜狗知立方、CN-DBpedia等以通用百科為基礎利用知識提取技術構建的大規模知識庫,已被廣泛應用于智能搜索、智能問答、個性化推薦、內容分發等領域。

2.1.4學術社交媒體挖掘

學術社交媒體如學術博客、學術論壇等也作為學術資源的一部分受到學者的關注,例如張洋等在檢索傳統網絡數據庫的基礎上,采集新浪圖林和CNKI學術論文等學術社交媒體,繪制圖書情報領域多源學術信息聚合的科學知識圖譜。王磊對學術型社交媒體中關于期刊評價的非結構化文本信息進行挖掘,通過統計與計量學分析進行期刊影響力評價模型的研究。譚曼等以網絡分析為定量方法,以科學網博客作為實證樣本,探索共推薦關系在學術博客中具有的實證特性。湯剛強以網絡學術社區“科學網”為研究對象,利用社會網絡分析工具從整體網絡、內部子結構和個體中心度3個角度分析科學網博客頻道的規律。黃麗麗從虛擬健康社區的自由文本數據中抽取醫學術語和健康詞匯,進行藥物不良反應事件探測。

2.1.5教育資源挖掘

近年來,一些研究人員開始對教學課件、教學文件等教育文本進行挖掘,發現教學知識點,構建知識體系,輔助學習與教育。例如,清華大學與學堂在線研發的“小木”機器人從課程體系結構里面抽取知識概念及相互關系,構建了龐大的知識圖譜體系,提供答疑、導航、推薦、提問、社交等服務。Lee H等使用狄利克雷多項式回歸主題模型,分析多個高校機器學習相關課程的教學材料,用以發現其主要教學主題的變化趨勢,總結教學內容的熱點和重點。Langan G等通過N-Gram關鍵詞抽取的方式分析了多所大學的計算機科學學位課程大綱,為學習者的課程選擇以及教育部門對課程學分的認證提供了參考。盛嘉祺以書本教材抽取實體為主干,慕課和博客數據為補充,構建課程知識圖譜,在課程設置優化、教育資源智能搜索和個性化推薦等方面進行應用。

2.1.6綜合挖掘

目前,學術資源在廣度和深度上都呈現快速增長趨勢,對海量多源異構學術資源進行綜合挖掘有著重要的學術價值。王效岳等從高校網站、學科門戶、OA倉儲中抓取公開發布的網絡學術文獻,利用本體集成發現進行異構數據處理,并實現了基于語義驅動的自動分類,解決海量網絡信息資源語義分類、語義導航與語義檢索等問題。謝前前以論文、專利、新聞、社交媒體數據為來源,構建知識一技術一環境的三維分析模型,研究新興技術的演化軌跡及趨勢預測。Shi Y等以計算機期刊和會議書目數據庫DBLP、職業社交網絡Linke-dIn為實驗數據,聯合維基百科發現富文本異構信息網絡中上下位關系。曹樹金等以圖書情報領域開放獲取期刊論文、在線百科、博客等網絡信息資源為數據源,構建描述聚合單元訪問信息、物理信息和語義信息的元數據框架,支持多類型網絡信息資源、各層級細粒度聚合單元的檢索。

從面向不同研究對象的學術資源挖掘研究可以發現,針對學術論文和專利文獻的挖掘技術和方法相對成熟,其他類型的研究相對較少,而開展綜合挖掘的研究也多以學術資源的關聯和聚合為主。此外,由于各類學術資源作為知識載體的作用不同,開展挖掘的目的也有所不同,如學術論文挖掘主要識別科學知識,專利文獻挖掘主要探測技術創新,工具書挖掘偏重于專業知識或常識知識的結構化,學術社交媒體挖掘往往用于社會網絡評價,而教育資源挖掘主要用于資源推薦。

2.2按研究維度分析

在系統調研學術資源挖掘方法的基礎上,本文將這些研究方法劃分為縱向挖掘和橫向挖掘兩個維度,如圖2所示??v向挖掘指對單個學術資源進行縱深方向的挖掘,將學術資源內部各粒度(例如詞、短語、句子、段落、章節)的元素進行揭示和語義豐富化,涉及術語/實體抽取、專業領域元素抽取、關系抽取、結構功能識別、語義建模等研究:而橫向挖掘是指對學術資源集(例如資源集合、數據庫、知識庫、學術大數據等)進行橫向挖掘與分析,涉及分類、聚類、關聯分析、知識網絡構建、網絡分析等研究。

縱向挖掘

2.2.1縱向挖掘

縱向挖掘針對單個學術資源全文數據,利用自然語言處理、文本挖掘、語義網等技術,從詞、短語、句子、段落、章節不同粒度進行知識抽取和語義表示,使得隱藏在學術資源文本內部的知識被清晰地表示,將其轉換為結構化知識,供人類理解和機器處理。

1)術語/實體抽取

術語抽取和實體抽取是學術資源挖掘的基礎任務,常用的抽取方法包括基于規則的方法、基于統計的方法、基于傳統機器學習的方法以及基于深度學習的方法等。如溫雯等基于啟發式規則與標簽傳播算法提出了一種面向專業文獻知識實體的類型抽取和標注方法,相比傳統基于特征的CRF方法效果要好。沈思等利用標簽主題模型labeled-LDA對文獻中隱含的時間信息進行分析和挖掘。方俊偉等提出一種基于先驗知識TextRank的學術文本關鍵詞抽取方法。趙東玥等采用了雙向長短時記憶神經網絡模型(BLSTM)進行術語抽取。Kaewphan S等構建CNN-BiLSTM-CRF模型從文獻中識別分子、細胞和組織等生物醫學實體。Zhao Z H等提出了一種多標簽卷積神經網絡模型用于文獻的疾病實體識別,在NCBI和CDR數據集上都取得了很好的效果。

2)專業領域元素識別

隨著縱向挖掘的不斷深入,從學術文本中抽取常用的領域術語或通用實體已經不能滿足專業用戶信息獲取的需求,一些學者利用機器學習技術開始識別具體專業領域的特定元素。例如趙丹寧等從內容、語法、語義分析等方面,利用規則從藥物代謝動力學文獻摘要中抽取實驗數據如實驗、藥物、給藥方式、藥物代謝力學參數等。Pang N等提出一種基于BERT-CRF模型的化學實體和關系抽取方法,從科技文獻中抽取化合物、溶液、方法、反應、化學鍵、PKA、PKA-VALUE 7種類型實體以及化學鍵能數據鏈。馬建霞等基于Bi-LSTM+CRF神經網絡模型抽取中文文獻中時間、地名和生態治理技術。Gupta S等構建信息抽取規則識別論文中的方法或工具,化柏林研究了學術論文中方法知識元的類型和描述規則,錢力等基于多規則模式混合機器學習方法抽取學術論文的研究方法、工具等。余麗等基于LSTM-CRF模型從計算機領域會議論文摘要中抽取研究范疇、研究方法、實驗數據、評價指標及取值等知識元。

3)關系抽取

面向學術資源的關系抽取隨著信息抽取技術的發展不斷進步,從早期基于規則、詞典、本體的抽取方法,到基于傳統機器學習、基于深度學習的方法以及面向開放領域的關系抽取方法,從學術文本中挖掘用戶所需的語義關系信息,并構建知識圖譜或知識庫以及潛在關聯發現。例如,李智恒等提出了一個化學物質致病關系抽取系統,利用半監督的Co-Training算法將特征核和圖結構特征集合進行句子分類器續聯,并利用文檔級別分類器抽取化學物質致病關系。蔣婷等利用基于互信息的概念對抽取、基于C-value的關系動詞抽取和關系確定3個階段從學術文獻中抽取概念之間的非等級關系。李鯤等將文獻資源抽象為一系列獨立成果而又互相關聯的科研事件,并提出基于觸發詞的事件抽取方法。Peng Y等提出了將句子向量、位置向量、詞干特征、句子的依存特征作為支持向量機(SVM)、卷積神經網絡(CNN)以及循環神經網絡(RNN)模型的輸入,將3種模型結果進行投票,獲得生物醫學文獻中化學品和蛋白質之間關系的最終預測。

4)結構功能識別

結構功能識別是指識別學術文本中一個從句、句子、段落、片段的功能性作用如“背景”“方法”“結果”等,也有學者從語言學角度將其稱為科技文獻的語步結構(Move Structure或Argumentative Zone)或者語篇元素。學術文本結構功能識別的研究主要從句子、段落和章節3個層次展開。早期的句子級功能識別模型有AZ/AZ-Ⅱ模型、CoreSC模型、Dr.Inventor框架等,主要采用樸素貝葉斯分類器、支持向量機、隨機向量場、線性核分類器等進行自動標注。近期研究人員開始利用BERT模型訓練分類模型。在段落級功能識別上,Ribaupierre H等提出了SciAnnoDoc標注模型,通過人工制定正則表達特征的方法對人文性別研究領域文獻進行自動分類識別。Varga A等基于論證區域的思想提出了zoneLDA模型用于篇章結構識別。王倩等引入神經網絡模型進行段落功能識別。在章節功能識別上,陸偉等、黃永等分別從章節標題、基于章節內容、基于段落3個不同層次開展學術文本的結構功能識別。在后續研究中引入深度學習技術,并采用投票方法進行多層次融合。

5)語義建模

為使人和機器都可以訪問學術資源內部知識,研究人員應用本體和關聯數據對學術資源進行語義表示和描述。例如,很多圖書館和研究機構以關聯數據形式發布書目數據和規范數據,如瑞典聯合目錄(LIBRIS)、OCLC發布的VIAF(虛擬國際規范文檔)、WorldCat書目數據、英國國家書目4等,即將數據開放,便于共享和重用,又可以揭示數據之間的關聯,通過資源的關聯整合促進語義檢索和智能檢索的實現。新興的語義出版旨在發掘并豐富文章知識內涵,使其更容易被自動發現并與之關聯。眾多知名出版機構如PLos One、ACS、Nature、Elsevier等紛紛提出語義出版功能模塊。概念網絡聯盟提出納米出版(Nanopublication)作為科學文獻語義出版的新模式,從文獻中抽取科學結論、科學事實,建立語義表示模式,幫助人們進行科學情報和知識的發現、理解、交流、集成及共享。W3C發布了ORB科學篇章修辭塊本體,用于捕捉科學出版物的粗粒度修辭結構。SPAR語義出版和引用本體[跎]提出了一套OWL DL本體模塊用于創建語義出版和引用各方面機器可讀的RDF元數據。

從縱向挖掘角度可以發現挖掘的粒度逐漸細化,一個學術資源可被分解為粗細粒度不同的功能結構并進行語義化轉換,這為進一步的知識計算和分析奠定了基礎。此外,隨著深度學習技術的不斷突破,知識抽取的對象也從通用實體、生物醫學領域擴展到其他復雜的專業領域元素,有效地推動了學術資源的開發與利用。

2.2.2橫向挖掘

橫向挖掘從宏觀層面對學術資源集合進行整體分析和計算,包括學術資源分類、聚類、關聯挖掘、統計分析、知識網絡構建、網絡分析等研究。

1)分類

學術資源的分類標引對于資源的檢索、過濾、推薦等都具有重要的意義,也是數字圖書館建設中的關鍵問題之一,通常根據學術資源的文本主題、內容或屬性進行預處理、特征表示、特征選擇并利用機器學習算法構建分類器進行自動分類。例如史盛楠提出了相關主題模型(CTM)與KNN分類算法結合的C-KNN分類方法,實現多學科文獻分類。郭利敏構建了基于題名、關鍵詞的多層次卷積神經網絡模型,自動給出文獻的中圖分類號,用以解決編目人員緊缺、加工質量和效率下降等問題。宮小翠等提出了基于Labeled LDA主題模型的醫學文獻自動分類法。謝劍芳等提出了基于FastText的專利文本自動分類方法,溫超東等提出了結合ALBERT和雙向門控循環單元的專利文本分類,李湘東等將已知類別的期刊論文題錄信息和新聞網頁混合起來構建共通語義空間,通過共現關系繪制雙向圖并實施譜聚類進行跨文獻類型文本自動分類。

2)聚類

聚類分析是對學術資源集合進行整體分析的主要手段之一,將學術資源集合分為相對同質的簇進行統計分析,聚類方法常使用內容分析方法,如利用詞頻、共現、共詞、共引、同被引等關系進行發現相似關系,并利用聚類算法和工具進行聚類。例如Sun Y等、劉勘等分別提出基于排名的聚類算法RankClus、改進TF IDF特征詞加權算法用以實現科技文獻聚類,從中發現熱點研究領域,識別學科融合方向。趙楠等針對學術會議信息資源,提出了一種基于密度的聚類算法,利用資源關鍵字實現了資源熱點的自動發現。Yun J等利用共引和同被引關系構建文獻二分網絡,依賴網絡結構信息進行文獻聚類。馬力等對失效專利、失效/有效專利、有效專利進行聚類分析,根據專利流走向來判斷技術主題的新生、消亡及發展狀況。趙夷平等采用潛在語義分析方法計算如科學網、統計之都、小木蟲等學術資源網發布文獻的總體相似度,通過層級聚類方法生成文檔關系矩陣,以此發現相似文獻。

3)關聯分析

關聯分析是一種簡單實用的分析技術,主要從數據集中發現不同項之間潛在的關聯性或相關性。學術資源之間的關聯分析通常采取數據挖掘或文本挖掘技術發現資源內部知識或資源之間的關聯或模式。例如,資源內部實體關聯分析的研究有:范馨月等利用文本挖掘方法從PubMed文獻集構建藥物一副作用共現矩陣,采用重復二分法進行聚類分析,發現潛在的藥物副作用關系。魏星等提出一種基于數據立方的方法,挖掘疾病—基因—藥物之間的關聯,使用關聯規則量化實體關聯程度。賈麗燕等利用關聯規則分析中文醫學文獻,發現藥治療糖尿病視網膜病變常用藥物的用藥特點和組方規律。李嬌以圖書為研究對象,通過共現分析提取人名節點,并利用Apriori算法發現人物之間的關聯規則。資源之間的關聯分析研究如:李海林等199]運用關聯規則方法,從參考文獻作者相關性分析、主題分析和來源期刊相關性分析3個方面,總結和提煉規則及知識反映的決策和建議。寧子晨等從專利主體—關鍵詞耦合、IPC耦合以及IPC-關鍵詞共現3個角度,提出關聯方法探究數據挖掘領域內專利文獻與學術論文的主體、主題關聯關系。

4)知識網絡構建

針對海量學術資源,一些大型出版商和研究機構已開始構建用于支持語義搜索、智能問答、數據挖掘、推薦系統等應用的大規模知識網絡或知識圖譜,如Springer Nature的SciGraph不斷地從期刊/文章、書籍/章節、組織、機構、資助者、研究資助、專利、臨床試驗、會議系列、事件、引用網絡、Altmetrics、研究數據集等方面擴展數據,其目標是創建學術領域最先進的關聯數據聚合平臺,為整個企業和研究領域提供可重用的知識。Elsevier基于其豐富的數據和內容資源如論文、圖書、引文、作者、機構、基金、化學物質、藥物、EHRs等構建了面向研究、生命科學和醫療健康的知識圖譜。Taylor & Francis開發了知識圖譜工具Wizdom.ai,其知識圖譜涵蓋出版物、專利、作者、機構、概念、事實等。國內方面,清華大學AMiner學術知識圖譜、上海交通大學Acemap知識圖譜,利用信息抽取方法從海量文獻及互聯網中獲取研究信息,提供搜索、學術評估、合作者推薦、審稿人推薦、話題趨勢分析等多樣化服務。

5)網絡分析

學術資源之間可根據實體之間的關聯如關鍵詞共現、主題關聯、引文關聯、機構關聯、作者關聯等構建網絡,并基于網絡進行學術資源整體分析。引文分析是學術資源網絡分析的典型分析方法之一,例如王燦友等對文獻引文網絡采用主路徑分析方法揭示3D打印技術的演化路徑。Choi J等采用關鍵詞共現網絡分析其演化軌跡,揭示韓國教育技術的未來發展趨勢及模式。此外,有學者利用知識圖譜進行專利情報分析,如張兆鋒構建專利知識圖譜,利用知識圖譜擴展了技術功效圖矩陣結構生成的模式類型,提升了專利情報分析效率。也有從學術資源縱向挖掘角度建立網絡并進一步發現核心知識點或隱含知識的研究,例如王凱等將學術文獻正文表示成一個以句子為節點、句子間關聯為邊的文本關系網絡,利用社會網絡分析方法挖掘文本中核心句子。曲佳彬等利用文本挖掘技術從論文元數據和摘要揭示作者機構地理位置、論文研究地域、作者研究主題和學科研究主題等,并構建關聯數據,從多維度對學術論文關聯數據中隱含的宏觀和微觀知識進行可視化展示。

從橫向挖掘角度可以發現,對于學術資源集合的挖掘分析從分類、聚類、關聯分析逐漸聚焦到網絡的構建與分析上,利用網絡結構進行整體或局部的挖掘與計算,而挖掘方法從傳統的統計分析逐步引入圖計算、社會網絡分析、知識圖譜、深度學習等熱門技術。從數據處理規模上看,橫向挖掘研究逐漸從較小規模數據向大數據方向演化,這也成為目前重要的研究方向之一。

2.3按采用技術分析

針對不用應用需求和研究對象,學術資源挖掘采用的技術也有所不同,本文將其總結歸納為五大類:基于規則/外部知識的方法、基于文本表示/詞嵌入的方法、基于傳統機器學習的方法、基于深度學習的方法以及基于網絡結構的方法,具體如表1所示。

基于規則/外部知識的方法是早期學術資源挖掘任務的普遍方法。基于規則的方法一般通過人工構造規則或模式,將待處理數據與規則進行匹配判斷,符合即完成實體或關系抽取任務,如文獻等?;谠~典的方法利用字符串匹配識別術語或實體,基于本體的方法通過本體層級結構或描述概念之間語義關系來輔助術語/實體抽取、關系抽取、關聯分析和網絡分析,而語義建模和知識網絡構建通常采用本體描述和定義Schema。基于規則/外部知識的方法簡單易用、可行性強,但往往耗費人力,并且受限于知識的描述范圍。

文本是學術資源基本的表現形式,利用基于文本表示/詞嵌入的方法對學術文本進行數學建模和向量表示,進而執行挖掘任務,是一種常用的研究方法。例如TF-IDF、N-gram模型、LDA等文本表示和計算模型可用于關鍵詞抽取、主題識別和分析。而詞嵌入模型將每個詞映射為低維空間向量,傳統模型如布爾模型、向量空間模型(VSM)往往欠缺語義表征能力,因而研究人員提出了Word2Vec、Glove等分布式表示技術,特別是Google發布的BERT預訓練語言表示模型取得了突破性進展,在實體抽取、關系抽取、結構功能識別、分類、聚類等任務中均得以應用。

基于傳統機器學習的方法以機器學習模型為基礎,采用相對簡單的方法就可以獲得較好的研究效果,在各項挖掘任務中均有所應用。其中,支持向量機(SVM)是一種常用的監督學習算法,因其良好的分類性能得到了廣泛使用。K近鄰算法(KNN)簡單有效,常用于學術資源分類任務。貝葉斯網絡是目前不確定知識表達和推理領域最有效的理論模型之一,適用于表達和分析不確定性和概率性的事件,在結構功能識別、分類、聚類等任務中均有應用。條件隨機場(CRF)結合了最大熵模型和隱馬爾可夫模型的特點,在分詞、詞性標注、命名實體識別等序列標注任務中取得了很好的效果。

基于深度學習的方法相比傳統機器學習方法通過訓練大量數據自動獲得模型,不需要人工提取特征,近年來在各項任務上均有所突破,受到了研究人員的廣泛關注。例如卷積神經網絡(CNN)利用多樣性卷積核識別目標的結構特征,常用于提取詞和句子層次特征,而循環神經網絡(RNN)適用于序列數據的處理,能充分考慮長距離詞之間的依賴性,可用于句法解析獲得句法結構。長短期記憶網絡(LSTM)處理時間序列中當間隔和延遲較長時比RNN效果更好,雙向長短期記憶網絡(BiLSTM)可以同時獲取上下文信息并存儲記憶,這兩種模型可用于優化術語/實體抽取、關系抽取、結構功能識別、分類、聚類等多項任務。

基于圖/網絡結構的方法利用圖的拓撲結構或者聚合來自鄰居節點的信息,表征學術資源節點或學術文本知識之間的相關關系或關聯,再利用基于圖/網絡的分析和計算方法進行圖內部特征的深入挖掘。社會網絡分析是一套規范的,對社會關系與結構進行分析的方法,用于解決人際傳播網絡、學術網絡分析、關聯分析、引文分析、知識管理等問題,涉及網絡密度、中心性、凝聚子群等量化分析方法。主路徑分析是一種數學工具,最早由Hummon和Doreian在1989年提出,用于識別引文網絡中的主要路徑,該方法通常用于通過書目引文或專利引文來跟蹤科學或技術領域的知識流動路徑或發展軌跡,如文獻等。

從采用技術角度可以發現,數據挖掘、文本挖掘、機器學習、網絡科學等為學術資源挖掘研究提供了技術與方法基礎,其中詞嵌入、深度學習等新技術有效提升了學術資源挖掘的性能,并且大大降低了人力成本,也為相關研究提供了進一步優化和完善的方向,而聯合應用多種模型或算法也成為一個可待深入探索的研究思路。

3學術資源挖掘方法應用分析

對學術資源進行深層次的揭示、聚合和挖掘,有效推動學術資源的快速獲取和知識共享,學術資源挖掘方法或結果已經為學術檢索系統、學術推薦、技術預測和趨勢分析等方面提供了有力支撐。

3.1學術檢索系統

從海量學術資源中全面、準確地找到需要的信息一直是圖書情報領域的重點研究任務。近年來,智能檢索和語義檢索技術大大提升了學術信息檢索的效果,而對學術資源的挖掘使得學術資源更容易被發現,有效推動了學術檢索系統的性能提升,一些學術引擎系統已經被廣泛使用。如Semantic Scholar致力于理解學術文獻的內容,利用AI技術幫助用戶從海量的學術文獻中篩選有用信息,解決信息超載的問題。AMiner系統構建了大型學術知識圖譜,利用一個生成概率模型,在提供主題級專業知識搜索的同時對不同的實體進行建模。此外,劉夢蘭等以Word2vec為詞向量訓練工具,結合專利文獻自身的特點,提出了一種基于詞向量的查詢擴展方法,有效提升專利文獻的檢索效果。陳國華等基于Glove訓練詞向量,利用隨機映射的方法,在大規模的向量空間中快速定位向量,并提出了一種學術文檔向量化的方案,在學者網學術檢索中取得良好的檢索效果。

3.2學術推薦系統

對學術資源進行深度挖掘有助于向用戶推薦相關的學術資源、投稿期刊、合作者、專家等,提高科研用戶的工作效率,促進學術交流與合作。例如Guan P等借助標題、關鍵詞、摘要和引文對文獻進行語義豐富化,并利用TF-IDF算法構建主題詞權重向量,構建用戶興趣模型進行文獻推薦。熊峰通過資源—標簽矩陣對出版資源標簽進行關聯分析,提供較優的標簽屬性供用戶選擇,使資源備選集的劃分得到優化。劉康在論文語料庫的“文檔一主題”矩陣上加入概率模型形成不確定知識圖譜,以此針對用戶背景知識和目標知識之間存在的差異進行學術論文的個性化推薦。Ayala-G6mez F等提出了一種使用知識圖譜來建立全球引文推薦的方法,通過使用知識圖譜擴展來挖掘給定摘要中的語義特征,并將它們與其他特征組合以適應學習排名模型,最后通過這一模型來生成引文推薦。段旭磊等采用數據挖掘、中文信息處理等技術,對科技文獻庫中專家數據挖掘、分析、建模,用于發現和推薦領域專家群、專家。

3.3科技前沿識別與預測

準確把握科學研究和技術前沿,識別新興科技并盡早捕獲未來的發展契機和變化趨勢,對于科技決策機構、科研機構、科技企業、科研人員等都具有重要的作用。學術資源的挖掘同樣有效支撐了研究科技前沿的識別與預測。通常情報研究人員以學術資源如論文、專利等為核心,運用情報學、計量學、數據挖掘等方法探測研究前沿。例如馮佳提出了基于LDA的研究前沿識別方法,通過科技文獻主題強度和主題新穎度識別研究前沿。黃魯成等利用技術屬性挖掘專利文本信息,并運用物種入侵算法和集對分析方法對顛覆性強度值進行測度。張金柱等利用專利科學論文的關鍵詞和學科分類表示被引科學知識,以不同時間段被引科學知識的差異程度表示技術創新的突變程度,進而識別出突破性創新。白光祖等提出了基于文獻知識關聯的顛覆性技術預見方法,利用文獻知識中的突變、交叉特征識別具有顛覆性潛力的領域內外部技術主題。石慧等提出一種基于文獻挖掘的顛覆性技術早期識別方法,從文獻中抽取主題詞,分析主題詞的頻數變化以及論文主題詞和專利手工代碼的突變情況。

4結論與展望

本文系統地梳理了近年來國內外學術資源挖掘方法的發展現狀,詳細分析和對比了挖掘方法的研究對象、挖掘維度、使用技術等,為相關研究方法的提出和優化提供了參考。縱觀學術資源挖掘的研究,可以發現經過不斷地研究與探索,學術資源挖掘已取得了長足進步,特別是在文獻挖掘、專利挖掘等領域已經形成了一些成熟的技術和應用產品,但仍存在可進一步探索和提升的方向。

1)本體、關聯數據、知識圖譜等技術推動了學術資源的語義化發展,將學術資源內部知識進行語義建模并通過實體/概念語義化地組織和關聯起來并顯式地表示,能夠促進內容重用和知識集成,但如何對海量學術資源進行語義表示和知識組織體系構建仍有待于進一步研究和探索。

2)深度學習技術在學術資源挖掘的研究正逐步深入,盡管在智能信息抽取、文本分類、文本聚類等方面取得了一定的進展,但是整體來說,深度學習在學術資源挖掘的應用研究還處于初級階段,在未來必定會有更多的嘗試和突破。

3)目前學術資源挖掘的主要研究對象仍為學術論文和專利,盡管其他類型的學術資源逐漸受到重視,但當前研究主要聚焦在學術資源建設和整合方面,如何將學術資源有效地組織、整合起來,為科研用戶提供一站式服務,滿足其個性化需求,對不同類型學術資源進行聯合挖掘的相關研究仍有待于推進。

4)目前,學術資源縱向挖掘研究大多面向領域或指定知識類型,并且往往使用特定的語料庫或訓練集,很難實現到其他領域的自動遷移。因此,如何實現其他領域或跨領域的深層知識挖掘,如何不斷提高方法或工具的準確率、可移植性以及可擴展性,激勵著研究人員投入更多的精力和時間。

5)隨著學術資源爆炸式增長,基于大數據和人工智能技術擴展及優化現有挖掘方法,實現海量學術資源的高效計算,仍然是亟待解決的難題。

(責任編輯:陳媛)

猜你喜歡
關聯語義文本
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 午夜精品久久久久久久无码软件| 极品国产一区二区三区| 免费高清自慰一区二区三区| 亚洲综合欧美在线一区在线播放| 97色伦色在线综合视频| 色噜噜狠狠色综合网图区| 91久久精品日日躁夜夜躁欧美| 114级毛片免费观看| 国产午夜人做人免费视频| 亚洲综合经典在线一区二区| 91精品福利自产拍在线观看| 亚洲一区二区日韩欧美gif| 亚洲无码91视频| 国产91蝌蚪窝| 国产在线自乱拍播放| 色妞www精品视频一级下载| 欧美一道本| 国产香蕉在线视频| 97视频免费看| 亚洲国产精品日韩欧美一区| 久久精品娱乐亚洲领先| 欧美第九页| 国产AV无码专区亚洲精品网站| 四虎永久免费地址| 强奷白丝美女在线观看| 精品少妇三级亚洲| 久久久久青草大香线综合精品| 久久综合结合久久狠狠狠97色| 精品成人免费自拍视频| 免费一极毛片| 欧美日韩一区二区三区四区在线观看 | 国产噜噜噜视频在线观看 | 国产一区二区三区免费观看| 九九视频免费看| 亚洲福利视频一区二区| 伊人久热这里只有精品视频99| 成人噜噜噜视频在线观看| 国产精品v欧美| 欧美伦理一区| 欧美国产视频| 在线观看欧美国产| 亚洲动漫h| 日韩不卡高清视频| 伊人成色综合网| 国产婬乱a一级毛片多女| 久久久国产精品免费视频| 亚洲欧美成aⅴ人在线观看| 国产农村1级毛片| 最新国产网站| 国产精品欧美激情| 中文字幕天无码久久精品视频免费 | 国产一级在线观看www色| 亚洲婷婷在线视频| 在线精品亚洲一区二区古装| 国产三级毛片| 欧美亚洲一区二区三区在线| 久久美女精品| 国产黑人在线| 伊人激情综合网| 丁香亚洲综合五月天婷婷| 青青热久麻豆精品视频在线观看| 国产一二视频| 成人日韩视频| 日本人妻丰满熟妇区| 91精品网站| 国产一级妓女av网站| 国产高清不卡视频| 亚洲乱伦视频| 四虎永久免费地址| 精品夜恋影院亚洲欧洲| 久久久精品国产SM调教网站| 亚洲天堂在线免费| 国产精品自拍露脸视频| 国产激爽大片高清在线观看| 国产91透明丝袜美腿在线| 欧美在线导航| 国产成人精品午夜视频'| 亚洲福利一区二区三区| 经典三级久久| 91精品国产综合久久不国产大片| 国产精品女人呻吟在线观看| 蜜桃视频一区|