999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科技文獻創新內容的識別、組織與應用進展

2024-03-11 07:18:14徐雷張亞菲葉均玲
情報學報 2024年2期
關鍵詞:語義科學科技

徐雷,張亞菲,葉均玲

(1. 武漢大學語義出版與知識服務實驗室,武漢 430072;2. 武漢大學文化遺產智能計算實驗室,武漢 430072)

0 引 言

科技文獻是當前科學知識的主要載體以及科學交流的主要對象,其中蘊含的科學創新內容既是科學研究成果的集中體現,也是科學交流的具體對象,科研人員通過科學論證手段對科學創新內容進行敘事表達,形成科學論文,促進了科學知識的傳播及新的科學創新進程。然而,隨著科技文獻的大量涌現,科研人員對科學創新內容的跟蹤、理解、運用面臨越來越大的壓力,科學交流活動面臨“知識過載”的危機,科學創新內容急需新的敘事手段,以有效地推動科學論證、科學評價等科學交流活動。科技文獻是當前創新內容的主要載體,其通過不同的修辭論證結構對創新內容進行敘事表達,因此,當前主流實踐主要采用從科技文獻中識別抽取創新內容的方式來呈現創新內容本身。然而,這類實踐以驗證科學創新內容識別方法的性能為主,缺乏從宏觀層面探索新的創新內容敘事方式以及基于這種敘事方式的科學交流機制的相關研究。

本文一方面梳理了科學創新相關概念的內涵,歸納總結了創新內容識別抽取的主流實踐及主要問題;另一方面重點分析了當前創新內容結構化組織的主要數據模型及基于創新內容的應用場景,并從宏觀層面上構建了基于創新內容這一核心要素的科學交流框架,探討了實現該框架所面臨的挑戰。

1 科學創新與科學創新的表達

1.1 科學創新的內涵及其主要特征

科學創新可以簡單地理解為創新的一種類型,既可以是指在科學領域從事的創造性活動,其具有動態性,強調科學發現的過程;也可以是指創新活動的成果,具有靜態性,用于表達科學發現的結果。本文主要是指后一種類型。作為科學社會學代表人物之一,哥倫比亞大學社會學教授巴伯將科學創新定義為“人類對社會生活中已經存在的科學要素所作的富于想象力的結合”[1];Science雜志認為,科學創新是指對自然或理論提出新見解[2];國際權威創新調查指南《奧斯陸手冊:創新數據的采集和解釋指南》認為,科學創新是對已有的思想、技能、資源等的新組合[3]。從創新的過程來看,科學創新是指創新主體借助一定的方法產生創新成果,并創造出科學價值的過程。其中,創新主體是指創新實踐的參與者,如科研人員、研究機構等;創新成果是指創新實踐的產出,如發現新規律、產生新見解、發明新藥物等創新內容;創新的科學價值是指創新成果所帶來的潛在影響,主要體現在對科學發展本身的推進以及在生產生活中的應用。

作為科學交流活動的主要對象,科學創新本身具有一定的特征,如新穎性(novelty)[4]、獨創性(originality)[5]、價值性[6]、簡明性[7]等。其中,新穎性是科學創新最本質的特征,能夠顯示與其他科學創新的差異,這種差異既可以是“局部改進”式的漸進式創新,也可以是“全新”的突破式創新;獨創性是指科學創新是由研究者獨立創作而產生的,而不是對已有研究完全的或實質性的模仿;價值性反映科學創新成果可對相關領域產生的潛在積極影響;簡明性是指在表達方式上,科學創新內容應當有易讀性、“宣傳”性等特點。

1.2 科學創新類型及其在科技文獻中的表現

科學創新具有不同的類型,根據創新的程度,可以分為庫恩科學范式下的漸進式創新和突破式創新[8];根據創新的價值屬性不同,可以分為科學發現和技術發明[9]。其中,科學發現在于確定性科學知識的發掘,反映科學的求真過程,如探索各領域現象背后的規律,把尚不為人知的事物首次揭示出來等;技術發明強調科學創新的應用價值,依據科學知識創造出過去從來沒有存在過的新事物,來促進相關領域的發展與進步。根據科學創新內容所在的科技文獻篇章結構和內容特征,可以將其劃分為研究問題創新、理論研究創新、研究方法創新、成果與應用創新[5,10]等類型。就當前的科學交流環境而言,無論何種類型的科學創新,都需要借助一定的載體進行表達傳播和創新擴散。科技文獻是當前創新內容的主要表達載體,具體的創新內容一般表現為論文結構化摘要中的結論句、作者提煉的創新點等內容,這些核心內容表達了科學創新的本質。

在科學研究及相關實踐中,除了“originality”“novelty”“creativity”“innovation”這些內涵寬泛的表述外,特指科技文獻中的科學創新內容的詞匯還有“創新點(innovation points)”“學術貢獻(contribution)”“研究亮點(highlights)”“科學主張(claim)”“科學斷言(assertion)”等表達,這些詞匯都可用于指代科學創新的具體內容,在實際應用中會根據科學創新成果的使用環境來選擇,本文統一使用“科學創新內容”來指稱。其中,“創新點”是科學創新的最常見表達;“學術貢獻”通常包含兩層含義:科學創新的具體內容以及創新的意義與價值[11];“亮點”最早由愛思唯爾于2010年在其學術數據庫中設計出來[7],從內容上講,亮點是作者撰寫的一組論文的核心發現,是一篇科技文獻與其他論文相比較的新成果、新結論等內容的體現,通常表現為一組規范的、語義明確的3~5個短句[12];“主張”[13]和“斷言”[14]的內涵相似,既可以是研究者對基本科學事實的論斷,也可以是對科學創新內容的判定,其內容具體體現為科學事實、科學發現等知識單元。當前,科學創新內容主要以文本形式進行表達,即顯性的文本知識,并通過科技文獻這一載體進行科學論證。創新點、學術貢獻、亮點等具體科學創新內容集中體現在科技文獻的摘要、結論等部分[5,7,15-16],具有不同的文本粒度,可以是一個段落、若干句子或短語等。

科技文獻作為當前科學創新的主要表達載體,在當前科學交流環境中發揮了巨大作用。然而,隨著科學創新內容越來越多地隱藏于海量科技文獻中,這一表達形態已逐漸不能滿足科研人員高效獲取創新知識的需求,于是出現了關于創新內容等知識元的識別抽取、長論文智能摘要、視頻論文等實踐及科學知識表現形態。本文重點圍繞科學創新內容這一核心對象展開研究,從當前科學創新內容識別與抽取、結構化組織及基于結構化科學創新內容的應用場景3個維度進行系統歸納,基于此設計了在新的科學知識表達機制下的科學交流潛在場景及其實現框架。

2 科技文獻中創新內容的識別與抽取

作為一種知識元類型,創新內容的識別與抽取是科學信息抽取(science information extraction,sci‐ence IE)任務之一。當前,科學創新內容的識別與抽取主要包括3類方法,分別為基于規則的創新內容識別與抽取、基于機器學習的創新內容識別與抽取以及基于深度學習的創新內容識別與抽取。

2.1 基于規則的創新內容識別與抽取

基于規則的科學創新內容識別與抽取方法,是通過對創新內容的語言特征進行分析,制定相應的抽取規則進行抽取。主要可以分為基于詞匯和基于句法結構的識別抽取方法。

2.1.1 基于詞匯的方法

基于詞匯的科技文獻創新內容抽取可以分為兩類:一類基于觸發詞,另一類依賴于領域詞匯。其中,觸發詞是能夠充分表征科學創新的詞匯,中文觸發詞有“突破”“解決”等,英文觸發詞有“novel”“present the first…”等;領域詞匯作為一個學科領域的核心詞匯,對創新內容的研究主題具有揭示作用。

已有研究表明,論文創新內容中由觸發詞引導的占比高達98.4%[17],為基于觸發詞的創新內容抽取的可行性提供了統計依據。基于觸發詞的抽取方法往往用于創新內容的初次篩選,在流程上可分兩個步驟:觸發詞的選取和創新內容的抽取。

目前,觸發詞的選取主要依靠手工進行,涵蓋名詞、形容詞、動詞等多種詞性。在觸發詞的基礎上構建創新內容抽取規則,利用規則對科技文獻句子集進行匹配,形成創新句候選集[5,7]。由于非創新內容的句子中也可能包含觸發詞,基于觸發詞對創新內容進行抽取的查全率高,但其查準率較低。因此,該方法往往用于創新內容的初次篩選,形成創新內容候選集,以便后續使用機器學習方法或更詳細的抽取規則對創新內容做進一步的識別。

依賴領域詞匯的創新內容識別方法,是借助領域詞匯的近義詞、同義詞,以及領域本體的概念層級關系,最大限度地揭示句子研究的主題,確保抽取出的創新句子集與研究主題密切相關,提高抽取結果的準確度。因此,為了迅速、準確地識別科技文獻中的創新內容,需要借助學科領域的詞表或知識庫輔助信息抽取工作。基于領域詞表的創新內容抽取可分為3個步驟:領域詞表或本體的構建、基于領域詞表的文本自動語義標注和基于語義標注的創新內容抽取。在實踐中,往往先自行構建領域詞表或知識庫,或以已有的領域詞表或本體為基礎,使用詞表或知識庫對科技文獻進行全文內容的語義標引,最后結合創新內容的寫作一般規律和此領域的主要研究內容,制定創新內容抽取規則,抽取出創新句子集[18-19]。

2.1.2 基于句法結構的方法

科技文獻創新內容往往遵循特定的表達范式[20-21],因此,可以根據句法結構對創新內容進行識別。該抽取方法主要包括3個部分:預處理過程、規則的構建和基于規則的抽取[15,19]。預處理過程主要包括分句、分詞和語義標注;規則的構建需要充分考慮創新句的語言特征和句法結構,需要領域專家的參與,可以采用正則表達式等進行表征;最后,基于規則抽取創新句,通過實驗證明抽取效果。有些創新句子并不遵循創新內容的常用表達方式,針對此類創新內容,研究者往往為其制定專用的句子模板[22],通過模式識別進行抽取。基于常用表達方式構建的規則可視為基礎規則,基于特殊表達方式構建的規則可視為擴展規則,二者可以相互補充,形成組合規則,優化抽取效果,豐富創新內容抽取的規則庫。利用句法結構可以從科技文獻中識別出揭示創新內容的句子,但還沒有揭示創新句內部主題概念的關系。對創新句進行依存句法分析[23],可以實現創新內容的細粒度識別與分析,如識別創新內容的核心主題詞、實體對及其語義關系、屬性實例等。

通過主流實踐的觀察發現,在對創新內容進行抽取時,基于觸發詞的方法、基于領域詞表的方法以及基于句法結構的方法,往往并不是單獨使用某一種方法,而是采取多種方法的結合,相輔相成,其常見的結合方式如圖1所示。科技文獻中的文本信息可以表達科學創新。此外,科技文獻中的圖片、表格等可視化元素往往也能夠反映創新成果,因此,有些研究基于規則和啟發式的方法,對文獻中的圖表等可視化表示元素進行創新內容的識別[24]。

圖1 基于規則的創新內容抽取方法一般流程

基于規則的方法,其優勢在于可解釋性及領域針對性強,不足之處在于查全率低、規則設計困難且移植性差。查全率低是由于僅憑人工經驗制定的抽取規則具有局限性,選取的特征和制定的規則無法完全覆蓋創新內容的所有語言學現象。規則設計困難是因為依賴于領域專家的參與,為保證查全率而設計足夠多的規則時,難以保證各規則間不沖突、不冗余,學科領域間的差異使得不同領域之間的抽取規則難以直接移植復用。

2.2 基于機器學習的創新內容識別與抽取

此類方法通常將創新內容抽取問題轉化為句子分類問題,如二分類問題[25]和多分類問題[23,26-28],主要是將表達科技創新內容的句子劃分為事實、假設、問題、方法、結果、意義、目標等多個語義類型,再利用機器學習模型對全文進行句子語義類型的自動分類。Cagliero等[29]率先提出了一種基于回歸技術的有監督方法,該方法可用于確定科技文獻中與亮點相似性最高的K個句子,并以此對句子進行標注,形成訓練集,將訓練好的回歸模型用于預測文獻中句子與亮點之間的相似度,相似度越高的句子越有可能作為科技文獻的亮點。

從機器學習的流程來看,主要包括以下幾個步驟:獲取數據、文本預處理、特征選取、模型訓練與調優,以及評估。具體來看,數據集可以是科技文獻的全文或摘要,主要來自生物醫學[30-31]、材料化學[32-33]、信息科學[19,34]等寫作風格較為統一、關鍵創新內容較為明確的理工科領域。文本預處理過程主要包括分詞、分句或子句切分、標題劃歸和人工類型標注等[23]。其中,子句是文本中語義完整、不中斷的區間[35],是一種介于句子和從句之間的粒度,子句切分可以用于更細粒度的創新內容識別與抽取。句子所在的章節與句子是否為創新內容具有相關性,創新內容更可能出現在摘要、研究結果和結論等章節[7],因此,需要進行標題劃歸,將所有標題都轉換為“摘要”“引言”“相關研究工作”“研究方法”“研究結果”“結論”等標準章節標題中的一個,以便將宏觀的結構信息結合到機器學習模型中。完成預處理后,主要選取以下特征:①詞性;②詞表;③時態,現在時的句子更可能是既有事實,過去時的句子更可能被預測為研究結果[36];④章節名稱,創新內容更可能出現在摘要、研究結果和結論等章節[7];⑤引用,引用了其他文獻的句子更可能是既有事實,而指向公式或圖表的句子則更有可能是研究結果[37]。接下來,利用標注語料訓練支持向量機、條件隨機場、隨機森林、梯度提升等多個機器學習分類器,并選擇其中效果較好的一個分類器,或將多個效果較好的分類器進行集成,作為最終的模型對科技文獻全文進行句子類別的識別,將創新內容抽取出來形成創新句子集。

2.3 基于深度學習的創新內容識別與抽取

相較于傳統機器學習方法,深度學習更能夠自動找出對分類很重要的特征。深度學習方法既可以從學術文本中抽取創新內容,也可以對創新內容做進一步的細粒度抽取。運用深度學習方法抽取創新內容時,由于當前創新內容數據集的缺乏,往往需要以科技文獻全文本作為數據來源,自行構建創新內容數據集,在數據集上訓練BERT(bidirectional encoder representations from transformers)、Trans‐former、RNN(recurrent neural network)等深度學習模型,并將訓練好的模型用于識別表述學術論文創新內容的句子[38-41]。

具體來看,在科技文獻創新內容抽取方面有更多實踐將深度學習模型與基于規則的抽取方法、傳統機器學習模型結合使用。深度學習和基于規則的方法相結合,既可以先利用集中體現文章核心創新內容的主題詞和體現創新內容語言特征的觸發詞等制定抽取規則,對全文進行篩選,初步形成候選創新句子集,再利用深度學習模型從候選句子中識別出創新句[10];也可以先利用深度學習模型,判斷是否包含科學創新相關表述,再制定規則對創新句進行細粒度的抽取[11,42],如進一步從創新內容中抽取出研究方法、研究成果、研究價值等要素。將機器特征和人工特征融合,可以有效提升抽取效果[43],因此,有學者利用“深度學習模型+傳統機器學習模型”的方法,將來自篇章、句子、字詞3個層面的26個人工特征指標與word2vec和one-hot等機器特征基于LSTM(long short-term memory)、CNN(convolutional neural networks)、BERT模型從橫向、縱向進行特征融合,完成科技文獻中實驗設計因素[44]、論斷句(claim sentence)[45]等創新要素的抽取。也有學者將在其數據集上表現最好的傳統機器學習模型(深度森林模型)和深度學習模型(BERT模型)進行融合,融合后的模型表現優于先前獨立的兩個模型[27]。

上述方法均可用于從學術文本中抽取出創新內容,若需要對創新內容做進一步的細粒度挖掘,如挖掘出創新內容中的方法、結果、價值、論據等實體及其之間的因果、從屬、比較、補充等關系,則需要對創新內容構建結構化語義模型,如Vogt等[46]提出的研究貢獻模型(research contribu‐tion model,RCM)和Magnusson等[47]提出的科學主張圖模式(graph schema),按照構建好的語義模型中定義的概念和概念間的關系對訓練文檔進行標注,通過標注好的大量文檔對深度學習模型進行訓練,利用深度學習模型實現對創新內容的細粒度挖掘,自動填充知識庫,從而構建出細粒度的創新內容知識圖譜,如開放研究知識圖譜(open research knowledge graph,ORKG)[48]和科學主張數據集(SciClaim)[47]。

面向科學領域的信息抽取是圖書情報領域的主流研究方向,當前圍繞科學創新內容的識別與抽取的研究重點在于開發相關機器學習算法。這些研究通常以科技文獻全文或摘要作為數據來源,在模型的選取上,主要采用統計機器學習模型與深度學習模型相結合的方法,已在若干領域取得了較好的效果。同時,該方法存在顯著的學科差異,其應用集中在生物醫學、材料化學及信息科學領域,部分研究將其應用于社會科學領域[47],但目前尚未有研究將其應用于藝術人文等學科,模型的泛化能力、算法的可移植性仍有待探索考證。

3 科技文獻中創新內容的結構化組織

如果將抽取的創新內容以新的形式結構化組織起來,將促進科研人員或計算機對創新內容的理解與處理。將創新內容進行結構化組織,實現創新內容之間的關聯,將有利于針對創新內容的細粒度檢索、基于關聯創新內容的知識發現,促進知識傳播和科學交流。由于創新內容一般表現為若干句子的集合,目前已有的科技文獻相關的結構化數據模型都具有不同程度的組織創新內容的能力,主要分為兩類:通用數據模型和專有數據模型。通用數據模型本身并非專門針對創新內容而構建,但可以用于創新內容的結構化組織,如篇章結構模型[49]和納米出版物模型[50]等;專有數據模型是專門針對創新內容而構建的,可以對創新內容中的細粒度科學概念、實體、關系等進行細粒度的組織。

3.1 通用數據模型對比

目前,通用數據模型主要有兩類:論證結構模型和篇章結構模型。如表1所示,論證結構模型用于對科學論文的論證要素進行結構組織,主要包括圖爾敏模型(the Toulmin model)[51]、論證模型本體(argument model ontology,AMO)[52]、SWAN(semantic web application sineuro medicine)本體[53]和微型出版物(micropublication)[54]等;篇章結構模型專門用于對論文中的研究目標、假設、論據、方法、實驗及結論等體現科學創新內容的功能元素進行組織[55],經典的篇章結構模型主要有CISP(core information about scientific papers)本體模型[56]、核心科學概念框架(core scientific concepts)模型[57]和SPAR(semantic publishing and referencing)系列本體[58]等。

表1 創新內容結構化組織的通用數據模型

3.2 專有數據模型對比

相較于通用數據模型,專門針對創新內容構建的結構化表征模型數量更多,如表2所示。有些模型將創新句拆分為若干個相互關聯的核心概念,如研究貢獻模型(RCM)[46]、文摘創新內容語義模型[6]等。篇章結構中的結論要素是創新性研究成果的總結,能夠表示科技文獻中的關鍵創新內容。有研究提出了基于納米出版物的結論型知識元語義描述模型[60]和涉及科技文獻結論的知識元本體[2],并對結論部分進行結構化組織。科技文獻創新內容的形式語義較為復雜,有學者在三元組的基礎上,提出了用于表示不確定性知識(即帶有假設性、推測性或互相矛盾的科學創新內容)的四元組[61]、用于表示科學主張的super pattern五元組[62]。科學數據集構建的過程中會使用相應的數據模型,比如,在構建科學主張數據集(SciClaim)的過程中,提出了用于指導標引工作的圖模式,該模式可用于創新內容的結構化組織[47]。此外,有些創新內容分類模型,如自然語言處理(natural language processing,NLP)領域研究貢獻模型[63]和研究貢獻分類模型[64]等,將科技文獻劃分為研究問題、方法、結果等具有學科特色的篇章類型,而創新內容則在形式化后被賦予上述特定類別。

表2 創新內容結構化表征的專有模型

通過綜合對比分析發現,首先,目前對創新內容進行結構化表征的模型通常以語義技術為基礎,從數據來源上看,仍以理工科文獻為主。其次,絕大多數已有模型都是對單篇科技文獻的單個創新內容進行結構化組織,而科學創新通常是相對于以往的科學實踐而言,對科學創新的表征應具備和相關的科學實踐發生關聯的能力,以支持不同科學創新之間的語義互操作,這種關聯機制還有待深入探索。最后,已有模型通常致力于創新內容本身的結構化,如果能夠將研究人員、貢獻的大小、研究的價值等科學創新要素及特性關聯起來,那么可以在科學交流系統中發揮更大的作用。此外,目前眾多模型對創新內容的認知及表征的粒度都有較大差異,有些模型適用于創新內容的細粒度論證,有些適用于創新內容的篇章類型組織,有些模型可對創新內容進一步細粒度化到概念、詞匯級別,有些模型則只表征到句子級別。

3.3 科技文獻創新內容相關數據資源

數據模型是對創新內容特征及其關系的抽象,而創新內容數據集和知識庫包含了科學創新內容的具體描述,數據資源的質量在一定程度上反映了數據模型的質量;反過來,數據資源又可以對模型的合理性、適用性進行有效的檢驗。目前,與科技文獻創新內容相關的數據資源主要分為兩類:機器學習數據集和語義知識庫。

3.3.1 創新內容相關的機器學習數據集

運用機器學習方法對創新內容進行抽取或結構化組織時,一般需要有數據集對模型進行訓練和測試。科技文獻創新內容機器學習數據集可細分為兩類,如表3所示。一類是以科技文獻全文或摘要作為數據來源進行創新句判斷、標注所構建的數據集,目的在于創新內容的識別。例如,CSPubSum基準數據集[39]、SciARG數據集[65]分別從計算機科學和生物醫學文獻中標注了其中的創新句和創新主張。另一類是對創新內容中的論證結構、實體關系、創新內容類型等進行細粒度的標注,以幫助實現科技文獻創新內容自動結構化表征,如捕捉實體間關系(如因果、比較、統計、比例)的SciClaim數據集[47]、對研究貢獻進行分類的研究貢獻數據集[64]和NLPContributions數據集[63]等。

表3 科技文獻創新內容機器學習數據集

除上述公開發布的數據集外,還有很多研究臨時構建創新內容數據集。這些數據集往往針對于某一特定信息抽取任務,由若干名相關領域人員標注完成,數據集體量較小且并不公開,標注的一致性較低,其質量無從考究。大規模、高質量的開源數據集較少,主要集中于計算機、生物醫學等學科領域,構建科技文獻創新內容的大型基準數據集是亟待解決的問題之一。

3.3.2 創新內容相關的語義知識庫

語義出版技術的出現為科技文獻組織與發布方式提供了新的思路[66],在科技文獻的語義化過程中,產生了大量的語義數據,形成了一些科技文獻語義關聯知識庫,即科學知識圖譜(scientific knowledge graph,SKG),該類知識圖譜目前通常包含科技文獻的元數據,如作者、機構、引文等內容,但文獻的內容仍表示為非結構化文本。近年來,出現了一些對科技文獻中科學知識進行結構化表征的知識圖譜實踐,如描述生物醫學領域的科學知識內容中的實體、屬性及關系的KnowLife[67],對COVID-19病理生理學科學知識內容進行結構化表達的COVID-19知識圖譜[68],涵蓋中醫養生的人物、思想、原則、方法和應用等科學知識的中醫養生知識圖譜[69],用于描述計算機領域的任務(task)、方法(method)、指標(metric)、材料(material)和其他實體(other entity)五類科學實體及其關系,并能夠進行語義查詢的CS-KG(computer science knowledge graph)[70]等。其中不乏一些與科學創新內容相關的研究成果,具體如表4所示。開放研究知識圖譜(ORKG)直接針對研究貢獻進行知識圖譜構建,可用于比較同一研究主題下不同文獻的研究貢獻差異[71]。納米出版物在生物醫學領域得到了廣泛的應用,其斷言(assertion)部分以三元組的形式表征科學主張,描述了生物醫學領域的藥物療效、蛋白質相互作用等關鍵科學創新內容,目前已經發布了超過1000萬個三元組,成為研究生命科學領域和關聯異構數據的寶貴資源[72]。

表4 科技文獻創新內容語義知識庫

目前,主流的科學知識圖譜仍聚焦于科技文獻元數據,基于創新內容的科學知識圖譜尚處于初期階段[73],且表現出嚴重的學科間不均衡現象,大量集中在計算機科學、生物醫學領域。從數據體量上看,納米出版物和CS-KG是兩個大規模的數據集,其余數據集的規模較小。另外,這些數據資源主要針對廣泛的科學知識,而創新內容只是科學知識的一個子集,這就意味著數據集中包含著大量的科學常識、科學定理等內容。有時科學創新和科學常識這兩種知識類型的界限并不明顯,科學創新經過實踐檢驗和時間沉淀后,會成為科學社區認可的科學事實和常識。

4 基于科技文獻創新內容的應用

4.1 科學創新內容的語言特征分析與新型呈現

科學創新內容在科技文獻中往往以創新點的方式出現,特定領域科學創新內容具有一定的領域語言特征。曹樹金等[5]分析了中外情報學領域各兩本期刊的論文在創新對象、主題、類別、語言表達等方面的差異;同樣是針對情報學領域,除了語言學方面的分析,索傳軍等[7]還對研究亮點進行了位置分布特征的分析;溫浩[34]則分析了計算機領域兩本期刊的論文摘要中創新點的詞匯語義分布、謂語動詞語義理解等維度上的特征。這類研究實踐一般會借助人工標引、現有算法工具來識別創新內容,通過常見的統計圖表形式呈現并歸納特定領域中創新內容在語言規則表示層面的分布及其差異,并將分析所得的規則模式應用于科學創新內容的自動化識別過程。

除了統計圖表外,學術出版領域出現了一些對科學創新內容進行新型呈現的有益嘗試。例如,愛思唯爾在傳統科技文獻的基礎上先后提出了亮點[29](highlight)和圖形化摘要(graphic abstract)的呈現方式。包含研究成果、研究方法的亮點有利于提升科學創新的可發現性,同時,簡短的亮點內容對讀者友好,能夠快速獲取全文的關鍵創新內容。而圖形化摘要是對論文主要發現的簡潔的可視化總結[6],已日漸被國際期刊所采納,其呈現的內容主要包括文章概述、關鍵結果、研究過程或方法等內容[74]。有研究表明,圖形化摘要對文章觀點的表達以及文章在社交媒體上的提及度都有正面作用[75]。

4.2 基于科學創新內容的知識服務

基于科技文獻創新內容語義知識庫的智能檢索也正在逐步發展[76]。醫學領域科技文獻的語義化研究較多,已有較為豐富的大規模知識主張抽取、存儲與查詢應用。Open PHACTS(open pharmaceuti‐cal triple store)項目[77]以及由美國國家醫學圖書館(The United States National Library of Medicine,NLM)開發的SemRep工具[78]、SemMedDB知識庫[79]都是從生物醫學文獻中提取三元組的典型代表,可用于科學知識的表征,實現大規模科學創新內容知識單元的抽取、存儲和查詢,支持二次知識發現(literature based discovery,LBD)[80],如輔助藥物發明、支持各種臨床決策和應用等。也有研究針對情報學領域構建了創新內容知識圖譜[81],并在此基礎上初步搭建了智能化檢索平臺[38],用戶能夠以創新對象和創新維度為線索進行檢索。

此外,科學創新內容是科技文獻的本質與核心,將領域內文獻的科學創新內容按照一定的過濾和排序規則進行整合,可高效地獲取相應領域的學科進展綜述。開放研究知識圖譜(ORKG)[48]是一個旨在獲取、發布和處理科技文獻中發表的結構化學術知識的系統,利用ORKG不僅可以自動識別論文中使用的方法、材料及結果,還可以比較相關文獻的研究貢獻,從而輔助高效的科學文獻綜述任務。同時,對創新內容的結構化表征有助于識別領域內有矛盾或爭議性的知識主張[82],為潛在變革性研究發現提供新思路。

4.3 基于科學創新內容的學術評價

目前,基于文獻計量指標的科技評價服務使用文獻網絡代替知識網絡,使用各類文獻指標表示科學創新程度,這是一種非直接的科學創新表示與度量手段。對科學創新及貢獻進行本質的直接表達,在應用過程中可以克服傳統計量方法對科學創新性的計量偏差,提供更全面、客觀的科學貢獻評價等科技服務,有助于建立以創新貢獻為導向的學術評價氛圍,對“破五唯”起到積極推動作用,促進科學交流活動向科學價值創造上的回歸。目前,已出現了基于科學創新內容的學術評價探索,如基于論文內容語義網絡的評估方法[83],基于創新句或研究問題、方法、結論等創新要素的測評方法[84]等,但在具體學術評價實踐活動中仍沒有出現被普遍采納的服務形態。

總體來看,目前基于科學創新內容的大規模落地應用還比較少,現有應用主要聚焦于若干典型領域。在實踐中面臨如下困難:一是底層數據集構建工作量較大,需要對學科領域存量論文進行大規模的結構化處理;二是創新內容結構化表征面臨的學科差異問題尚未解決,運用已有的模型能否對全學科科技文獻創新內容進行結構化組織、效果如何,尚未有深入探索;三是科學創新內容抽取的研究重點在于算法開發與優化,其研究主體和創新知識的組織及領域建模等領域存在差異,各個實踐主體往往著眼于具體的創新內容識別與組織任務,缺乏宏觀的協同意識,各個任務之間往往沒有形成良好的銜接。

5 基于新型科學創新表達的科學交流及其挑戰

5.1 科學交流實踐框架

由圖2可以看出,當前科研人員通過科學實驗、論文寫作發表、同行評議等一系列科學交流活動進行科學創新成果的生產傳播與消費,并通過科技文獻這一主要載體進行創新內容表達,形成顯性知識。當前科學交流體系中的科學基礎設施和科技知識服務基本都圍繞科技文獻而展開,如各類學術數據庫、學術搜索引擎等平臺。科學創新內容既是科學交流的主要對象,也是科學進步的基石,在學術大數據的環境下,基于科技文獻的科學交流機制已難以滿足科研人員快速獲取、跟蹤和理解科學創新內容的需求,并帶來了基于科技文獻相關計量指標的學術評價活動的繁榮。基于科技文獻而不是基于科學貢獻的評價機制已經受到來自學術共同體的詬病,科學界亟須探索出一種新的科學交流模式,以解決當前科學交流過程中存在的種種問題。

圖2 基于新型科學創新表達的科學交流實踐框架

目前主要有兩條實踐路徑。一條路徑如上文所述,通過對海量科技文獻中的包括科學創新內容在內的各類知識元進行識別抽取、結構化組織,使用新的表達機制來表征科學創新內容,形成各類科學知識圖譜等知識庫,為各類智能科技知識服務提供支撐,這是一種漸進型方案;另一條即圖2中由“科學創新”指向“科學創新的新表達形態”這一路徑,其直接對科學創新或創新內容進行新的表達,而不一定通過“科技文獻”這一傳統中介,可以避免因科技文獻的處理算法性能的限制而造成的對科學創新內容識別不精確等問題,同時也可解決科學創新內容的可信任性及溯源等問題,這是一種突破型方案。在科學創新的新表達機制下,開展相關科學基礎設施的建設以及相應智能場景的設計,無疑需要科研人員、內容編輯、出版商、技術服務商等多方主體的參與,甚至會催生出新的科學交流參與主體。

5.2 未來發展建議

無論是漸進型方案還是突破型方案,基于新型科學創新表達的科學交流過程都需要解決相關的核心問題,重點圍繞科學創新內容的新表達形態設計、科學創新內容基礎設施建設以及基于科學創新的智能場景設計等方面開展研究與實踐。

(1)科學創新內容的新表達形態設計。在新的表達形態下,科研人員可以利用用戶友好的語義編輯工具,直接對科學創新本身進行結構化的表達,如SciKGTeX[85]、RASH(research articles in simpli‐fied HTML)[86]等工具。這些編輯器的語義組件既可以對科學創新內容等知識元進行語義化編撰,支持研究人員在傳統的“科技文獻”這一載體類型的論文寫作過程中,用形式語義對科學創新內容進行標注[87-89];也可以不依賴于科技文獻這一表達載體,進行全新的關于科學創新內容的寫作表達,形成新型學術出版物類型,如納米出版物等形態。由于科學創新內容一經發布便是結構化的,不需要特意對其進行識別和抽取。對科學創新內容進行新的表達設計及實現,需要考慮科學創新的創作主體、創作時間、創新內容的特征、創新內容組成要素及其關聯、不同創新內容的關聯機制等信息,以實現對科學創新內容的有效管理、溯源及應用。

(2)科學創新內容基礎設施建設。科學創新內容基礎設施是相關智能應用場景的基礎,其中科學創新知識庫是核心資產,可通過漸進型和突破型方法來構建,其關鍵在于相關智能算法及編撰工具的支撐。創新內容分發平臺則為用戶提供了關于具體科學創新內容的提交、審核、發表、傳播等機制及統一入口,輔助科學創新過程的高效開展。智能分析工具可為用戶提供如創新內容檢索與推送、學科前沿主題分析等基礎學術服務。

(3)基于科學創新的智能場景設計。由于新的表達機制相對于傳統的“科技文獻”可以更為簡明、直接地反映創新性科學成果,可以提供精準的科學知識獲取等服務,有效緩解當前學術大數據環境下的知識獲取困境,從而成為科學交流的新媒介。基于科學創新的新表達方式,能夠催生一批新的智慧應用,如科學創新內容的論證與演化關系、推翻與支撐關系、改進與突破關系的可視分析、基于科學創新內容的科學前沿識別與趨勢探測、競爭性科學發現挖掘與對比,以及學術貢獻評價等。當然,以上應用場景只是結合當前科學交流體系而產生的有限的構想,新的科學交流機制可能還會催生前所未有的產品和服務形態。

5.3 面臨的挑戰

雖然基于科學創新的新表達形態的科學交流機制能夠彌補現有科學交流機制的短板、解決目前科學交流過程中存在的諸多問題,但是將基于科學創新內容的科學交流機制廣泛應用于實踐還面臨著重重挑戰。

(1)基于大規模科技文獻的科學創新內容識別抽取的效果仍有待提升。基于科技文獻創新內容識別抽取的漸進型方案作為當前的主流實踐,目前主要聚焦于若干典型學科,相關算法存在領域移植困難、不能完全無監督執行、識別結果準確度不高、缺乏大規模的訓練數據集等問題,對后續的智能應用將產生不利影響。大語言模型(large language model)技術的出現與流行,為科技文獻創新內容的識別抽取帶來了性能提升[40],然而在算法結果的可解釋性以及細粒度的創新要素的識別與關聯效果上仍有待進一步探索與改善。

(2)基于全學科領域的科學創新內容的組織及具體實現仍有待探索。不同學科領域的科學創新內容,其語言風格、表達方式、創新類型迥異,現有的科學創新數據模型通常來源于理工科領域,藝術人文學科的創新內容是否可以被形式化、現有的模式是否適用、是否存在符合全學科的科學創新內容組織模式等問題都需要進一步探索,且新的組織模型如何大規模應用、相關工具生態及實踐機制的設計仍是具有挑戰性的任務。

(3)相關智能場景設計過程的多學科、多主體協作有待加強。正如上文所述,科學創新內容等知識元的識別抽取等實踐仍以算法開發為主,形成的相關科學創新數據集只是作為驗證算法性能的副產品,并沒有有效地對接到實際的應用場景。同時,對于科學創新內容的識別、組織及應用的不同環節,其實踐主體通常由計算機領域、圖書情報學科以及知識服務提供商等各自開展,缺乏圍繞科學創新內容識別及應用等全流程的宏觀協同機制與實踐意識。這一過程對多方參與主體提出了新的要求,如科研人員的語義編輯技能、技術人員的知識圖譜構建等,同時,新的商業模式、產品與服務形態以及利益分配方案都需要再思考。

6 總 結

基于科技文獻的科學交流機制已經日漸不能滿足科研人員快速獲取科研信息的需求,并且帶來了基于科技文獻計量指標的科學評價形式。構建基于科學創新內容的科學交流機制是彌補現有科學交流機制短板、解決現存問題的有效途徑之一。本文對國內外相關研究實踐進行了系統調研和分析,闡述了科學創新的概念內涵及特征,梳理了科技文獻創新內容識別抽取的主要方法,歸納了創新內容結構化組織的數據模型,并分析了基于科學創新內容的智能應用。最后,提出了一種基于新型科學創新表達形態的科學交流實踐框架,以及該框架的實踐建議和可能面臨的挑戰。縱觀當前實踐,科學創新內容的相關研究及實踐的重要性尚未受到科研人員足夠的關注,未來新的科學交流機制的構建仍面臨很多挑戰,科學創新的類型及學科差異仍有待梳理,科學創新內容識別抽取的自動化、通用化仍需要加強,全學科的科學創新語義組織及實踐仍需要持續探索,新的科學交流機制的落地應用仍需要大量的跨界合作,以打破現有科學交流機制環境中知識獲取與傳播的困境、更好地支持科學知識獲取與同行評議等科學交流活動。

猜你喜歡
語義科學科技
語言與語義
科學大爆炸
小小藝術家(2019年6期)2019-06-24 17:39:44
科技助我來看云
科技在線
科學
科技在線
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
科技在線
科學拔牙
認知范疇模糊與語義模糊
主站蜘蛛池模板: 日韩精品无码免费专网站| 日韩无码一二三区| 久久无码高潮喷水| 伊人成人在线| 中文字幕在线欧美| 六月婷婷精品视频在线观看 | 精品久久久久久成人AV| 亚洲熟女中文字幕男人总站| 精品夜恋影院亚洲欧洲| 欧美在线一级片| 夜夜爽免费视频| 国产女人在线观看| 欧美激情福利| 国产99在线| 99激情网| 91国内外精品自在线播放| 成人久久精品一区二区三区| 国产成人欧美| 欧美另类视频一区二区三区| 精品无码专区亚洲| 国产一区二区免费播放| 国产亚洲精品97在线观看| 91久久大香线蕉| 国产一区二区人大臿蕉香蕉| 毛片大全免费观看| 国产日产欧美精品| 国产精品大白天新婚身材| 国产成人福利在线| 欧美一级高清视频在线播放| 亚洲天堂网在线播放| 国产尤物在线播放| 五月婷婷丁香综合| 亚洲精品777| 22sihu国产精品视频影视资讯| 久久国产拍爱| 久久午夜夜伦鲁鲁片不卡| 亚洲日韩精品综合在线一区二区 | 亚洲专区一区二区在线观看| 欧美日韩国产综合视频在线观看 | 国产一区二区三区视频| 欧美激情视频一区二区三区免费| 97一区二区在线播放| 99精品高清在线播放| 欧美天天干| 国产精品一区二区不卡的视频| 亚洲综合极品香蕉久久网| 久久国产精品夜色| 欧美一区精品| 国产鲁鲁视频在线观看| 激情爆乳一区二区| 国产浮力第一页永久地址| 国产一线在线| 欧美日韩一区二区在线播放| 欧美日韩免费| 国产乱子伦手机在线| 欧美日韩理论| 久久久久久久97| 国产欧美视频在线观看| AV老司机AV天堂| 亚洲欧洲日产国产无码AV| 黄片在线永久| 日韩不卡免费视频| 国产精品久久精品| 老司机午夜精品视频你懂的| 在线观看无码a∨| 日本午夜视频在线观看| 波多野结衣AV无码久久一区| 无码高潮喷水专区久久| 性喷潮久久久久久久久| 日韩精品一区二区三区大桥未久 | 五月天福利视频| 精品無碼一區在線觀看 | 久久中文电影| 欧美成在线视频| 国产免费一级精品视频| 亚洲丝袜第一页| 成人国产小视频| 99在线观看免费视频| 亚洲国产成人综合精品2020 | 国产在线第二页| 国产偷倩视频| 日本在线欧美在线|