


摘 要:[目的/意義]科學論文中的圖、表等科學數據(文內數據)蘊含有豐富的知識內容。基于細粒度語義組織的文內數據發現有效聚合文獻、科學數據兩類科研產出,為未來實現全領域、全維度、全粒度、全類型的深度知識發現奠定基礎。[方法/過程]梳理、對比、分析現有3類文內數據的發現模式,嘗試構建面向細粒度內容描述的文內數據本體,揭示文內數據的顯性特征、內容特征以及與其他類型科學產出的關聯特征。[結果/結論]從面向應用的角度,提出基于本體的文內數據知識發現技術框架,細化“信息抽取—語義標注—關聯應用”技術路線,針對關鍵點技術進行討論。文內數據本體為科學論文內科學數據提供語義描述和關聯組織依據,人工標注結合機器學習自動標注可以解決文內數據部分特征發現問題。
關鍵詞:文內數據;科學數據;科學論文;本體組織;數據發現
DOI:10.3969/j.issn.1008-0821.2020.02.005
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2020)02-0034-10
Research on the Organization and Discovery of
Scientific Data in Scientific Papers
Ding Pei1,2,3
(1.National Science Library,Chinese Academy of Sciences,Beijing 100190,China;
2.School of Economics and Management,University of Chinese Academy of Sciences,
Beijing 100190,China;
3.Library,Shenzhen University,Shenzhen 518060,China)
Abstract:[Purpose/Meaning]The figures,tables and other scientific data in scientific papers(Scientific data in papers,SDIP)contain abundant knowledge.SDIP discovery based on fine-grained semantic organization can effectively aggregate literature and scientific data,laying a foundation for future in-depth knowledge discovery in all fields,all dimensions,all granularity and all types.[Method/Process]By combing,comparing and analyzing the existing organization and discovery patterns of three types of SDIP,this paper attempted to construct SDIP ontology that oriented to fine-grained knowledge description,and revealed SDIPs the explicit characteristics,content characteristics and characteristics correlation with other types of scientific output.[Result/Conclusions]From the perspective of application,this paper proposed an ontology-based framework for SDIP knowledge discovery,elaborated the technical route of“information extraction-semantic annotation-relational application”,and discussed the key technologies.Ontology provided semantic description and relevance discovery basis for SDIP.Manual annotation and automatic annotation using machine learning algorithm could solve the some problem of SDIP feature discovery.
Key words:scientific data in scientific papers;scientific data;scientific literature;ontology organization;data discovery
數據驅動的科學研究范式下,科學數據的共享、發現毋庸置疑成為全球重視的問題。得益于大規??茖W數據倉儲及共享平臺建設升級,國家、大學積極推動制定科學數據開放獲取政策,科研資助機構要求科研人員提供數據管理計劃,期刊出版社努力推動科學數據引用、數據鏈接解析、科學數據提交及科學數據出版,科學數據的共享和發現在近幾年內有巨大的改善。然而,科學數據本身的敏感性、機密性,數據出版環境不成熟,文獻和數據相互引用缺少統一規范,數據組織停留在粗粒度數據集的簡單描述,科學文獻和科學數據多基于簡單的科研屬性特征關聯,這一系列因素導致科學數據的深度內容發現及跨類型的知識發現進展遲緩。
當前,基于關鍵詞搜索、相關度排序算法的文獻全文檢索發現技術已經十分成熟。在語義出版浪潮推動下,文獻細粒度語義組織、基于機器學習算法的文獻細粒度內容的抽取和語義標注、論文語義功能單元的識別和抽取也逐步走向實際應用??茖W文獻的精準、細粒度發現為科學數據的細粒度發現提供了很好的思路。
圖、表、公式等科學數據被大量應用于科學論文中。它們往往是對信息的高度概括,幫助作者清晰簡潔地呈現出詳細的結果和復雜的關系、模式和趨勢,增加了讀者對研究結果的理解,并減少了論文手稿長度。它們是科學論文中不可或缺的組成。本研究稱這些數據為文內數據。文內數據是文獻和科學數據的交叉點,一方面支撐科學文獻的重要論點,濃縮科研精華,幫助讀者理解研究框架;另一方面作為科學數據“冰山”一角,是科學工作流過程數據、科學數據倉儲的延續,承載科學數據發現的職責。本研究以文內數據作為科學數據精準、細粒度發現的突破口,對文內數據多維特征進行細粒度語義組織,建立文內數據與文獻、科學數據集在引用、論證作用、隸屬關系、研究主張(研究假設、研究結果、研究主題等)、科學方法等方面的關聯,嘗試解決基于科學數據細粒度特征的文獻搜索聚類和基于文獻主題、研究方法等的多類型數據聚合等問題,嘗試以文內數據為橋梁,建立起數據、文獻兩類科學產出之間的聯系,促進數據的細粒度發現,為更加深刻的文獻分析提供支點,為未來實現全領域、全維度、全粒度的文獻和數據關聯奠定基礎。
2020年2月第40卷第2期現代情報Journal of Modern InformationFeb.,2020Vol.40 No.2
2020年2月第40卷第2期科學論文內的科學數據組織和發現研究
www.xdqb.net
Feb.,2020Vol.40 No.2
1 科學論文內科學數據的發現研究現狀
目前,科學論文內科學數據的發現采用過3種方式,分別是基于元數據的數據發現、基于本體的數據發現以及基于信息抽取技術的數據標注與發現。
元數據模型常應用于大型的數據收集和科學數據倉儲的管理中。它是描述信息資源或數據對象的數據。它通過結構化的描述,對具體的情境進行定制化的解釋,實現對資源的組織、發現、互操作、歸檔和保藏等。其優勢在于表達的多樣化、門檻低,因而,元數據是最早應用于文內數據發現的組織方式。
Sandusky R J等調查發現科研人員希望可以檢索發現期刊文章內的圖、表、地圖、照片等內容[1]。劍橋科學文摘(Cambridge Scientific Abstracts,CSA)創造性地提出“深度索引”方法,抽取文獻中的表格、圖片等數據,標引其元數據,建立科學數據的獨立索引數據庫,進而提供基于關鍵詞、作者、單位的元數據檢索服務[2]。BioText Search Engine[3]同樣也采用元數據索引方式來標注文獻內的圖表數據。曹樹金等構建細粒度聚合單元元數據框架并將其用于數據檢索,實現圖片標題、文獻來源、上下文內容等檢索,并提供顏色、發表年度、關鍵詞、圖片類別分面功能,未深入描述與揭示圖表與章節、篇章及句群的聯系[4]。SciData是面向通用科學數據組織的元數據模型,其描述了科學數據的方法論、系統、數據集、參數、值、單元等要素[5]。元數據發現方式并不能完全解決數據之間的語義異構問題,不同領域知識下的元數據存在誤解的可能,跨學科的元數據難以交互使用,還存在描述粒度大、數據難以被計算機理解和自動處理、無法實現語義化檢索和知識推理等缺點。
本體能解決元數據的上述不足,它以一種明確、形式化的方式表示信息資源,通過賦予異構數據以統一的語義信息,使得機器能夠理解信息并自動處理信息之間的語義聯系,從而提高異構數據之間的互操作性。
在本體組織方面,目前與科學數據相關的本體大都將科學數據作為整體對象,粗粒度描述其特征,并基于粗粒度特征建立科學數據和科學文獻的關聯。現有科學數據的本體組織又可分為4類。第一類是在科學研究的本體中,將數據(或數據集)作為整體對象納入本體,描述其在科研屬性方面的特征。VIVO本體,引用本體Citation Typing Ontology(CITO)、CiTO4Data本體等,工作流本體如Open Provenance Model(OPM)來源模型,Janus科研工作流本體,科研證據本體Evidence Ontology(ECO)分別在粗粒度層次揭示科學數據的科研屬性特征,如機構、項目、科學工作流、數據引用、證據作用等[6]。李丹丹探索將這些屬性都集成在一個本體設計中[7]。第二類是通用的科學實驗本體或科學數據本體。這類本體對科學數據的科學過程場景抽象化,通過重用已有本體屬性,描述科學數據在科研屬性(機構、作者)、主題及與文獻關聯等方面的特征。如Brahaj A設計的科學調查核心本體(Core Ontology for Scientific Investigations,COSI)[8]、Chalk S J提出的Scientific Data Model[5],鮮國建提出的農業領域的科學數據與科技文獻語義關聯模型[9]、馬雨萌等設計的科學數據語義組織框架[10]均是屬于此類關聯本體。第三類本體是面向具體學科領域的科學數據本體,這類本體多結合具體的領域知識(敘詞表或分類法),重點關注領域知識間的相互關系,數據僅是知識的載體形式,海洋領域本體MarineTLO[11],中醫胃病科學數據本體[12]、水稻基因實驗本體[13],植物學基因表達實驗元數據模型[14]均是此類本體或描述。第四類本體與文內數據有關??茖W論文內容本體揭示科學論文各部分的屬性,部分本體對文內數據提供簡單描述。DoCo[15],Discourse Elements Ontology(DEO)[16]等本體定義了文獻內部的圖、表等組件,描述它們的標簽、圖表框,未深入描述圖表的內容。科學論文功能單元本體[17]嘗試定義文內數據的數據分析、數據描述內容,并匹配文內數據的知識類型屬性(如確定性程度、情感傾向、來源),但未進一步細粒度分解文內數據內容。上述4類本體均不是專門面向文內數據組織,未能解決文內數據細粒度描述及發現問題。
近年來,得益于自然語言處理技術和機器學習算法的不斷改進,加之機器學習在處理細粒度、大規模數據挖掘上的天然優勢,許多研究者嘗試基于計算機機器學習技術,并結合相關本體對科學論文中的圖表實施信息抽取及語義標注,實現圖表發現。Siegel N等設計了FigureSeer工具,它是一種新穎的端到端框架,該框架可以自動地定位、分類研究論文中的折線圖、散點圖、流程圖、Graph Plots圖塊、數學算法、條形圖、表格等格式圖形,實現折線圖數據和數據標簽內容的準確提取[18]。WebPlotDigitizer(條形圖、二維折線圖、極坐標圖、三元相位圖、地圖)[19]、ChartSense(線圖、面積圖、雷達圖、條形圖、餅圖)[20]、ReVision(柱狀圖、餅圖)[21]、Scatteract(散點圖)[22]等半自動工具,在人工幫助確定坐標軸、顏色、基點位置等信息后,也可抽取和標注圖表數據。Kembhavi A等引入了一種圖解析圖(Diagram Parse Graphs,DPG)的方法,識別文獻中視覺插圖(如食物鏈圖、大氣循環圖等)的插圖元素,并建立元素之間的語義關系,使之用于知識問答系統[23]。Lee P等提出一種從系統樹圖(Dendrograms)中提取信息的新方法,自動識別科學文獻中的系統樹圖,提取樹結構的關鍵成分,重建樹,恢復樹的層次關系[24]。SemAnn利用PDF文檔解析工具PDF.js和自定義抽取算法將PDF文檔中人工選中的表格轉換為CSV格式,然后利用CSV-To-RDF轉換工具結合嵌入本體(如DBpedia、FOAF或自定義)實現對抽取出來的表格數據進行半自動的語義標注[25]。Cao H等通過構建觀測事件模型,借助本體工具,利用規范化的觀測術語、實體對象,將觀測數據表格轉化為可理解的事件,從而進行語義標注[26]。
機器學習、抽取、標注的方法在文內數據識別、抽取、顯性信息理解等方面有一定優勢,但廣范圍應用受到限制。提取和理解數據內容需要借助本體,尤其是數據理解。同時由于面向特定對象,且機器分類、提取精準度低于85%,現有技術方法并不能移植到實際應用中。此外,現有技術也無法讓機器理解文內數據和科學論文在研究屬性(如論證作用、假設、結果、方法等)上的隱性關聯。
綜合上述調研發現,現有的3種方式均存在自身局限性。本研究試圖結合本體構建和機器語義標注兩種方式,構建專門面向細粒度內容描述的文內數據本體,提出基于本體的文內數據細粒度發現及關聯科學論文的技術路線,推動科學數據細粒度發現。
2 文內數據定義及發現場景
文內數據是指在論文、專著、專利、會議文獻、網絡信息資源等科學文獻中用以描述示例、內容解釋、論述佐證、信息展示的異構媒體內容,比如圖、表、公式、數據集等。它是科學數據在文獻中的表現形式之一。文內數據是一個復合化的信息載體,它具有文章內容片段,科學數據片段的雙重身份的特點,也是整個科學研究的重要組成部分。因此從復合的信息內容看,文內數據包括文章信息(例如章節位置、上下文內容、論證支持),數據信息(如數據引用,數據來源方式),科學研究信息(如支持假設、數據結論、研究方法、主題等),此外文內數據本身有固有特征(如媒體類型)。
科研人員在查看文獻中的圖表數據時,通常需要結合圖表標題、圖例、圖注(包括圖內和圖后)、數據標簽、圖表的上下文解釋理解圖表內涵。此外,從圖表數字中得出的關鍵推論有時不會在文本中明確地表述出來(因為人們可以很容易地從視覺上推斷出來)??蒲腥藛T希望可以通過圖表來訪問圖表的原始數據,能夠檢索到圖表中隱藏的推論(例如數據趨勢、特征點),基于關鍵詞檢索找到含有相同研究結論、使用相同研究方法的其他數據或論文,抑或是根據圖表中的某個數據參數來追蹤后續研究。上述需求場景涉及文內數據的多個屬性以及與科學論文、科學數據集以及科學研究的關聯交互。
從科研人員利用文內數據的角度,筆者描述3種文內數據發現場景。
1)基于文內數據顯性特征的發現。文內數據顯性特征主要包括媒體特征(圖表類型)、圖例,元數據(如標題、關鍵詞)??蒲腥藛T可以基于這些特征縮小發現范圍,查找特定類型、含特定圖例信息的文內數據。
2)基于文內數據內容屬性的發現。文內數據的內容屬性包括數據參數、數據特征、數據結果、主題、學科等。既涵蓋在上下文或圖注部分容易獲取的內容(數據結論、主題、學科),也包括需要深度理解才能得到的隱藏知識內容,如數據參數、數據特征。
3)基于關聯研究屬性的發現擴展。文內數據通過引用、論證作用、隸屬關系(如數據隸屬于某篇文章、某個研究)、研究主張(研究假設、研究結果、研究主題等)、科學方法等與其他類型的科學產出(如科學論文、科學數據集)建立關聯。研究人員可以基于這些特征擴展檢索范圍,實現跨類型的知識發現。
基于上述理解,本研究采用本體構建的方式,嘗試將文內數據所包含的多方面的信息內容形式化,以反映核心內容及其背景、語境信息、關聯,方便知識的集成、推理和發現。
3 本體框架構建
借助本體構建編輯工具Protégé,在明確本體范圍和應用范圍的前提下,筆者分析、總結并抽象化實際科學論文中文內數據所包含、關聯的相關信息,咨詢領域專家,結合文獻調研,借鑒已有的科學數據相關本體和描述,并復用相關本體類目和屬性,構建一個專門面向文內數據發現的應用本體。
文內數據的本體框架:通過語義建模,將上文中3種場景抽象概念化,建立概念實體間的語義關系,形成細粒度文內數據的描述本體。本體主要組織框架如圖1所示。
設計的本體從顯性特征、內容特征以及文內數據與其他類型的科學產出的關聯特征3個維度對文內數據進行描述。
揭示顯性特征的概念包括媒體特征、圖例、元數據等。在媒體類型部分,文內數據本體定義了圖、表格、復合圖、公式、圖片5大類45種格式的數據類型,并嘗試建立數據媒體類型和數據特征之間的關系。元數據描述是對信息實體的簡單描述,這里的信息實體包括文內數據、科學數據、科學論文、科學研究。如文內數據的元數據有標題、關鍵詞、引用、數據來源等,科學研究的元數據有角色、機構、基金、關鍵詞等。
揭示內容特征的概念包括數據特征、數據參數、數據結果、主題、學科等。主題、學科是描述
領域知識及建立領域知識關聯時常用的概念,在文內數據本體內,將其列入科學研究的科學主張概念下,用于揭示不同科學產出類型的領域知識。
數據特征、數據參數、數據結果揭示文內數據的深度理解內容。數據特征用于描述圖表所特有的表達特性,例如折線圖表達的趨勢,柱狀圖表達的數值最大、最小,散點圖表達的數值集中、分散情況,流程圖表達的對象相關關系等。數據特征通常結合數據參數內容,共同揭示文內數據的數據結論內容。
文內數據的數據展示部分比較復雜,它有不同類型,如數值、流程、關系、成像特征等,也有多重信息,如數據標題、圖注標簽、坐標軸標簽信息。為了讓計算機能夠理解這些信息,本研究在本體中將其描述為參數對象在某條件下,某個度量單位的值,即數據參數概念。參數對象是指文內數據描述內容、特征的主體對象,條件則限定了參數對象所處的實驗或者測量環境,一個參數可以限定零到多個條件。度量是文內數據參數對象所要衡量的維度,而度量值是在度量維度下的取值,兩者共同組成了參數對象的數值描述部分。度量分為不同的類型,其對應度量值的不同類型。例如圖2左側第一條的數據可以描述為基因左側大腦皮層顳中回BA21(參數對象)在健康情況下的(條件)左腦(條件)其激活中值(度量)為100(度量值)。又如圖2中的對象可以描述為文內數據(參數對象)有屬性(度量)是科學主張(度量值)。
數據結果指文內數據所闡釋的研究結果。部分作者會直接在文內數據下方的圖注部分或者論文的數據描述部分闡釋關鍵的數據結果,但也存在作者不在科學論文內解釋那些能從文內數據視覺特征中獲取的數據結果的情況。面對這種情況,數據結果需要結合文內數據的數據特征以及數據參數推論獲得。
關聯特征主要揭示了文內數據和科學論文、科學數據集在引用、論證作用、隸屬關系、研究主張
(研究假設、研究結果、研究主題等)、科學方法等方面的關聯。文內數據隸屬于科學論文,它為不同的科學論文功能模塊提供多樣化的論證作用(如解釋說明、證據支撐、反駁觀點等),文內數據是科學數據的一種類型,它和外部科學數據集存在可能的隸屬、引用或相關(基于數據集數據加工而來等)關系。此外,文內數據、科學論文、科學數據集都屬于科學研究的產出,它們都具有科研的屬性,因此在科學主張、科學方法上存在關聯,例如擁有同樣主題或包含的主題存在領域相關關系,擁有同樣的研究假設,所產生的研究結果存在繼承、論證及相關關系,使用類似的科學方法(包括方法和流程)等。
4 基于本體的文內數據知識發現技術框架及路線
文內數據本體為科學論文內科學數據提供語義描述和關聯組織依據,可以應用在專業文獻發現平臺或綜合性的學術搜索引擎的語義組織層,幫助實現基于科學數據細粒度特征的文內數據檢索及文獻聚類,以及為面向跨類型、細粒度的學科知識發現、關聯、推薦奠定基礎。
基于所設計的文內數據本體,本研究提出基于本體的文內數據知識發現技術框架路線,如圖3所示。
文內數據信息抽取是文內數據發現的基礎,基于本體的文內數據標注則是將現實應用中的文內數據實例和抽象化的本體概念進行關聯的過程,基于領域知識及數據組織關系的文內數據細粒度檢索及關聯發現是本體面向應用的最終目的。
4.1 信息抽取
信息抽取的精準度直接影響到文內數據發現的查全率及查準率。文內數據信息來源分兩部分,一部分來自數據本身,如數據點、坐標軸、數據內圖注、圖例等,這部分內容以非文本內容為主,一部分來自數據上下文,這部分內容以純文本為主,包括數據區域外的數據解釋,科學論文上下文中的數據描述、分析及結論。因而,針對不同格式的信息,將抽取任務細分為非文本類型的文內數據信息抽取和文本類型的文內數據信息抽取兩類。
非文本類型的文內數據信息抽取過程是識別文獻中科學數據的邊界,區分數據類型,基于數據的類型特征抽取其結構、數據點等信息,并借助一定的組織模式(如本體)建立可理解的信息展示。從技術實施看,分為數據檢測、數據分類、數據內文本識別、數據提取及理解4個步驟。而基于不同數據類型,信息抽取分不同技術方法。表1對文內數據常見的圖、表兩類數據的抽取技術進行總結。
文本類型的文內數據信息抽取相比非文本類型抽取較為簡單。其步驟有數據上下文內容識別、文本處理、實體抽取、實體標注。目前已有諸多自然語言處理技術方法用于文本信息抽取,本文也不在此進行贅述。
4.2 數據標注
文內數據標注是賦予信息抽取內容以語義,建立本體概念或實例和待標注詞匯之間映射的過程。此模塊涉及文內數據本體構建,基于本體的數據標注兩方面。
本體詳盡程度會直接影響到標注的關聯及發現效果。文內數據本體對文內數據及其關聯的特征進行通用化的定義,而應用于具體領域知識發現時,需要結合相關的領域知識本體(如MESH、GO本體)等來標注文內數據的領域知識屬性。
人工標注和基于機器學習的自動標注是語義標注可選的兩種方式。面對大規模、細粒度的數據、論文標注任務時,自動標注具有明顯的優勢。但自動標注并不適合所有的標注任務。在文內數據的標注任務中,文內數據的媒體類型、元數據、部分科學主張屬性(如主題、方法、研究結論)可以采用機器學習算法(如支持向量機、卷積神經網絡等)來幫助自動標注,而數據特征、數據參數、論證作用等內容的標注,目前適合借助GATE、Annotea等標注工具來人工標注。標注結果以RDF三元組的形式進行存儲。
4.3 應 用
基于標注數據集和本體推理機,借助語義檢索發現工具,可以實現文內數據的細粒度語義檢索,跨類型的知識發現與推薦,知識深度聚合以及輔助檢測文內數據重復。
細粒度的文內數據組織可以使文內數據能夠像文獻一樣,通過主題詞或者數據特征來直接檢索特定數據,例如可以檢索發現含有“精神病患者、不同大腦皮層激活區域、數據對比”或“運用本體構建方法并含有科學數據元素”的圖或者表格,并關聯到圖表所在的文章,若圖表與外部科學數據集存在引用等關系,也可建立起文章—文內數據—科學數據集的關聯。在此基礎上,可以實現特定知識的科學文獻片段、文內數據以及數據集的聚合,幫助發現新研究思路及跨學科的研究。
此外,文內數據的細粒度組織描述還可以幫助發現在不同論文中重復使用同一個圖片或表格的現象,有助于出版社檢測發現剽竊抄襲圖表數據等學術不端行為,這是目前出版行業需要的功能。
5 結 語
未來的知識發現是面向細粒度、跨類型、分布式倉儲、計算機可理解及語義聚合。文內數據作為知識單元的一環,其價值正逐漸被重新重視。本研究對細粒度的文內數據發現進行初步探索,通過構建文內數據本體并提出基于本體的知識發現框架,嘗試同時解決文內數據的深度語義理解和文內數據—文獻—數據集跨類型關聯發現兩個問題。本研究的不足在于未深入驗證文內數據本體的效果以及未對文內數據發現的技術進行實證研究,這是下一步研究工作的方向。
參考文獻
[1]Sandusky R J,Tenopir C,Casado M M.Figure and Table Retrieval from Scholarly Journal Articles:User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-13.
[2]Sandusky R J.Deep Indexing and Discovery of Tables and Figures[EB/OL].http://www.niso.org/news/events/2008/discovery08/agenda/sandusky.pdf,2019-05-02.
[3]Hearst M A,Divoli A,Guturu H,et al.Biotext Search Engine:Beyond Abstract Search[J].Bioinformatics,2007,23(16):2196-2197.
[4]曹樹金,李潔娜,王志紅.面向網絡信息資源聚合搜索的細粒度聚合單元元數據研究[J].中國圖書館學報,2017,43(4):74-92.
[5]Chalk S J.Scidata:A Data Model and Ontology for Semantic Representation of Scientific Data[J].Journal of Cheminformatics,2016,8(1):54.
[6]丁培.科學文獻與科學數據細粒度語義關聯研究[J].圖書館論壇,2016,36(7):24-33.
[7]李丹丹.基于科學工作流的研究數據組織關聯模型研究[D].北京:中國科學院大學,2013.
[8]Brahaj A.Semantic Representation of Provenance and Contextual Information in Scientific Research[D].Humboldt-Universitt zu Berlin,Philosophische Fakultüt I,2016.
[9]鮮國建.農業科技多維語義關聯數據構建研究[D].北京:中國農業科學院,2013.
[10]馬雨萌,郭進京,王昉.e-Science 環境下科學數據語義組織模型框架研究[J].現代圖書情報技術,2015,(Z1):48-57.
[11]Farcas C,Meisinger M,Stuebe D,et al.Ocean Observatories Initiative Scientific Data Model[C]//Oceans11 MTS/IEEE KONA.IEEE,2011:1-10.
[12]徐坤,蔚曉慧,畢強.基于數據本體的科學數據語義化組織研究[J].圖書情報工作,2015,59(17):120-126.
[13]徐瀟潔,何琳,陳雅玲,等.面向關聯數據的科學實驗數據語義描述模型研究——以水稻基因實驗為例[J].圖書館,2017,(1):61-66.
[14]常穎聰,何琳.科學實驗數據元數據模型構建研究——以植物學基因表達實驗為例[J].圖書情報工作,2015,59(13):117-125.
[15]Constantin A,Peroni S,Pettifer S,et al.The Document Components Ontology(Doco)[J].Semantic Web,2016,7(2):167-181.
[16]The Discourse Elements Ontology(DEO)[EB/OL].https://sparontologies.github.io/deo/current/deo.html,2019-05-02.
[17]王曉光,李夢琳,宋寧遠.科學論文功能單元本體設計與標引應用實驗[J].中國圖書館學報,2018,(4):73-88.
[18]Siegel N,Horvitz Z,Levin R,et al.Figureseer:Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision.Springer,Cham,2016:664-680.
[19]Rogatgi A.WebPlotDigitizer[EB/OL].https://automeris.io/WebPlotDigitizer/,2019-05-02.
[20]Jung D,Kim W,Song H,et al.Chartsense:Interactive Data Extraction from Chart Images[C]//Proceedings of the 2017 Chi Conference on Human Factors In Computing Systems.ACM,2017:6706-6717.
[21]Savva M,Kong N,Chhajta A,et al.Revision:Automated Classification,Analysis and Redesign of Chart Images[C]//Proceedings of the 24th Annual Acm Symposium on User Interface Software and Technology.ACM,2011:393-402.
[22]Cliche M,Rosenberg D,Madeka D,et al.Scatteract:Automated Extraction of Data from Scatter Plots[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer,Cham,2017:135-150.
[23]Kembhavi A,Salvato M,Kolve E,et al.A Diagram is Worth a Dozen Images[C]//European Conference on Computer Vision.Springer,Cham,2016:235-251.
[24]Lee P,Yang S T,West J D,et al.Phyloparser:A Hybrid Algorithm for Extracting Phylogenies from Dendrograms[C]//2017 14th Iapr International Conference on Document Analysis and Recognition(Icdar).IEEE,2017,(1):1087-1094.
[25]Takis J,Islam A Q M,Lange C,et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in Pdf[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM,2015:1-8.
[26]Cao H,Bowers S,Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2011:526-541.
[27]Ray Choudhury S,Giles C L.An Architecture for Information Extraction from Figures in Digital Libraries[C]//Proceedings of the 24th International Conference on World Wide Web.ACM,2015:667-672.
[28]唐皓瑾.一種面向PDF文件的表格數據抽取方法的研究與實現[D].北京:北京郵電大學,2014.
[29]Huang W,Zong S,Tan C L.Chart Image Classification Using Multiple-Instance Learning[C]//2007 Ieee Workshop on Applications of Computer Vision(Wacv07).IEEE,2007:27-27.
[30]Prasad V S N,Siddiquie B,Golbeck J,et al.Classifying Computer Generated Charts[C]//2007 International Workshop on Content-Based Multimedia Indexing.IEEE,2007:85-92.
[31]Tang B,Liu X,Lei J,et al.Deepchart:Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing,2016,124:156-161.
[32]Crestan E,Pantel P.Web-Scale Table Census and Classification[C]//Proceedings of the Fourth Acm International Conference on Web Search and Data Mining.ACM,2011:545-554.
[33]Fang J,Mitra P,Tang Z,et al.Table Header Detection and Classification[C]//Twenty-Sixth Aaai Conference on Artificial Intelligence,2012.
[34]Kim S,Liu Y.Functional-Based Table Category Identification in Digital Library[C]//2011 International Conference on Document Analysis and Recognition.IEEE,2011:1364-1368.
[35]蔣夢迪,程江華,陳明輝,等.視頻和圖像文本提取方法綜述[J].計算機科學,2017,(2):8-18.
[36]Ye Q,Doermann D.Text Detection and Recognition in Imagery:A Survey[J].Ieee Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.
[37]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//Proceedings of the 21st International Conference on Pattern Recognition(Icpr2012).IEEE,2012:1554-1557.
[38]Seth S,Nagy G.Segmenting Tables Via Indexing of Value Cells By Table Headers[C]//2013 12th International Conference on Document Analysis and Recognition.IEEE,2013:887-891.
[39]Berkley C,Bowers S,Jones M B,et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex,Intelligent and Software Intensive Systems.Fukuoka:IEEE,2009:1152-1159.
[40]Bischof S,Martin C,Polleres A,et al.Collecting,Integrating,Enriching and Republishing Open City Data As Linked Data[C]//International Conference on the Semantic Web-Iswc 2015.Berlin:Springer,2015:58-75.
(責任編輯:陳 媛)