999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SemFus的科學論文語義聚合模型探析

2018-09-18 10:03:12李夢琳
出版參考 2018年4期

李夢琳

摘 要:對科學論文資源實施有效的語義聚合,以提高信息檢索的精度和效率、滿足用戶信息需求、提升知識服務水平,是語義出版與知識組織研究關注的前沿問題。針對目前科學論文檢索難以滿足用戶需求的現狀,本文指出了科學論文語義聚合的必要性,并在SemFus語義聚合框架的基礎上,結合科學論文的內容結構特征,提出了涵蓋整個檢索流程的語義聚合模型。

關鍵詞:科學論文 語義聚合 SemFus 知識服務

在科學內容創作與出版時,對其中的科學知識對象與知識關系進行鑒別和語義標注,在不同出版物之間進行知識點的鏈接與整合,支持語義化出版,成為未來科學出版的重要發展方向。隨著網絡信息技術的發展,全球范圍的科學活動和科學交流日益頻繁,科學論文作為科學傳播的客體和交流的對象,數量規模呈現出飛速增長的態勢,并且催生了多種類型的增強型文本,以助讀者獲取補充數據、拓展閱讀、增強理解。然而,面對這些多源、異構、動態、富語義的海量論文資源,目前的資源檢索系統還是不能滿足用戶日益復雜的信息需求,存在準確率低、粗粒度、資源關聯度不夠和無法很好提供可視化檢索服務等缺點,致使檢索結果和利用效率不盡如人意,影響資源的共建共享。歸根結底,這是因為對于科學論文的檢索還沒有細化到“知識單元”的程度,計算機無法識別和理解論文深層次的語義內容,系統無法對不同數據庫和論文中的各類型知識資源構建關于概念、實體等的知識關聯網絡。

一、概念說明及相關研究

SemFus框架是一個基于JDL模型構建的語義聚合框架,包含資源預處理、資源優化、情景優化、威脅評估和過程優化五個關鍵環節,描述了用戶從輸入檢索命令到獲得查詢結果中間系統進行資源語義聚合的整個過程。同時,SemFus框架還引入了可以規范描述科學論文內容結構的本體和推理規則來克服JDL模型不能解決的資源語義異構問題。因此,本文基于SemFus框架,再結合科學論文特有的內容結構,嘗試提出一個科學論文語義聚合模型,旨在揭示科學論文從語義描述、語義標引、語義關聯和結果展示這一系列的語義聚合過程,挖掘資源間的內在規律和關聯,促進資源間的語義互操性,為用戶提供精準有效的知識服務。

(一)語義聚合內涵

“語義聚合”可譯為“Semantic Aggregation”,與之相近的概念有語義融合、語義集成、語義整合等。目前學術界對“語義聚合”的概念還缺乏一致的界定,不少研究把“Aggregation”譯成“融合”,把“集成”和“整合”翻譯為“Integration”,其實這些概念都具有“將分散的資源聚集、連接在一起”的含義,其內涵并無本質差別,在實際應用中也幾乎不會對其內涵加以區分。

“語義聚合”屬于數字信息資源整合研究范疇,涵蓋圖書情報、地理信息系統、化學工程、計算機等各領域。肖希明總結目前數字資源整合方式主要有數據整合、信息整合和知識整合。數據整合是對異構資源系統中異質異類的數據在邏輯或物理上進行有機集中,信息整合則是在前者基礎上對數據對象之間的關系進行有效組織和整合,知識整合則是對信息實體中的內在概念及概念之間的語義關系進行表征。此外,劉曉娟總結知識融合概念的發展經歷了“數據融合——信息融合——知識融合”的過程。由此可見,知識融合是數據融合、信息融合的高級階段。曹樹金將語義聚合模式歸為基于關系的聚合,旨在探索文本信息資源內容所包含的概念間或實體間的關系,從而通過語義關系網絡實現文本、數據、服務等多類型資源的聚合。由此可見,語義聚合屬于知識聚合層面,是從語義層面上來探討異構資源概念、實體、引用之間的關聯網絡。

(二)國內外語義聚合研究

目前語義聚合的相關研究主要集中于體現本體的重要性。一部分研究利用本體技術來進行資源的語義識別。Kokar等提供了本體的類描述和屬性描述,并用簡單實例對其規范化進行了闡述,旨在將OWL本體運用在Barwise的情境理論中,實現用機器可處理的語義來描述情境。另一部分研究是探討本體在異構信息源語義集成方面的應用。Gagnon提出一種基于本體的利用“局部—全局”本體映射的信息聚合方法來聚合異構數據資源。國內關于語義聚合的研究主要集中于館藏數字資源的語義集合。何超和張玉峰分別從本體和Web鏈接挖掘技術這兩個角度,從數據采集層、資源描述與挖掘層、語義聚合層、可視化展示層等方面構建了館藏資源語義聚合與可視化模型。

(三)科學論文結構研究

目前,已普遍運用于描述文獻結構的標簽集標準有科技期刊文檔標簽集、圖書交換標簽集、文本編碼協議等,主要是對文本的外在結構進行描述,用于內容的存儲、轉換、表示與分享。近年來,為了滿足知識挖掘的需求,國內外學界提出了多種論文內容結構模型和出版本體,如文獻構件本體、篇章元素本體等,旨在規范描述和表示論文內容的組成部分。由此可以反映出文獻語義建模從外部結構逐步向內容語義發展的趨勢。

二、基于JDL的SemFus框架

(一)SemFus框架的介紹及描述

JDL(Joint Directors of Laboratories)模型是美國軍方實驗室理事聯席會下設的C3技術委員會成立的信息融合專家組提出的典型信息融合模型,是比較通用且應用最為廣泛的功能模型。但隨著情報獲取及知識管理等新方法的提出,JDL模型已經難以滿足實際需求。于是H.A.Noughabi等人從語義聚合流程的角度出發,基于JDL模型提出了語義聚合框架SemFus。SemFus框架較嚴格地遵循了JDL模型的框架,并在其基礎上增加了對語義技術的使用。它首先對語義層級的定義進行了細化,然后引入了本體和語義推理規則進行語義表示和交互,以克服多種異構數據源中的語義問題。為簡化操作流程,本體和推理規則都采用了資源描述框架(Resource Description Framework,RDF)作為描述語言。如圖1所示為SemFus框架。

在Level 0資源預處理階段,主要是對不同信息資源進行評估和預測,如對資源進行標準化處理、處理數據集的缺失值、過濾低質量信息等。在Level 1資源優化階段,資源對象都用RDF進行描述,并通過RDFizer轉換成統一的描述格式存儲在RDF庫里。每種資源都通過本體的定義描述出來,并由統一資源標識符(URI)予以標識。在Level 2情景優化階段,基于實體的定義及其關系,在語義層面上提供關系的情境描述。這一階段用于情景分析的資源除了來源于RDF庫,還可以從眾多外部的關聯數據集中獲取。在資源優化和情景優化過程中,每個數據源都用獨立的本體加以描述;同時,為了使多源數據能夠相互比較及合并,在本地本體之上還引入共享本體,以保證各數據源之間的語義一致性。在Level 3威脅評估階段,使用語義推理機進行語義推理,原理是利用存儲在規則庫中的推理規則對前面流程處理過的信息進行推理,以明確可能存在的威脅、脆弱性、不足和機會。Level 4 過程優化階段則負責監控系統的執行過程,根據特定的目標配置資源,以支持任務目標的完成。

(二)SemFus框架能更好地解決語義關聯問題

JDL模型與SemFus框架都從系統視角來看待信息聚合,將兩者進行對比,可以發現SemFus的優勢在于它通過利用語義技術可以克服許多語義問題,使異構數據集成更高效。比如解決語義沖突問題、提供標準統一的描述規范、支持映射、語義推理、連接到關聯開放數據等,這些都是JDL模型所不具備的特征。如表1所示。

三、基于SemFus構建科學論文語義聚合模型

由前文可知,SemFus框架在JDL模型的基礎上豐富了語義聚合的過程,致力于實現各種資源間的語義互操作。但它屬于通用型框架,只能描述資源語義聚合的宏觀流程。若想專門針對科學論文資源進行語義聚合,還需對論文獨有的語義結構特征來進行單獨設計。

(一)科學論文的構成要素

李楠從外部特征和語義特征這兩方面對學術文獻出版模型進行了定義。外部特征主要指文獻題錄項(篇名、作者、機構、關鍵詞、來源出版物等);語義特征則是指內容元素,包括陳述型(觀點、假設、事實、結論等)和數據型元素(圖片、表格、公式、基礎數據、實驗結果等)。

1.外部結構特征難以滿足更精準的檢索和利用需求

目前廣泛運用于文本標注實踐的結構化標準主要集中于各類數字內容標簽集,故各學術期刊數據庫資源的檢索方式和相互關聯主要是通過文獻題錄項來實現的。從用戶層面來看,存在的問題是:檢索精度不高,所得的結果通常是一整篇完整的論文,用戶為了找到有價值的信息內容仍然需要消耗很多時間來進行選擇和閱讀,由此可見檢索效率和利用效率都比較低。而隨著大數據時代信息過載和信息孤島現象的出現,用戶對信息檢索和信息利用的要求越來越高,因此繼續深入研究科學論文的語義結構,對語義層面的知識單元進行細化和規范描述,實現機器可理解和異構資源間的語義聚合,是促進科學論文知識挖掘和知識發現的核心和關鍵。

2.識別和描述科學論文內容結構是實現語義聚合的基礎

由已有研究和SemFus模型可知,本體構建是語義聚合的關鍵,而科學論文內容本體是科學論文內容結構的規范化知識表示,因此研究科學論文的內容結構是構建科學論文語義聚合模型的基礎。

科學論文的內容結構頗為復雜,一般包括背景、動機、已有研究、研究方法、結果、討論等內容組件。已被廣泛認可的IMRD模型將論文主體部分劃分成了引言(Introduction)、方法(Method)、結果(Result)和討論(Discussion)四個組成部分。這一模型很普適,但劃分粒度很粗。隨后,越來越多針對這方面的研究,旨在基于相關理論和考慮不同學科特征,探尋粒度更細的科學論文內容結構。ABCDE模型認為文獻包含注釋(Annotation)、背景(Background)、貢獻(Contribution)、討論(Discussion)、實體(Entity)五個部分。SALT本體在ABCDE模型基礎上定義了更細粒度的功能單元,包括摘要(Abstract)、動機(Motivation)、背景(Background)、討論(Discussion)、結果(Conclusion)等。此外,修辭結構理論本體OntoReST基于修辭結構理論,定義了9種修辭關系,包括背景、對比、解釋、證據、判斷、動機、序列等。

在科學論文更細粒度的知識單元劃分上,Zhang Lei基于IMRD模型,借助Swales體裁模型的語步分析以及Sperber和Wilson的關聯理論,提出了功能單元(Functional Unit)的概念,并識別和歸納出了科學論文中的41個功能單元。比如引言部分的“研究緣起”“研究意義”“提出假設”等,方法部分的“論證方法”“概述實驗程序”“陳述變量”等,結果部分的“陳述結果”“重述假設”等,討論部分的 “解釋結果”“表明結果局限性”“指出未來研究方向”等。功能單元的系列實證研究還得出,針對一項特定的信息使用任務,功能單元會與同一或不同組成部分的其他功能單元相關聯,功能單元可以在不同程度上支持、促進閱讀過程的每個階段(導航、精讀、理解、信息使用)。通過目的和功能來組織信息,利用好功能單元自身及其與信息使用任務之間的關聯,可以有效地降低文獻檢索時間、提高文獻檢索準確度、提高閱讀效果和效率。

因此,深入科學論文的內容結構進行知識單元的語義化描述和處理,能為數字文獻資源提供新的知識組織方法,促使知識的處理方式從資源層面上升到認知層面、從單純的語法處理轉變為復雜的語義處理,順應語義網和語義出版的發展趨勢。

3.多模態數據型內容元素有助于實現語義增強

隨著語義網技術和出版形態的發展,論文形式愈加豐富,逐漸出現了圖表摘要、結構化摘要、視頻摘要、可交互圖表、可交互式地圖、實驗數據集等具有內容增強作用的新型文獻模塊,使得已有研究得出的本體和模型略顯捉襟見肘。如Elsevier于2009年實施的Article of the Future項目,采用三欄式的用戶界面設計,通過集成的3D數據可視化工具、提供與文獻相關的實驗數據集等多種方式實現了外部特定領域數據庫與科學文獻的互聯。再如JoVE出版社于2006年創辦的JoVE實驗視頻期刊,是全球首例實驗視頻期刊,致力于以視頻方式展現醫學、化學、物理學等學科領域的研究過程與成果。這些新型的文獻模塊都體現了文獻語義增強的趨勢,同時突出體現了讀者對于檢索精度和效度日益增長的需求。因此,在研究科學論文語義聚合的過程中,不僅要繼承傳統科學論文的內容結構,還要兼顧到這些新型的內容元素,以實現多模態數據型知識單元的關聯和融合。

綜上分析可得,科學論文主要由文獻題錄項、內容結構和多模態數據型內容元素三部分組成。要對科學論文資源進行語義聚合,就需要根據這三方面不同的元素特征來構建或引用相應的本體進行規范化描述,以實現語義一致性和共享性。

(二)基于SemFus的科學論文語義聚合模型

SemFus框架是從聚合流程角度出發構建的一個通用型語義框架。從用戶輸入檢索命令開始,數據資源進行篩選過濾等預處理,通過RDFizer進行一致性轉換,處理各資源間的關系并實現關系的聚合,最后再通過SWOT分析來決定提供給用戶的結果。本文擬參考SemFus的基本流程,嘗試結合科學論文語義結構特征來構建科學論文語義聚合模型,如圖2所示。

1.科學論文資源采集

首先在預處理階段,集成多種智能化、自動化的采集方法和技術對科學論文資源進行大規模采集,能為其語義聚合和檢索結果的可視化呈現提供數據基礎??茖W論文資源主要包括期刊論文、學位論文、會議論文及一些行業知識庫、特色資源庫里的文獻等。

2.科學論文資源的描述、標引與轉換

目標優化過程主要是對科學論文資源進行統一描述和轉換。具體來說,是將來源于不同數據庫、不同網站的分布式異質異構論文資源按照統一的標準規范進行原始資源的描述和組織,抽取、加工、處理和創建標準的元數據,通過規范統一的元數據管理和適當的語言描述科學論文資源。在描述過程中,需要通過向非結構化和結構化數據源添加機器能夠自動理解的結構和語義標注信息來表達科學論文內部的邏輯結構和深層語義內涵,實現異構數據源的統一表達和組織。以上目標可以通過RDF(資源描述框架)和本體語言等技術得以實現。

3.科學論文資源語義聚合

在情景優化階段,主要實現的是科學論文知識單元之間關系的聚合。這是整個模型的核心模塊,其主要功能是利用RDF或本體,增強論文資源的語義表達能力。前文總結的科學論文的文獻題錄項、科學論文內容結構和多模態數據型內容元素三部分內容在經過資源描述、標引和轉換之后,雖然各自內部已被統一描述,但相互之間卻還是因資源結構、性質不一樣而不能很好地互聯互通。利用本體技術建立映射規則,可以很好地解決局部本體與局部本體之間、局部本體與全局本體之間存在的概念、關系、實例等各種語義沖突問題,將異質異構數據源聚合到統一的語義視圖中,實現語義層面的資源聚合與共建共享。

4.論文資源聚合結果可視化展示

最后的威脅評估階段主要是系統依靠語義推理機制來評估由前面階段得到的聚合結果的優劣、機會和風險,最終利用關聯開放數據(LOD)在人機交互界面上發布系統得到的最合理結果。可視化展示模塊的主要功能和作用是利用現有的可視化模型和工具將非空間數據的聚合結果轉換為視覺形式進行輸出,展現海量論文資源之間的錯綜復雜關系和深層次內涵,從而幫助用戶加深對聚合結果的認知和理解。在這里,關聯數據的語義化和關聯化的鏈接機制,能夠為語義出版提供一種更為靈活的數據發布及共享方式,實現外部知識庫鏈接、文獻知識單元語義聚合等更高層次的語義出版需求。

四、思考與總結

語義聚合是關系的聚合,關聯是知識組織的核心,實現關聯是為了更好地組織信息和利用信息,促進知識發現??茖W論文作為科學交流活動重要的知識載體,其價值體現于文獻中蘊含的豐富知識單元。細化科學論文的知識單元和語義結構,通過聚合流程進行轉換和關聯,可以有效地實現科學論文資源自動化、智能化的深度聚合與動態展示,提高論文資源的利用水平和用戶檢索效率。因此,本文基于一個通用型語義聚合框架SemFus,同時結合科學論文的語義特征,提出了科學論文語義聚合模型。

但是就目前的實際來看,針對科學論文資源的本體構建工作耗時耗力,尚無通用的、完善的本體可以使用,導致資源難以實現統一的描述和處理。另一方面,關于科學論文論述過程中的邏輯組件特征都是通過人工進行識別,暫時還不能解決內容元素自動分類和標引的問題,而自動化和智能化是在機器上實現語義聚合的先決條件。這都是未來要繼續研究和致力于實現的目標。

參考文獻:

1.肖希明,唐義.國外多領域數字資源整合研究進展[J].中國圖書館學報, 2013(4):26-35.

2.劉曉娟,李廣建,化柏林.知識融合:概念辨析與界說[J].圖書情報工作, 2016(13).

3.曹樹金,馬翠嫦.信息聚合概念的構成與聚合模式研究[J].中國圖書館學報, 2016(3):4-19.

4.何超,張玉峰.基于Web鏈接挖掘的館藏資源語義聚合與可視化展示研究[J]. 情報科學,2015(2):115-120.

5.李楠,孫濟慶,馬卓.面向學術文獻的語義出版技術研究[J].出版科學,2015(6):85-92.

6.Behkamal, Behshid. SemFus: Semantic fusion framework based on JDL[J]. Journal of Convergence, 2012, 152.

7.Zhang L, Kopak R, Freund L, et al. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology, 2010, 47(1):1-10.

8.Kokar M M, Matheusb C J, Baclawskic K. Ontology-based situation awareness[J]. Information Fusion, 2009, 10(1):83-98.

9.Gagnon M. Ontology-based integration of data sources[C]// International Conference on Information Fusion. 2007:1-8.

(作者單位系武漢大學信息管理學院)

主站蜘蛛池模板: 欧美午夜视频| 亚洲精品免费网站| 97人妻精品专区久久久久| 国产在线精品网址你懂的| 国产麻豆91网在线看| 国产一区二区网站| 亚洲三级网站| 手机在线看片不卡中文字幕| 91久久国产热精品免费| 欧美日韩国产综合视频在线观看| 国产凹凸视频在线观看| 素人激情视频福利| 国产乱子伦精品视频| 午夜福利亚洲精品| 久久免费视频播放| 中文字幕永久视频| av大片在线无码免费| 免费国产高清精品一区在线| 国产美女久久久久不卡| 亚洲中文久久精品无玛| 亚洲精品视频在线观看视频| 日韩a级片视频| 伊人查蕉在线观看国产精品| 狠狠做深爱婷婷久久一区| 国产成人精品免费视频大全五级| 欧美激情第一区| 国产在线精品人成导航| 亚洲中文字幕日产无码2021| 亚洲码一区二区三区| 91在线免费公开视频| 久久久久久久久18禁秘| 国产Av无码精品色午夜| 2019年国产精品自拍不卡| 国产亚洲精品97AA片在线播放| 久久网综合| 国产成人亚洲毛片| 成人午夜久久| 国产va在线观看免费| 国产成a人片在线播放| 野花国产精品入口| 亚洲永久免费网站| 成人小视频网| 99久久99视频| 91口爆吞精国产对白第三集| 国产精品免费电影| 四虎影视库国产精品一区| 国产精品视频a| 蜜桃视频一区二区| 中文字幕无码av专区久久| 久久国产黑丝袜视频| 亚洲中文字幕23页在线| 日韩国产亚洲一区二区在线观看| 98超碰在线观看| 午夜精品久久久久久久无码软件| 国产资源免费观看| 毛片手机在线看| 国产精鲁鲁网在线视频| 国产a v无码专区亚洲av| a毛片在线播放| 日本色综合网| 国产成人无码AV在线播放动漫| 香蕉久久国产超碰青草| 国产福利观看| 99在线国产| 中文字幕不卡免费高清视频| av午夜福利一片免费看| 亚洲香蕉久久| 中文字幕乱码中文乱码51精品| 亚洲三级视频在线观看| 波多野结衣的av一区二区三区| 毛片三级在线观看| 亚洲无码高清一区| 亚洲制服丝袜第一页| 国产制服丝袜无码视频| 超清无码一区二区三区| 日韩高清在线观看不卡一区二区| 久久黄色小视频| 国产麻豆精品久久一二三| 99re经典视频在线| 国产尤物视频在线| 在线精品欧美日韩| 免费毛片视频|