999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Schema.org詞表的醫學類網頁語義標注

2018-04-29 00:00:00郭維嘉
河南科技 2018年1期

摘 要:對網頁進行有效的標注,有助于搜索引擎、瀏覽器等應用程序從中抽取結構化的數據。本文首先介紹Schema.org詞表的基本情況,然后討論將UMLS語義網絡轉換為Schema.org詞表擴展成分的5個關鍵步驟,最后通過實例探討基于Schema.org詞表的醫學類網頁語義標注方法。

關鍵詞:網頁標注;UMLS;詞表;微數據

中圖分類號:G202 文獻標識碼:A 文章編號:1003-5168(2018)01-0015-03

Semantic Annotations of Medical Web Pages Based

on Schema.Org Vocabulary

GUO Weijia

(College of Information Management, Zhengzhou University,Zhengzhou Henan 450001)

Abstract: Effective annotations of web pages are helpful for search engines and browsers to extract structured data. Firstly, this paper introduced the basic situation of the Schema.org vocabulary. Then it discussed five key steps converting the UMLS Semantic Network into a Schema.org vocabulary extension. Finally, it illustrated a semantic annotation method of medical web pages based on Schema.org vocabulary through an example.

Keywords: annotations of web pages;UMLS;vocabularies;microdata

1 研究背景

網頁中的HTML標簽主要用于告訴瀏覽器如何顯示在標簽中包含的信息,例如,

Avatar

告訴瀏覽器顯示的文本字符串“Avatar”在標題1格式。然而,標簽

并沒有指明“Avatar”的確切含義,該詞可能是指風靡全球的3D電影《阿凡達》,也可能泛指神話人物。因此,有必要采用某種通用的詞表(如Schema.org詞表)對這種多義詞進行標注,以便向用戶明確該詞的確切含義。

Schema.org是一個協作式團體,由Google、Microsoft和Yahoo等公司聯合發起,其使命是創建、維護一個可用來描述互聯網上結構化數據的詞表 。目前,已有1 000多萬個網站使用Schema.org詞表來標注網頁,Google、Microsoft、Yandex和Yahoo等公司的搜索引擎也已支持Schema.org詞表。現有研究結果表明,采用Schema.org詞表標注的網頁比未采用的網頁更易被搜索引擎檢出[1]。

本文將利用Schema.org提供的詞表擴展機制,把UMLS(Unified Medical Language System)的語義網絡擴展到Schema.org詞表中,并在此基礎上實現醫學類網頁的語義標注。

2 Schema.org詞表基本情況

Schema.org詞表由642個類、992個屬性和219個枚舉值組成,其中所有的類按樹型結構組織起來形成一個類目體系,樹根為類Thing。每個類下均定義了0至多個屬性,如類Map下定義了一個屬性Map Type,類Dance Event下沒有定義屬性。Schema.org詞表只有一個一級類目(即根類Thing),其下包含9個二級類目,如表1所示。

3 基于UMLS語義網絡的Schema.org詞表擴展

Schema.org詞表是一個基本的核心詞表,能滿足大多數普通網頁的語義標注用詞需求。然而,用戶在進行網頁標注時,可能會需要更專業、更精細的詞匯??梢岳肧chema.org的擴展機制,將UMLS的語義網絡擴展到Schema.org中,以便更好地描述醫學類網頁的主題內容。

UMLS是美國國家醫學圖書館開發的一套醫學語言系統,包括超級敘詞表、語義網絡、專家詞典等幾個部分。超級敘詞表中的術語來自100多個詞匯表、代碼集和敘詞表。語義網絡則是為建立概念術語間的相互關系而設計的[2]。專家詞典收錄常見的英語單詞和生物醫學術語。

從本質上看,UMLS的語義網絡是一個頂層本體,由語義類型和語義關系兩部分組成。其中,語義類型是結點,語義關系是連接結點的邊。語義類型共有133個,主要用于對UMLS超級敘詞表中的所有概念進行分類;語義關系共有54個,主要用于描述不同語義類型之間的關系。

在表達醫學領域知識體系方面,UMLS語義網絡比Schema.org詞表的醫學實體類MedicalEntity更為全面、精細,將前者擴展到Schema.org核心詞表中,有助于更好地標注醫學類網頁。

如表2所示,UMLS的語義類型分為兩類:Entity和Event。前者描述各種物理對象和概念實體,后者描述各種物理對象和概念實體的活動、現象和過程。UMLS的語義關系也分為兩類:isa和associated_with。其中后者又進一步分為5種類型:物理關系(physically_related _to)、空間關系(spatially_related_to)、功能關系(functionally_related_to)、時間關系(temporally_related_to)和概念關系(conceptually_related_to)。

將UMLS語義網絡擴展到Schema.org詞表中,需要通過以下步驟實現。

①對語義類型的名稱進行處理。每個語義類型的名稱都是以詞語的方式存在的,具體分為兩種情況即單個詞語、詞組,其中詞組的各個單詞之間以空格分隔。應刪除詞組中的所有空格和逗號,同時每個單詞的首字母均大寫。例如,語義類型Therapeutic or Preventive Procedure,經過上述處理后變為:TherapeuticOrPreventiveProcedure。

②對語義關系的名稱進行處理。盡管UMLS的語義關系名稱中已經用下劃線代替了空格,但仍然不符合Schema.org對屬性名稱的約定。應刪除下劃線,除第一個單詞首字母小寫外,其他單詞的首字母均大寫。例如,語義關系physically_related_to,經過上述處理后變為physicallyRelatedTo。

③確定UMLS語義網絡與Schema.org核心詞表的關系。將UMLS語義網絡作為Schema.org詞表的擴展,定位為Schema.org詞表一級類目Thing的子類。對于UMLS語義網絡中的語義類型X來說,其對應的類繼承樹為Thing.X。例如,表2中的語義類型Bird的類繼承樹為Thing.PhysicalObject.Organism.Eukaryote.Animal.VertebrateBird。

④為UMLS語義網絡聲明一個名字空間,并為每個語義類型和語義關系聲明一個HTTP URI。按照Schema.org網站的要求,將名字空間聲明為http://umls.schema.org,每個語義類型和語義關系的HTTP URI格式均為:http://umls.schema.org/?。例如,語義類型Bird的HTTP URI為http://umls.schema.org/Bird。

⑤將上述經過處理的語義類型和語義關系用owl語言進行描述,形成一個RDF文檔并提交給Schema.org網站。詞表擴展獲得批準后,http://umls.schema.org即可供用戶使用。

經過上述步驟處理的UMLS語義網絡轉變為Schema.org詞表的擴展成分,其中包含了大量的醫學類術語,可以用于標注醫學類網頁。

4 基于Schema.org詞表的醫學類網頁標注方法

用擴展后的Schema.org詞表對醫學類網頁進行語義標注,可采用Microdata、RDFa和JSON-LD等多種格式。本文采用Microdata(以下稱為“微數據”)格式進行標注。

4.1 微數據格式

微數據格式是一種HTML規范,目的是在網頁內容中嵌入元數據,以便搜索引擎、Web爬行器和瀏覽器從中抽取結構化的數據并在此基礎上理解網頁內容的語義。微數據格式提供一組標簽,用于描述網頁中的項(item)、名稱-值對(name-value pairs),如表3所示。

4.2 網頁標注

對于給定的醫學類網頁,可以利用擴展后的Schema.org詞表進行標注。本文以某網頁中的如下文本片段為例來說明具體的標注方法。

Tu Youyou (Chinese: 屠呦呦; born 30 December 1930) is a Chinese pharmaceutical chemist and educator. She is best known for discovering artemisinin (also known as qinghaosu) , used to treat malaria, which saved millions of lives。

上述網頁文本內容涉及3個對象:Tu Youyou(屠呦呦)、qinghaosu(青蒿素)、malaria(虐疾)。標注時,需要根據對象的性質從擴展后的Schema.org詞表中選擇合適的類型,同時還要選擇合適的屬性。標注結果如下:

Tu Youyou (Chinese:屠呦呦;

is a Chinese pharmaceutical chemist and educator.

She is best known for discovering

artemisinin (also known asqinghaosu), used to treatmalaria

, which saved millions of lives.

在上述標注結果中,屠呦呦的類型是人,選擇Schema.org詞表中的類Person作為其類型,并選擇該類的3個屬性name、additionalName、birthDate來標明屠呦呦的姓名、英文名稱和出生日期。青蒿素是藥物,選擇擴展詞表中的類PharmacologicSubstance作為其類型,并選擇該類的3個屬性name、additionalName、treats來標明青蒿素的名稱、附加名稱和治療的疾病,其中屬性treats是該類自身的屬性,屬性name和additionalName繼承自http://schema.org/Thing。瘧疾是疾病,選擇擴展詞表中的類DiseaseOrSyndrome作為其類型,并選擇該類的屬性name來標明瘧疾的名稱,該屬性繼承自http://schema.org/Thing。

搜索引擎、Web爬行器和瀏覽器可以很容易地從上述標注結果中提取以下結構化數據:

DiseaseOrSyndrome

name: malaria

PharmacologicSubstance

name: artemisinin

additionalName: qinghaosu

treats: malaria

Person

additionalName: Tu Youyou

name: 屠呦呦

birthDate: 1930-12-30

上述結構化數據中的類和屬性都來自擴展后的Schema.org詞表,且實際上都帶有前綴http://schema.org或http://umls.schema.org,因此上述標注實質上是一種語義標注。

5 結語

對網頁進行有效的標注,有助于搜索引擎、瀏覽器和Web爬行器從中抽取結構化的數據。Google和Microsoft等公司聯合推出了可用來標注網頁的Schema.org詞表,并允許外界對其詞表進行擴展。UMLS的語義網絡是一個醫學領域頂層本體,可將其中的語義類型、語義關系轉換為符合Schema.org要求的類和屬性并擴展到Schema.org詞表中。借助于微數據、RDFa、JSON-LD等格式和擴展后的Schema.org詞表,可實現醫學類網頁的語義標注。

參考文獻:

[1]賈君枝,王醒.基于微數據的語義標注應用研究[J].情報理論與實踐,2016(2):54-58.

[2]方平.試論一體化醫學語言系統(UMLS)超級敘詞表的特點[J].圖書情報工作,1998(10):26-29,41.

主站蜘蛛池模板: 亚洲伊人电影| 婷婷六月激情综合一区| 美女一级毛片无遮挡内谢| 青青热久免费精品视频6| 在线观看无码av五月花| 免费视频在线2021入口| 色成人综合| 红杏AV在线无码| 日本成人精品视频| 日韩AV手机在线观看蜜芽| 秋霞国产在线| 国产精品爽爽va在线无码观看 | 99无码中文字幕视频| av天堂最新版在线| 精品一区二区三区波多野结衣 | 欧美成人午夜影院| 久久综合色天堂av| 伊人五月丁香综合AⅤ| 亚洲啪啪网| 国产偷国产偷在线高清| 亚洲午夜国产精品无卡| 啪啪永久免费av| 精品无码人妻一区二区| 国产成人精品一区二区不卡| 丁香婷婷激情综合激情| 粗大猛烈进出高潮视频无码| 国产日韩精品欧美一区喷| 亚洲a免费| 亚洲国产综合自在线另类| 成人无码区免费视频网站蜜臀| 波多野结衣第一页| 五月天在线网站| 成年网址网站在线观看| 国产美女丝袜高潮| 色欲综合久久中文字幕网| 日韩无码真实干出血视频| 国产真实乱人视频| 亚洲专区一区二区在线观看| 精品人妻无码中字系列| 亚洲IV视频免费在线光看| 欧美精品xx| 国产主播喷水| 亚洲成人一区二区| 免费在线色| 久久精品无码中文字幕| 亚洲精品大秀视频| 久久女人网| aⅴ免费在线观看| 国产精品久久久免费视频| 亚卅精品无码久久毛片乌克兰| 97国产在线观看| 久久精品电影| 亚洲精品国产乱码不卡| 国产成人综合欧美精品久久| 制服丝袜国产精品| 国产成人精品一区二区秒拍1o| 国产成人精品日本亚洲77美色| 欧美日韩久久综合| 国产超碰在线观看| 国产在线一区二区视频| 狠狠操夜夜爽| 日韩欧美国产成人| 日本一区二区三区精品AⅤ| 久久午夜夜伦鲁鲁片无码免费| 青青热久免费精品视频6| 国产精品美女自慰喷水| 婷婷六月激情综合一区| 国产精品手机在线播放| 日韩欧美一区在线观看| 日韩精品亚洲精品第一页| 综合色88| 伊在人亞洲香蕉精品區| 天天色天天操综合网| 日韩区欧美国产区在线观看| 二级特黄绝大片免费视频大片| 少妇人妻无码首页| 91在线精品麻豆欧美在线| 日韩欧美国产精品| 午夜精品影院| 欧美在线三级| 青青操国产视频| 国产H片无码不卡在线视频 |