


摘 要:對網頁進行有效的標注,有助于搜索引擎、瀏覽器等應用程序從中抽取結構化的數據。本文首先介紹Schema.org詞表的基本情況,然后討論將UMLS語義網絡轉換為Schema.org詞表擴展成分的5個關鍵步驟,最后通過實例探討基于Schema.org詞表的醫學類網頁語義標注方法。
關鍵詞:網頁標注;UMLS;詞表;微數據
中圖分類號:G202 文獻標識碼:A 文章編號:1003-5168(2018)01-0015-03
Semantic Annotations of Medical Web Pages Based
on Schema.Org Vocabulary
GUO Weijia
(College of Information Management, Zhengzhou University,Zhengzhou Henan 450001)
Abstract: Effective annotations of web pages are helpful for search engines and browsers to extract structured data. Firstly, this paper introduced the basic situation of the Schema.org vocabulary. Then it discussed five key steps converting the UMLS Semantic Network into a Schema.org vocabulary extension. Finally, it illustrated a semantic annotation method of medical web pages based on Schema.org vocabulary through an example.
Keywords: annotations of web pages;UMLS;vocabularies;microdata
1 研究背景
網頁中的HTML標簽主要用于告訴瀏覽器如何顯示在標簽中包含的信息,例如,
Schema.org是一個協作式團體,由Google、Microsoft和Yahoo等公司聯合發起,其使命是創建、維護一個可用來描述互聯網上結構化數據的詞表 。目前,已有1 000多萬個網站使用Schema.org詞表來標注網頁,Google、Microsoft、Yandex和Yahoo等公司的搜索引擎也已支持Schema.org詞表。現有研究結果表明,采用Schema.org詞表標注的網頁比未采用的網頁更易被搜索引擎檢出[1]。
本文將利用Schema.org提供的詞表擴展機制,把UMLS(Unified Medical Language System)的語義網絡擴展到Schema.org詞表中,并在此基礎上實現醫學類網頁的語義標注。
2 Schema.org詞表基本情況
Schema.org詞表由642個類、992個屬性和219個枚舉值組成,其中所有的類按樹型結構組織起來形成一個類目體系,樹根為類Thing。每個類下均定義了0至多個屬性,如類Map下定義了一個屬性Map Type,類Dance Event下沒有定義屬性。Schema.org詞表只有一個一級類目(即根類Thing),其下包含9個二級類目,如表1所示。
3 基于UMLS語義網絡的Schema.org詞表擴展
Schema.org詞表是一個基本的核心詞表,能滿足大多數普通網頁的語義標注用詞需求。然而,用戶在進行網頁標注時,可能會需要更專業、更精細的詞匯??梢岳肧chema.org的擴展機制,將UMLS的語義網絡擴展到Schema.org中,以便更好地描述醫學類網頁的主題內容。
UMLS是美國國家醫學圖書館開發的一套醫學語言系統,包括超級敘詞表、語義網絡、專家詞典等幾個部分。超級敘詞表中的術語來自100多個詞匯表、代碼集和敘詞表。語義網絡則是為建立概念術語間的相互關系而設計的[2]。專家詞典收錄常見的英語單詞和生物醫學術語。
從本質上看,UMLS的語義網絡是一個頂層本體,由語義類型和語義關系兩部分組成。其中,語義類型是結點,語義關系是連接結點的邊。語義類型共有133個,主要用于對UMLS超級敘詞表中的所有概念進行分類;語義關系共有54個,主要用于描述不同語義類型之間的關系。
在表達醫學領域知識體系方面,UMLS語義網絡比Schema.org詞表的醫學實體類MedicalEntity更為全面、精細,將前者擴展到Schema.org核心詞表中,有助于更好地標注醫學類網頁。
如表2所示,UMLS的語義類型分為兩類:Entity和Event。前者描述各種物理對象和概念實體,后者描述各種物理對象和概念實體的活動、現象和過程。UMLS的語義關系也分為兩類:isa和associated_with。其中后者又進一步分為5種類型:物理關系(physically_related _to)、空間關系(spatially_related_to)、功能關系(functionally_related_to)、時間關系(temporally_related_to)和概念關系(conceptually_related_to)。
將UMLS語義網絡擴展到Schema.org詞表中,需要通過以下步驟實現。
①對語義類型的名稱進行處理。每個語義類型的名稱都是以詞語的方式存在的,具體分為兩種情況即單個詞語、詞組,其中詞組的各個單詞之間以空格分隔。應刪除詞組中的所有空格和逗號,同時每個單詞的首字母均大寫。例如,語義類型Therapeutic or Preventive Procedure,經過上述處理后變為:TherapeuticOrPreventiveProcedure。
②對語義關系的名稱進行處理。盡管UMLS的語義關系名稱中已經用下劃線代替了空格,但仍然不符合Schema.org對屬性名稱的約定。應刪除下劃線,除第一個單詞首字母小寫外,其他單詞的首字母均大寫。例如,語義關系physically_related_to,經過上述處理后變為physicallyRelatedTo。
③確定UMLS語義網絡與Schema.org核心詞表的關系。將UMLS語義網絡作為Schema.org詞表的擴展,定位為Schema.org詞表一級類目Thing的子類。對于UMLS語義網絡中的語義類型X來說,其對應的類繼承樹為Thing.X。例如,表2中的語義類型Bird的類繼承樹為Thing.PhysicalObject.Organism.Eukaryote.Animal.VertebrateBird。
④為UMLS語義網絡聲明一個名字空間,并為每個語義類型和語義關系聲明一個HTTP URI。按照Schema.org網站的要求,將名字空間聲明為http://umls.schema.org,每個語義類型和語義關系的HTTP URI格式均為:http://umls.schema.org/?。例如,語義類型Bird的HTTP URI為http://umls.schema.org/Bird。
⑤將上述經過處理的語義類型和語義關系用owl語言進行描述,形成一個RDF文檔并提交給Schema.org網站。詞表擴展獲得批準后,http://umls.schema.org即可供用戶使用。
經過上述步驟處理的UMLS語義網絡轉變為Schema.org詞表的擴展成分,其中包含了大量的醫學類術語,可以用于標注醫學類網頁。
4 基于Schema.org詞表的醫學類網頁標注方法
用擴展后的Schema.org詞表對醫學類網頁進行語義標注,可采用Microdata、RDFa和JSON-LD等多種格式。本文采用Microdata(以下稱為“微數據”)格式進行標注。
4.1 微數據格式
微數據格式是一種HTML規范,目的是在網頁內容中嵌入元數據,以便搜索引擎、Web爬行器和瀏覽器從中抽取結構化的數據并在此基礎上理解網頁內容的語義。微數據格式提供一組標簽,用于描述網頁中的項(item)、名稱-值對(name-value pairs),如表3所示。
4.2 網頁標注
對于給定的醫學類網頁,可以利用擴展后的Schema.org詞表進行標注。本文以某網頁中的如下文本片段為例來說明具體的標注方法。
Tu Youyou (Chinese: 屠呦呦; born 30 December 1930) is a Chinese pharmaceutical chemist and educator. She is best known for discovering artemisinin (also known as qinghaosu) , used to treat malaria, which saved millions of lives。
上述網頁文本內容涉及3個對象:Tu Youyou(屠呦呦)、qinghaosu(青蒿素)、malaria(虐疾)。標注時,需要根據對象的性質從擴展后的Schema.org詞表中選擇合適的類型,同時還要選擇合適的屬性。標注結果如下:
Tu Youyou (Chinese:屠呦呦;)
is a Chinese pharmaceutical chemist and educator.
She is best known for discovering
artemisinin (also known asqinghaosu), used to treatmalaria, which saved millions of lives.
在上述標注結果中,屠呦呦的類型是人,選擇Schema.org詞表中的類Person作為其類型,并選擇該類的3個屬性name、additionalName、birthDate來標明屠呦呦的姓名、英文名稱和出生日期。青蒿素是藥物,選擇擴展詞表中的類PharmacologicSubstance作為其類型,并選擇該類的3個屬性name、additionalName、treats來標明青蒿素的名稱、附加名稱和治療的疾病,其中屬性treats是該類自身的屬性,屬性name和additionalName繼承自http://schema.org/Thing。瘧疾是疾病,選擇擴展詞表中的類DiseaseOrSyndrome作為其類型,并選擇該類的屬性name來標明瘧疾的名稱,該屬性繼承自http://schema.org/Thing。
搜索引擎、Web爬行器和瀏覽器可以很容易地從上述標注結果中提取以下結構化數據:
DiseaseOrSyndrome
name: malaria
PharmacologicSubstance
name: artemisinin
additionalName: qinghaosu
treats: malaria
Person
additionalName: Tu Youyou
name: 屠呦呦
birthDate: 1930-12-30
上述結構化數據中的類和屬性都來自擴展后的Schema.org詞表,且實際上都帶有前綴http://schema.org或http://umls.schema.org,因此上述標注實質上是一種語義標注。
5 結語
對網頁進行有效的標注,有助于搜索引擎、瀏覽器和Web爬行器從中抽取結構化的數據。Google和Microsoft等公司聯合推出了可用來標注網頁的Schema.org詞表,并允許外界對其詞表進行擴展。UMLS的語義網絡是一個醫學領域頂層本體,可將其中的語義類型、語義關系轉換為符合Schema.org要求的類和屬性并擴展到Schema.org詞表中。借助于微數據、RDFa、JSON-LD等格式和擴展后的Schema.org詞表,可實現醫學類網頁的語義標注。
參考文獻:
[1]賈君枝,王醒.基于微數據的語義標注應用研究[J].情報理論與實踐,2016(2):54-58.
[2]方平.試論一體化醫學語言系統(UMLS)超級敘詞表的特點[J].圖書情報工作,1998(10):26-29,41.